Вы находитесь на странице: 1из 36

МИНИСТЕРСТВО ОБРАЗОВАНИЯ РЕСПУБЛИКИ БЕЛАРУСЬ

БЕЛОРУССКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ


МЕХАНИКО-МАТЕМАТИЧЕСКИЙ ФАКУЛЬТЕТ

Кафедра функционального анализа

Соколов
Владислав Александрович

СТАТИСТИЧЕСКИЕ КРИТЕРИИ ХИ-КВАДРАТ

Дипломная работа

Научный руководитель:
доцент С. П. Сташуленок

Допущена к защите

«___» ____________ 2017 г.

Зав. кафедрой функционального анализа

доктор физ.-мат. наук, профессор А. Б. Антоневич

Минск, 2017
ОГЛАВЛЕНИЕ

РЕФЕРАТ .................................................................................................................................................................... 3

РЭФЕРАТ .................................................................................................................................................................... 4

ABSTRACT .................................................................................................................................................................. 5

ВВЕДЕНИЕ ................................................................................................................................................................. 6

ГЛАВА 1 НЕОБХОДИМЫЕ СВЕДЕНИЯ ИЗ ТЕОРИИ ПРОВЕРКИ СТАТИСТИЧЕСКИХ ГИПОТЕЗ 7

1.1 ОСНОВНЫЕ ПОНЯТИЯ И ОБЩИЕ ПРИНЦИПЫ ТЕОРИИ ПРОВЕРКИ СТАТИСТИЧЕСКИХ ГИПОТЕЗ ..................... 7
1.1.1 Статистические гипотезы............................................................................................................. 7
1.1.2 Основные характеристики критериев согласия ........................................................................... 8
1.1.3 Вспомогательные утверждения ................................................................................................... 12
1.2 КРИТЕРИЙ СОГЛАСИЯ ХИ-КВАДРАТ К. ПИРСОНА ....................................................................................... 13
1.3 КРИТЕРИЙ СОГЛАСИЯ ХИ-КВАДРАТ ДЛЯ СЛОЖНОЙ ГИПОТЕЗЫ................................................................... 17
1.4 КРИТЕРИЙ ОДНОРОДНОСТИ ХИ-КВАДРАТ .................................................................................................... 21
1.5 КРИТЕРИЙ НЕЗАВИСИМОСТИ ХИ-КВАДРАТ ................................................................................................. 24

ГЛАВА 2 ПРОВЕРКА ГИПОТЕЗ ОДНОРОДНОСТИ И НЕЗАВИСИМОСТИ КРИТЕРИЯМИ ХИ-


КВАДРАТ .............................................................................................................................................................................. 27

2.1 ПОСТАНОВКА ЗАДАЧИ ................................................................................................................................. 27


2.2 ГИПОТЕЗА НЕЗАВИСИМОСТИ ....................................................................................................................... 27
2.3 ГИПОТЕЗА ОДНОРОДНОСТИ ......................................................................................................................... 28
2.4 ГИПОТЕЗА О ВИДЕ РАСПРЕДЕЛЕНИЯ ............................................................................................................ 31

ЗАКЛЮЧЕНИЕ ........................................................................................................................................................ 34

СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ ............................................................................................ 35

2
РЕФЕРАТ

В данной дипломной работе содержится

- 36 страниц,
- 1 таблица,
- 6 рисунков,
- 3 литературных источника.

Ключевые слова: МАТЕМАТИЧЕСКАЯ СТАТИСТИКА, ПРОВЕРКА


СТАТИСТИЧЕСКИХ ГИПОТЕЗ, СТАТИСТИЧЕСКИЕ КРИТЕРИИ СОГЛАСИЯ
ХИ-КВАДРАТ.

Целью работы является исследование статистических критериев хи-квадрат, а


именно критерия согласия, критерия для сложной гипотезы, однородности и
независимости, а также рассмотрение применения этих критериев на примере
данных об успеваемости студентов механико-математического факультета БГУ.

В процессе исследования были изучены статистические критерии хи-квадрат,


а также были проверены гипотезы о независимости, однородности и о виде
распределения с использованием этих критериев.

3
РЭФЕРАТ

Дадзеная дыпломная праца змяшчае

- 36 старонак,
- 1 табліца,
- 6 малюнкаў,
- 3 літаратурныя крыніцы.

Ключавая словы: МАТЭМАТЫЧНАЯ СТАТЫСТЫКА, ПРАВЕРКА


СТАТЫСТЫЧНЫХ ГІПОТЭЗ, СТАТЫСТЫЧНЫЯ КРЫТЭРЫІ ЗГОДЫ ХІ-
КВАДРАТ.
Мэтай працы з'яўляецца даследаванне статыстычных крытэрыяў хі-
квадрат, а менавіта крытэрыя згоды, крытэрыя для складанай гіпотэзы,
аднастайнасці і незалежнасці, а таксама разгляд прымянення гэтых
крытэрыяў на прыкладзе дадзеных аб паспяховасці студэнтаў механіка-
матэматычнага факультэта БДУ.
У працэсе даследавання былі вывучаны статыстычныя крытэры хі-квадрат, а
таксама былі правераны гіпотэзы аб незалежнасці, аднастайнасці і пра выгляд
размеркавання з выкарыстаннем гэтых крытэрыяў.

4
ABSTRACT

Diploma thesis contains.

- 36 pages,
- 1 table,
- 6 figures,
- 3 reference sources

Key words: MATHEMATICAL STATISTICS, INSPECTION OF STATISTIC


HYPOTHESES, STATISTIC CRITERIA OF HI-SQUARE CONSENT.

The aim of the work is to study the statistical chi-square criteria, namely, the
criterion of agreement, the criterion for a complex hypothesis, homogeneity and
independence, and also the application of these criteria to the data on the progress
of students of the Faculty of Mechanics and Mathematics of BSU.

In the process of research, the statistical chi-square criteria were studied, and the
hypotheses of independence, homogeneity and the type of distribution using these
criteria were tested.

5
ВВЕДЕНИЕ

В данной дипломной работе изучаются статистические критерии хи-квадрат, а


именно критерий согласия для сложной гипотезы, критерий однородности, и
критерий независимости. Также рассматривается их применение на примере
данных об успеваемости студентов механико-математического факультета БГУ.

В первой главе приводится теоретическое исследование критериев хи-квадрат,


а также применение этих критериев для проверки гипотезы о виде распределения,
сложной гипотезы, гипотезы однородности и независимости.

Во второй главе имеет место практическое применение выше упомянутых


критериев. Выдвигаются и проверяются гипотезы о виде распределения,
однородности и независимости. Данные группируются различными способами. В
основе выдвижения гипотез лежит проверка факта о том, имеется ли независимость
между наличием таланта (успеваемостью) у студента и тем фактом, что студент
является левшой.

Выражаю благодарность деканату механико-математического факультета БГУ


за содействие в получении статистической информации.

6
ГЛАВА 1
НЕОБХОДИМЫЕ СВЕДЕНИЯ ИЗ ТЕОРИИ ПРОВЕРКИ
СТАТИСТИЧЕСКИХ ГИПОТЕЗ

1.1 Основные понятия и общие принципы теории проверки


статистических гипотез

1.1.1 Статистические гипотезы

Разработка эффективных методов проверки статистических гипотез является


одной из основных задач математической статистики. Статистической гипотезой
называют любое утверждение о виде или свойствах распределения наблюдаемых в
эксперименте случайных величин. Такие утверждения можно делать на основании
теоретических соображений или статистических исследований других наблюдений.
Рассмотрим следующую ситуацию: эксперимент заключается в многократном
измерении некоторой физической величины, значение a которой точно неизвестно
и не меняется в процессе измерений. Многие случайные факторы (точность
настройки измерительного прибора, погрешность округления при считывании
данных и т.д.) оказывают влияние на результаты измерений, поэтому результат i-
того измерения 𝑋𝑖 можно записать в виде 𝑋𝑖 = 𝑎 + 𝜀𝑖 , где 𝜀𝑖 – случайная
погрешность измерения.

Итак, задача состоит в том, чтобы в случае, если для исследуемого объекта
(явления, процесса и т.д.) сформулирована некоторая гипотеза (обычно
обозначается символом 𝐻0 ) составить такое правило, позволяющее сделать вывод о
принятии или отклонении гипотезы по результатам соответствующих наблюдений.

7
Статистическим критерием проверки гипотезы 𝐻0 называется такое
правило, согласно которому проверяемая гипотеза 𝐻0 принимается или
отвергается. Основным предметом теории проверки статистических гипотез как раз
и является разработка и обоснование таких правил.

1.1.2 Основные характеристики критериев согласия

В этом пункте рассматривается общий метод построения критериев согласия.

Пусть сформулирована некоторая гипотеза 𝐻0 о распределении случайной


величины 𝑋 = (𝑋1 , … , 𝑋𝑛 ), описывающей результат изучаемого эксперимента. В
большинстве случаев для того, чтобы построить критерий проверки этой гипотезы
пытаются найти такую статистику 𝑇 = 𝑇(𝑋), которая характеризует отклонение
эмпирических данных от соответствующих (гипотезе 𝐻0 ) гипотетических
значений, для которой в случае справедливости 𝐻0 можно было бы определить
распределение (точно или приближенно). В случае, если 𝐻0 является сложной
гипотезой, то распределение 𝑇(𝑋) должно быть одним и тем же для всех простых
гипотез, составляющих 𝐻0 .

Предположим, что найдена такая статистика и её распределение при гипотезе


𝐻0 . Пусть ℱ = {𝑡: 𝑡 = 𝑇(𝑋), 𝑥 ∊ 𝒳} – множество всех возможных значений
статистики T; Пусть 𝑎 – заранее определенное, достаточно малое положительное
число. Определим для 𝑎подмножество ℱ1𝑎 ⊂ ℱ так, чтобы в случае справедливости
гипотезы 𝐻0 вероятность осуществления события {𝑇(𝑋) ∈ ℱ1𝑎 } (далее будем
обозначать эту вероятность символической записью 𝑃(𝑇(𝑋) ∈ ℱ1𝑎 | 𝐻0 ) )
удовлетворяла условию

𝑃(𝑇(𝑋) ∈ ℱ1𝑎 | 𝐻0 ) ≤ 𝑎. (1.1)

В таком случае правило проверки гипотезы 𝐻0 может быть сформулировано


следующим образом. Предположим, что 𝑥 – наблюдавшаяся реализация случайной

8
величины 𝑋 и 𝑡 = 𝑇(𝑥) – значение статистики T, которое соответствует данной
случайной величине. Если 𝑡 ∈ ℱ1𝑎 , то произошло маловероятное событие в
предположении справедливости гипотезы 𝐻0 и, следовательно, эту гипотезу
следует отвергнуть считая, что она противоречит статистическим данным. Если же
𝑡 ∉ ℱ1𝑎 , то в этом случае нет оснований отказываться от принятой гипотезы и
следует считать, что наблюдения не противоречат гипотезе (или согласуются с ней).

В описанной выше ситуации критерий формулируется следующим образом:

Если 𝑡 = 𝑇(𝑥) – наблюдавшееся значение статистики 𝑇(𝑋), то при 𝑡 ∈ ℱ1𝑎 гипотеза


𝐻0 отвергается; Если же 𝑡 ∉ ℱ1𝑎 , то считается, что данные не имеют противоречий
и нет оснований отвергать гипотезу. Следует отметить, что факт 𝑡 ∈ ℱ0𝑎 = ℱ \ ℱ1𝑎
не является доказательством того, что гипотеза 𝐻0 истинна, он только
свидетельствует о том, что согласие данных в опыте и теоретических
предположений достаточно хорошее.

В описанной выше методике статистика 𝑇 называется статистикой


критерия, а подмножество значений статистики ℱ1𝑎 называется критической
областью для выдвинутой гипотезы 𝐻0 (этот термин отражает тот факт, что
значение 𝑡 ∈ ℱ1𝑎 рассматривают как свидетельствующее против этой гипотезы).
Число 𝑎 можно считать вероятностью ложного отвержения гипотезы 𝐻0 , в случае
если она верна (т.е. вероятностью ошибочного решения в ситуации, когда 𝐻0
истинна). Это число также называют уровнем значимости. В конкретных
практических задачах величину 𝑎 обычно выбирают равной 0.1, 0.05, 0.01 и т.д.

Таким образом, задание соответствующей критической области в множестве


значений статистики 𝑇 определяет критерий согласно методике. Критическая
область по своему смыслу должна включать все маловероятные значения
статистики критерия. Чаще всего используются области вида {𝑡 ≥ 𝑡𝑎 } (для
статистик 𝑇, не принимающих отрицательные значения) или вида {|𝑡| ≥ 𝑡𝑎 }, но в
тоже время в конкретных практических задачах возможны и иные варианты выбора
9
критической области. Существенное влияние на вид критической области
оказывает цель, для которой строится критерий. Ограничимся пока следующим
общим замечанием: основным фактором построения каждого критерия является
определение наличия тех или иных отклонений от основной гипотезы. Такие
отклонения могут иметь разный характер, поэтому следует иметь в виду как
универсальные, так и специфические критерии, предназначенные для выявления
отклонений определенного типа.

Может оказаться, что в одних случаях лучше использовать критерий,


основанный на критической области {𝑡 ≥ 𝑡𝑎 }, а в других на критической области
{𝑡 ≤ 𝑡𝑎 } поскольку часто большие и малые значения статистики 𝑇(𝑋) указывают на
разный характер отклонения 𝐻0 .

Можно строить различные критерии согласия для проверки одной и той же


гипотезы 𝐻0 основываясь на разных статистиках 𝑇(𝑋) и для того, чтобы выбрать в
конкретной ситуации более подходящий в данном случае критерий, надо иметь
представление о методах сравнений различных критериев. Идея построения таких
методов заключается в исследовании поведения критериев при различных
отклонениях от основной гипотезы. Теперь введем понятие альтернативного
распределения (альтернативной гипотезы) и мощности критерия.

Пусть, ведется наблюдение за случайной величиной 𝑋 . Альтернативным


распределением или альтернативой называют любое распределение 𝐹𝑥 = 𝐹 ,
которое допустимо в данной ситуации, но отличается от гипотетического.
Альтернативной гипотезой 𝐻1 называется совокупность всех альтернативных
распределений.

Предположим, что построен некоторый критерий с уровнем значимости 𝑎 для


проверяемой гипотезы 𝐻0 , который основан на статистике 𝑇(𝑋), и пусть ℱ1𝑎 –
соответствующая критическая область. Функцией мощности критерия называется
величина 𝑊(𝐹) = 𝑊( ℱ1𝑎 ; 𝐹), которая представляет собой вероятность попадания
10
значения статистики критерия в критическую область, когда истинным
распределением наблюдений является распределение 𝐹. (Условимся в дальнейшем
записывать эту вероятность в виде 𝑃(𝑇(𝑋) ∈ ℱ1𝑎 |𝐹).) Итак, функцией мощности
называется некоторый функционал на множестве всех допустимых распределений
{𝐹}. Для распределений 𝐹, которые составляют нулевую гипотезу (условимся этот
факт записывать как 𝐹 ∈ 𝐻0 ), значения функции мощности удовлетворяют по
построению критерия условия (1.1); перепишем это условие в новых терминах в
виде

𝑊(𝐹) ≤ 𝑎, ∀ 𝐹 ∈ 𝐻0 (1.2)

Если 𝐹 ∈ 𝐻1 , то значение 𝑊(𝐹) называют мощностью критерия при


альтернативе F.

Функция мощности играет основополагающую роль в теории проверки


гипотез. Она характеризует критерий полностью, поскольку показывает, насколько
хорошо критерий улавливает возможные отклонения от основной гипотезы. Можно
сказать, что критерий тем мощнее, чем больше его мощность при альтернативах.
Действительно, если наблюдавшееся значение 𝑡(𝑥) попадает в критическую
область, то нулевую гипотезу отклоняют, и если истинной действительно является
некоторая альтернатива (нулевая гипотеза не верна), то тем самым принимают
правильное решение. Таким образом, значение 𝑊(𝐹) при 𝐹 ∈ 𝐻1 характеризует
вероятность принятия правильного решения в том случае, когда нулевая гипотеза
ложна.

Несмещенность является одним из важнейших свойств критерия, означающее,


что одновременно с условием (1.2) должно выполняться условие

𝑊(𝐹) > 𝑎, ∀𝐹 ∈ 𝐻1 (1.3)

Иначе говоря, несмещенность критерия означает, что вероятность отвергнуть


нулевую гипотезу, не превышает заданного уровня значимости 𝑎 в том случае,

11
когда она истинна, и в то же время то она отвергается с вероятностью, большей 𝑎
если гипотеза 𝐻0 ложна. Для вычисление функции мощности критерия требуется
знать распределение статистики критерия как при нулевой гипотезе, так и при
альтернативах. Именно поэтому не всегда удается найти функцию 𝑊(𝐹).

В заключении следует отметить, что трудоемкость практической решения


является важным фактором при выборе критерия. На практике, когда требуется
быстро получить ответ, предпочтение нередко отдается просто реализуемому
критерию, даже если он не является оптимальным в теоретическом смысле.

1.1.3 Вспомогательные утверждения

Сформулируем несколько утверждений, которые понадобятся в дальнейшем.

Пусть 𝐴 – действительная и симметричная матрица, тогда найдется такая


ортогональная матрица 𝑈 ( 𝑈 ∙ 𝑈` = 𝐸𝑛 , где 𝐸𝑛 − единичная матрица), что 𝑈`𝐴𝑈 =
𝐷 . Здесь 𝐷 – диагональная матрица с элементами 𝜆𝑖 ≥ 0, 𝑖 = 1, … , 𝑛 , которые
являются характеристическими числами матрицы 𝐴 , т.е. корнями
характеристического уравнения det(𝐴 − 𝜆𝐸𝑛 ) = 0. Столбцами 𝑢𝑘 матрицы 𝑈 =
[𝑢1 , … , 𝑢𝑛 ] являются собственные векторы матрицы 𝐴, т.е. 𝐴𝑢𝑘 = 𝜆𝑘 𝑢𝑘 , 𝑘 = 1, … , 𝑛.

Пусть 𝑟 – ранг матрицы 𝐴 и 𝜆1 , … , 𝜆𝑟 отличные от 0 характеристические


числа. Эквивалентной формой записи

𝐴 = 𝑈𝐷𝑈` (1.4)

является спектральное представление матрицы 𝐴:

𝐴 = ∑𝑟𝑘=1 𝜆𝑘 𝑢𝑘 𝑢`𝑘 (1.5)

Лемма 1.6. Пусть 𝑄 = 𝑋`𝐴𝑋 и rang 𝐴 = 𝑟 ≤ 𝑛 . Если матрица A


идемпотентна (𝐴2 = 𝐴), то ℒ(𝑄) = 𝜒 2 (𝑟) и при этом 𝑟 = 𝑡𝑟 𝐴.

Доказательство:

12
Итак, если для 𝐴 справедливо такое представление (1.5); тогда из условий
идемпотентности и симметричности следует, что 𝜆1 = … = 𝜆𝑟 = 1 и поэтому 𝑄 =
∑𝑟𝑘=1(𝑢`𝑘 𝑋)2 . Из ортонормированности векторов 𝑢𝑘 следует, что случайные
величины 𝑢`𝑘 𝑋, (𝑘 = 1, … , 𝑟 ) независимы и нормальны
𝒩(0, 1); следовательно, ℒ(𝑄) = 𝜒 2 (𝑟) . Используя легко проверяемое равенство
𝑡𝑟(𝐴𝐵) = 𝑡𝑟(𝐵𝐴) из формулы (1.4) находим 𝑡𝑟(𝐴) = 𝑡𝑟(𝑈`𝑈𝐷) = 𝑡𝑟(𝐷) = 𝜆1 +
… + 𝜆𝑟 = 𝑟. ■

Теорема 1.7. Пусть n-мерный случайные вектор Y имеет невырожденное


нормальное распределение 𝒩(𝜇, 𝛴) . Тогда квадратичная форма 𝑄 = (𝑌 −
𝜇)`𝛴 −1 (𝑌 − 𝜇) распределена по закону 𝜒 2 (𝑛).

Доказательство:

Пусть U – ортогональная матрица, которая приводит 𝛴 к диагональному виду:


𝑈`𝛴𝑈 = 𝐷. По условию все диагональные элементы 𝜆𝑖 матрицы 𝐷 положительны,
1
поэтому определена матрица 𝐷−2 – диагональная матрица с диагональными
1 1
− −
элементами 𝜆𝑖 . Рассмотрим вектор 𝑍 = 𝐷
2 2 U` (𝑌 − 𝜇) . Используя известный
факт, что если ℒ(𝑌) = 𝒩(𝜇, 𝛴) и 𝑉 = 𝐿𝑌 , где 𝐿 – заданная матрица линейного
преобразования, то ℒ(𝑉) = 𝒩(𝐿𝜇, 𝐿𝛴𝐿`), имеем ℒ(𝑍) = 𝒩(0, 𝐸𝑛 ). Далее 𝑌 − 𝜇 =
1 1 1
𝑈𝐷2 𝑍; следовательно, 𝑄 = 𝑍`𝐷2 𝑈`𝛴−1 𝑈𝐷2 𝑍 = 𝑍`𝐸𝑛 𝑍 = 𝑍`𝑍.

Применяя лемму 1.6, получаем ℒ(𝑄) = 𝜒 2 (𝑛). ■

1.2 Критерий согласия хи-квадрат К. Пирсона

Предположим 𝑋 = (𝑋1 , … , 𝑋𝑛 ) это выборка из распределения ℒ(𝜉) с


неизвестной функцией распределения 𝐹𝜉 (𝑥), о которой выдвинута простая гипотеза

13
𝐻0 : 𝐹𝜉 (𝑥) = 𝐹(𝑋). Одним из наиболее известных критериев проверки этой
гипотезы является критерий 𝜒 2 .

Он применяется для любых распределений, для многомерных в том числе.


Для того, чтобы воспользоваться этим критерием, выборочные данные
предварительно группируются в следующем виде.

Предположим 𝜈 = (𝜈1 , … , 𝜈𝑁 ) – вектор частот попадания выборочных точек в


соответствующие интервалы группировки 𝜀1 , … , 𝜀𝑁 (𝜈1 +. . + 𝜈𝑁 = 𝑛) и

𝑝0 = (𝑝10 , … , 𝑝𝑁0 ), где 𝑝𝑗0 = 𝑃(𝜉 ∈ 𝜀𝑗 |𝐻0 ) , 𝑗 = 1, … , 𝑁 . Тогда ℒ(𝜈|𝐻0 ) = 𝑀(𝑛; 𝑝0 ) и


гипотеза 𝐻0 сводится к гипотезе о том, что вероятности полиномиального
распределения построенного вектора частот 𝜈 имеют заданные значения 𝑝𝑗0 𝑗 =
1, … , 𝑁 . В качестве статистики, которая характеризует отклонение выборочных
данных (т.е. частот 𝜈𝑗 ) от соответствующих гипотетических значений (в данном
случае от средних 𝐸(𝜈𝑗 |𝐻0 ) = 𝑛𝑝𝑗0 ), принимают величину
0 2
𝑁 (𝜈𝑗 −𝑛𝑝𝑗 ) 𝜈𝑖 2
𝜒𝑛2 = 𝜒𝑛2 (𝜈) = ∑𝑗=1 = ∑𝑁
𝑖=1 − 𝑛, (1.8)
𝑛𝑝0𝑗 𝑛𝑝𝑗0

а критическую область задают в виде ℱ1𝑎 = {𝑡 ≥ 𝑡𝑎 } . Точное распределение


ℒ(𝜒𝑛2 |𝐻0 ) неудобно для вычисления критической границы 𝑡𝑎 , но при этом для
больших объемов выборок 𝑛 статистика 𝜒𝑛2 имеет при гипотезе 𝐻0 простое
предельное распределение, не которое не зависит от гипотезы(т.е. от чисел 𝑝𝑗0 ).

Теорема 1.9. Если 0 ≤ 𝑝𝑗0 ≤ 1, 𝑗 = 1, … , 𝑁, то при 𝑛 → ∞ ℒ(𝜒𝑛2 |𝐻0 ) → 𝜒 2 (𝑁 −


1)

Доказательство:

Используя формулу

𝑛!
(𝑎1 + … + 𝑎𝑁 )𝑛 = ∑ 𝑎1 ℎ1 … 𝑎𝑁 ℎ𝑁
ℎ1 ! … ℎ𝑁 !
ℎ1 + …+ℎ𝑁 =𝑛

14
(здесь суммирование производится по всем целым неотрицательным значениям
( ℎ1 , … , ℎ𝑁 ), удовлетворяющим условию ℎ1 + … + ℎ𝑁 = 𝑛 ), получаем, что
характеристическая функция вектора 𝜈 = (𝜈1 , … , 𝜈𝑁 ) при гипотезе 𝐻0 имеет вид

𝐸𝑒 𝑖𝑡`𝜈 = (𝑝10 𝑒 𝑖𝑡1 + … + 𝑝𝑁0 𝑒 𝑖𝑡𝑁 )𝑛 , 𝑡 = (𝑡1 , … , 𝑡𝑁 ). Введем нормированный вектор
𝜈𝑗 −𝑛𝑝𝑗0

𝜈 = (𝜈1∗ , … , 𝜈𝑁∗ ), где 𝜈𝑗∗ = , 𝑗 = 1, … , 𝑁. Имеем
√𝑛

𝑁 𝑛
∗ 0 𝑒 𝑖𝑡𝑖
𝜑𝑛 (𝑡) = 𝐸𝑒 𝑖𝑡`𝜈 = 𝑒 −𝑖√𝑛𝑡`𝑝 [1 + ∑ 𝑝𝑖0 ( − 1)] .
𝑖=1
√𝑛

𝜀2
Логарифмирую это соотношение и применяя формулу ln(1 + 𝜀) = 𝜀 − +
2

+𝑂(𝜀 3 ), 𝜀 → 0, получаем, что при 𝑛 → ∞ и |𝑡| ≤ 𝑐 < ∞

𝑁 𝑁 2
0 0
𝑒 𝑖𝑡𝑖 𝑛 0
𝑒 𝑖𝑡𝑖 1
ln 𝜑𝑛 (𝑡) = −𝑖 √𝑛𝑡`𝑝 + 𝑛 ∑ 𝑝𝑖 ( − 1) − [∑ 𝑝𝑖 ( − 1)] + 𝑂 ( ) =
√𝑛 2 √𝑛 √𝑛
𝑖=1 𝑖=1

1 1 2 1 1
=− ∑𝑁 𝑝 0 𝑡 2 + ( ∑𝑁 0
𝑖=1 𝑝𝑖 𝑡𝑖 ) + 𝑂 ( 𝑛) = − 2 𝑡`𝛴𝑡,
2 𝑖=1 𝑖 𝑖 2 √

𝑝𝑖0 (1 − 𝑝𝑖0 ), при 𝑖 = 𝑘


где 𝛴 = ||𝜎𝑖𝑘 ||1𝑁 и 𝜎𝑖𝑘 = { 0 0 Отсюда вытекает, что пределом
−𝑝𝑖 𝑝𝑘 , при 𝑖 ≠ 𝑘.
характеристической функции вектора 𝜈 ∗ является характеристическая функция
нормального закона 𝒩(0, 𝛴) . Тогда по теореме непрерывности для
характеристических функций отсюда имеем ℒ(𝜈 ∗ |𝐻0 ) → 𝒩(0, 𝛴) при 𝑛 → ∞.
Матрица вторых моментов 𝛴 предельного распределения вырождена. (Это следует

из того, что компоненты вектора 𝜈 ∗ связаны линейной зависимостью ∑𝑁
1 𝜈𝑖 =0) Но

определитель (𝑁 − 1)-го порядка матрицы 𝛴(𝑁 − 1) = ||𝜎𝑖𝑘 ||1𝑁−1 уже отличен от


нуля. Таким образом предельное распределение подвектора 𝜈 ∗ (𝑁 − 1) =
(𝜈1∗ , … , 𝜈𝑁−1

) – невырожденный нормальный закон 𝒩(0, 𝛴(𝑁 − 1)) . Отсюда по
теореме 1.7 следует, что при 𝑛 → ∞

ℒ(𝑄𝑛 = 𝜈 ∗ `(𝑁 − 1)𝛴−1 (𝑁 − 1)𝜈 ∗ (𝑁 − 1)|𝐻0 ) → 𝜒 2 (𝑁 − 1). (1.10)

15
С другой стороны, из формулы (1.8) имеем
𝑁 𝑁−1
2
(𝜈𝑖 ∗ )2 (𝜈𝑖 ∗ )2 (𝜈1∗ + … + 𝜈𝑁−1

)2
𝜒𝑛 = ∑ 0 = ∑ 0 + 0 = 𝜈 ∗ `(𝑁 − 1)𝐴𝜈 ∗ (𝑁 − 1),
𝑝𝑗 𝑝𝑗 𝑝𝑁
𝑖=1 𝑖=1

1 1
+ , при 𝑖 = 𝑘
𝑝𝑖0 0
𝑝𝑁
где 𝐴 = ||𝑎𝑖𝑘 ||1𝑁−1 и 𝜎𝑖𝑘 = {1
0 , при 𝑖 ≠ 𝑘.
𝑝𝑁

Непосредственной проверкой убеждаемся, что 𝐴𝛴(𝑁 − 1) = 𝛴(𝑁 − 1)𝐴 = 𝐸𝑁−1 ,


т.е. 𝐴 = 𝛴 −1 (𝑁 − 1). Таким образом, 𝜒𝑛2 совпадает с квадратичной формой 𝑄𝑛 в
соотношении (1.10). ■

Предельное распределение 𝜒 2 (𝑁 − 1) на практике может быть использовано


с хорошим приближением уже при 𝑛 ≥ 50 и при 𝜈𝑖 ≥ 5. При выполнении этих
условий в соответствии с теоремой 1.9 критическую границу 𝑡𝑎 выбирают равной
2
𝜒1−𝑎,𝑁−1 , т.е. (1 − 𝑎) – квантили распределения 𝜒 2 (𝑁 − 1).

Подводя итог, критерий согласия 𝜒 2 имеет следующий вид:

предположим заданы уровень значимости a и объем выборки n и наблюдавшиеся


значения ℎ = (ℎ1 , … , ℎ𝑁 ) вектора частот 𝜈 = (𝜈1 , … , 𝜈𝑁 ) удовлетворяют условиям
𝑛 ≥ 50, ℎ𝑗 ≥ 5, 𝑗 = 1, … , 𝑁; тогда, если наблюдавшееся значение 𝑡 = 𝜒𝑛2 (ℎ)
2
статистики (1.8) удовлетворяет неравенству 𝑡 ≥ 𝜒1−𝑎,𝑁−1 , то гипотеза 𝐻0
отвергается; иначе гипотеза 𝐻0 не противоречит результатам испытаний.

Следует сделать пару общих замечаний. Критерий согласия 𝜒 2 применяется


в тех случаях, когда в каждом опыте наблюдается одно из 𝑁 несовместных событий
𝐴1 , … , 𝐴𝑁 и заданы частоты появлений этих событий в 𝑛 испытаниях. В случае, если
выборка имеет непрерывный закон распределения, то, используя предварительно
метод группировки данных, рассматривают дискретную схему, в которой в
качестве события 𝐴𝑖 рассматриваются события {𝜉 ∈ 𝜀𝑖 }, где 𝜀1 , … , 𝜀𝑁 – интервалы
группировки. Недостатком метода является потеря информация, которая
16
происходит при группировке данных по классам(интервалам). В добавок, остается
еще вопрос о выборе числа интервалов 𝑁 и длине самих интервалов 𝜀𝑖 . Однако
имеются и некоторые достоинства: при применении критерия 𝜒 2 нет
необходимости учитывать точные значения наблюдений. Несомненными
преимуществами критерия являются его простота, наглядность и универсальность.

Для этого критерия можно исследовать предельное при 𝑛 → ∞ поведение


мощности при произвольной альтернативе. В рассматриваемой методике гипотезы
характеризуются вектором 𝑝 = (𝑝1 , … , 𝑝𝑁 ) вероятностей, с которыми появляются в
каждом опыте события 𝐴1 , … , 𝐴𝑁 , поэтому для функции мощности будем
использовать обозначение 𝑊(𝑝), а о соответствующей гипотезе будем говорить для
краткости как о гипотезе 𝑝. Чтобы подчеркнуть зависимость функции мощности от
объема выборки, будем писать 𝑊𝑛 (𝑝).

Исследуя асимптотические свойства критериев прежде всего рассматривается


вопрос, является ли критерий состоятельным. Критерий является состоятельным,
если при 𝑛 → ∞ 𝑊𝑛 (𝐹) → 1, ∀𝐹 ∈ 𝐻1 . Состоятельность критерия означает, что с
ростом числа наблюдений он позволяет с вероятностью, близкой к 1, определять
любые отклонения от основной гипотезы. В частности, состоятельный критерий
является асимптотически несмещенным.

Справедливо следующее утверждение.

Теорема 1.11. Для любого вектора 𝑝 ≠ 𝑝0 при 𝑛 → ∞ функция мощности


𝑊𝑛 (𝑝) стремится к 1, т.е. критерий 𝜒 2 является состоятельным.

1.3 Критерий согласия хи-квадрат для сложной гипотезы

Описанный выше метод группировки наблюдений с последующим применением


критерия согласия 𝜒 2 применяется и в более сложной ситуации, когда требуется

17
проверить гипотезу о принадлежности неизвестной функции распределения
наблюдаемой в опыте случайной величины ξ заданному семейству функций
распределения. В общем виде задача формулируется следующим образом. Пусть
ℱ = {𝐹(𝑥; 𝜃), 𝜃 ∈ 𝛩} – заданное параметрическое семейство функций
распределения и 𝑋 = (𝑋1 , … , 𝑋𝑛 ) является выборок из распределения ℒ(𝜉) с
неизвестной функцией распределения. Задача состоит в том, чтобы проверить
гипотезу 𝐻0 : ℒ(𝜉) ∈ ℱ . Итак, в данном случае речь идет о проверке сложной
гипотезы.

Пусть исходные статистические данные сгруппированы и 𝜈 = (𝜈1 , … , 𝜈𝑁 ) –


соответствующий вектор частот попадания наблюдений в интервалы группировки.
Попытаемся составить статистику, аналогичную (1.8). В этом случае вероятности
попадание в интервалы группировки при гипотезе 𝐻0 уже не будут заданы
однозначно, а являются некоторыми функциями от параметра 𝜃:

𝑝𝑖 (𝜃) = 𝑃(𝜉 ∈ 𝜀𝑖 |𝐻0 ) = ∫ 𝑑𝐹(𝑥; 𝜃), 𝑖 = 1, … , 𝑁


𝜀𝑖

Поэтому статистика 𝜒𝑛2 принимает вид


(𝜈𝑖 −𝑛𝑝𝑖 (𝜃))2
𝜒𝑛2 = 𝜒𝑛2 (𝜃) = ∑𝑁
𝑖=1 (1.12)
𝑛𝑝𝑖 (𝜃)

Эта статистика зависит от неизвестного параметра; следовательно,


непосредственно использовать её для построения критерия пока нельзя, требуется
предварительно исключить в (1.12) неопределенность, которая связана с
неизвестным параметром 𝜃. Для этого заменяют 𝜃 некоторой оценкой 𝜃̃𝑛 = 𝜃̃𝑛 (𝑋)
и получают, таким образом, статистику
̃
(𝜈𝑖 −𝑛𝑝𝑖 (𝜃𝑛 )) 2
𝜒̃𝑛2 = 𝜒̃𝑛2 (𝜃̃𝑛 ) = ∑𝑁
𝑖=1 ̃ (1.13)
𝑛𝑝𝑖 (𝜃𝑛 )

18
Эта статистика уже представляет собой функцию только от выборочных данных;
следовательно, её значение может быть однозначно вычислено для каждой
заданной реализации выборки 𝑋.

Если бы распределение статистики 𝜒̃𝑛2 при гипотезе 𝐻0 можно было найти и


при этом распределение не зависело бы от конкретных функций 𝐹(𝑥; 𝜃) ,
составляющих гипотезу 𝐻0 , то, основываясь на 𝜒̃𝑛2 можно было бы построить
критерий согласия для гипотезы 𝐻0 .

В этом случае величины 𝑝𝑖 (𝜃̃𝑛 ) уже не являются постоянными, а


представляют собой функции от выборки (случайные величины). Поэтому теорема
1.9 к статистике 𝜒̃𝑛2 неприменима. Кроме того, следует ожидать, что распределение
этой статистики будет зависеть от способа построения оценки 𝜃̃𝑛 . Существуют
методы оценивания параметра 𝜃, при которых предельное распределение имеет
простой вид, а именно является распределением хи-квадрат с числом степеней
свободы 𝑁 − 1 − 𝑟, где 𝑟 – размерность оцениваемого параметра 𝜃. Одним из таких
методов оценивания является метод максимального правдоподобия, основанный на
частотах 𝜈1 , … , 𝜈𝑁 , т.е. когда в качестве 𝜃̃𝑛 в формуле (1.13) используют
мультиномиальную оценку максимального правдоподобия.

Теорема 1.14. Пусть функция 𝑝𝑖 (𝜃), 𝑖 = 1, … , 𝑁, 𝜃 = (𝜃1 , … , 𝜃𝑟 ), 𝑟 < 𝑁 − 1,


удовлетворяет следующим условиям:

а) ∑𝑁
𝑖=1 𝑝𝑖 (𝜃) = 1, ∀𝜃 ∈ 𝛩;

𝜕𝑝𝑖 (𝜃)
б) 𝑝𝑖 (𝜃) ≥ 𝑐 > 0, 𝑖 = 1, … , 𝑁 , и существуют непрерывные производные и
𝜕𝜃𝑘

𝜕2 𝑝𝑖 (𝜃)
, 𝑘, 𝑙 = 1, … , 𝑟;
𝜕𝜃𝑘 𝜕𝜃𝑙

𝜕𝑝𝑖 (𝜃)
в) матрица ( ) размера 𝑁×𝑟 имеет ранг 𝑟 для всех 𝜃 ∈ 𝛩.
𝜕𝜃𝑘

19
Тогда если 𝜃̃𝑛 = 𝜃̂𝑛 – мультиномиальная оценка максимального правдоподобия для
параметра 𝜃 и 𝜒̂ 𝑛2 = 𝜒𝑛2 (𝜃̂𝑛 ), то при 𝑛 → ∞ ℒ( 𝜒̂ 𝑛2 |𝐻0 ) → 𝜒 2 (𝑁 − 𝑟 − 1).

Далее описывается схема использования критерия согласия 𝜒 2 . Пусть в опыте


наблюдается одно из 𝑁 несовместных событий 𝐴1 , … , 𝐴𝑁 и о вероятностях 𝑝1 , … , 𝑝𝑁
появления этих событий выдвинута гипотеза 𝐻0 : 𝑝𝑖 = 𝑝𝑖 (𝜃), 𝑖 = 1, … , 𝑁, где

𝜃 = (𝜃1 , … , 𝜃𝑟 ) ∈ 𝛩 – некоторому невырожденному интервалу, и функции 𝑝𝑖 (𝜃)


удовлетворяют условиям теоремы 1.14 (если в опыте наблюдается случайная
величина ξ непрерывного типа, то задачу сводят к такой дискретной схеме,
предварительно группируя данные по 𝑁 интервалам 𝜀1 , … , 𝜀𝑁 и рассматривая в
качестве 𝐴𝑖 события {𝜉 ∈ 𝜀𝑖 } ). Допустим произведено 𝑛 ≥ 50 опытов и
наблюдавшиеся частоты ℎ1 , … , ℎ𝑁 событий удовлетворяют условиям ℎ𝑖 ≥ 5, 𝑖 =
1, … , 𝑁. Определим значение оценки 𝜃̂𝑛 , решая относительно 𝜃 уравнения
ℎ𝑖 𝜕𝑝𝑖 (𝜃)
∑𝑁
𝑖=1 = 0, 𝑘 = 1, … , 𝑟. (1.15)
𝑝𝑖 (𝜃) 𝜕𝜃𝑘

Вычислим 𝑝𝑖 = 𝑝𝑖 (𝜃̂𝑛 ), 𝑖 = 1, … , 𝑁, и найдем значение статистики 𝜒̂ 𝑛2 по формуле


𝑁
(ℎ𝑖 − 𝑛𝑝̂𝑖 )2
𝜒̂ 𝑛2 =∑ .
𝑛𝑝̂𝑖
𝑖=1

Допустим задан уровень значимости 𝑎. Определим по таблицам распределения


2
𝜒 2 (𝑁 − 𝑟 − 1) значения (1 − 𝑎)-квантили 𝜒1−𝑎,𝑁−𝑟−1 и сравним с ним найденное
значение 𝜒̂ 𝑛2 . Если 𝜒̂ 𝑛2 ≥ 𝜒 2 (𝑁 − 𝑟 − 1), то гипотезу 𝐻0 следует отвергнуть; иначе
можно только сказать, что гипотеза 𝐻0 не противоречит результатам испытаний.
Согласно описанной теории можно смело утверждать, что используя это правило,
можно ошибочно отклонить гипотезу 𝐻0 , когда она истинна, с вероятностью,
приближенно равной 𝑎.

20
1.4 Критерий однородности хи-квадрат

Одной из наиболее важных прикладных задач математической статистики


является задача проверки однородности статистического материала. Допустим
имеются две независимые выборки 𝑋 = (𝑋1 , … , 𝑋𝑛 ) и 𝑌 = (𝑌1 , … , 𝑌𝑚 ) , которые
описывают одно и то же явление, процесс и т.д., но получены в разных условиях;
Задача состоит в том, чтобы установить, являются ли они выборками одного и того
же распределения или же закон распределения наблюдений от выборки к выборке
менялся. В общем случае может быть рассмотрено произвольное конечное число
независимых выборок.

В общем виде задача формулируется следующим образом. Пусть 𝑋 =


(𝑋1 , … , 𝑋𝑛 ) – выборка из распределения ℒ(𝜉) с некоторой неизвестной функцией
распределения 𝐹1 (𝑥) , а 𝑌 = (𝑌1 , … , 𝑌𝑚 ) – выборка из распределения ℒ(𝜂) с
неизвестной функцией распределения 𝐹2 (𝑥) . Требуется проверить гипотезу
однородности 𝐻0 : 𝐹1 (𝑥) ≡ 𝐹2 (𝑥).

Одним из самых часто используемых критериев для этой гипотезы является


критерий однородности 𝜒 2 . Он применяется для проверки однородности данных,
имеющих дискретную структуру, т.е. когда в опытах наблюдается некоторый
переменный признак, принимающий конечное число, например 𝑠 , различных
значений. Однако к такой схеме может быть сведена любая другая модель,
применяя предварительно метод группировки данных. Поэтому метод 𝜒 2
применим к анализу любых данных. Вдобавок, с помощью этого метода можно
анализировать любое конечное число выборок.

Допустим, что осуществлено 𝑘 последовательных серий независимых


наблюдений, которые состоят из 𝑛1 , … , 𝑛𝑘 наблюдений соответственно. При этом в
каждом опыте наблюдается некоторый переменный признак, который принимает

21
одно из 𝑠 различных значений. Допустим 𝜈𝑖𝑗 – число реализаций i-го исхода j-той
серии, так что
𝑠

∑ 𝜈𝑖𝑗 = 𝑛𝑗 , 𝑗 = 1, … , 𝑘.
𝑖=1

Задача состоит в том, чтобы проверить гипотезу 𝐻0 о том, что все наблюдения
проводились над одной и той же случайной величиной. Иначе говоря, если 𝑝𝑖𝑗 –
(неизвестная) вероятность появления i-го исхода в испытаниях j-й серии ( 𝑖 =
1, … , 𝑠, 𝑗 = 1, … , 𝑘 ), то гипотеза 𝐻0 означает утверждение: (𝑝1𝑗 , … , 𝑝𝑠𝑗 ) =
(𝑝1 , … , 𝑝𝑠 ), 𝑗 = 1, … , 𝑘 , где 𝑝 = (𝑝1 , … , 𝑝𝑠 ) – некоторый неизвестный вектор
вероятностей (𝑝1 + … + 𝑝𝑠 = 1).

Так как 𝐸(𝜈𝑖𝑗 |𝐻0 ) = 𝑛𝑗 𝑝𝑖 , то, основываясь на принцип 𝜒 2 , в роли меры


отклонения данных эксперимента от их гипотетических (при гипотезе 𝐻0 ) значений
в этом случае следовало бы выбрать статистику
𝑠 𝑘
(𝜈𝑖𝑗 − 𝑛𝑗 𝑝𝑖 )2
𝜒𝑛2 (𝑝) = ∑∑ (1.16)
𝑛𝑗 𝑝𝑖
𝑖=1 𝑗=1

Однако здесь 𝑝1 , … , 𝑝𝑠 неизвестны, поэтому для того, чтобы воспользоваться


данной статистикой, неизвестные параметры предварительно оцениваются. Для
этого используют метод максимального правдоподобия. Здесь функция
правдоподобия (при гипотезе 𝐻0 ) равна
𝑘

𝐿(𝑝) = 𝑐 ∏ 𝑝𝑖 𝜈𝑖𝑗 = 𝑐 ∏ 𝑝𝑖 𝜈𝑖∗ , 𝜈𝑖∗ = ∑ 𝜈𝑖𝑗


𝑖,𝑗 𝑖 𝑗=1

(𝑐 от параметров 𝑝𝑖 не зависит). Применяя метод неопределенных множителей


Лагранжа, получаем, что оценки максимального правдоподобия 𝑝̂ 𝑖 параметров 𝑝𝑖

22
𝜈𝑖∗
таковы: 𝑝̂𝑖 = , 𝑖 = 1, … , 𝑠 , где 𝑛 = 𝑛1 + … + 𝑛𝑘 = ∑𝑖,𝑗 𝜈𝑖𝑗 – общее число
𝑛

наблюдений.

Таким образом, получена следующая статистика критерия:

𝑠 𝑘 𝑛𝑗 𝑝𝑖 2 𝑠 𝑘 2
(𝜈𝑖𝑗 − ) 𝜈𝑖𝑗
𝜒𝑛2 (𝑝) = 𝑛 ∑ ∑ 𝑛 = 𝑛 (∑ ∑ − 1). (1.17)
𝑛𝑗 𝑝𝑖 𝑛𝑗 𝑝𝑖
𝑖=1 𝑗=1 𝑖=1 𝑗=1

Критическая область задается в виде ℱ1𝑎 = {𝑡 ≥ 𝑡𝑎 } , а для нахождение


критической границы 𝑡𝑎 применяется следующий предельный результат,
аналогичный теореме 1.11: при 𝑛 → ∞ ℒ(𝜒𝑛2 (𝑝̂ )|𝐻0 ) → 𝜒 2 ((𝑠 − 1)(𝑘 − 1)).

Основываясь на этом предельном соотношении при больших 𝑛 полагается


2
𝑡𝑎 = 𝜒1−𝑎,(𝑠−1)(𝑘−1) . В конечном виде критерий однородности 𝜒 2 имеет следующий
вид: гипотеза однородности 𝐻0 отвергается тогда и только тогда, когда
вычисленное по фактическим данным значение t статистики (1.17) удовлетворяет
неравенству 𝑡 ≥ 𝜒 2 ((𝑠 − 1)(𝑘 − 1)). Вероятность ошибочно отклонить при этом
истинную гипотезу примерно равна 𝑎, если 𝑛 достаточно велико. Эту же методику
можно использовать и для проверки гипотезы о том, что 𝑘 серий наблюдений
произведены над одной и той же случайной величиной, имеющий распределение
заданного типа, например распределение Пуассона, нормальное и т.п. В таком
случае предварительно следует найти мультиномиальную оценку максимального
правдоподобия 𝜃̂𝑛 параметров распределения при гипотезе 𝐻0 и заменить в (1.16)
𝑝𝑖 = 𝑝𝑖 (𝜃) на 𝑝𝑖 ( 𝜃̂𝑛 ) . Число степеней свободы в предельном распределении 𝜒 2
заменяется при этом на (𝑠 − 1)𝑘 − 𝑟 , где 𝑟 – число параметров, определяющих
гипотетическое распределение (размерность параметрического вектора θ).

Описанный выше критерий однородности 𝜒 2 является состоятельным, т.е. с


вероятностью, стремящейся к 1 при 𝑛 → ∞, он улавливает любые отклонения от

23
нулевой гипотезы, при которых вероятности появления исходов от серии к серии
не сохраняют постоянного значения.

1.5 Критерий независимости хи-квадрат

Допустим, что в опыте наблюдается двумерная случайная величина 𝜉 =


(𝜉1 , 𝜉2 ) с неизвестной функцией распределения 𝐹𝜉 (𝑥, 𝑦) и есть основание
предполагать, что компоненты 𝜉1 и 𝜉2 – независимы. В таком случае надо
проверить гипотезу независимости 𝐻0 : 𝐹𝜉 (𝑥, 𝑦) == 𝐹𝜉1 (𝑥)𝐹𝜉2 (𝑦) , где 𝐹𝜉1 (𝑥) и
𝐹𝜉2 (𝑦) – некоторые одномерные функции распределения. В общем случае может
быть рассмотрена k-мерная случайная величина ξ и в этом случае проверяется
гипотеза независимости её компонент.

Простой критерий согласия для гипотезы независимости 𝐻0 может быть


построен, основываясь на методике хи-квадрат. Эта методика применяется для дис-
кретных моделей с конечным числом исходов, поэтому условимся считать, что
случайная величина 𝜉1 принимает конечное число 𝑠 некоторых значений, которые
будем обозначать буквами 𝑎1 , … , 𝑎𝑠 , а вторая компонента 𝜉2 – 𝑘 значений 𝑏1 , … , 𝑏𝑘 .
Если исходная модель имеет иную структуру, то предварительно группируют
возможные значения случайных величин отдельно по первой и второй
компонентам. В таком случае множество значений 𝜉1 разбивается на 𝑠 интервалов
(1) (1) (2) (2)
𝜀1 , … , 𝜀𝑠 , множество значений 𝜉2 на 𝑘 интервалов 𝜀1 , … , 𝜀𝑘 , а само множество
(1) (2)
значений 𝜉 = (𝜉1 , 𝜉2 ) – на 𝑁 = 𝑠𝑘 прямоугольников 𝜀𝑖 ×𝜀𝑗 .

Обозначим через 𝜈𝑖𝑗 число наблюдений пары (𝑎𝑖 , 𝑏𝑗 ) так, что ∑𝑠𝑖=1 ∑𝑘𝑗=1 𝜈𝑖𝑗 =
𝑛. Результаты наблюдений удобно расположить в виде таблицы сопряженности
двух признаков (табл. 1). В приложениях 𝜉1 и 𝜉2 обычно означают два признака, по
которым производится классификация результатов наблюдений.

24
𝜉1 𝜉2 ∑
𝑏1 𝑏2 .. 𝑏𝑘

𝑎1 𝜈11 𝜈12 𝜈1𝑘 𝜈1∗

𝑎2 𝜈21 𝜈22 𝜈2𝑘 𝜈2∗

𝑎𝑠 𝜈𝑠1 𝜈𝑠2 ……………..... 𝜈𝑠𝑘 𝜈𝑠∗

∑ 𝜈∗1 𝜈∗2 𝜈∗𝑘 n

Табл. 1

Пусть 𝑝𝑖𝑗 = 𝑃(𝜉1 = 𝑎𝑖 , 𝜉2 = 𝑏𝑗 ), 𝑖 = 1, … , 𝑠, 𝑗 = 1, … , 𝑘. Тогда гипотеза


независимости означает, что существует 𝑠 + 𝑘 постоянных 𝑝𝑖∗ , 𝑝∗𝑗 , таких, что
∑𝑠𝑖=1 𝑝𝑖∗ = ∑𝑘𝑗=1 𝑝∗𝑗 = 1 и 𝑝𝑖𝑗 = 𝑝𝑖∗ 𝑝∗𝑗 т.е. ℒ = (𝜈𝑖𝑗 , 𝑖 = 1, … , 𝑠, 𝑗 = 1, … , 𝑘|𝐻0 ) =
𝑀(𝑛; 𝑝 = (𝑝𝑖∗ 𝑝∗𝑗 , 𝑖 = 1, … , 𝑠, 𝑗 = 1, … , 𝑘)).

Таким образом, гипотеза 𝐻0 сводится к утверждению, что частоты 𝜈𝑖𝑗 (число


их равно 𝑁 = 𝑠𝑘 ) распределены по полиномиальному закону с вероятностями
исходов, которые имеют указанную специфическую структуру (вектор
вероятностей исходов 𝑝 определяется значениями 𝑟 = 𝑠 + 𝑘 − 2 неизвестных
параметров 𝑝1∗ , … , 𝑝𝑠−1∗ , 𝑝∗1 , … , 𝑝∗𝑘−1 ).

Для проверки этой гипотезы может быть применима описанная в п. 1.3


методика 𝜒 2 . Найдем оценки максимального правдоподобия для определяющих
рассматриваемую схему неизвестных параметров. Если справедлива нулевая
гипотеза, то функция правдоподобия имеет вид

𝐿(𝑝) = 𝑐 ∏(𝑝𝑖∗ 𝑝∗𝑗 )𝜈𝑖𝑗 = 𝑐 ∏(𝑝𝑖∗ )𝜈𝑖∗ ∏(𝑝∗𝑗 )𝜈∗𝑗 ,


𝑖,𝑗 𝑖 𝑗

25
где множитель 𝑐 не зависит от неизвестных параметров. Отсюда по методу
неопределенных множителей Лагранжа следует, что искомые оценки имеют вид
𝜈𝑖∗ 𝜈∗𝑗
𝑝̂
𝑖∗ = , 𝑝̂
∗𝑗 = , , 𝑖 = 1, … , 𝑠, 𝑗 = 1, … , 𝑘. Следовательно, статистика
𝑛 𝑛

𝑠 𝑘 𝜈𝑖∗ 𝜈∗𝑗 2
(𝜈𝑖𝑗 − ) 𝜈𝑖𝑗 2
𝜒̂ 𝑛2 = 𝑛 ∑ ∑ 𝑛 = 𝑛 (∑ − 1) (1.18)
𝜈𝑖∗ 𝜈∗𝑗 𝜈𝑖∗ 𝜈∗𝑗
𝑖=1 𝑗=1 𝑖,𝑗

и, по теореме 1.11 ℒ(𝜒̂ 𝑛2 |𝐻0 ) → 𝜒 2 ((𝑠 − 1)(𝑘 − 1)) при 𝑛 → ∞ , поскольку


число степеней свободы в предельном распределении 𝜒 2 равно 𝑁 − 1 − 𝑟 = 𝑠𝑘 −
1 − (𝑠 + 𝑘 − 2) = (𝑠 − 1)(𝑘 − 1).

Таким образом, при достаточно больших 𝑛 может быть использовано


следующее правило проверки гипотезы: гипотеза 𝐻0 отвергается тогда и только
тогда, когда вычисленное по фактическим данным значение 𝑡 статистики 1.18
2
удовлетворяет неравенству 𝑡 ≥ 𝜒1−𝑎,(𝑠−1)(𝑘−1) .

26
ГЛАВА 2
ПРОВЕРКА ГИПОТЕЗ ОДНОРОДНОСТИ И
НЕЗАВИСИМОСТИ КРИТЕРИЯМИ ХИ-КВАДРАТ

Рассмотрим применение некоторых критериев согласия 𝜒 2 на примере данных


об успеваемости студентов механико-математического факультета БГУ.

2.1 Постановка задачи

Общеизвестным является тот факт, что левши чаще оказываются более


талантливыми, чем правши. Это утверждение является основополагающим в нашем
исследовании. Взяв за основу данные об успеваемости студентов механико-
математического факультета выдвигается гипотеза о том, что существует
независимость между успеваемостью студента механико-математического
факультета и тем фактом, что студент является левшой. Под успеваемостью
понимается средний балл за все сессии. Для получения данных для исследования
был опрошен 191 студент из 8 учебных групп (по 4 группы 3-го и 4-го курсов).
Уровень значимости 𝑎 возьмем равным 0.01.

2.2 Гипотеза независимости

После обработки данных и учитывая то, что все студенты из выборки имеют
положительные отметки, данные были сгруппированы следующим образом:

27
Рис. 1

Воспользуемся критерием независимости 𝜒 2 , который был изложен в п. 1.5.


В нашем случае 𝜉1 – случайная величина, значением которой является средний балл
студента, а 𝜉2 – случайная величина, значением которой является факт того, что
студент левша или правша, 𝑠 = 2, 𝑘 = 6 . Вычислим статистику 𝜒̂ 𝑛2 по формуле
(1.18).

179×4 2 179×20 2 179×54 2 179×54 2 179×43 2


(4− ) (18− ) (50− ) (52− ) (39− )
𝜒̂ 𝑛2 = 191× ( 191
+ 191
+ 191
+ 191
+ 191
+
179×4 179×20 179×54 179×54 179×43
179×16 2 12×4 2 12×20 2 12×54 2 12×54 2 12×43 2 12×16 2
(16− ) (0− ) (2− ) (4− ) (2− ) (4− ) (0− )
191 191 191 191 191 191 191
+ + + + + + )=
179×16 12×4 12×20 12×54 12×54 12×43 12×16

= 3.20205.
2
Таким образом, значение статистики равно 3.20205, а 𝜒0.99;5 = 15.1, поэтому
нет оснований отвергать гипотезу о независимости.

2.3 Гипотеза однородности

Проверим гипотезу однородности группируя данные разными способами.

Первый способ группировки – по курсам и по правшам/левшам. В этом случае


данные будут иметь вид:

Рис. 2

Вычислим статистику 𝜒𝑛2 по формуле (1.17)


103×179 2 103×12 2 88×179 2 88×12 2
(99− ) (4− ) (80− ) (8− )
𝜒𝑛2 = 191× ( 191
+ 191
+ 191
+ 191
) = 2.18556
103×179 103×12 88×179 88×12

28
2
𝜒0.99;1 = 6.6, следовательно, нет оснований отвергать гипотезу.

Второй способ группировки – группировка по группам и правшам/левшам:

Рис. 3
50×179 2 50×12 2 43×179 2 43×12 2 53×179 2
(46− ) (4− ) (40− ) (3− ) (52− )
𝜒𝑛2 = 191× ( 191
+ 191
+ 191
+ 191
+ 191
+
50×179 50×12 43×179 43×12 53×179

53×12 2 45×179 2 45×12 2


(1− ) (41− ) (4− )
191 191 191
+ + + ) = 2.54414
53×12 45×179 45×12

2
𝜒0.99;3 = 11.3, следовательно, нет оснований отвергать гипотезу.

Теперь рассмотрим способы группировки по успеваемости. Начнем со способа


группировки по курсам и успеваемости.

Рис. 4

Вычислим статистику по фактическим данным:

29
103×4 2 103×20 2 103×54 2
(4 − 191 ) (19 − 191 ) (27 − 191 )
𝜒𝑛2 = 191× ( + +
103×4 103×20 103×54

103×54 2 103×43 2 103×16 2


(27 − 191 ) (20 − 191 ) (6 − 191 )
+ + +
103×54 103×43 103×16
88×4 2 88×20 2 88×54 2 88×54 2
(0 − 191 ) (1 − 191 ) (27 − 191 ) (27 − 191 )
+ + + +
88×4 88×20 88×54 88×54
88×43 2 88×16 2
(23 − 191 ) (10 − 191 )
+ + ) = 20.3568
88×43 88×16

2
𝜒0.99;5 = 15.1. Таким образом, поскольку статистика t, вычисленная по
2
фактическим данным не удовлетворяет неравенству 𝑡 ≥ 𝜒0.99;5 , то выдвинутую
гипотезу об однородности данных следует отвергнуть.

Последний рассматриваемый вариант – группировка данных по группам и


успеваемости.

Рис. 5

Вычислим статистику по фактическим данным:

30
50×4 2 50×20 2 50×54 2 50×54 2
(1 − 191 ) (10 − 191 ) (19 − 191 ) (13 − 191 )
𝜒𝑛2 = 191× ( + + +
50×4 50×20 50×54 50×54

50×43 2 50×16 2 43×4 2 43×20 2


(4 − 191 ) (3 − 191 ) (0 − 191 ) (3 − 191 )
+ + + +
50×43 50×16 43×4 43×20
43×54 2 43×54 2 43×43 2
(12 − 191 ) (11 − 191 ) (12 − 191 )
+ + +
43×54 43×54 43×43
43×16 2 53×4 2 53×20 2 53×54 2
(3 − 191 ) (1 − 191 ) (1 − 191 ) (13 − 191 )
+ + + +
43×16 53×4 53×20 53×54
53×54 2 53×43 2 53×16 2 45×4 2
(17 − 191 ) (15 − 191 ) (4 − 191 ) (2 − 191 )
+ + + +
53×54 53×43 53×16 45×4
45×20 2 45×54 2 45×54 2
(6 − 191 ) (10 − 191 ) (13 − 191 )
+ + +
45×20 45×54 45×54
45×43 2 45×16 2
(10 − 191 ) (4 − 191 )
+ + ) = 21.0434
45×43 45×16

2
𝜒0.99;15 = 30.6. Таким образом, нет оснований отвергать данную гипотезу
однородности.

2.4 Гипотеза о виде распределения

Если обратить внимание на таблицу из п. 2.2 , то можно заметить, что данные


сгруппированные по оценкам успеваемости имеют некоторую закономерность

Рис. 6
31
Рассмотрим гипотезу о нормальном распределении данной выборки. Для этого,
согласно теории из первой главы, рассчитаем теоретические вероятности.
𝑏 (𝑥−𝑀)2
1 −
𝑃(𝜉 ∊ [𝑎, 𝑏)) = ∫ 𝑒 2𝜎2 𝑑𝑥
√2𝜋𝜎 𝑎

Для этого найдем математическое ожидание 𝑀 и среднее квадратичное отклонение


𝜎.

4.5 ∗ 4 + 5.5 ∗ 20 + 6.5 ∗ 54 + 7.5 ∗ 54 + 8.5 ∗ 43 + 9.5 ∗ 16


𝑀= = 7.3377
191
1
𝜎2 = ×((4.5 − 7.3377)2 ∗ 4 + (5.5 − 7.3377)2 ∗ 20 + (6.5 − 7.3377)2 ∗ 54
191
+ (7.5 − 7.3377)2 ∗ 54 + (8.5 − 7.3377)2 ∗ 43 + (9.5 − 7.3377)2 ∗ 16)
= 1.42392

𝜎 = 1.19328. Рассчитаем теоретические вероятности.


5 (𝑥−7.3377)2
1 −
𝑃1 = ∫ 𝑒 2∗1.423922 𝑑𝑥 = 0.0224751
√2𝜋 ∗ 1.19328 4

6 (𝑥−7.3377)2
1 −
𝑃2 = ∫ 𝑒 2∗1.423922 𝑑𝑥 = 0.106085
√2𝜋 ∗ 1.19328 5

7 (𝑥−7.3377)2
1 −
𝑃3 = ∫ 𝑒 2∗1.423922 𝑑𝑥 = 0.25745
√2𝜋 ∗ 1.19328 6

8 (𝑥−7.3377)2
1 −
𝑃4 = ∫ 𝑒 2∗1.423922 𝑑𝑥 = 0.321973
√2𝜋 ∗ 1.19328 7

9 (𝑥−7.3377)2
1 −
𝑃5 = ∫ 𝑒 2∗1.423922 𝑑𝑥 = 0.207636
√2𝜋 ∗ 1.19328 8

10 (𝑥−7.3377)2
1 −
𝑃6 = ∫ 𝑒 2∗1.423922 𝑑𝑥 = 0.0689639
√2𝜋 ∗ 1.19328 9

Теперь находим значение статистики 𝜒𝑛2 .

32
(4 − 191 ×𝑃1 )2 (20 − 191 ×𝑃2 )2 (54 − 191 ×𝑃3 )2 (54 − 191 ×𝑃4 )2
𝜒𝑛2 = + + +
191 ×𝑃1 191 ×𝑃2 191 ×𝑃3 191 ×𝑃4
(43 − 191 ×𝑃5 )2 (16 − 191 ×𝑃6 )2
+ + = 2.2997
191 ×𝑃5 191 ×𝑃6
2
𝜒0.99;15 = 15.1 . Таким образом, поскольку 15.1 > 2.2997 , то нет оснований
отвергать гипотезу.

33
ЗАКЛЮЧЕНИЕ

В данной работе были изучены статистические критерии хи-квадрат, а


именно критерий согласия хи-квадрат, критерий сложной гипотезы, критерий
однородности и критерий независимости. Также были рассмотрены примеры
использования этих критериев. Общая мысль, объединяющая рассмотренные
гипотезы заключалась в том, чтобы подтвердить наличие связи между фактом
выраженности таланта и принадлежности человека к классу левшей. Несмотря на
то, что в результате исследования установилось, что нет оснований отвергать
гипотезу независимости, автор склонен полагать, что сомнения на этот счет имеют
место. К этому утверждению приводятся следующие доводы.

Прежде всего следует отметить, что исследование проводилось с неполными


данными механико-математического факультета. Существует неоднородность в
данных, что подтверждается проверкой гипотез об однородности. Несмотря на то,
что нет оснований отвергать три гипотезы об однородности, всё же гипотеза для
данных сгруппированных по курсам и успеваемости отвергается. Наличие этого
факта могло, в свою очередь, существенно повлиять на исследование гипотезы
независимости.

Помимо этого, следует также учесть тот факт, что левши составляют лишь от
1 до 10% населения. В нашем случае приходится 12 левшей на 191 студент. В
случае, если бы число левшей было больше, можно было бы объективнее оценивать
эмпирические данные.

Кроме того, следует четко различать, что хотя понятия талант и успеваемость
имеют некую схожесть, всё же эти определения имеют различные значения и не
всегда наличие одного требует обязательного наличия другого.

34
СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ

1. Ла за к о в и ч Н . В . , Ст а ш у лё н о к С . П . , Я бло н с к и й О . Л. Теория
вероятностей : учебник. – 3-е изд., с изменен. – Минск : БГУ, 2013.
2. И в ч е н к о Г. И., М е д в е д е в Ю. И. Математическая статистика.
М.: Высш. шк., 1984.
3. Теория вероятностей. Практикум : учеб. пособие. В 2 ч. Ч. 2 / Н. В.
Лазакович; под ред. Н. В. Лазаковича. – Минск : БГУ, 2014. – 175 с.

35
Распределение хи-квадрат

36