Вы находитесь на странице: 1из 13

Тема 8

ПРОВЕРКА СТАТИСТИЧЕСКИХ ГИПОТЕЗ

Лекция 17

9.6. Сравнение дисперсии по выборкам одинакового объема


(критерий Кочрена)

9.7. Определение типа распределения с помощью


критерия Пирсона ("хи-квадрат")

9.8. Определение типа распределения с помощью


критерияКолмогорова

9.6. Сравнение дисперсии по выборкам одинакового объема


(критерий Кочрена)

Пусть имеется r независимых выборок одинакового объема n и по


ним найдены выборочные дисперсии S12 , S 22 ,...,S r2 с одинаковым числом
свободы k  n  1.
Требуется проверить гипотезу: значимо или незначимо отличаются
между собой дисперсии S12 , S 22 ,...,S r2 , т.е.
H 0 : 1   2       r
В качестве проверки нулевой гипотезы применим критерий Кочрена:
max S i2
G r
 Si2
i 1

Величина G имеет распределение Кочрена.


Критерием проверки того, что дисперсии однородны, служит
сопоставление величины G , подсчитанной по экспериментальным
данным, с критическим значением G , которое соответствует заданному
уровню значимости ε, числу сравниваемых дисперсий r и числу степеней
свободы k  n  1.
Если G < G , то считают, что истинные дисперсии одинаковы.
В противном случае этого утверждать нельзя.
Пример: По результатам замеров отклонений профиля крыла от его
теоретического контура в n = 58 точках на 34 крыльях вычислены
выборочные дисперсии S i2 , i = 1,...,34, представленные в таблице

2
Выборочные дисперсии S i

1,23 0,66 0,90 0,95 0,90 0,68 1,01 1,52 0,98


0,44 0,82 0,41 0,83 84 1,19 1,52 0,37 0,89
1,76 0,50 0,55 1,05 0,65 0,49 1,03 0,90 1,03
0,85 0,97 0,36 0,47 0,35 0,70 0,71

34
 Si2  28,51
i 1

Можно ли утверждать, что выборочные дисперсии S i2 , характеризу-


ющие разброс отклонений профиля крыла от его теоретического контура,
одинаковы?
Решение. Определяем по таблице максимальную дисперсию
max Si2 1,76
S i2 , = 1,76 и вычисляем величину G : G  r
  0,062 .
28,51
 Si2
i 1
По таблице распределения Кочрена для доверительного уровня
значимости ε = 0,01, числа выборочных дисперсий r = 34 и числа степеней
свободы k = 58 – 1 = 57 определяется критическое значение G = 0,0659.
Так как G < G , то разброс отклонений профиля крыла можно
считать одинаковым.

9.7. Определение типа распределения с помощью


критерия Пирсона ("хи-квадрат")

Ранее при проверке различных статистических гипотез


неоднократно делалось предположение о типе распределения
исследуемых величин (случайной величины Х ). Поэтому возникает
задача проверки типа распределения. Задача нахождения типа
распределения имеет большое значение при решении задач теории
надежности, массового обслуживания и других, где требуется
прогнозирование появления тех или иных событий.
Проверка гипотезы о предполагаемом законе распределения
проводится так же, как и проверка гипотезы параметров распределения по
критерию согласия .
Имеется несколько критериев согласия для проверки гипотезы
закона распределения: -критерий Пирсона, Колмогорова, Смирнова и
другие. Мы ограничимся рассмотрением критерия Пирсона, который
основан на сравнении эмпирических (наблюдаемых) и теоретических
(вычисленных на основе предполагаемого распределения) частот.

Сравнение частот по критерию согласия позволяет на основе


результатов экспериментов ответить на вопрос: случайно расхождение
частот или неслучайно?
Возможно, что расхождение частот случайно (незначимо), и это
объясняется либо малым числом наблюдений, либо способом их
группировки, либо другими причинами. При этом эмпирические и
теоретические частоты соответствуют предполагаемому распределению.
Возможно, что расхождение частот неслучайно (значимо), и
объясняется тем, что эмпирические частоты не соответствуют
предполагаемому теоретическому закону распределения.
Определение типа распределения можно разбить на два этапа.
 Выдвижение предположения о типе распределения.
 Проверка этого предположения.
В некоторых случаях на основе предыдущих исследований уже
предполагается тип распределения, поэтому задача сводится только к его
проверке.
Рассмотрим задачу проверки статистической гипотезы о нормальном
распределении.
В общем случае исследование нормального закона распределения
начинается с построения гистограммы.
1) Весь интервал наблюдаемых значений случайной величины Х –
выборки x1 , x2 ,...,xn объема n, делят на r частичных интервалов ( x j , x j 1 )

одинаковой длины. Находят середины частичных интервалов


x*j  ( x j  x j 1 ) / 2 . В качестве частоты n*j варианты x *j принимают число

вариант, которые попали в j-ый интервал. В итоге получают


последовательность равноотстоящих вариант x1* , x2* ,...,xr* и соответствую-
r
щих им частот n1* , n2* ,...,nr* , сумма которых равна  n*j  n .
j 1

2) Если основные параметры распределения m и  2 неизвестны, то


вместо них используют их выборочные оценки x и S 2 . Вычисляют
выборочную среднюю x * , выборочную дисперсию S *2 и нормируют
случайную величину Х. Переходят к нормированной случайной величине
Z  ( X  x * ) / S * и вычисляют концы интервалов ( z j , z j 1 ):

z j (x j  x*) / S*, z j 1  ( x j 1  x * ) / S * ,

при этом наименьшее значение случайной величины Z , т.е.. z 0 , полагают


равным «   »,а наибольшее, т.е. z r 1 , полагают равным «+  ».
3) Используя функцию Лапласа Ф(z) вычисляют теоретические
вероятности p j попадания Х в интервалы ( x j , x j 1 ) по равенству

p j  Ф( z j 1 ) Ф( z j )

и находят теоретические частоты n j  np j . При этом необходимо следить,

чтобы np j ≥ 5. Если это условие не соблюдается, то необходимо

увеличить длину интервалов разбиения.


4) Для нахождения меры отклонения эмпирических частот от частот
предполагаемого нормального распределения используется величина
r (n*j  np j ) 2
 
2
 np j
,
j 1

которая распределена по закону «хи-квадрат» с числом степеней свободы


k  r  1  s , где r – число групп (частичных интервалов), а s – число
параметров предполагаемого распределения (в частности, для
нормального распределения s = 2 (параметры m и  2 )). Если, например,
предполагают, что генеральная совокупность распределена по закону
Пуассона, то s = 1 (так как этот закон харктеризуется параметром  ). Для
равномерного закона распределения s = 0.
Критерием проверки (значимости) служит сопоставление величины  2 ,
подсчитанной для значений частот n*j с табличным значением  2 ,

которое соответствует заданному уровню значимости ε и числу степеней


свободы k = r – 3.
Если окажется, что 2<  2 , то говорят, что данные не
противоречат выдвинутой гипотезе о нормальном распределении
случайной величины Х. В противном случае этого утверждать нельзя, так
как распределение существенно отличается от предполагаемого.
Необходимо отметить, что величина 2 имеет «хи-квадрат»
распределение при достаточно больших n , однако удовлетворительные
результаты при проверке гипотезы получаются уже при n > 100 .
Пример: Требуется проверить гипотезу о нормальном
распределении отклонений замеров профиля крыла от его теоретического
контура в n = 58 точках на 34 крыльях.
Решение. После выполнения пунктов 1 – 3 для подсчитанных

значений x = 0,45 мм., S 2 = 1,52, S = S 2 = 1,233 мм необходимые


данные с промежуточными расчетами приведены в форме таблицы.
Граница x j  x*
№ интервала n*j zj  Ф( z j ) pj np j 2
п/п
S
xj
0 1 2 3 4 5 6 7

1 - ∞ : -2,5 0 - ∞ : -2,389 0,0000 0,0082 0,4756 0,4756


2 -2,5 : -1,5 4 -2,389 : -1,579 0,0082 0,0489 2,8362 0,4776
3 -1,5 : -0,8 7 -1,579 : -1,012 0,0571 0,0991 5,7478 0,2728
4 -0,8 : 0,0 13 -1,012 : -0,364 0,1562 0,2032 11,786 0,1251
5 0,0 : 1,0 15 -0,364 : 0,445 0,3594 0.3106 18,014 0,5045
6 1,0 : 1,8 8 0,445 : 1,093 0,6700 0,1921 11,142 0,8859
7 1,8 : 3,0 11 1,093 : 2,065 08621 0,1182 6,8556 2,5054
8 3,0 : ∞ 0 2,065 : ∞ 0,9803 0,0197 1,1426 1,1426
1,0000
Сумма 58 1,0000 58 6,3895

Для проверки гипотезы нормального распределения определяем


значение  2 по сумме 7-й колонки таблицы:  2 = 6.3895.
Задаемся доверительным уровнем значимости ε = 0,05 и по таблице
«хи-квадрат» распределения для числа степени свободы
k  r  1  s  6  1  2  3 определяем критическое значение  2 = 7,9.

Поскольку  2 <  2 , то делаем вывод, что отклонения профиля


крыла от его теоретического контура распределены по нормальному
закону.

9.8. Определение типа распределения с помощью


критерия Колмогорова

Критерием согласия Колмогорова называют критерий проверки


гипотезы о предполагаемом законе неизвестного распределения F(x).
Критерий А. Н. Колмогорова применяется для проверки
гипотезы о непрерывной функции распределения случайной величины X.
Пусть заранее известно, что функция распределения
исследуемой случайной величины X – непрерывная. Выдвинем гипотезу
H 0   X  Fx  ,

то есть предположение, что функцией распределения случайной величины


является выбранная нами из каких-то соображений непрерывная функция
F(x).
Требуется принять или отклонить эту гипотезу по реализации
x n  x 1 ,...,x n  случайной выборки  n   1 ,..., n  независимых
измерений X.
Для решения этой задачи введем статистику  n  критерия
проверки гипотезы H 0 в виде случайной величины:

 
Τ Χ n  sup F x   F x  ,
~
 
x
 

где F x  – статистическая функция распределения.


~

Реализация t статистики Τ Χ n  , соответствующая выборке


x n  x1 ,..., xn  , может быть найдена по формуле

t  max F  x  - F x  ,
 
x
 

где F  x  – реализация статистической функции распределения F x  .


~

Доказано, что ( если H – истинна)  Τ  D . Здесь D – случайная


величина, распределенная по известному закону Колмогорова. Для этой
величины, используя таблицы или формулы распределения Колмогорова,
можно найти t  из условия:
D  t    ,

где  – вероятность практически невозможного события, и,


следовательно, событие D  t   – практически невозможное.
Из предыдущих соотношений следует: [ если H 0 - истинна]
  t     , то есть: [если H 0 - истинна]  [   t  - практически

невозможно].
Теперь с точностью до принципа практической уверенности можно
утверждать, что если гипотеза H 0 истинна, то реализации t статистики Т

не могут превосходить границы t  . Далее по закону контрапозиции


математической логики находим, что с той же точностью из неравенства
t  t  следует ложность гипотезы H 0 . Итак, с точностью до принципа
практической уверенности имеем:
( H 0 – истинна)  t  t   ;
t  t   ( H 0 – ложна).
Из этих соотношений следует, что неравенство t  t   необходимо
для принятия, а неравенство t  t   достаточно для отклонения
гипотезы Н (с точностью до принципа практической уверенности).
Руководствуясь этими соображениями, принимают следующее
правило решения поставленной задачи:
t  t    ( H 0 – принять);
t  t    ( H 0 – отклонить),
которое называют критерием согласия Колмогорова проверки гипотезы о
непрерывной функции распределения случайной величины. Алгоритм его,
очевидно, состоит в следующем:
1. Провести независимые n-кратные измерения случайной
величины X с непрерывной функцией распределения и получить
выборку x n  x1 ,..., x n  .
2. Исключить из выборки грубые ошибки.
3. Построить реализацию F  x  статистической функции
распределения.
4. Выдвинуть гипотезу F(x) о функции распределения случайной
величины X.
5. Вычислить параметр t по формуле 2.
6. Задать вероятность  практически невозможного события и
из таблиц распределения Колмогорова найти параметр t  .
7. Принять или отклонить гипотезу H 0   X  Fx  .
Доказано, что критерий А. Н. Колмогорова состоятельный и
в общем случае смещенный. Он более чувствителен к различию
гипотез, поэтому при прочих равных условиях может применяться
для меньших объемов выборки. Поскольку результат проверки
критерия t зависит от наибольших различий F  x  и F(x), то нет
необходимости построения F  x  и F(x) на всем диапазоне изменения
x; достаточно ограничиться областью наибольших различий F  x  и
F(x). Недостатком критерия является то, что точность его выводов
нарушается, если в формировании гипотезы о F(x) используются
характеристики эмпирических распределений, так как в этом случае
статистика Т зависит от F(x). Известные неудобства доставляет
также значительная трудоемкость построения статистики А. Н.
Колмогорова.
Пусть выборка xn=(x1,…,xn) измерений случайной величины Хn c
неизвестной функцией распределения F(x), о которой выдвинута основная
гипотеза Но: F(x)= Fо(x). Предполагается, что F0(x) - непрерывная
нормально распределенная функция. Статистикой критерия является
величина
~
Dn = Dn (x)= sup F ( x)  F0 ( x) , которая представляет собой
 õ

~
наибольшее отклонение статистической функции распределения F ( x) от
теоретической функции распределения F0(x).
Реализация t статистики Dn (x), соответствующая выборке
xn=(x1,…,xn), может быть найдена по формуле:
t = max F * ( x)  F0 ( x) , где F*(x)- реализация статистической
 õ

~
функции распределения F ( x) .
Для вычисления значений функции распределения F0(x) требуется
нормализовать выборку значений случайной величины Х, т.е. перейти к
случайной величине Y, которая является нормированной случайной
величиной Х: yi=(xi- x )/ S.
Далее необходимо задать вероятность а практически невозможного
события, заключающегося в том, что оценка функции распределения
отклонится от значения функции принятой в качестве гипотезы, на
величину большую, чем t.: P( T  t a )  a .
Затем необходимо задать Fо(x) в виде непрерывной функции,
рассчитать величину t, определить t.
Значение параметра t. Выбирается из таблицы Колмогорова, исходя
из значений вероятности а и объема выборки n.
Принять или отклонить гипотезу Н0 по решающему правилу:
Если (t< t), гипотеза Н0 принимается,
Если (t>= t), гипотеза Н0 отклоняется.

Упражнения

1. Случайная величина Х имеет нормальное распределение с известным


средним квадратическим отклонением   3 . Найти доверительные интервалы для
оценки неизвестного математического ожидания m по выборочным средним x , если
объем выборки n  36 и задана надежность оценки 0,95. Ответ 3,12 < m <5,09.
2. Количественный признак Х генеральной совокупности распределен
нормально. По выборке объема n  16 вычислены выборочные среднее x  20,2 и
среднее квадратическое отклонение s  0,8 . Оценить неизвестное математическое
ожидание m при помощи доверительного интервала с надежностью 0,95. Ответ
19,774 < m <20,626.
3. Количественный признак Х генеральной совокупности распределен
нормально. По выборке объема n  25 найдено выборочное среднее квадратическое
отклонением s  0,8 . Определить доверительный интервал покрывающий среднее
квадратическое отклонением  .с надежностью 0,95. Ответ 0,544 <  <1,056.
4. По двум независимым малым выборкам с объемами n1  5 , n2  6 найдены
выборочные средние x1  3,3 , x2  2,48 и дисперсии S12  0,25 , S 22  0,108 . При
уровне значимости 0,05 проверить нулевую гипотезу: H 0 : m1  m2 .
5. По четырем независимым малым выборкам одинакового объема n 17 из
нормальных генеральных совокупностей найдены дисперсии: 0,26; 0,36; 0,40; 0,42.
Требуется при уровне значимости 0,05 проверить нулевую гипотезу об однородности
генеральных дисперсий и оценить генеральную дисперсию.
6. Найти теоретические частоты по заданному интервальному распределению
выборки объема n = 200, предологая, что генеральная совокупность распеделена
нормально. Данные приведены в таблице
Номер Границы Частота Номер Границы Частота
интервала интервала интервала интервала
I xi xi 1 ni i xi xi 1 ni
1 4 6 15 6 14 16 21
2 6 8 26 7 16 18 24
3 8 10 25 8 18 20 20
4 10 12 30 9 20 22 13
5 12 14 26
n = 200
Контрольные вопросы

Доверительные интервалы параметров распределения


1. Что называется доверительным интервалом?
2. Что называется доверительным уровнем значимости?
3. Чем характеризуется точность оценки параметра распределения случайной
величины?
4. Чем характеризуется надежность оценки параметра распределения
случайной величины?
5. Запишите доверительный интервал для оценки математического ожидания
с известной дисперсией.
6. Поясните, почему при построении доверительного интервала оценки
математического ожидания с известной дисперсией используется функция
Лапласа.
7. Запишите доверительный интервал для оценки математического ожидания
с неизвестной дисперсией.
8. Поясните, почему при построении доверительного интервала оценки
математического ожидания с неизвестной дисперсией используется
функция распределения Стьюдента.
9. Как строится доверительный интервал для оценки дисперсии нормального
распределения при неизвестном математическом ожидании?

Проверка статистических гипотез при принятии решений


1. Как определяется нулевая гипотеза?
2. Что понимается под критерием значимости проверки статистических
гипотез?
3. Напишите формулы для сравнения средних и дисперсий двух нормальных
генеральных совокупностей соответственно по критерию Стьюдента и
Фишера.
4. Как сравниваютя дисперсии нескольких независимых выборк одинакового
объема?
5. Поясните, как определяется тип распределения по критерию Пирсона
(критерию «хи-квадрат»).