Вы находитесь на странице: 1из 22

Math-Net.

Ru
Общероссийский математический портал

И. Н. Володин, Проверка статистических гипотез о типе рас-


пределения по малым выборкам, Учен. зап. Казан. ун-та.,
1965, том 125, книга 6, 3–23

Использование Общероссийского математического портала Math-Net.Ru подразуме-


вает, что вы прочитали и согласны с пользовательским соглашением
http://www.mathnet.ru/rus/agreement

Параметры загрузки:
IP: 209.205.217.124
20 июля 2022 г., 11:37:16
КАЗАНСКИЙ ОРДЕНА ТРУДОВОГО КРАСНОГО ЗНАМЕНИ
ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ им. В. И. УЛЬЯНОВА-ЛЕНИНА
Том. 125, кн. 6 Ученые запаска 1965

И. Н. ВОЛОДИН

ПРОВЕРКА СТАТИСТИЧЕСКИХ ГИПОТЕЗ


О ТИПЕ РАСПРЕДЕЛЕНИЯ ПО МАЛЫМ ВЫБОРКАМ

ВВЕДЕНИЕ
Довольно часто на практике мы располагаем большим числом
малых выборок, причем все эти выборки есть результат наблюдения
одного и того же явления, протекающего при различных внешних
условиях.
Примером таких выборок "могут служить данные о сроках службы
однотипных изделий, эксплуатируемых на разных предприятиях; точ­
ность измерений, производимых одним и тем же прибором при раз­
личных условиях измерений; механические характеристики, снятые
с различных участков однотипных изделий; наконец, нестабильность
условий, при которых извлекается выборка, заставляет нас разбивать
выборку на небольшие группы.
Ввиду малости каждой выборки трудно что-либо сказать о каж­
дой в отдельности генеральной совокупности, из которой извлечена
выборка. Однако вполне разумно высказать гипотезу, что все эти
выборки подчиняются одному и тому же закону распределения, за­
висящему от некоторого числа параметров, которые могут быть раз­
личными для разных выборок.
Таким образом, перед нами стоит задача проверки статистиче­
ской гипотезы о том, что все выборки принадлежат некоторому
классу генеральных совокупностей, подчиняющихся одному и тому
же закону распределения и отличающихся между собой разве лишь
значениями параметров этого распределения, которые нам неизвестны,
и относительно их никаких гипотез не высказывается.
Дадим более строгую формулировку этой задачи.
Дано 5 выборок объёма пх,..., ns:
хп , ..., xin^ (/ = 1,..., s).

Требуется проверить гипотезу Н о том, что i-ая выборка есть ре­


зультат наблюдения случайной величины \t с /гс-мерной функцией
распределения F($t, х), (р, = (З п ,..., р/г), х = (xv ..., хт)), причем вид
функции F один и тот же для всех выборок, а параметры (^ могут
быть различными для разных выборок и нам неизвестны. Будем в
дальнейшем называть параметр р мешающим параметром.
Такого рода задача в менее общей формулировке впервые, по-
видимому, была поставлена Арлеем [1]. Дальнейшее развитие проверка
з
гипотез о типе распределения по малым выборкам получила в трудах
Диксона [2], [3] и Петрова [4], [5], [6].
Основная трудность при построении критерия для проверки
такого рода гипотез состоит в нахождении критического множества
/С, как некоторой части выборочного пространства, мера которого
Р(К) при справедливости гипотезы И не превосходит заданного
уровня значимости s. Эта трудность обусловлена тем, что Р(К) не
должна зависеть от мешающего параметра, поскольку он неизвестен.
Это требование к Р{К) заставляет нас рассматривать в качестве
гипотез очень узкие классы распределений. Насколько известно
автору, до сих пор рассматривались лишь одномерные распределения
типа F (—— j и многомерное нормальное распределение [7], при­
чем исследовался случай выборок равного объёма.
В данной работе задача проверки гипотез о типе распределения
по малым выборкам решается для выборок неравного объёма и более
общих типов распределений. В основном это класс распределений,
сводящихся путем некоторого преобразования выборочных значений
к распределениям типа F(- ), и класс распределений, допуска­
ющих достаточные статистики для мешающих параметров.
В главе II предлагается новый метод построения критического
множества, OCHOI ный на оценке мешающего параметра. В некото­
рых случаях это позволяет намного сократить объём работ при про­
верке гипотез.
Как и в работе [6], основное внимание уделяется выводу формул
для оценки числа наблюдений, необходимых для различения двух
близких гипотез при заданных вероятностях ошибок первого и второго
рода. Исследование ряда примеров подтверждает выводы А. А. Пет­
рова [6] о практической невозможности проверки гипотез о типе
распределения по очень малым (порядка 3—5 наблюдений) выборкам,
ввиду требования большого числа наблюдений, необходимых для раз­
личения двух гипотез. Однако, например, различение типов Пуассона
и Полна, а также различение экспоненциального типа и типа Вей-
булла требует незначительного увеличения числа наблюдений по
сравнению с проверкой этих же гипотез по данным одной выборки.
В дальнейшем будем придерживаться следующих обозначений.
Пусть xv..., хп — п независимых наблюдений случайной величины £.
Тогда: х —• выборочное среднее, S2 — выборочная дисперсия. В слу­
чае выборки из двумерной генеральной совокупности будем обоз­
начать через х и у выборочные средние и записывать выборочную
матрицу вторых моментов в виде

(ц у\
\ т
П S
2 I
Гипотетическое распределение всегда будем обозначать через
JF(P, X), а соответствующую функцию плотности через / ф , х), при
этом av — v-ый выборочный момент, /rcv — v-ый выборочный централь­
ный момент.
Через Р(А/И) будем обозначать вероятность события А в пред­
положении справедливости гипотезы Н.

4
— нормальная (0,1) функция распределения. Г (и) и В(и, г>) — соот­
ветственно гамма- и бэта-функции Эйлера,
Г(v i 1)
С"
Г (и +- 1)Г(и — и + 1)

dx
С =-. — ф(1) = 0-577216 -~ постоянная Эйлера.

Глава I

МЕТОД ИНВАРИАНТНЫХ СТАТИСТИК


§ 1.1. Построение критерия и исследование его мощности
Исторически первый метод проверки гипотез о типе распреде­
ления по малым выборкам при п1 = ... = ns = n предлагает выбирать
некоторую статистику -ц = ty(xu ..., хп), распределение которой Р(х)
не зависит от мешающего параметра р. Тогда проверка исходной
гипотезы заменяется следующей задачей: допустимо ли предположе­
ние, что выборка ^ = Ф(хп, ..., xin), (*=1, ...,s) есть результата
наблюдений случайной величины у\, имеющей функцию распределения
Р(х). Проверку этой гипотезы можно проводить с помощью одного
из обычных критериев (например, критерия X2 или критерия Колмо­
горова).
Таким образом, основная задача состоит в нахождении стати­
стики ф. Если существует преобразование /тг-мерного случайного
вектора <-:С = ср(р, £) такое, что распределение С не зависит от ме­
шающего параметра, то естественно искать статистику ф, инвариант­
ную относительно преобразования xi—*^(^t х(). Легко видеть, что
распределение таких статистик не зависит от р.
В случае, когда ср (j}, л:) — / — параметрическая группа преобразова­
ний /я-мерного пространства, отыскание инвариантных статистик сво­
дится к отысканию инвариантов группы <р« Для решения этой задачи
существуют общие методы (см. например, [8]).
В качестве примера рассмотрим одномерную функцию распре­
деления вида ^ОрО, Х)), где 1) <р(р, ± со) = + со, 2) <р (fJ, ^ — не­
убывающая аналитическая функция по х, 3) <р(Р, х) образует /-па­
раметрическую группу преобразования на прямой. Тогда на основании
теоремы Ли (см. [9], стр. 216) <р (р, л) можно представить в виде

eg (л:) 4 d
где g(x) — монотонная функция и g"1 — функция, обратная к ней.
Следовательно, в этом случае задача отыскания инвариантных ста­
тистик сводится к отысканию инвариантов группы дробно-линейных
преобразований.
П р и м е р . Пусть случайная величина имеет распределение типа
^\\~) г Наиболее распространенные распределения этого типа—
распределение Вейбулла и Паретто. Тогда g(x) = In x и С = In 5 имеет
распределение типа р(*'
\ ь
Все статистики, инвариантные относительно преобразования xi—>
Y . /у
—>— , ( * = 1 , ..., п) есть некоторые функции от п — 2 переменных:
х х
Х2 — Х\ п _i ~~ \
и
1 — > ••• » ип—2 —
х x
Хп \ %п -l

Нетрудно показать, что совместная функция плотности uv ...


... , ип_2 в предположении, что хг, ..., хп — п независимых наблюдений
случайной величины £ с плотностью f(x) имеет вид:
оо оо
2
P{ti>-*tn-2)=\f dy U{x)\f(x + y)f(x + ty)...

... f(x + tn_2y) + f(x - y)f(x - txy)... f(x - tn_2y)] ax.


Рассмотрим, наряду с гипотезой Н0 — тип распределения F0, не­
которую альтернативу Нх — тип распределения Fv Если мы найдем
какую-либо статистику ф ^ , ..., хп), распределение которой не зависит
от мешающего параметра как при справедливости гипотезы // 0 , так
и при справедливости гипотезы Нъ то к выборке \ = ty{xn , ...,л: /я ),
( 7 = 1 , . . . , $ ) мы можем применить наиболее мощный критерий Ней­
мана — Пирсона или последовательный критерий Вальда.
Рассмотрим несколько примеров.
1. // 0 :выборки принадлежат нормальному типу. Альтернатива —
отрезок ряда Грамма — Шарлье типа А ([10], стр. 247).
2. Н0: экспоненциальный тип. Наиболее распространенные аль­
тернативы: гамма тип или тип Вейбулла [11].
3. Н0: пуассоновский тип. В качестве альтернативы можно взять
отрицательно-биномиальное распределение [12] или распределение
Полна [13], связанное с отрицательно-биномиальным распределением
простым соотношением параметров.
4. Н0: тип Вейбулла. За альтернативу можно взять обобщенное
гамма-распределение, введенное Стейси [14].
Для всех этих примеров родственным является то, что альтер­
натива Fx кроме мешающего параметра зависит еще от некоторого
параметра а, который при некотором значении а0 дает гипотетиче­
ское распределение F0. Без ограничения общности можно положить
«о = 0-
Таким образом, имеет смысл рассмотреть совокупность гипотез
На, зависящих от параметра а, и выдвигать гипотезу Н0 — тип рас­
пределения F0 (p, х) при альтернативе На — тип распределения Fa (p., х).
При таких гипотезах распределение Ра инвариантной статистики ф
будет полностью определяться видом функции F и значением пара­
метра а.
Вообще говоря, распределение Ра будет различным для разных
выборок хотя бы потому, что выборки имеют неодинаковый объем.
В связи с этим мы несколько обобщим результаты Петрова [6|. Для
простоты будем считать параметр а одномерным. Обобщения на
многомерный случай очевидны.
Пусть ра1 (у) ~ плотность распределения статистики \ , построен­
ной по /-ой выборке при справедливости гипотезы На. (В случае,
когда рассуждения ведутся относительно любой из 5 выборок, ин­
декс I у pai будем опускать).
6
За критическое множество по аналогии с [6] возьмем часть вы-
орочного пространства, ограниченную неравенством

poi
1 1
где с при заданном уровне значимости е находится из уравнения
P{t>c\H0\ = i.
Вероятность ошибки второго рода, то есть вероятность принять
гипотезу Я0 в случае, когда справедлива гипотеза На , равна
a) = / > { T < c j # a }.
Обозначим через ат, о^ рз соответственно среднее значение, дис­
персию и третий абсолютный центральный момент случайной вели­
чины In pJPo в предположении справедливости гипотезы Hz, (т = 0, а)
и пусть:
A. В выборочном пространстве, индуцированном статистикой т^.,
найдется множество Xt такое, что pai(vi)>0 для всех ri.^-Xi и всех
а в некоторой окрестности точки 0.
B. Случайная величина т асимптотически нормальна с парамет-
s s
рами т т = 2 а т / и
^ " S 0 ? / (ДЛЯ этого достаточно потребовать вы-
1 1
полнение условия Ляпунова, 110], стр. 241): lim /?х/бт = 0, где /?* =

1
C. Функции pai{r^ ( * = l , . . . , s ) и их частные производные до
второго порядка включительно непрерывны по а в окрестности точки
a - 0.
D. Функции [чМ, a)fpa/(vj), (v = 0, l, 2) интегрируемы равномерно
при всех а из некоторой окрестности точки ог==0.
Тогда [15]
2аа ~ - 2а0 ~ * ~ ^ = а*М0 {[(^- In P a (l))J} + О И , 0 Л)
p 3 a-pg = a W o { [ ( ^ l n / i e ( 4 ) ) o , J | + Q(a4)f
где знак ~ означает асимптотическое равенство при а—»0.
При я близких к нулю, отбрасывая члены порядка О (а3) и по­
лагая
а м 1прМ
'= * °{(т. )$'
запишем следующие выражения для вероятностей ошибок первого
и второго рода:

Ев/
1
с+
е= 1 Ф +.?о(*. с>»

•":5>
(L2)
со = ф I _L_ + ? (S> C),

j/s«
где 9о и ?в ПРИ выполнении условия 5 стремятся к нулю при s—+oo.
В этом случае при достаточно больших s, отбрасывая 9о> получаем
выражение для с:

* = '-

где tt—корень уравнения 1 — Ф (tt) = s.


Естественно поставить вопрос о числе наблюдений, необходимых
для различения гипотез Н0 и На при заданных е и со. Уравнение для
определения необходимого числа выборок 5 в принципе можно по­
лучить, исключая параметр с из системы
в = Р{т>£|Я0},
<о = / Ч т < с | / / } ,
что часто невозможно сделать из-за сложности распределения слу­
чайной величины у. Однако, при больших s, отбрасывая в системе
(1.2) <р0 и сра, получаем следующую приближенную формулу:

Тем же методом, что и в работе [6], можно показать, что эта


формула асимптотически точна при а—>0.
В случае выборок одинакового объёма положим

••-*4[&""-)J}-
Тогда
*. + С \з 1
и общий объём наблюдательного материала, необходимого для раз­
личения гипотез Н0 и На по выборкам объема п, равен
*=«~(-Ц^-)Ч, *,,—£- (1.4)
З а м е ч а н и е . В случае выборок разного объёма положим

M[(i'"'-)JI-
Если сл = max с не зависит от 5, то (1.4) можно рассматривать как
верхнюю оценку необходимого объёма наблюдательного материала.
Введем еще один показатель эффективности при выборках оди­
накового объёма (см. [6], § 6).
Пусть по одной выборке объёма N
х1У...,х~ (1.5)
мы хотим различить две гипотезы:
Я0 — выборка (1.5) есть N наблюдений случайной величины S,
имеющей функцию плотности /0(fJ, х);
На — выборка (1.5) есть N наблюдений случайной величины S,
имеющей функцию плотности / а (Р, х).
Параметр (J предполагается известным.
Тогда, при некоторых ограничениях на. плотность / а (Э,х), число
наблюдений, необходимых для различения гипотез Я0 и Яа при за­
данных s и о), определяется по формуле (см. [15], § 1):

л-(-4^)4.
где »-»(?)-.*„{[(£in/.)J].
Введем величину

Иными словами, £rt(fJ) равно отношению общего объёма наблюдений,


необходимых для различения гипотез Я0 и На по выборкам объёма
я, к числу наблюдений, необходимых для различения гипотез Я0 и
На по данным одной выборки при тех же вероятностях ошибок
первого и второго рода.

§ 1.2. О различении распределений Пуассона и Полна


по большому количеству малых выборок
В этом параграфе на примере различения распределений Пуас­
сона и Полна мы остановимся на возможности использования доста­
точных статистик для мешающих параметров при проверке гипотез
о типе распределения по малым выборкам. Для простоты будем счи­
тать, что все выборки имеют одинаковый объём.
Пусть гипотеза Я0 утверждает, что /-ая выборка состоит из п
взаимно независимых случайных величин Xu(j=\, ..., /г), одинаково
распределенных по закону Пуассона
Л/
' Р0\Хи = х\=е Д.. (* = 0 ' ]> 2 — ) - С1-6)
В качестве альтернативы Я« рассмотрим распределение Полна

Рл \Хи = х\ = С\ (1 - аХ(.)>Х.)\ (1.7)


+Х—1
а

( х - 0 , . 1 , 2,...), ( o < a < - L ) .


Поскольку статистика kt = ]£ Хи достаточна для параметра )7
у
как в случае распределения (1.6), так и в случае распределения
(1.7) (см. [16], стр. 72), за критическое множество возьмём часть
9
выборочного пространства, ограниченную неравенством у > с, где
s

Г, = In ,

A (£,.) = />T{jfn = * , , , . . . , * t o = *,„/X; *„ = * , } , (Х = 0, а).


7= 1

Легко убедиться, что

п с»
W (Х V/ о /АЧ ' " ' Т+ЛГ<Г1

Если а->0, то Р*\Х = х\-+ Р0{Х=х\ и Р« {k)->P0(k).


Далее:
rf , n m i i Tvi 9 £2 л —l
'•"•<*)L.-JDB*?-r-"-7
1
и на основании формул (1.1) получаем
а. (А,.) ~ - а0 (kt) ~ 1 о» (А,) ~ I «2 (*.) =

= — ( « - 1 ) ^ , ( ^ . - 1 ) [1+0(а)],

й(*/)-й№)-т л »{Е^-т- 1 т 1л П +
1

Легко проверить, что мЛ( V xj Л 1 есть многочлен от kf


1
степени не выше трех. Следовательно,
s 13
{ак + f ф +rf)н (а)
Г"7 £ ^ **' " ° 1
1) л— 1
nyJiStr
при s—*оо, где а, £, £ и d—некоторые функции от п.
Таким образом, статистика у распределена асимптотически нор­
мально и на основании формулы (1.3) имеем

S'.('H,^(^J
Для того, чтобы выяснить смысл коэффициента в правой части
этой формулы, положим Xj = . • >=\s = \. Согласно формулам (1.6) и (1.7)
е-п\ УП У , если верна Я 0 ,
У-
п
СУ (1 — аХ)~*~ (ак)>\ если верна Я , .
— + *'- 1

Поэтому

и, значит,

М,1%т~\)}~8Г1^~^(±^-у, (. = 0, а).
1

Таким образом, в среднем, общее количество наблюдений, необ­


ходимое для различения Я 0 и Я« при заданных е и о>, выражается
формулой:

]\ = sn^ — , (а —* 0)
№ П-1 \ а )
Если бы для различения Я 0 и Я а использовалась одна единствен­
ная выборка объема Л, то легко показать, что статистика
лг
Т = In Р а (к) - In Р0 (к), (к = S * , )
1

распределена асимптотически нормально и при Я 0 и при Я а . Поэтому


условный критерий для различения Я 0 и Я а при заданных s и ш
требует такое количество наблюдений TV, при котором
Х2
2^2 (tz + t(ti
Л(А—1)—^^- - - , (а->0).
а
TV—1 \ /
Н о
Мх {к (к - 1)} ~ A W , (т = 0, а)
и поэтому, в среднем

Иными словами, если а—>0, то при фиксированных X, s и w имеем:

Следовательно, различение гипотез Я 0 и Я а по малым выборкам


объема п требует увеличения количества наблюдений примерно на
N/n — 1 по сравнению с количеством наблюдений в случае одной
единственной выборки. Этот результат показывает, что различение
распределений Пуассона и Полна по малым выборкам является более
обнадеживающим, чем проверка нормальности (см. [6]).
В заключение отметим, что так как указанные распределения
принадлежат экспоненциальному типу, а распределения достаточной
статистики полны (см. [16], гл. 4), то приведенный выше условный
критерий, трактуемый как безусловный, также является наиболее
мощным.
И
Глава II

КРИТЕРИИ С ОЦЕНКОЙ МЕШАЮЩИХ ПАРАМЕТРОВ


§ 2.1. Построение критерия и исследование его мощности
Рассмотрим, как и прежде, две близкие гипотезы: Н0 — тип
распределения F0 (р, х) и #« — тип распределения Fa (P, х). Пусть §. и
Э*, — некоторые состоятельные оценки мешающего параметра р, полу­
ченные по i-ой выборке в предположении справедливости соответ­
ственно гипотез Я 0 и / / а , такие, что

|ПП
/=1 А=1
/о On/» */*)
(2.1)

не зависит от мешающего параметра J3 как при справедливости гипо­


тезы Н0, так и при справедливости гипотезы НЛ .
В этом случае за критическое множество естественно взять часть
выборочного пространства, ограниченную неравенством

In - > с.
/= 1 А=1 /n(?J/. */*)
Таким образом, задача отыскания инвариантных статистик заме­
нилась задачей отыскания подходящих оценок мешающего параметра.
Найдем такие оценки в случае гипотетического распределения вида
,/х — а
) при условии, что у этого распределения существуют и
конечны первые два момента.
Оценивая а и b по методу моментов, то есть решая относи­
тельно а и b систему
ос

X — а
J'" ( dx = а2у

получаем состоятельные оценки


а= х —S Ь==

где т и о — с р е д н е е значение и стандартное отклонение распреде­


ления F(x).
Подставляя а и b в — / (-—- ) и вводя величины
ь \ ь

7/ = In (2.2)
получаем требуемую критическую область т = V] Т/ > с-
В дальнейшем для простоты будет рассматриваться случай
равных выборок. Исследование неравных выборок можно провести
по той же схеме, что и в § 1.1.
А. А. Петров [6] в предположении существования третьего
абсолютного момента случайной величины 7/ как при справедливости
гипотезы // 0 , так и при справедливости гипотезы На, установил
следующую формулу для оценки числа выборок, необходимых для
различения гипотез Н0 и Я а при заданных вероятностях ошибок
первого и второго рода:
*е б 0 ь t* б« (2.3)
Д а — #о

асимптотически точную при а—>0 (здесь ат и бт — среднее значение


и стандартное отклонение случайной величины у£. при справедливости
гипотезы Нх , (т = 0, а)).
Найдем а%, а0, б а и б 0 для у,-, определенных равенством (2.2),
когда а — одномерный параметр. В дальнейшем на примерах мы
исследуем случай двумерного параметра а. Обобщение на многомер­
ный случай можно провести по аналогии с работой [15]. Поскольку
Т/ имеют одинаковое распределение, индекс / будем опускать. В тех
случаях, когда суммирование или перемножение производится от 1
до п, указание на индекс при символе Е или П тоже опускается.
Пусть а близко к нулю и
Vk (а, X) = /и* + аа •Ч — * , Х=(хг,..., хп).
S
A. Найдется множество X из /г-мерного выборочного простран­
ства такое, что / а (Л( а > ^)) > 0 Д л я в с е х ^ 6 ^ и всех а в некоторой
окрестности точки О.
B. Случайные величины tk имеют ограниченный третий абсолют­
ный момент.
C. Функции / а (х), та и аа и их частные производные до второго
порядка включительно непрерывны по а в окрестности точки О.
D. Функции
l7/(*, "а)ГП/.(**)> v = 0, 1, 2
интегрируемы равномерно при всех а из некоторой окрестности
точки О.
При этих предположениях имеем следующие разложения:
Ъ = п In —^ + а £ п / . ( Л ( « . *)) + а 2 № X),
Ja-0

ПМ**) = ГШ**) 1 +а£ 7- 1п


/«(**) + а2/?, (а, Л),

где /? и /?j — остаточные члены разложения.


Отсюда
:
аа Af. (Т,) = <*о+™ In - ~ М 0 { £ Гу- .In/. W J } +

+ аШо {'S [ ^ In / . ( Л (а, X)) J ^ X S { £ Ш/. <**)| J + РИ-


13
Поскольку М 0 { Г ~ ln/«(jc)1 1 = 0 (см. [6], стр. 261), то

а, - а0 = аШ0 { £ [•£ In / . ( Л (а, * ) ) ] ^ Х Б [ £ In /« ( ^ ) j j + О (а»)

-Л§{1[^1п/.(Л(«, *»],_„}]+ ° И = '

= «^{S[-£ln/.(.M«, ^))}=о) + 0(а').


Таким образом, пренебрегая членами порядка О (а3), имеем:

X - ( ^ ) ' ' -
ж ^-/.(-.^^)Ls rf-'11 / a (•**)
J
В случае гипотетического распределения вида F*(x — a)—
yk(a, Х) = та + xk~ x, а в случае F* (— )—yk(a, X) = та 4*- .
\&/ л*
Как и в § 1.1, имеет смысл ввести величину
sn = Ьп.пВ = ся9, сп = п-Вя,
К
N

где --.к •j-ln/.


'-fODT
Рассмотрим несколько примеров.
§ 2.2. Различение нормального типа и близкого к нему типа
с асимметрией и эксцессом
Гипотеза Яп
_ J_2 (х — а v
1 V W

гипотеза '#„ , a = (a„ a2):

• -7/-( £ 7-')-74 £ 7-')[ I + -''-( i T 1 ) +

где Hj (x)— третий, а Я 2 (х) — четвертый полиномы Эрмита, а


!/?(«.» д:)| <тах(а2,. а|) /?(х), где /? (х) — некоторый неотрицательный
на всей числовой оси полином.
•И
Оценки для мешающих параметров: а* = х, ti[ = S. Покажем, что
2 6л2 (/г-2) 2 24пз (д — 2) (я — 3)
- • + ^ - •• -

2 1 (П + (Я + 3 ) (Я + 1)2 (Я 3 ) (П + 5 )
S ~ (^ + *ю) ^ ^ +

2 V 2 У 12К2п ( / г - 2 ) 2 24/г (/г - 1) ( я - 2) (я—3)


л + 2
"!.Г ^LziA ( + 1) (« + 3) * (я + 1) (я н- 3) (я + 5)

(2.4)
Пусть tk = — . Тем же методом, что и в § 2.1, получаем:
Ъ = 2 In [1 + а,Я, (О + а2Я2 (/,) + /? (а, tk)\ =
= в1ЕЯ, (tk) + а2 Е Я2 ( ^ + max (orf, еф S /?, (а, /ft),

П / . С**) = П/о (**) [1 + «, 2Я, (jcft) +


+ а2ЕЯ2(хА)] + max (а?, <ф /?2(а, * ) ,
где /?i и /?2 — остаточные члены разложения.
Пренебрегая членами порядка 0(тах(а3, аф), находим:
аа-а0~ М0 К Е Я, (tk) S Я, (*ft) + ах*2 [ЕЯ, ( д ЕЯ2 (х,) +
+ ЕЯ2 ( ^ ЕЯ, {xk)\ + «| Е Я2 (/ft) S Я2 {xk)\,
el-el- Dl {OLJIH, (Q + &рн2 {tk)\.
Поскольку
Я, (x) = x6- 3x, H2 (x) == x4 - 6Л:3 + 3,
ТО

Etf, (хЛ) = n (^5 3 + 3xS2 + x3 - 3 x),


Ш 2 (*Л) - л [(g2 + 3) Sl + 4xg^ + 6x2S2 + ! ? - 6S2 - 6x2 + 3],
где ^ и g2 соответственно выборочный коэффициент асимметрии и
эксцесса.
Используя известные выражения для моментов случайных вели­
чин х, 5, & и g-2 (см., например, [10] § 29.3), получаем формулу (2.4)-
Для определения s в случае только асимметрии или только
эксцесса достаточно положить в формуле (2.4) соответственно а2 = 0
или 04 = 0, в результате чего получаем результат Петрова (см/ [6],
стр. 266 и 268).
§ 2.3. Различение экспоненциального типа
и близкого к нему обобщенного гамма-типа
Гипотеза Н0:

т Ч т Н ' *.*>в.
альтернатива #« , а = ( а и ?2)
\«2 + 1

bJ \ bJ ft /a, + 1 \ V&/
4<х2 + 1 )
15
Это распределение, введенное Стейси [14], содержит в себе как
частный случай гамма-распределение (а2 = 0), распределение Вейбулла
(aj == а2) и многие другие.
В соответствии с § 2.1 имеем для мешающего параметра оценку
fte = — , где

xa,rl e-x rfx = . Uo-f 1 /


та /«1 + 1
(in) * V*2 f 1

W 0 = 1,

Покажем, что в этом случае


. / / \ ГС2 г я — 1
wY (n) 2*1* +
L *Y ('*) - — + u

О П
( / t - 1 ) (2n + 1) n i ~ i
+ a; — T — - я ф (л)~
ni 1 6
71 (/I f 1) I- (2.5)

Имеем:

ч 1
Ti = /t(a t + 1) In *г+^ +«ln «+
'a, + 1 '
\a2 + 1 / \a2 + 1 /

»)tl/ ou-t-1
a,S In 4^
«1 + 1 Л 4f
*2 + 1 /

Из формулы (2.3) следует, что величина 5 не зависит от неслучайных


слагаемых в ?,•, поэтому, полагая
a2+l

h^*i [Ъ\пхк — п ln(£jcj &2 + г) s ( f r .

L \«2 + 1 / J
получаем
« = «Ы. <* = 0, а),
а. — Оо = Af. { т*} — ЛГо
Разложим ?й и / а (х) в ряд Тейлора в окрестности точки (0, 0):
/« (х) = е-* [1 + а, (С + In х) + а2 (1 — С - A- In JC) -f
+ max(a2, оф/?(а, x)],
I = a, [ J In x„ - n In (5>A) - 2 ^ 1 - a 2 S ^ In 4 1 +

+ max (of, вф /?j (a, ^ ) , (2.6)


16
где R и /?! —* остаточные члены разложения. Пренебрегая членами
порядка 0(max(a^, ajj)), получаем:

а, - а0 - Л10 j I а, (S In xft - /J In (£xk)) - o2«^ln(S-«*) ~ )J X


•«*
X [a, (nC + Ц In JCA) + a2 « ( 1 - C) - 5 X l n •**))}
60 - 6a - Do k (S l n xk~ л ln
(S **)) +
, 2jXft In л: Ач -
+ а2Я (l n Q>„)- — )j. (2.7)
i*k

Для вычисления вышеприведенных математических ожиданий до­


статочно знать совместное распределение хи х2 и £хА, где xvх ..., хп —
п независимых случайных величин с функцией плотности е~ , (х>0):
1
(z — x—y)u « ~ 3"e- z Л
в области z > у + х
/"(*> .У. *) = г(л-2)
[ 0, вне этой области.
Используя это распределение, после несложных, но громоздких
вычислений находим:
•68-62- — - я - > (/г) + 2al0c2 ^ У ( / г ) - ^ + (/г-1)] +
О
2
2л ТС2 ( л - 1 ) ( 2 я + 1)'
+ а2
_ л + 1 ___
6 „у („)___ л+1
что доказывает (2.5).
Из результатов работы [15] следует, что для различения этих
же гипотез по данным одной выборки при тех же е и ш и известных
b и а требуется количество наблюдений, равное
N~ (t + tj AfJT1 {fo (С + In x) + a2(l - С - x\nx)]2\ =
/ i

В случае различения экспоненциального типа и гамма-типа (<х2 = 0)

(f-0"',
с. = ( — - 1 1 9
= -^-.

Ф'(*) > 1 , Л *2/


В случае различения экспоненциального типа и обобщенного экспо­
ненциального типа (0^=0):
Г 2я т£_ ( л - 1 ) ( 2 л + 1)
[ л+1 6
- /и|/ (д)
Г'
(f-з)" ,-v-cf + afi-c)
2
К=
(т~с) + (1~С)2 >1,
л +1 6
(|-с) + (1-с)2

А-495.-2 17

И/
81
0 0 0 0 1 0 С О О О Ч О С Д ^ О : Ю > - О С О С О Ч О ) С Л ^ С О Ю
оооооооооооооооооооооо»—чо
G5 0 J О СО ^ <-> Q >-'-^OiCOOJt^^O^COO^-^tOCO^Crtai
II*
'ЮЬОЬОКЭСО^ОСл
о
О^ЮЮС04^^СЛСлСлСЪО>^С»СООЮСлС04^Сп(ХКЭ
О05О004^СЛ"0>—'Hf^CDb^cOC^CnCTiCOOOCOCD-ObO^OO
оооооооооооооооооооооо
b b b b b b b b o ^ t - ' ^ M Ml M s M t O t o 1 C d ^ i o o :
•Й*СЛСГ>СЪ-^ООСОСОСОО>— *-*l 04^Cn^'— СЛ4^СООЗОС
<-*05000СД050^00С000000005СОО(ООСдООСХ! II -
оосс-о^-о^сосоюослоо^со^юоооо О ц,
Ч 0 ) Ю Ю С л С л Ю ' - 0 0 С 0 0 0 С л С 0 О С л Ю ^ н - 0 0 О О 5 0 0
о«
О CD
ОС04^СЛООО»-ЧОС04^а5000СО^ЮОЮ^ООООО о
Онй*4^С0ОС0СПСл^С04^С0^^СЪсО0>ЮСЪСХЭС0О
ОСЛООСЛ«-ЮС00^01^00000ЮФ.СОС005ЧОСОО
4
Ю Ю
С Л О О О — Ю Ю С О С О ^ ^ С Л С л С ^ О О С О О Ю О Ю С л О Ч ^
ОоЮ^4^СлС©ЮС^ОСЛ>-^с0^ОС0С0СЛнР^С^00ЮС0С7>
ел»—^сл04^4^оо^^соаэослсо^юсъсо»^а>а>-^ 11
1
сяо^оюос^оооо^ччч'Ч-очюосоооюоюсла)
СЛООСО^СЛ-^-^ООСОСОО»—1Ю4^О500»—'СОСХЭСЛСЛГО^СО
О С п с ^ 4 ^ С л ^ Ю С л н - О ^ ^ О ^ 4 ^ С л Г О ^ 0 5 й ^ С Г ) 0 0 а 1 С 0
О О О О О О О О О О О О О О О О О О О О О О » - ^ » - '
05CT3G^C^<^C^O^O^C5G50^050^0^0^"^'<l'<J"<lfc<IOOOOOCo
^Сл<ССЪ10Ь04^^0СО^Ю^4^»-^ОСХ5СЪелЮСО^ООО
О Ф С О Ю Ч Ч Ю С Й С О О Ю С О С О О О С л О О О Ч ь - ' ^ Ч ^ II CD
СлО\
О 4 ^ ^ О ) Ч 0 0 С 0 С £ ) О » 1- - » - 1 Ю С 0 ^ а 1 Ч ' - - Ю О 5 » - ' 0 0 О ^ С д
40000COC04^CO*'»- 0005CJ;cOi-'OOOCnOOCOi-'^bO
^СЛ^СОЮОО^СООО^СОС^С^С^Ф-ЮНЙ-^ОООСЛО^»—'
СоООСОСОСОО^С^4^4^4^4^4^4^4^4^4^ь^4^СлСлСл0200|4^ о
^ G > 4 0 0 0 0 C D C 0 O O O i - l t O t O W ^ 0 i O i 0 0 O ^ C D C ) 0 a i t O я
^ О С 0 О Ч Ч С 0 Ю 0 5 00СлОСй00ЮС0 0 5 а к 0 Ю ^ Ю Ю ^
С О О С Л С Я О Ю С О С О О О С О О Ю ^ Ч С Л С П С О С Л С П О С ' - ' С Л — СО
ОоаЮОС^СпОСОСОСлОО)ЮСоОСоа;СОС^СЛ^Сл4^С^
II * f
рёй
4 ^ £=» В
COtT щ
чоооооооосооюазююсоооооо»-» * Ю СО СЛ СО ОО
СОСЛОООСОЮЮСО^Ф-О^ЧОООЮСЯООЮООСЛЧООСОО
СОС75СП»—'СГ.ООСО^-' - ^ » - ^ С О - < 1 Ф - С л О > - * 4 ^ 0 ^ 1 С Т ) О С Г ! ^
0 ; О С о С Л С Л ^ Ю К Э С о К 3 ^ 4 * - " * - 4 0 5 ' - - а 5 СП С Т 5 С Л 0 0 » — ' С О С 0 4 ^
ID
М)-ЬОЮЮЮЮМЮЬЗЮЮК:Ю10СОСОСОСОС0^4^СЯОО
^ С С О » - 4 Ю С 0 4 ^ С Л С Л С Л С Л 0 5 Ч Ч С О О > - ' Ю ^ Ч О С Л ^ О
О С О С О О О С 47 5 С О Ю » - А С Л * < | С О » — ^ с О ^ м О Ч О О н - ^ C D ^ о
00^СлОЧ»- 004^СЛСГ;<100^СОО»-'ОЮСЮЮ^С0»-'
2
' Ю Ю Ю Ю Ю М Ю О : С О С Л
О С 0 4 ^ С Л С 7 5 С Т ) - < 1 ^ 1 0 0 0 0 0 0 С Х ) С О С О О » — ' K D С 0 4 ^ С^ОО Ю С О Ч
О ^ ^ С Л ^ С Л Ю С О ^ о о ^ С П С О с О ^ ^ О Ю ^ С О О ^ С о О ^ - 1
В случае различения экспоненциального типа и тина Вейбулла
(ai = а 2 ):
П —-1 /т£ \_
с„ = п + 1 \ 6 п 7и2 6

~ + (1~С)2
о
kn =
/I — 1 /712 1 \
1, /eoo = i + 4-(i-c)2
П + 1\ б ^ /I /

Значения ся и &/г приведены в таблице 1.


Как мы видели, в случае различения нормального типа и близ­
кого к нему типа с асимметрией или эксцессом выражение для сп
при статистиках, рассмотренных Петровым [6], одинаково для обоих
критических множеств. Исследуем этот вопрос при различении экс­
поненциального типа и близкого к нему обобщенного гамма-типа.
За исходную статистику возьмем п~ 1-мерный вектор
K
k+i
1 = («i, ... Л - i ) , где \k k=\, ... , п— 1.
Легко показать, что совместная функция плотности £1Э ... , 1п_х
в предположении справедливости гипотезы Н* имеет вид:
оо п—1
1
A,('i> - • *п-1) = 1^ Ш П /.('**)** =
' 1
k=i

/1-1
Г ( и
V а2+ 1
(ff.,)"
= («2 + D' «1+1
/«t + 1 \
Г"
\«2 + 1 / 1 + S Ф ) МП +1

Из результатов работы [15] следует, что

в (Я, а)

где
'(•••>-*{№).+-.(^)J}-
= ^{e1[Sin^-«in(i + 2^)] +
1
п—1

2 ** in **
+ а2/г In 1
1 /г—1

2 1 ^ In л ^
= 0? I «i [2 In xk — /г In (SAT^I] + V* Tin (EJCA)
2л* )•

что совпадает с (2.7). Следовательно, и в этом случае мы получаем


те же значения величин сп и kn.
2
* 19
Поскольку статистика Zxk достаточна для параметра Ь гамма-
распределения, то для различения экспоненциального типа и гамма-
s
где
типа возьмем критическое множество J]TZ>£»
1
X
Ра (*/!> - > in/TiXik)
1п
ъ=
А) \^ХП> ••• > x
inl2jxik)
k
Имеем
(UxkT

1п/?а = 1пГ(д(а+ \))-л 1пГ(а+ 1) + а£11исЛ —


- ( * ( « + 1 ) - 1 ) In (£**),

( " £ • 1 п л ) = я* ^+пС+^1п ч
~ я 1п ^ ^
что с точностью до неслучайных слагаемых совпадает с главными
членами разложения (2.6) при «2 = 0. Следовательно, значения сп и kn
и при уел вной критической области остаются прежними.
§ 2.4. Различение равномерного типа
и близкого к нему бэта-типа
Гипотеза Н0:
If (£Л = 1, 0<х<Ь,
b J0\ b J b'
гипотеза // а , a = (al5 a2):
bJa\bJ b В(Я1 + 1, a 3 +l) 4 6 / \ b)
Оценка для мешающего параметра &* = т а х ^ , ... , xtt) = х(пК
Покажем, что объем наблюдений, необходимый для различения
вышеприведенных гипотез, выражается формулой:
N~(t, + t„)2 " + «| + 2a j a a (l-|)]x
п-\\
п—\
± 1
xU
I
+ a!(l
1
\
+ -
г L * ]
n — \Ldi
+ -r
п +-1
п(п — 1)
3 (я — 2)
4/7 ( / г - 1 )
3
2 (л —1)2
1 я*
п — 1 6

л—2 £+2 л—1


L_ V 4 V11\ + a a. (Jo. + я
V 1 _ 2 n ~ l it (2.8)
12
n -1 h k h i) \n -1 (n -1)2 h i n-\ 6
n—2 fc+2

fc=l 1= 1
Имеем:
Т/ = (л - 1) In Г (a, + <x2 + 2) - (n - 1) In Г (a2 + 1) -
n-l n-\
_ > _ 1 ) 1 п Г ( а 2 + 1)+ « ^ 1 ^ + ^ 1 0 ( 1 - f - ) ,
1 1

20
где xv ..., х„_1<х(п).
= ф (2) - <J» (1) + In л = 1 + In x,
d<Xi
<r=0

din/.
Ф (2) - Ф(1) + In (1 - *) = 1 + In (1 - x).
«=0

Следовательно,

1 1

a.-e 0 ~ilf 0 {[ e | J]ln-^ + « a 5 ] l n ( l - ^ ) ] X


1 1
П tl

a Л+ 1ПХ
X l( J] *) + «2 (^ + J ] 1П (1 - ЛГА))1}

Вычисляя соответствующие математические ожидания, полу­


чаем (2.8).
При различении тех же гипотез по данным одной выборки при
известном b и тех же е и о> получаем следующую формулу для не­
обходимого числа наблюдений (см. [15], формула 2.2):
N~ (f. + tmfMZl IK (1 + lnx) + a2 (1 + In (1 - x))]2} =
C+U2
a? + a | + 2aia2 Л _ L_ \

Соответствующие значения c„ и kn при at = a2 приведены в таб­


лице 1. Большие значения сп и kn и их медленное убывание при
п—+оо говорят о значительных трудностях при различении равно­
мерного типа и бэта-тина, связанных с требованием большого числа
наблюдений.

§ 2.5. Различение типа Вейбулла


и близкого к нему обобщенного гамма-типа
Пусть гипотезой служит распределение Вейбулла:
6VJCV"^-O/, х>0, 6>0,
а альтернативой—обобщенное гамма-распределение:
А*/*
х1-1 <г*х , х > О, 6 > 0.
Т(Щ

В соответствии с идеей § 1.1, пролагорифмировав выборочные


значения при основании е, мы заменим исходную гипотезу гипотезой
Н0 — тип распределения:
х—а
1 (х~а „ь )
_ е х р { _ _ _ _ , },
21
при альтернативе Н* — тип распределения:
1
; ехр((а + 1 ) ^ . - е * J,
ЪТ(ь+ 1)
где а = X/v — 1.
К сожалению, в этом случае не удалось получить явное выра­
жение для сп. Мы ограничимся здесь приведением некоторых формул,
необходимых для их вычисления.
/^а =Ф(« + 1), /И0 = ф ( 1 ) = - С ,
2 п

02 = f ( a + l ) , a2 = f ( l ) = | ,
О

=7lf(l)-
s[ 7-1п/.(Л(«,^))'
-2ехрГф(1) + ^ (1)^-Л Ф'(1) + 1 *"(1) ^*~*
2 |ЛбГ(!) 5

7- , n AW а=0 б

ЗАКЛЮЧЕНИЕ

Остановимся на ряде проблем, которые, по мнению автора,


представляют несомненный интерес при проверке гипотез о типе
распределения по малым выборкам.
1. Отыскание подходящей альтернативы для многомерного нор­
мального распределения. Это дало бы нам возможность выяснить
трудности, связанные с необходимым объемом наблюдений в много­
мерном случае.
2. Несомненный интерес представляет уточнение асимптотиче­
ской формулы (2.3) для определения объема наблюдений, необходи­
мого для различения двух близких гипотез или хотя бы указание
класса гипотез, для которого не только Hm s*/s = 1, но и lim (s* — s) = 0.
a->0 a-*0
3. Наиболее важная проблема проверки гипотез о типе распре­
деления по малым выборкам, по мнению автора, состоит в отыска­
нии оптимальной статистики, дающей минимум сп при заданных
# 0 И Иа .
Рассмотрение ряда примеров наводит на мысль, что все, по
крайней мере, кусочно-гладкие непрерывные без участков постоянства
статистики в этом смысле равноценны, однако строго доказать это
не удалось.
В случае гипотетического распределения вида / ^ ( Р , л:)), где
? (Р> х) — аналитическая группа преобразования, единственный эври­
стический довод в пользу высказанного предположения состоит
в том, что все статистики, инвариантные относительно преобразо­
вания */--»?(?, .*/), являются функциями одна другой.
4. При построении критерия с оценкой мешающего параметра
ставится задача о выборе этой оценки. Вполне возможно, что су­
ществует несколько оценок, при которых (2.1) не зависит от мешаю­
щего параметра. Интересен вопрос о выборе оптимальной оценки,
минимизирующей величину сп.
Не решен также вопрос о равноценности критериев, основан­
ных на инвариантных статистиках, и критериев с оценкой мешающего
параметра.
22
5. Наконец, проблема принципиальной возможности проверки
гипотез о типе распределения при любом гипотетическом распреде­
лении.
Единственное, что пока можно предложить, — это байесовский
подход к этой проблеме. Если мы a priori уверены, что мешающий
параметр Р является случайной величиной с функцией распределения
Rx (Р) при справедливости гипотезы # х , (т = О, а), то за критическое
множество для различения гипотез Н0 и На можно взять:
п
f I I / . (Р, •*/*) dRa (p)

2"^
м
><
J П/о(М/*)<«о(Э)
В случае, когда /?а(3) и /?0(Р) а priori неизвестны, можно рас­
смотреть оценки мешающего параметра по каждой выборке в пред­
положении справедливости гипотез Н0 и На и затем по выборкам
?о/ и К/» ( ^ 1» *•• ' 5) высказывать какие-либо гипотезы относительно
/?о(Р) и Я.(Р).
ЛИТЕРАТУРА
1. N. А г l e y . On the distribution of relative errors from a normal population of
errors, K. Danske Vid. Selsk., Mat-fys. Medd., 18, 3, (1940).
2. W. G. D i x o n . Analysis Extreme Values, Ann. of Math. Stat., 21, (1950),
488-506.
3. W. G. D i x о n. Ratios Involving Extreme Values, Ann. of Math. Stat., 22,
(1951), 6 8 - 7 8 .
4. А. А. П е т р о в . Проверка гипотезы о нормальности распределений по малым
выборкам. ДАН СССР, 76, (1951), 355-358.
5. А, А, П е т р о в . Проверка гипотезы о типе распределения по данным малых
выборок. Московский Инженерно-физический институт. Сборник научных работ
кафедры математики. Атомиздат, 1, (1958), 121—136.
6. А. А. П е т р о в . Проверка статистических гипотез о типе распределения но
малым выборкам. Теория вероятностей и ее применение, 1, 2, (1956), 248—271.
7. И. Н. В о л о д и н . Проверка гипотезы нормальности распределения по малым
выборкам (многомерный случай). Вероятностные методы и кибернетика, Казань, 3,
(1964), 2 1 - 2 5 .
8. Л. П. Э й з е н х а р т . Непрерывные группы преобразований. ГИИЛ, (1947).
9. Н. Г. Ч е б о т а р е в . Теория групп Ли. ГИТТЛ, (1940).
10. Г. К р а м е р . Математические методы статистики. ГИИЛ, Москва, (1948).
11. W. W e i b u l l . Statistic function of distribution with wide sphere of aplication,
W. Journ of Applied. Mechanics, 18, 3, (1951).
12. M. G r e e n w o o d , G. U. G u 1 e. An Inquiry into the Nature of Frequency
Distribution Representative of Multiple Happeninge, Journ. Roy. Stat. Soc, 83, (1920),
255-279.
13. G. P o l y a . Sur quelques points de la theoric cles probabilites, Annales de
e'Institut Heari Poincare, 1, (1930), 117—161.
14. E. W. S t a c y . A generalization of the gamma distribution, Ann. Math. Stat., 33,
3, (1962), 1187-1192.
15. С. А. А й в а з я н. Сравнение оптимальных свойств критериев Неймана —
Пирсона и Вальда. Теория вероятностей и ее применение, 4, 1, (1956), 86—93.
16. Э. Л е м а н . Проверка статистических гипотез. Изд-во „Наука", (1964).
Статья поступила 10/XI 1964 года.

Вам также может понравиться