Открыть Электронные книги
Категории
Открыть Аудиокниги
Категории
Открыть Журналы
Категории
Открыть Документы
Категории
Ю.С. Процеров
МАТЕМАТИЧЕСКАЯ СТАТИСТИКА
Учебно-методическое пособие
Одесса – 2016
Печатается по решению Научно-методического совета ОНУ имени И.И. Мечникова
(протокол № 1 от 20 октября 2016 года).
Составитель: Ю.С. Процеров, канд. физ. – мат. наук, доцент кафедры методов
математической физики
2
Оглавление
§ 1. Основные задачи математической статистики ……………………………………… .4
§ 2. Статистическое распределение выборки. Полигон и гистограмма частот ………………….5
§ 3. Эмпирическая функция распределения ………………………………………………………..7
§ 4. Эмпирические моменты ………………………………………………………………………. .8
§ 5. Точечные оценки параметров распределений ………………………………………………..10
§ 6. Основные виды распределений случайных величин и их числовые
характеристики………………………………………………………………………………….12
§ 7. Метод моментов нахождения точечных оценок параметров распределений ………………14
§ 8. Метод максимального правдоподобия нахождения точечных оценок параметров
распределений ………………………………………………………………… ……………….17
§ 9. Теорема о свойствах логарифмической функции правдоподобия. Неравенство
Рао-Крамера …………………………………………………………………………….22
§ 10. Интервальные оценки параметров распределений …………………………………28
§ 10.1. Построение доверительных интервалов для параметров нормального
распределения ……………………………………………………………………….29
§ 10.2. Построение доверительного интервала для параметра распределения
Пуассона ……………………………………………………………………………..33
§ 10.3. Построение доверительного интервала для вероятности p биномиального
распределения …………………………………………........................................….34
§ 11. Статистическая проверка гипотез о значениях параметров распределений ………………37
§ 11.1. Проверка гипотез о значении параметров нормального распределения ………...40
§ 11.2. Проверка гипотез о значении вероятности p биномиального распределения …52
§ 12. Статистическая проверка гипотез о виде закона распределения …………………..59
§ 12.1. Критерий Колмогорова ………………………………………………………….......59
§ 12.2. Критерий Пирсона или 2 ………………………………………………………….61
§ 13. Элементы теории корреляции …………………………………………………….…..73
x2
1 2
Таблица 1 значений функции x e . ………………………..………………….79
2
x t2
1
Таблица 2 значений функции x 2 dt. …………………………….………..80
e
2 0
Таблица 3 значений t t , n ………………………………………………….………..81
Таблица 4 значений q q , n ……………………………………………………….……81
Таблица 5 критических точек распределения Стьюдента ………………………….…….82
Таблица 6 критических точек распределения 2 ………………………………………..83
Таблица 7 значений функции распределения Колмогорова
K x 1 2 1 e 2 m x ……………………………………………………..84
m 2 2
m 1
Ответы ……………………………………………………………………………………85
Литература ……………………………………………………………………………....87
3
§ 1. Основные задачи математической статистики.
5
Здесь также вместо частот ni могут стоять относительные частоты i .
Для наглядного изображения данных выборки используют графическую иллюстрацию
в виде полигонов и гистограмм частот. По статистическому распределению выборки
можно построить полигон частот или полигон относительных частот, то есть ломаную с
вершинами в точках xi ; ni или в точках xi ; i соответственно. На рис. 1 изображен
полигон частот следующего распределения выборки объема n 50
xi 2 3 5 6
ni 10 15 5 20
6
§ 3. Эмпирическая функция распределения.
В курсе теории вероятности при изучении свойств случайных величин основную роль
играют их функции распределения F x P : x , которые в статистике принято
называть теоретическими функциями распределения.
Пусть дана выборка объема n
xi x1 x2 … xk
ni n1 n2 … nk
где n1 n2 ... nk n.
Эмпирической функцией распределения или функцией распределения выборки
n
называют функцию Fn x x , где nx число вариант, меньших x .
n
Она обладает теми же свойствами, что и теоретическая функция распределения, а именно:
ее значения лежат от 0 до 1; она не убывает; непрерывна слева; Fn x 0 при x x1 и
Fn x 1 при x xk .
Отличие в том, что F x это вероятность тех событий, для которых x , а Fn x
есть сумма относительных частот тех вариант xi , которые меньше x
0, x x1
n
1 , x1 x x2
n
n n
Fn x 1 2 , x2 x x3
n n
1, x xk
ni
Ее графиком будет ступенчатая кусочно-постоянная кривая со скачками в точках xi .
n
Имеет место следующая
Теорема Гливенко. При увеличении объема выборки n эмпирическая функция
распределения Fn x сходится по вероятности к теоретической функции
распределения F x
lim P sup Fn x F x 1.
n x
Пример. По выборке объема n 50 xi 1 4 6
ni 10 15 25
7
0, x 1
0, 2, 1 x 4
Эмпирическая функция распределения имеет вид Fn x ,
0,5, 4 x 6
1, x 6
а ее график приведен на рис. 3.
§ 4. Эмпирические моменты.
В курсе теории вероятности для случайной величины были введены следующие
моменты
m M m
x m
dF x - начальный момент m - го порядка, в частности 1 M -
8
1 k 1 n
Начальный эмпирический момент первого порядка 1
n i 1
xi ni i xв
n i 1
называют выборочным средним. Выборочное среднее xв есть среднее арифметическое
значений выборки.
Аналогично вычисляется
k m n 1 k 1 n
m xi 1 xi xв ni i xв
m m
i
.
i 1 n n i 1 n i 1
Центральный эмпирический момент второго порядка
1 k
1 n
2 xi xв ni i xв Dв
2 2
n i 1 n i 1
называют выборочной дисперсией. Выборочная дисперсия Dв есть среднеквадратичное
отклонение значений выборки от их среднего значения x в .
Для вычисления выборочной дисперсии удобно пользоваться следующей формулой
1 k
1 k
1 k
1 k k
2 1
Dв xi xв ni xi2 2 xi xв xв ni xi2 ni 2 x в xi ni x в ni
2 2
n i 1 n i 1 n i 1 n i 1 n i 1
1 k 2 1 k 2
2 2 2
x n
i i 2 x в x в xi ni x в ,
n i 1 n i 1
то есть выборочная дисперсия равна среднему из квадратов минус квадрат среднего.
Если выборка задана в виде интервалов, то при вычислении выборочного среднего и
x x
выборочной дисперсии в качестве xi берут середины интервалов xi i 1 i .
2
Пример 1. По выборке объема n 20 x -2 1 3 6 i
ni 3 8 5 4
1 5
Вычислим u в 2 10 115 0 25 1 20 2 10 0, 0625 и
80 80
1 115
Du 4 10 115 0 25 1 20 4 10 0, 06252 0, 06252 1, 4375 0, 0039 1, 4336
80 80
Тогда xв 10 u в 15 0,625 15 15,625 и Dв 10 Du 143,36 .
2
10
Следует отметить, что для каждой выборки 1 , 2 ,..., n значение h будет
свое, а потому , как функция выборки, будет случайной величиной.
Здесь сразу возникает вопрос: как оценить точность приближенной формулы (1)? Будем
оценивать величину погрешности при замене на среднеквадратичной погрешностью
2
M , то есть дисперсией оценки D - величиной рассеяния относительно
точного значения . Среди оценок с одной и той же дисперсией D минимальную
величину рассевания относительно имеют оценки, для которых M .
Так как M i xв M i M xв M M 0 , то
M x
2 2 2
D i x в M i x в i в M i x в и
1 n
1
n
1 n
MDв D i x в D i j D 1 i j
n j 1
n j 1
j i
поскольку в последней сумме стоят независимые слагаемые, то
2 2
1 1 n
1 n 1 n 2 2n 1 n 1 n 1
1 Di 2
n n
j 1
D j 1
n
D
n 2
D
n 2
D
n
D ,
j i
11
n 1
Таким образом, MDв D D и выборочная дисперсия есть смещенная оценка для
n
дисперсии D . Однако эта оценка является асимптотически несмещенной, так как
n 1
lim MDв lim D D .
n n n
P xв M P xв M xв 1 Dxв
2
1
D
n 2
1 n .
12
Дискретные распределения.
1) Распределение Пуассона.
k
P k e , 0, k 0,1, 2,... ; M , D .
k!
2) Биномиальное распределение.
P k Cnk p k q nk , k 0,1, 2,..., n ; M np, D npq.
3) Геометрическое распределение.
1 q
P k q k 1 p, k 1, 2,... ; M , D 2 .
p p
Абсолютно-непрерывные распределения.
1) Нормальное распределение или распределение Гаусса.
x a 2 t2
xa
x
1 1 1
p x 2
, F x , где x 2 dt
2
e e
2 2 2 0
M a, D 2 .
0, x a
1 xa
, x a; b
p x b a , F x ,a xb
0, x a; b b a
1, x b
b a .
2
ab
M , D
2 12
3) Показательное распределение.
e x , x 0 1 e x , x 0
p x , F x , 0
0, x 0 0, x 0
1 1
M , D .
2
4) Гамма распределение
1 x
x e ,x0
p x , x 1e x dx, 0, 0
0, x 0 0
M , D 2 .
13
5) Распределение Пирсона или 2 с n степенями свободы.
n
i 1
i
2
с плотностью p x 2 xkn x 2 ,
1 2 1 n 2
i с плотностью p x nkn nx ,
n n i 1
1
n
1 n 2
n i 1
i с плотностью p x 2nxkn nx 2 .
6) Распределение Стьюдента с n степенями свободы.
Пусть и 1 , 2 ,..., n нормированные нормально распределенные случайные величины
a 0, 1 . Тогда случайная величина
t
1 n 2
i
n i 1
имеет распределение Стьюдента с n степенями свободы. Его плотность
n 1 n 1
x 2 2
1
1 2 n
pt x , Mt 0 n 1 , Dt n 2 .
n n n n2
2
С ростом n распределения Пирсона и Стьюдента стремятся к нормальному
распределению.
14
k x k dF x,1 ,..., m и k x M dF x,1 ,..., m ,
k
1 1
Для показательного распределения M . Согласно методу моментов M xв ,
1
откуда . Для вычисления x в рассмотрим середины интервалов
xв
x1 2,5; x2 7,5; x3 12,5; x4 17,5; x5 22,5; x6 27,5;
xi 2,5
и перейдем к условным вариантам ui . Для них выборка примет вид
5
ui 0 1 2 3 4 5
ni 133 45 15 4 2 1
1 100
Вычислим u в 0 45 30 12 8 5 0,5 . Тогда xв 5 0,5 2,5 5 и
200 200
1 1
0, 2 .
xв 5
Пример 2. Случайная величина - число появлений события А в m 5 независимых
испытаниях подчинена биномиальному закону распределения с неизвестным
параметром p - вероятностью наступления события А в одном испытании.
Проведено n 50 опытов по m 5 испытаний в каждом опыте, результаты
которых представлены выборкой
15
xi 0 1 2 3 4 5
ni 10 16 12 8 3 1
xi 0 1 2 3 4
ni 140 40 15 4 1
xi 1 2 3 4 5 6
ni 2 3 6 5 2 2
ni 6 9 25 26 30 26 24 21 20 8 5
16
xi 3 5 7 9 11 13 15 17 19 21
ni 21 16 15 26 22 14 21 22 18 25
методом моментов найти точечные оценки параметров a и b равномерного
распределения.
5. Случайная величина имеет гамма распределение с неизвестными параметрами и
. По выборке
xi 5 10 15 20 25 30 35 40 45
ni 1 3 6 7 7 5 4 8 4
d
Необходимое условие экстремума нас приводит к уравнению ln L , 0
d
относительно . Если его решение и выполняется достаточное условие максимума
d2
ln L , | 0 , то это значение и берем в качестве точечной оценки параметра
d 2
17
Пусть теперь случайная величина имеет абсолютно-непрерывное распределение с
плотностью p x, p x, . Для выборки 1 , 2 ,..., n функция правдоподобия
имеет вид
L , p 1 , p 2 , ... p n , p x1 , p x2 , ... p xk , .
n1 n2 nk
Если 1 ,2 ,...,m есть решение этой системы и выполняется достаточное условие
максимума d 2 ln L ,1 ,2 ,...,m | 0 , то найденные значения и берутся в качестве
xi 0 1 2 3 4 5 6 7
ni 2 3 10 22 26 20 12 5
где xi число появлений события А в одном опыте, а ni количество опытов, в
которых наблюдалось xi появлений события А. Найти методом максимального
правдоподобия точечную оценку вероятности p .
18
В данном случае P xi p xi , p Cmxi p xi 1 p
m xi
. Составим функцию
правдоподобия
m x1 n1
C
m x2 n2
nk
L , p Cmx1 p x1 1 p p x2 1 p ... Cmxk p xk 1 p
m xk
x2
m
Тогда L , p C p n xв 1 p и ln L , p ln C n xв ln p n m xв ln 1 p .
n m xв
Найдем
d
ln L , p
nx в n m xв
n
x в px в mp px в
n
x в mp
.
dp p 1 p p 1 p p 1 p
1
Это выражение будет равно нулю, если xв mp 0 , то есть p xв .
m
d2 xв m xв
Найдем теперь L , p n 2 n . Эта величина отрицательна, так как
1 p
2 2
dp p
1
0 xв m . Таким образом в точке p x в функция правдоподобия достигает
m
1
максимума, и мы нашли точечную оценку вероятности p p x в .
m
По заданной выборке найдем
1 400
xв 0 3 20 66 104 100 72 35 4.
100 100
1
Тогда p 4 0, 4 .
10
Пример 2. Случайная величина распределена по нормальному закону с плотностью
x a 2
1
p x e 2 . По выборке объема n 100
2
2
xi -4 -2 0 2 4 6 8 10
ni 3 7 15 25 24 16 8 2
n1 n2 ...nk ni
2
2
2
e i 1
.
Логарифмическая функция правдоподобия имеет вид
1 k
ln L , a, n ln ln 2 2 xi a ni .
2 i 1
2
Найдем частные производные
1 k
1 k k
ln L , a, 2 2 xi a ni 2 xi ni a ni
a 2 i 1 i 1 i 1
1
2 nx в an 2
n
x в a
n 2 k 1 k
ln L , a, 3 xi a ni 3 xi a ni
2 2
n 2
2 i 1 i 1
Из системы уравнений
n
2 x в a 0
1 n 2 xi a 2 ni 0
k
3 i 1
1 k
1 k
i i xi xв ni Dв .
2
находим a xв и 2
2
x a n
n i 1 n i 1
Для проверки выполнимости достаточного условия максимума вычислим вторые
производные
2 2
a 2
n
ln L , a, 2 ;
a
2n
ln L , a, 3 x в a
2 n 3 k
2 4 xi a ni
2
ln L , a,
2
i 1
и найдем дифференциал второго порядка
n
x
k
n 4n 3
d 2 ln L , a, a dad 2 4 x a ni d 2
2
da 2 в
2
3
i 1
i
При a xв и Dв получаем, что
2
n
x x
k
n 3
d 2 ln L , a,
2
da 2 2 i в ni d 2
Dв Dв Dв i 1
n n 3 n 2n
da 2 2 nDв d 2 da 2 d 2 0 .
Dв в
D Dв Dв Dв
20
1 n
xi xв 1
49 3 25 7 3 15 1 25 1 24 9 16 25 8 49 2
948
2
Dв ni 9, 48
n i 1 100 100
Тогда a 3 и 9, 48 3,08 .
Задания.
1. Случайная величина распределена по закону Пуассона. По выборке
xi 0 1 2 3 4
ni 120 55 15 8 2
xi 16 19 22 25 28 31 34
ni 4 15 25 45 20 10 1
21
найти методом максимального правдоподобия точечную оценку неизвестного
параметра нормального распределения.
6. Случайная величина имеет гамма распределение с известным параметром 1,5 .
По выборке
xi 1 5 9 13 17 21
ni 40 25 15 10 6 4
2
1. Существуют производные ln L , и ln L , ;
2
2. Существуют и конечны математические ожидания M ln L , ,
2
2
M 2 ln L , и M ln L , .
2
2
Тогда M ln L , 0 , а M 2 ln L , M ln L , 0 .
Доказательство. Так как функция правдоподобия L , p 1 , p 2 , ... p n ,
есть совместная плотность распределения случайного вектора 1 , 2 ,..., n , то
справедливо тождество
L , d 1 .
Rn
22
L , d 0 .
n
(1)
R
2
L , L , L , L ,
2
L ,
2
2
2
2
L , L , L ,
2
2
2
ln L ,
L , L , L ,
и найдем от нее математическое ожидание
2 2
M 2 ln L , ln L , L , d
Rn
2
2
2
L , d ln L , L , d
Rn
2
Rn
2
2
n 2
L , d M
ln L .
,
R
Дифференцируя по полученное ранее равенство (1), получим
2
2 L , d 0 .
Rn
2
2
Dh M h I 1 .
2
и продифференцируем его по
h L , d 1 .
Rn
M h ln L , 1 . (2)
Воспользуемся неравенством Коши-Буняковского
f g d f 2 d g d
2
,
n n n
R R R
24
M f g f g L , d f
L , g L , d
Rn Rn
f 2 L , d g L , d
2
M f 2 M g 2 .
Rn Rn
2
1 M h ln L , M
2
h M ln L ,
Dh I ,
1
откуда получаем неравенство Рао-Крамера Dh .
I
n
условие (3) (при C , h xв ) того, что полученная несмещенная оценка будет
наиболее эффективной.
В этом случае неравенство Рао-Крамера переходит в точное равенство
1
Dh Dxв .
I
1 n 1 n
1
Найдем Dxв D i 2 D i 2
nD , так как для распределения Пуассона
n i 1 n i 1 n n
D .
1 n
Таким образом, Dxв , откуда I .
n I
1 1 1 n
L , 2
2
... 2
2 2 2 i 1
2 2 2
e e e e .
2 2 2
n
1
Найдем ln L , n ln n ln 2 a и вычислим
2
2 2 i
i 1
n 1 n 1 nn
ln L , 3 i a 3 i a 2 .
2 2
i 1 n i 1
1 n
Производная равна нулю, если 2 2 i a . При этом
2
n i 1
2
2
ln
L ,
n
2
3 n
4 i
i 1
2
n
3 2n
a 2 4 n 2 2 0 .
n i 1
26
1 n
i x в
2
дисперсии D не является выборочной дисперсией Dв , так как параметр
n i 1
a здесь известен.
Покажем, что полученная оценка является несмещенной
1 n 2
1 n 1
M 2 M i a M i a nM a D 2 .
2 2
n i 1 n i 1 n
Кроме того выполнено условие (3)
n 1 n n 1 n
ln L , 3 i a 2 при C 3 , h i a ,
2 2
n i 1 n i 1
а значит, полученная несмещенная точечная оценка является наиболее эффективной и в
неравенстве Рао-Крамера будет точное равенство.
Вычислим дисперсию полученной оценки
1 n 2 1 n 1
D 2 D i a 2 D i a 2 nD a
2 2
n i 1 n i 1 n
1
n
4
2 2 1
n
4 2 1
M a M a M a D M a 4 .
n
4
x a 2
1
x a t, x a t
Найдем M a x a dx
4 4 2 2
e
2 dx dt
u t , du 3t 2 dt
3
t2
4 3 t2
2
t2
4
t e dt t2 t e | 3 t e 2 dt
4 2 2
t2
2 2
dv te dt , v e
2 2
u t , du dt 4 t2 t2 3 4
3
2 3 4 .
t2 t2 te 2
| e 2
dt
dv te 2 dt , v e 2 2 2
2 4 2 4
Тогда D 2
1
n
3 4 4
n
и D 2
n
1
I
, откуда I
n
2 4
.
Задание.
Пусть случайная величина распределена по нормальному закону с
x a 2
1
плотностью p x e 2 2
. Предположим, что параметр известен, а
2
для параметра a требуется по выборке 1.2 ,..., n методом максимального
правдоподобия найти точечную оценку и исследовать ее на эффективность.
27
§ 10. Интервальные оценки параметров распределений.
28
§ 10.1. Построение доверительных интервалов для параметров нормального
распределения.
Поскольку нормальное распределение имеет два параметра a и , то рассмотрим
следующие случаи.
I. Нахождение доверительного интервала для параметра a , если дисперсия 2
известна.
Несмещенной точечной оценкой для параметра a является выборочное среднее
1 n
x в i . Оно имеет математическое ожидание M xв a и дисперсию
n i 1
1 n 1 n 1 2
Dx в D i 2 Di 2 nD .
n i 1 n i 1 n n
Введем нормированную случайную величину
xв M xв xв a
n,
Dxв
которая является нормированной суммой случайных величин, имеющих математическое
ожидание и дисперсию. Тогда к ней применима центральная предельная теорема,
согласно которой она будет асимптотически нормальна с параметрами a 0 и 1 .
x t2
Тогда P 2 , где x
1
2
e
0
2 dt .
По таблице значений функции x находим решение уравнения .
2
xв a
Тогда n , xв a
и a xв ; xв требуемый
n n n
доверительный интервал для параметра a .
Пример 1. Найти доверительный интервал для оценки с надежностью 0,95 параметра
a нормального распределения, если среднеквадратичное отклонение 5 ,
выборочное среднее xв 14 , а объем выборки n 64 .
Из уравнения 0, 475 по таблице значений функции x (Таблица 2) находим
2
1,96 . Доверительный интервал
5 5
a xв ; xв 14 1,96 ;14 1,96 12, 775;15, 225 .
n n 8 8
2
Введем в n -мерном пространстве выборок 1 , 2 ,..., n новую ортогональную систему
1 n n n
1, i m
координат 1 ,2 ,...,n так, что 1 , jii и jm im .
0, i m
i j ji
n i 1 i 1 j 1
Тогда
2
n n
n
n n n n n
1 1
t .
1 n 2 1 n 2
j 1
n 1 j 1
2
j
n 1 j 2
Поскольку случайные величины j , так же как и i , распределены нормально с
параметрами 0 и 1, то случайная величина t имеет распределение Стьюдента с n 1
степенью свободы.
Из уравнения P t t по таблице 3 находим соответствующее значение t t , n .
n s
Тогда t xв a t , x в a t и искомый доверительный интервал
s n
s s
a xв t ; x в t .
n n
30
Полученное выражение для доверительного интервала совпадает с предыдущим случаем
(когда дисперсия 2 известна) с заменой на s и на t .
Так как с ростом n распределение Стьюдента стремится к нормальному распределению,
то при достаточно больших n t и доверительный интервал находят по формуле
s s
a xв ; xв .
n n
Пример 3. Из генеральной совокупности, распределенной нормально, извлечена выборка
объема n 25 :
xi -1,0 -0,5 0,0 0,5 1,0 1,5 2,0
ni 2 3 5 8 4 2 1
s2
1 n
n 1 i 1
xi xв ni
1
24
1,382 2 0,882 3 0,382 5 0,122 8 0,722 4 1,122 2 1,622
14,176
0,5907 и s 0,5907 0, 7686 .
24
По таблице 3 находим t t 0,95;25 2,064 . Тогда
0, 7686 0, 7686
a 0,38 2, 064;0,38 2, 064 , то есть a 0,063;0,697 .
5 5
31
nDв
Таким образом получаем условие P s s P t2 t1 .
Так как математическое ожидание a неизвестно, то приблизим его выборочным средним
i x в
x в и введем нормированные случайные величины i , распределенные
2
Dв nDв 1 n n
нормально. Тогда Dв 2 и nDв i i . 2
i 1 n i 1
Как и в предыдущем пункте осуществим линейное ортогональное преобразование
1 n n n
1, i m
координат 1 , и ji jm im . При этом случайные
0, i m
i j ji i
n i 1 i 1 j 1
2
n
1 n n n
nDв i
2
i 2j 12 2
j
i 1 n i 1 j 1 j 2
n
и мы приходим к соотношению P t2 2
j t1 .
j 2
n
Случайная величина
j 2
2
j имеет распределение с n 1 степенью свободы и нам
32
Пример 4. Проведено n 20 измерений одним прибором без систематической ошибки
некоторой величины. Найдена исправленная выборочная дисперсия s 0,8 . Найти
точность прибора с надежностью 0,99 .
33
2
Нулями первого квадратного трехчлена будут 1,2
2 n
xв
4n
и решением
2
первого неравенства с учетом того, что 0 будет xв .
2 n 4n
2
Нулями второго квадратного трехчлена будут
1,2
2 n
xв
4n
и его решение
2
есть xв . Таким образом, решением системы неравенств будет
2 n 4n
2 2
xв xв .
2 n 4n 2 n 4n
Отсюда искомый доверительный интервал есть
2 2
2 2
xв xв .
2 n 4n 2 n 4n
Пример 5. Случайная величина распределена по закону Пуассона. По выборке объема
n 100
xi 0 1 2 3 4
ni 58 28 11 2 1
1
Вычислим сначала xв 28 22 11 2 1 0, 6 . Затем по таблице 2 из уравнения
100
0,95
0, 475 находим 1,96 . Согласно полученной формуле
2 2
2 2
1,96 1,962 1,96 1,962
0, 6 0, 6
20 400 20 400
, то есть 0, 4662 0,8788 .
p M p p
n
D p
p 1 p
.
2
n p 2 2 2n p n 2 0 .
2 1
2
Найдем дискриминант D 2 2n 4n 2 2 n 4n 2 2 2 и корни
4n n
n 2 2 1
квадратного трехчлена p1,2 2 . Тогда решение
n 2n 4n 2 n
квадратичного неравенства, то есть доверительный интервал имеет вид
n 2 2 1 n 2 2 1
p 2 .
2 n 2n 4n 2 n n 2n 4n 2 n
2 2
Если n достаточно велико, то величины и малы и ими можно пренебречь, а
2n 4n 2
n
величина 1 . В этом случае получаем упрощенную формулу
n
2
1 1
p .
n n
Пример 6. Проведено n 160 независимых испытаний, в которых событие А появилось
m 16 раз. Найти с надежностью 0,95 доверительный интервал для
вероятности p появления события А в одном испытании.
35
m 16
В данном случае 0,1 . По таблице 2 находим решение 1,96 уравнения
n 160
0,95
0, 475 . По упрощенной формуле находим доверительный интервал
2 2
Задания.
1. Выборка из большой партии электроламп содержит 100 ламп. Средняя
продолжительность горения лампы выборки оказалась равной 1000 часов. Найти с
надежностью 0,95 доверительный интервал для средней продолжительности a
горения лампы всей партии, если известно, что среднеквадратичное отклонение
продолжительности горения лампы 40 часов. Предполагается, что
продолжительность горения ламп распределена нормально.
2. Глубина моря измеряется прибором, систематическая ошибка которого равна
нулю, а случайные ошибки распределены нормально со среднеквадратичным
отклонением 20 метров. Сколько надо сделать независимых измерений, чтобы
определить глубину с ошибкой не более 15 метров при надежности 90%?
3. Из генеральной совокупности, распределенной нормально, извлечена выборка
xi 1 2 3 4 5 6 7
ni 2 3 7 12 9 2 1
36
Найти с надежностью 0,99 доверительный интервал для параметра
распределения Пуассона.
6. Игровой автомат должен обеспечивать появление выигрыша в одном случае из 100
бросаний монеты в автомат. При проверке игрового автомата произведено 500
испытаний, причем выигрыш появился 4 раза. Найти доверительный интервал,
покрывающий неизвестную вероятность появления выигрыша с надежностью
0,999. Обеспечивает ли этот игровой автомат заявленную вероятность выигрыша?
1 1
гипотеза H : p является простой, а гипотеза H : p является сложной.
2 2
Задачу проверки статистических гипотез будем ставить следующим образом. Дана
выборка 1 , 2 ,..., n . Относительно значения параметра имеется:
основная гипотеза H 0 : 0
и конкурирующая или альтернативная гипотеза H1 : 1
(для наглядности изложения гипотезы возьмем простыми).
Мы должны построить такой статистический критерий, который позволял бы нам
заключить согласуется ли выборка с гипотезой H 0 или нет, то есть принимаем ли мы
эту гипотезу или нет. Будем строить статистические критерии при помощи так
называемого критического множества. Выборку 1 , 2 ,..., n можно рассматривать
как точку n -мерного пространства выборок. В этом пространстве выборок выделим такое
множество S , называемое критическим, что при попадании выборки в S гипотеза H 0
отвергается, а в остальных случаях она принимается. Получаемый при помощи
критического множества S статистический критерий принято называть S -критерием.
37
Пусть p x, плотность функции распределения, тогда вероятность попадания выборки
в критическое множество S равна W S , p x, dx . Эту вероятность называют
S
когда она верна, то есть, принимаем основную гипотезу, хотя верна альтернативная.
Вероятность ошибки I-го рода называют уровнем значимости критерия, а величину
W S ,1 1 называют мощностью критерия.
Очевидно, что S -критерий будет тем лучше, чем меньше будут ошибки и , то есть
чем меньше уровень значимости и чем больше мощность W S ,1 этого критерия.
Однако при заданном числе испытаний n невозможно ни при каком выборе критической
области S одновременно сделать как угодно малыми обе ошибки и . Поэтому,
сначала задается уровень значимости и рассматривается множество S всех S -
критериев с уровнем значимости . Далее среди них выбирается критерий S , для
которого мощность максимальна
W S ,1 max W S ,1 .
SS
Критерий S , удовлетворяющий этим условиям, называют оптимальным или наиболее
мощным критерием.
К сожалению, оптимальный критерий, удовлетворяющий этим условиям, существует не
для всех типов распределений. Поэтому видоизменим схему построения наиболее
мощного статистического критерия. Введем функцию x такую, что 0 x 1 и
рассмотрим -критерий с функцией мощности W , x p x, dx .
S
Такой -критерий будем называть наиболее мощным или оптимальным. Покажем, что в
такой постановке задача уже будет всегда разрешимой.
Для сокращения записей введем обозначения
38
p0 x p x,0 ; p1 x p x,1 ; M 0 x p0 x dx ; M1 x p1 x dx
(здесь M есть символ математического ожидания).
Оптимальный критерий будем искать среди критериев, которые определяются
p x
отношением правдоподобия 1 .
p0 x
p x
g c 1 P 1 c | H 0 не возрастает и также непрерывна слева. Кроме того
p0 x
g 0 1 и g 0 .
Найдем c из условия g c g c 0 .
А именно, если g c g c 0 (функция g c терпит скачок в точке c ), то возьмем
g c
. Если же g c g c 0 (функция g c непрерывна точке c ),
g c 0 g c
то возьмем 0 . При этом если g c на некотором промежутке (функция g c
постоянна на этом промежутке), то примем за c любую точку этого промежутка,
например левый конец.
Положив в выражении для x c c и , получим требуемую функцию.
Действительно, покажем, что построенный -критерий имеет уровень значимости и
обладает свойством оптимальности, то есть его мощность максимальна.
Найдем сначала
39
M 0 x p0 x dx 1 p0 x dx p0 x dx 0 p0 x dx
p1 x c p0 x p1 x c p0 x p1 x c p0 x
g c
p0 x dx p0 x dx g c
g c 0 g c p1 x c p0 x
p1 x c p0 x
g c
g c 0 g c
g c 0 g c g c g c .
Таким образом, уровень значимости этого критерия равен .
Пусть любой другой критерий с уровнем значимости : M 0 . Покажем, что
M1 M1 . Рассмотрим интеграл
x x p x c p x dx x x p x c p x dx
1 0 1 0
x x
p1 x c p0 x
x x p x c p x dx 0 , откуда
1 0
x x
p1 x c p0 x
x x p x dx c x x p x dx , то есть
1 0
M1 M1 c M o M 0 c 0 и M1 M1 .
Таким образом, мы построили наиболее мощный критерий.
Мы провели все рассуждения, используя плотность p x, случайной величины, то
есть считая, что она абсолютно-непрерывна. Но все остается в силе и для дискретных
случайных величин с заменой плотности на вероятности p i , , а интегралы на суммы.
1 2 2 i a j 1
n 2
p j p j 1 p j 2 ... p j n e i 1
, j 0,1
2
Тогда отношение правдоподобия примет вид
40
p1 1 n
1 n
2
i a1 a0
2
exp 2
p0 2 2 2 i
i 1 i 1
1 n 1
n
exp 2 i2 2a1i a12 i2 2a0i a02 exp 2 n a12 a02 2 a1 a0 i
2 i 1 2 i 1
n a1 a0
1
2
exp 2 n a12 a02 2n a1 a0 x в exp
2 2 a1 a0 2 x в .
Критическая область S определяется при некотором c из равенства
p
P 1 c | H0 .
p0
рассмотрим неравенство
p1 n a1 a0
p0
exp
2 2
a1 a0 2 xв c (2)
и разрешим его относительно x в :
n a1 a0
2 2
a1 a0 2 xв ln c и с учетом того, что a1 a0 получим
a a 2
xв 1 0 ln c .
2 n a1 a0
a1 a0 2
Обозначим через c1 ln c - это тоже еще неизвестная величина, так как
2 n a1 a0
c неизвестно. Таким образом, xв c1 и
p
P 1
p0
c | H 0 P x в c1 .
Задача нахождения критической области S в n -мерном пространстве выборок сведена к
задаче нахождения критической области для одномерного случая (относительно
выборочного среднего).
Выборочное среднее x в имеет математическое ожидание M xв a и дисперсию
2 xв M x xв a
Dx в . Введем нормированную случайную величину n,
n Dxв
которая по центральной предельной теореме распределена асимптотически нормально с
параметрами a 0 и 1 . Тогда
xв a0 c a
P xв c1 | H 0 P n 1 0 n P c ,
c1 a0 n a1 a0 2 xв a0
где c n ln c и n.
2 n a1 a0
Теперь из уравнения P c найдем c . Для этого рассмотрим
41
t2 t2 c t2
1 1 1 1
P c e 2
dt e 2
dt e 2
dt c .
2 c 2 0 2 0
2
1 1
Тогда для нахождения c получаем уравнение c , то есть c .
2 2
x t2
1
По таблице 2 значений функции x 2 dt находим критическую точку c .
e
2 0
xв a0
Теперь, если n c , то у нас нет оснований отвергать гипотезу H 0 , если же
c , то гипотезу H 0 отвергаем.
На рисунке 4 изображена критическая область S ,
вероятность попадания в которую равна .
c c
1 1
W 1
2 2
построенного правостороннего критерия.
Наконец, если заданы ошибки и (или мощность W 1 ), то можно найти объем
выборки, обеспечивающий эти ошибки.
находим c , а из уравнения c
1 1
Действительно, из уравнения c
2 2
находим c . Далее, из соотношения
2
a1 a0 c c
c c , то есть n c c находим n .
2
a1 a0
Пример 1. По выборке объема n 16 , извлеченной из генеральной совокупности,
распределенной нормально со среднеквадратичным отклонением 4 , найдено
xв 2,3 . Требуется при уровне значимости 0,05 :
42
2) Найти мощность построенного правостороннего критерия при значении a1 3 ;
3) Найти объем выборки n , при котором мощность критерия будет равна W 0,6 .
1
Из уравнения c 0, 45 по таблице 2 значений функции x находим
2
xв a0
2,3 2
c 1,65 . Вычислим n
4 0,3 .
4
Так как 0,3 c 1,65 , то у нас нет оснований отвергать гипотезу H 0 .
a1 a0 3 2
Найдем далее c c c n 1, 65 4 0, 65 и мощность построенного
4
c 0,5 0, 24 0, 26 .
1
правостороннего критерия W 1
2
Найдем теперь объем выборки n , при котором мощность критерия будет равна W 0,6 .
n 16
2
58 .
a1 a0 3 2
p1 xв a
P
p0
c | H 0 P x в c1 | H 0 P
0
n 1
c a0
n P c ,
xв a0 c1 a0
где n и c n.
Теперь из уравнения P c следует найти c . Для этого рассмотрим
c t2 0 t2 c t2
1 1 1 1 1
P c e 2 dt e 2 dt e 2 dt c c .
2 2 2 0
2 2
Таким образом, для нахождения c получаем тоже уравнение, что и в предыдущем случае
1
c .
2
43
xв a0
По таблице 2 находим значение c . Если n c , то гипотезу H 0 отвергаем,
иначе принимаем.
На рисунке 5 изображена критическая область S ,
вероятность попадания в которую равна .
c1 a1 c1 a0 a1 a0 a1 a0
где c n n n c , где n тоже, что и в
предыдущем случае. Тогда
t2 t2 0 t2
P c c c .
1 1 1 1 1
2 e
c
2
dt
2 0
e 2
dt
2 e
c
2
dt
2 2
c c и мощность критерия
1 1
Таким образом,
2 2
1
W 1 c .
2
Наконец, если заданы уровень значимости и мощность W , то находя c и c
и c W , из соотношения
1 1 1
соответственно из уравнений c
2 2 2
2
a1 a0 c c
c c c n найдем объем выборки n , обеспечивающий эти
2
a1 a0
заданные величины.
Рассмотрим еще случай, когда альтернативная гипотеза двусторонняя
H 0 : a a0 (3)
H1 : a a1 a0
Так как условие a1 a0 эквивалентно тому, что a1 a0 или a1 a0 , то мы можем
воспользоваться результатами двух предыдущих случаев
P c P c P c c c 1 2 c
1 1
2 2
1
и для нахождения c получаем уравнение c .
2
x в a0
Теперь, если n c , то гипотезу H 0 отвергаем, иначе принимаем.
44
На рисунке 6 изображена критическая область S , состоящая из
двух интервалов, вероятность попадания в каждый из них равна
. Поскольку есть нормированная нормально
2
распределенная случайная величина, а распределение такой величины симметрично
относительно нуля, то и критические точки симметричны относительно нуля. В этом
случае достигается наибольшая мощность критерия.
Для нахождения мощности построенного двустороннего критерия найдем
P xв c1 | H1 P x в c1 | H1 P
xв a1 c a
n 1 1 n
xв a1 c a1
P n 1 n P c P c
P c c c c c c .
Тогда W 1 c c .
p1
P
p0
c | H 0 P xв c1 | H 0 .
Дальнейшие рассуждения аналогичны тем, которые мы делали в § 10 при нахождении
доверительного интервала для математического ожидания для случая, когда дисперсия не
известна.
Выборочное среднее x в имеет математическое ожидание M xв a и дисперсию
2
Dx в . Поскольку дисперсия 2 не известна, то по выборке 1 , 2 ,..., n найдем
n
n s2
исправленную выборочную дисперсию s 2 Dв и примем Dx в . Введем
n 1 n
нормированную случайную величину
1 n 1 n 1 n i a
xв M xв xв a n
i a
n
i a
n i 1
t n n i 1 n i 1 .
Dx в s n n n Dв
Dв Dв
n 1 n 1 n 1 2
a
Перейдем к случайным величинам i i , которые распределены нормально с
Dв
параметрами a 0 и 1. Для нее Dв и тогда
2
1 n 1 n 1 n
i
n i 1
i
n i 1
i
n i 1
t .
n n 1 n 2 1 n 1 n 2 1 n
2 2
Dв
n 1 i i i i
n 1 n i 1 n i 1 n 1 i 1 n i 1
Введем в n -мерном пространстве выборок 1 , 2 ,..., n новую ортогональную систему
1 n n n
1, i m
координат 1 ,2 ,...,n так, что 1 i , j jii и jm im .
0, i m
ji
n i 1 i 1 j 1
n n
Мы ранее показали, что
j 1
2
j
i 1
i
2
. Тогда
1 1
t .
1 n 2 1 n 2
j 1
n 1 j 1
2
j
n 1 j 2
Поскольку случайные величины j , так же как и i , распределены нормально с
параметрами 0 и 1, то случайная величина t имеет распределение Стьюдента с n 1
степенью свободы. Таким образом
46
xв a0 c a
c a
P xв c1 | H 0 P
n 1 0 n P t c , где c 1 0 n .
s s s
По таблице 5 критических точек распределения Стьюдента для случая односторонней
критической области находим c c ; n 1 . Теперь, если
xв a0
t n c , то гипотезу H 0 отвергаем, иначе принимаем.
s
Совершенно аналогично рассматривается случай левой односторонней гипотезы
H 0 : a a0
H1 : a a1 a0
p
Имеем P 1
p0
c | H 0 P x в c1 | H 0 P t c .
По таблице 5 критических точек распределения Стьюдента для случая односторонней
критической области находим c c ; n 1 . Теперь, если
xв a0
t n c , то гипотезу H 0 отвергаем, иначе принимаем.
s
Для случая двусторонней гипотезы
H 0 : a a0
H1 : a a1 a0 ,
объединяя два предыдущих случая, получим уравнение P t c .
По таблице 5 критических точек распределения Стьюдента для случая двусторонней
x в a0
критической области находим c c ; n 1 . Если t n c , то гипотезу H 0
s
отвергаем, иначе принимаем.
Как мы уже отмечали ранее, с ростом n распределение Стьюдента стремится к
нормальному распределению и при достаточно больших n значение c следует находить
1 1
из уравнений c для односторонних гипотез и c для двусторонней
2 2
гипотезы, которые мы получили в пункте I при рассмотрения случая с известной
дисперсией.
Пример 2. Из генеральной совокупности, распределенной по нормальному закону,
извлечена выборка объема n 25 и по ней найдены выборочная средняя xв 102,5
и исправленное среднеквадратичное отклонение s 7,5 . Требуется при уровне
значимости 0,02 проверить основную гипотезу H 0 : a a0 100 при
конкурирующей гипотезе H1 : a a1 a0 .
47
По уровню значимости 0,02 и числу степеней свободы n 1 24 по таблице 5
критических точек распределения Стьюдента для двусторонней критической области
xв a0 102,5 100
находим c 2, 49 . Далее вычислим t n 5 1, 67 .
s 7,5
z
x
в .
y в M xв y в
Dx y в в
12 22 xв y в
D xв y в Dx в D y в
n
m
, то есть z
12 22
.
n m
По центральной предельной теореме случайная величина z распределена асимптотически
нормально с параметрами a 0 и 1 . Так как альтернативная гипотеза двусторонняя,
то P z c | H 0 P z c P z c c c 1 2 c
1 1
2 2
и для нахождения критической точки c приходим к уже известному нам уравнению
1
c
.
2
Зная уровень значимости , находим по таблице 2 значений функции x значение c .
Теперь, если z c , то гипотезу H 0 принимаем, если же z c , то гипотезу H 0
отвергаем.
В случае, когда конкурирующая гипотеза односторонняя (правая или левая)
H 0 : a1 a2 или H 0 : a1 a2
H1 : a1 a2 H1 : a1 a2 ,
48
1
то значение c находится из уравнения c и гипотезу H 0 принимаем при
2
z c для правой односторонней гипотезы и принимаем при z c для левой
односторонней гипотезы.
Пример 3. Из двух генеральных совокупностей, распределенных нормально с
дисперсиями 12 80 и 22 100 соответственно, по двум независимым выборкам
объема n 40 и m 50 найдены выборочные средние xв 130 и y в 140 . При
уровне значимости 0,01 требуется проверить гипотезы
H 0 : a1 a2
H1 : a1 a2 .
xв y в 130 140 10
Вычислим z 5 .
12 22 80 100
4
mn 40 50
1 0,99
Из уравнения c 0, 495 по таблице 2 значений функции x находим
2 2
c 2,58 . Так как z 5 c 2,58 , то гипотезу H 0 отвергаем, то есть математические
ожидания разнятся значительно.
p1 1 2 2 i a
1 2
, где p j e j i 1 , j 0,1 .
p0
j 2
1 1 1
n
a :
2
и разрешим его относительно i
i 1
1 1 1 n 2 1 12 02
n
n n
exp 2 2 i a c , a ln 1 c
2
2 1 0 i 1 0 2 02 12 0
i
i 1
49
2 02 12 1
n
n
и так как 1 0 , то a ln c .
2
2
i
1 02 0
i 1
2 02 12 1
n
p1
n
P c | H 0 P i a c1 | H 0 .
2
p0
i 1
n n
i a i x в
2 2
точечной оценкой x в . Тогда nDв . Перейдем к нормированным
i 1 i 1
i x в D
случайным величинам i , распределенным нормально. Тогда Dв 2в и
nDв c1 c
P nDв c1 | H 0 P 2
P nDв 12 .
0 0
2
0
Введем случайную величину (при гипотезе H 0 )
n 1 s 2
2
nDв n
1 n
2 nDв i2 i .
02 02 i 1 n i 1
В n -мерном пространстве выборок 1 , 2 ,..., n введем новую ортогональную систему
1 n n n
1, i m
координат 1 ,2 ,...,n так, что 1 i j
, jii и jm im .
0, i m
ji
n i 1 i 1 j 1
n n
Тогда 2 2j 12 2j имеет распределение Пирсона или 2 с n 1 степенью
j 1 j 2
P 2 c , где c
c1
.
02
По таблице 6 критических точек распределения 2 находим c c ; n 1 . Теперь, если
Вычислим сначала
2 n 1 s 2
29 12,5
25,9 . Учитывая, что гипотеза левая
0
2
14
односторонняя по таблице 6 критических точек распределения 2 находим
c c 1 ; n 1 c 0,99;29 14,3 . Так как 2 25,9 c 14,3 , то гипотезу H 0
принимаем, то есть различие между найденной исправленной выборочной дисперсией s 2
и гипотетическим значением 02 не значительно.
51
p x
Критическая область S определяется при некотором c из условия P 1 c | H0 .
p0 x
p x 1 p1 p 1 p0
n x
p x
Таким образом P 1 c | H 0 P x c1 | H 0 ,
p0 x
1 p n p 1 p 1
где c1 ln c 0
ln
1 0
.
1 p1 p0 1 p1
x Mx x np
Введем случайную величину , которая по теореме Муавра-Лапласа
Dx npq
x
асимптотически нормальна с параметрами a 0, 1. Если задается частота
n
x np p
наступления события в n независимых испытаниях, то n.
npq p 1 p
x np0 c1 np0
Тогда P x c1 | H 0 P P c ,
np0 1 p0 np 0 1 p
0
c1 np0
где c . Так как
np0 1 p0
t2 t2 c t2
1 1 1 1
P c e 2
dt e 2 dt e 2
dt c ,
2 c 2 0 2 0
2
1
то для нахождения c получаем уже известное нам уравнение c .
2
x np0 p0
Теперь, если n c , то гипотезу H 0 отвергаем, иначе
np0 1 p0 p0 1 p0
принимаем.
Если задано гипотетическое значение вероятности p1 , то можно найти мощность
построенного правостороннего критерия, Для этого найдем сначала
52
p1 x
x np1 c1 np1
P c | H1 P x c1 | H1 P P c , где
p0 x
np1 1 p1 np 1 1 p
1
c1 np1 p0 1 p0 c1 np0 p0 1 p0 n p0 p1
c
np1 1 p1 p1 1 p1 np0 1 p0 p1 1 p1 np0 1 p0
p0 1 p0 p0 p1
c и n.
p1 1 p1 p1 1 p1
c t2 0 t2 c t2
Учитывая, что P c c получим
1 1 1 1
2 e
2 dt
2 e
2 dt
2 e
0
2 dt
2
p0 1 p0
c
1 1
c и мощность построенного критерия равна
2 2 p1 1 p1
1 p0 1 p0
W 1
c .
2 p1 1 p1
Если же заданы уровень значимости и мощность W (или ошибка II-го рода ), то
можно найти минимальный объем выборки n , обеспечивающий эти величины.
получим p0 p1 n p1 1 p1 c p0 1 p0 c , откуда
2
p1 1 p1 c p0 1 p0 c
n .
p0 p1
Проведенные рассуждения и полученные формулы аналогичны тем, которые были
получены для нормального распределения при проверке гипотез о значении
математического ожидания a при известной дисперсии 2 .
Аналогично рассматривается случай левосторонней альтернативной гипотезы
H 0 : p p0
H1 : p p1 p0
p 1 1 p0 p 1 1 p0
С учетом того, что 1 и ln 0 получим
p0 1 p1 p0 1 p1
p1 x 1 p n p 1 p 1
P
p0 x
c | H 0 P x c1 | H 0 , где c1 ln c 0
ln
1 0
.
1 p1 p0 1 p1
53
c1 np0
Далее имеем P x c1 | H 0 P
x np0
np 1 p
np 1
p
P c , где
0 0 0 0
c1 np0
c . Учитывая, что
np0 1 p0
c t2 0 t2 c t2
1 1 1 1 1
P c e 2 dt e 2 dt e 2 dt c c ,
2 2 2 0
2 2
1
для определения c получаем тоже уравнение c .
2
x np0 p0
Если теперь n c , то гипотезу H 0 отвергаем, иначе
np0 1 p0 p0 1 p0
принимаем.
По заданной гипотетической вероятности p1 найдем мощность построенного
левостороннего критерия
p1 x
P
p0 x
c | H1 P x c1 | H1 P c , где
c1 np1 p0 1 p0 c1 np0 p0 1 p0 n p0 p1
c
np1 1 p1 p1 1 p1 np0 1 p0 p1 1 p1 np0 1 p0
p0 1 p0 p0 p1
c и n.
p1 1 p1 p1 1 p1
t2 t2 0 t2
Учитывая, что P c
1 1 1
2 e
c
2
dt
2 0
e 2 dt
2 e
c
2
dt
c t2
c c получим
1 1 1 1
2 2 e
0
2 dt
2 2
p0 1 p0
c
1 1
c и мощность построенного критерия равна
2 2 p1 1 p1
1 p0 1 p0
W 1 c .
p1 1 p1
2
Если же заданы ошибки I-го и II-го рода и , то найдя c и c соответственно из уравнений