Вы находитесь на странице: 1из 77

ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ РОССИЙСКОЙ ФЕДЕРАЦИИ

НОВОСИБИРСКИЙ ГОСУДАРСТВЕННЫЙ АРХИТЕКТУРНО-СТРОИТЕЛЬНЫЙ


УНИВЕРСИТЕТ (СИБСТРИН)

Ю.Е. ВОСКОБОЙНИКОВ
Е.И. ТИМОШЕНКО

Ю.Е. Воскобойников, Е.И. Тимошенко

МАТЕМАТИЧЕСКАЯ СТАТИСТИКА МАТЕМАТИЧЕСКАЯ СТАТИСТИКА


(с примерами в Excel) (с примерами в Excel)

УЧЕБНОЕ ПОСОБИЕ

2 издание, переработанное и дополненное

НОВОСИБИРСК 2006 НОВОСИБИРСК 2006

3 4
УДК 519.2 ОГЛАВЛЕНИЕ
ББК 22.172
В650 ВВЕДЕНИЕ ........................................................................................... 5
Воскобойников Ю. Е. 1. МАТЕМАТИЧЕСКАЯ СТАТИСТИКА И ЕЕ ЗАДАЧИ............... 9
МАТЕМАТИЧЕСКАЯ СТАТИСТИКА (С ПРИМЕРАМИ В EXCEL) : учеб. пособие / 1.1. Задачи математической статистики ..........................................9
Ю. Е. Воскобойников, Е. И. Тимошенко ; Новосиб. гос. архитектур.- 1.2. Решение задач математической статистики в табличном
строит. ун-т (Сибстрин). – 2-е изд., перераб. и доп. – Новосибирск : НГА-
процессоре Excel .......................................................................11
СУ (Сибстрин), 2006. – 152 с.
2. ГЕНЕРАЛЬНАЯ И ВЫБОРОЧНАЯ СОВОКУПНОСТИ.
ISBN 5-7795-0292-7
ВЫБОРОЧНЫЕ ХАРАКТЕРИСТИКИ ............................................ 13
Данное учебное пособие содержит наиболее важные разделы ма- 2.1. Генеральная и выборочная совокупности ..............................13
тематической статистики: точечное и интервальное оценивание парамет-
ров распределений, проверку различных статистических гипотез. Приве- 2.2. Свойства выборочной совокупности ......................................14
дено большое количество примеров, которые позволят студентам лучше 2.3. Вариационные ряды..................................................................16
усвоить не только общетеоретические положения, но и возможные об- 2.4. Выборочная функция распределения. Гистограмма .............19
ласти приложения математической статистики. 2.5. Выборочное среднее и выборочная дисперсия ......................24
Учебное пособие написано в соответствии с программой курса 2.6. Вычисление выборочных характеристик в Excel ..................29
"Математическая статистика" для студентов специальности 080502 "Эко-
номика и управление на предприятии (в строительстве)". Также оно будет 3. ТОЧЕЧНЫЕ ОЦЕНКИ НЕИЗВЕСТНЫХ ПАРАМЕТРОВ ........ 40
полезно студентам других специальностей строительных вузов.
3.1. Определение и свойства точечной оценки .............................40
3.2. Точечная оценка математического ожидания ........................45
Печатается по решению издательско-библиотечного совета 3.3. Точечные оценки дисперсии....................................................47
НГАСУ (Сибстрин) 3.4. Точечная оценка вероятности события...................................51
Рецензенты:
3.5. Метод максимального правдоподобия....................................52
⎯ С.М. Зеркаль, д-р техн. наук, профессор, вед. науч. сотр. 3.6. Вычисление точечных оценок в Excel ....................................61
(Институт математики СО РАН);
4. ИНТЕРВАЛЬНЫЕ ОЦЕНКИ
⎯ А.В. Федоров, д-р физ.-мат. наук, профессор,
завлабораторией (Институт теоретической и прикладной НЕИЗВЕСТНЫХ ПАРАМЕТРОВ .................................................... 72
механики СО РАН) 4.1. Некоторые распределения выборочных характеристик........72
4.2. Понятие интервальной оценки параметра
ISBN 5-7795-0292-7 © Воскобойников Ю.Е., случайной величины .................................................................78
Тимошенко Е.И., 2006
© Новосибирский государственный 4.3. Интервальные оценки математического ожидания
архитектурно-строительный нормального распределения.....................................................79
университет (Сибстрин), 2006 4.4. Интервальные оценки дисперсии
нормального распределения.................................................... 84

5 6
4.5. Интервальная оценка вероятности события ...........................86 ВВЕДЕНИЕ
4.6. Вычисление границ доверительных интервалов в Excel.......89
Цель науки – описание, объяснение и предсказание явлений
5. ПРОВЕРКА СТАТИСТИЧЕСКИХ ГИПОТЕЗ ............................ 92 действительности на основе установленных законов, что позволя-
ет находить решения в типичных ситуациях. Многие явления ок-
5.1. Понятие статистической гипотезы. Основные этапы
ружающего мира взаимно связаны и влияют одно на другое. Про-
проверки гипотезы ....................................................................92 следить все связи и определить влияние каждой из них на явление
5.2. Проверка гипотезы о числовом значении математического не всегда представляется возможным. Поэтому ограничиваются
ожидания нормального распределения .................................100 изучением влияния лишь основных факторов, определяющих изу-
5.3. Проверка гипотезы о числовом значении дисперсии чаемое явление. В основе выявления этих связей лежит наблюде-
нормального распределения...................................................106 ние. При этом для обнаружения общих закономерностей, которым
5.4. Проверка гипотезы о числовом значении подчиняется явление, необходимо многократно его наблюдать в
вероятности события...............................................................109 одинаковых условиях, т.е. соблюдать во всех наблюдениях прак-
5.5. Проверка гипотезы о равенстве математических ожиданий тически одинаковые значения основных факторов. После накопле-
двух нормальных распределений ..........................................113 ния полученных таким образом данных возникает главный во-
прос: как обработать результаты наблюдений и сделать обоснован-
5.6. Проверка гипотезы о равенстве математических ожиданий
ные выводы об изучаемых закономерностях? Ответы на этот во-
двух произвольных распределений по выборкам большого прос и другие вопросы, связанные с обработкой данных, дает ма-
объема.......................................................................................116 тематическая статистика.
5.7. Проверка гипотезы о равенстве математических ожиданий Математическая статистика – наука, изучающая методы об-
двух нормальных распределений с неизвестными, работки результатов наблюдений массовых случайных явлений,
но равными дисперсиями .......................................................117 обладающих статистической устойчивостью, закономерностью, с
5.8. Проверка гипотезы о равенстве дисперсий двух нормальных целью выявления этой закономерности. Выводы о закономерно-
распределений .........................................................................121 стях, которым подчиняются явления, изучаемые методами матема-
5.9. Проверка гипотезы о законе распределения с применением тической статистики, всегда основываются на ограниченном числе
критерия согласия Пирсона....................................................125 наблюдений. Для вынесения обоснованного заключения о законо-
мерностях изучаемого явления математическая статистика опира-
5.10. Проверка гипотезы о независимости
ется на теорию вероятностей, которая имеет дело с математиче-
двух генеральных совокупностей с применением критерия скими моделями случайных явлений. Обработав результаты на-
χ2 ...............................................................................................133 блюдений, исследователь выдвигает ряд гипотез (предположений)
5.11. Проверка статистических гипотез в Excel ..........................136 о том, что рассматриваемое явление можно описать той или иной
вероятностной теоретической моделью. Далее, используя матема-
6. ВОПРОСЫ ДЛЯ САМОКОНТРОЛЯ ......................................... 146
тико-статистические методы, можно дать ответ на вопрос, какую
ЗАКЛЮЧЕНИЕ................................................................................. 145 из гипотез или моделей следует принять, которая и будет считаться
искомой закономерностью изучаемого явления. Правомерен такой
БИБЛИОГРАФИЧЕСКИЙ СПИСОК ............................................. 149 вывод или нет, покажет практика использования выбранной моде-
ли. Таково типичное содержание математико-статистического
ПРИЛОЖЕНИЕ ................................................................................ 150 исследования.
7 8
1. МАТЕМАТИЧЕСКАЯ СТАТИСТИКА И ЕЕ ЗАДАЧИ числа наблюдений, отражают данное массовое явление лишь при-
ближенно. Математическая статистика указывает, как наилучшим
1.1. Задачи математической статистики способом использовать имеющуюся информацию для получения
по возможности более точных характеристик массового явления.
Математическая статистика – наука, изучающая методы Конкретизируем задачи, решение которых будет рассмотрено
исследования закономерностей в массовых случайных явлениях и в данном пособии.
процессах по данным, полученным из конечного числа наблюдений 1. Оценка неизвестной функции распределения и функции плот-
за ними. ности. По результатам n независимых испытаний над случай-
Построенные на основании этих методов закономерности от-
ной величиной X получены ее значения
носятся не к отдельным испытаниям, из повторения которых скла-
x1 , x 2 , ..., xn .
дывается данное массовое явление, а представляют собой утвер-
ждения об общих вероятностных характеристиках данного процес- Требуется оценить, хотя бы приближенно, неизвестные функ-
са. Такими характеристиками могут быть вероятности, плотности ции распределения F (x ) и плотности p (x ) .
распределения вероятностей, математические ожидания, диспер- 2. Оценка неизвестных параметров распределения. Поясним за-
сии и т.п. дачу на примере нормального распределения генеральной со-
Найденные характеристики позволяют построить вероятно- вокупности, зависящей от двух параметров α и σ . Требуется
стную модель изучаемого явления. Применяя к этой модели мето- на основании имеющихся данных приближенно найти значе-
ды теории вероятностей, исследователь может решать технико– ние этих параметров. Для этого изучаются некоторые случай-
экономические задачи, например, определять вероятность безот- ные величины и на основе их свойств определяется точность
казной работы агрегата в течение заданного отрезка времени. Та- полученных оценок. Мы будем различать два случая: когда
ким образом, теория вероятностей по вероятностной модели про- имеется достаточно большое количество статистических дан-
цесса предсказывает его поведение, а математическая статистика ных и когда их набор ограничен. Во втором случае будем
по результатам наблюдений за процессом строит его вероятност- строить интервалы со случайными границами, на которые по-
ную модель. В этом состоит тесная взаимосвязь между данными падают неизвестные параметры распределения.
науками.
Очевидно, что для обнаружения закономерностей случайного 3. Проверка статистических гипотез. Предположим, например,
массового явления необходимо провести сбор статистических све- что игральная кость подбрасывается n раз, причем
дений, т.е. сведений, характеризующих отдельные единицы каких– ni (i = 1,...,6) означает количество появлений i очков. Если
либо массовых явлений. Пусть, например, мы располагаем мате- кость симметрична, то любое количество очков должно поя-
риалом о числе дефектных изделий в изготовленной в определен- виться практически одинаковое число раз (при условии, что n
ных условиях партии продукции. Проблемы возникают тогда, ко- достаточно велико). Это следует из известной теоремы Бер-
гда на основании этой информации мы захотим сделать выводы n
относительно качества производства продукции, выпускаемой нулли, утверждающей, что относительная частота ni близка к
предприятием. Нас может интересовать вероятность производства n
вероятности p = 16 . Однако между числами ni могут быть
дефектного изделия, средняя долговечность всех выпускаемых из-
делий и т.д. Собранный материал рассматривается лишь как неко- различия. Возникает вопрос: насколько эти различия согласо-
торая пробная группа, одна из многих возможных пробных групп. ваны с гипотезой о симметричности игральной кости? Разра-
Конечно, выводы, сделанные на основании этого ограниченного
9 10
ботаны методы, позволяющие дать ответы на подобные во- СРЗНАЧ( x1; x2 ; ...; xm ) ,
просы с заданной надежностью.
При обращении к понятиям теории вероятностей мы будем где x1 , x2 ,..., xm – формальные параметры, число которых не пре-
опираться на учебное пособие [1]. вышает 30 ( m ≤ 30 ). Для вычисления среднего значения величин,
находящихся в ячейках B3, B4, B5, B6, C3, C4, C5, C6, обращение
1.2. Решение задач математической статистики к функции в соответствующей ячейке имеет вид:
в табличном процессоре Excel
Решение задач математической статистики обусловливает су- =СРЗНАЧ(B3:B6;С3:C6),
щественный объем вычислений, связанный с численной реализа- т.е. в качестве фактических параметров используются два диапазо-
цией необходимого вычислительного алгоритма и графической ин- на ячеек. ♦
терпретацией результатов решения. Этому моменту в учебной ли- Замечание 1.2. Так как в запрограммированной ячейке выво-
тературе уделяется крайне мало внимания, что затрудняет исполь- дится результат вычислений и не видно самого запрограммирован-
зование методов математической статистики на практике. Поэтому ного выражения, то в некоторых случаях рядом с результатом при-
одной из основных целей данного пособия является изложение водится (в другой ячейке) запрограммированное выражение (свое-
численных методик решения задач математической статистики образный комментарий к выполняемым вычислениям). В случаях,
в вычислительной среде табличного процессора Excel 2003. Для когда не очевидно, к какой ячейке относится приводимое выраже-
каждой из рассматриваемых задач математической статистики ние, используется стрелка, указывающая на нужную ячейку. ♦
кроме теоретических положений даются фрагменты документов
Excel 2003, реализующих алгоритмы решения задачи. При этом ал-
горитм решения может быть реализован путем программирования
необходимых выражений в ячейках электронной таблицы или пу-
тем обращения к стандартным функциям или модулям Excel 2003.
В учебном пособии будут использоваться обе рассмотренные воз-
можности реализации требуемого вычислительного алгоритма.
Поэтому предполагается, что читатель имеет достаточные навыки
для реализации вычислений в Excel с использованием:
• программирования арифметических выражений в ячейках
электронной таблицы;
• функций Excel (в основном математических и статистиче-
ских).
Замечание 1.1. При описании той или иной функции в качест-
ве формальных параметров используются имена переменных, оп-
ределенные в тексте пособия. При обращении к функции в качест-
ве фактических параметров могут использоваться константы,
адреса ячеек, диапазоны адресов и арифметические выражения.
Например, описание функции для вычисления среднего арифмети-
ческого значения (выборочного среднего) имеет вид:

11 12
2. ГЕНЕРАЛЬНАЯ И ВЫБОРОЧНАЯ СОВОКУПНОСТИ. получить n значений случайной величины X – все равно что по-
ВЫБОРОЧНЫЕ ХАРАКТЕРИСТИКИ лучить одно значение n-мерной случайной величины
( X 1 , X 2 ,..., X n ). Поэтому каждую выборку x1 , x 2 ,..., xn объема n
2.1. Генеральная и выборочная совокупности
мы можем рассматривать как одно значение n-мерной случайной
Для обнаружения закономерностей, описывающих исследуе-
мое массовое явление, необходимо иметь опытные данные, полу- величины ( X 1 ,..., X n ).
ченные в результате обследования соответствующих объектов, Поясним сказанное на примере. Пусть X – дискретная слу-
отображающих изучаемое явление. Например, для определения чайная величина, принимающая значения 1, 2, 3, 4, 5, 6, каждое с
плотности распределения диаметра прошлифованного валика не- вероятностью p = 16 . Данную случайную величину, или в новой
обходимо располагать набором возможных значений его диаметра.
Зачастую реально существующую совокупность объектов (на- терминологии – генеральную совокупность, мы можем вообразить
пример, валики, изготовленные в течение января) можно мысленно как урну, содержащую одинаковое количество шаров с номерами
дополнить любым количеством таких же однородных объектов от 1 до 6. Производя выбор с возвращением трех шаров и записы-
(например, валики, изготовленные в тех же условиях в феврале, вая их номера, мы получим выборку объема 3 из генеральной со-
марте и т.д.). Такие совокупности объектов будем называть гене- вокупности Х. Вообразим себе три урны того же содержания, т.е.
ральными совокупностями. три копии Х1, Х1, Х3 урны Х. Выберем из каждой урны по одному
Каждой генеральной совокупности соответствует случайная шару. Получим выборку x1 , x 2 , x3 из генеральной совокупности Х.
величина, определяемая изучаемым признаком объекта. В нашем
примере – это диаметр валика. Так как понятия генеральной сово- 2.2. Свойства выборочной совокупности
купности и соответствующей случайной величины связаны с на- Для того чтобы по отобранным значениям некоторого количе-
блюдениями (измерениями) в неизменных условиях, то для ее обо- ственного показателя можно было достаточно уверенно судить обо
значения (по аналогии с курсом теории вероятностей) будем ис- всей совокупности, полученная выборка должна быть репрезента-
пользовать прописные буквы латинского алфавита (например, тивной (представительной), т.е. правильно отражать пропорции
X , Y ). генеральной совокупности. Предположим, например, что вся сово-
Часть отобранных объектов из генеральной совокупности на- купность состоит из равного большого количества белых и черных
зывается выборочной совокупностью, или выборкой. шаров, помещенных в ящик, на дне которого имеется отверстие.
Результаты измерений изучаемого признака n объектов выбо- Если черные шары сосредоточены в нижней части ящика, а белые
рочной совокупности порождают n значений x1 , x 2 ,..., xn случай- – в верхней, то, открывая некоторое небольшое количество раз за-
ной величины X . Число n называется объемом выборки. слонку в отверстии ящика, мы получим выборку только из черных
шаров. На основании такого способа отбора шаров мы не сможем
Наряду с генеральной совокупностью X будем рассматривать
сделать правильных выводов о содержании всей совокупности ша-
n независимых случайных величин, обозначаемых той же буквой,
ров, т.е. такая выборка не будет репрезентативной. Выборка будет
что и генеральная совокупность, и имеющих точно такое же рас-
представительной лишь тогда, когда все объекты генеральной со-
пределение, как генеральная совокупность. Итак, X 1 , X 2 ,..., X n – вокупности будут иметь одинаковую вероятность попасть в вы-
n независимых экземпляров X . Если F (x ) – функция распреде- борку. Для этого шары должны быть перемешаны. Другими слова-
ления генеральной совокупности X , то у каждой случайной вели- ми, репрезентативность выборки обеспечивается случайностью
чины X i функция распределения также равна F (x ) . Понятно, что отбора объектов в выборку.

13 14
Существует несколько способов отбора, обеспечивающих ре- 2.3. Вариационные ряды
презентативность выборки. После получения (тем или иным способом) выборочной сово-
Пусть небольшие по размеру объекты генеральной совокупно- купности все ее объекты обследуются по отношению к определен-
сти находятся, например, в ящике. Каждый раз после тщательного ной случайной величине, т.е. обследуемому признаку объекта. В
перемешивания (если оно не вызывает разрушения объектов) из результате этого получают наблюдаемые данные, которые пред-
ящиков наудачу берут один объект. Эту операцию повторяют до ставляют собой множество чисел, расположенных в беспорядке.
тех пор, пока не образуется выборка нужного объема. Очевидно, Анализ таких данных весьма затруднителен, и для изучения зако-
что такая техника отбора невозможна, если генеральная совокуп- номерностей полученные данные подвергаются определенной об-
ность состоит из больших (по размерам) или хрупких объектов, работке.
например из мощных электромоторов. В этих случаях поступают ♦Пример 2.1. На телефонной станции проводились наблюде-
следующим образом. Все объекты генеральной совокупности ну- ния над числом Х неправильных соединений в минуту. Наблюде-
меруют и каждый номер записывают на отдельную карточку. По- ния в течение часа дали следующие 60 значений:
сле этого карточки с номерами тщательно перемешивают и из пач- 3; 1; 3; 1; 4; ⎪ 1; 2; 4; 0; 3; ⎪ 0; 2; 2; 0; 1; ⎪1; 4; 3; 1; 1;
ки карточек выбирают одну. Объект, номер которого совпал с но- 4; 2; 2; 1; 1; ⎪ 2; 1; 0; 3; 4; ⎪ 1; 3; 2; 7; 2; ⎪0; 0; 1; 3; 3;
мером выбранной карточки, включают в выборку. Номера объек-
тов можно "отбирать" с помощью таблиц случайных чисел – это 1; 2; 1; 2; 0; ⎪ 2; 3; 1; 2; 5; ⎪ 1; 2; 4; 2; 0; ⎪ 2; 3; 1; 2; 5. ☻
целесообразно при большом объеме генеральной совокупности. Очевидно, что число X является дискретной случайной величи-
Принципиально, что при отборе объектов в выборочную сово- ной, а полученные данные есть значения этой случайной величи-
купность возможны два варианта: ны. Анализ исходных данных в таком виде весьма затруднителен.
1. Объект возвращается в генеральную совокупность. Выбо- Простейшая операция – ранжирование опытных данных, ре-
рочная совокупность, полученная таким образом, называет- зультатом которого являются значения, расположенные в порядке
ся случайной выборкой с возвратом (или повторной выбор- неубывания. Если среди элементов встречаются одинаковые, то
кой). они объединяются в одну группу. Значение случайной величины,
2. Объект, включенный в выборку, не возвращается в гене- соответствующее отдельной группе сгруппированного ряда на-
ральную совокупность. Образованная выборка называется блюдаемых данных, называется вариантом, а изменение этого
случайной выборкой без возврата (или бесповторной вы- значения – варьированием. Варианты будем обозначать строчными
боркой). буквами с соответствующими порядковому номеру группы индек-
Очевидно, что в повторной выборке возможна ситуация, когда сами x (1) , x ( 2 ) , ..., x ( m ) , где m – число групп. При этом
один и тот же объект будет обследован несколько раз. Если объем (1) ( 2) (m)
генеральной совокупности велик, то различие между повторной и x <x .< ... < x
бесповторной выборками (которые составляют небольшую часть Численность отдельной группы сгруппированного ряда данных
генеральной совокупности) незначительно и это практически не называется частотой ni , где i – индекс варианта, а отношение
сказывается на окончательных результатах. В таких случаях, как частоты данного варианта к общей сумме частот называется част-
правило, используют выборку без возврата. Если генеральная со-
ностью (или относительной частотой) и обозначается ω i ,
вокупность имеет не очень большой объем, то различие между
указанными выборками будет существенным. i = 1, ..., m , т.е.

15 16
ni Если число возможных значений дискретной случайной вели-
ωi = m
, (2.1) чины достаточно велико или наблюдаемая случайная величина яв-
∑ ni ляется непрерывной, то строят интервальный вариационный ряд,
i =1 под которым понимают упорядоченную совокупность интервалов
m
варьирования значений случайной величины с соответствующими
при этом ∑n
i =1
i = n. частотами или частностями попаданий в каждый из них значений
случайной величины.
Дискретным вариационным рядом называется ранжированная
Как правило, частичные интервалы, на которые разбивается
совокупность вариантов x (i ) с соответствующими им частотами весь интервал варьирования, имеют одинаковую длину и предста-
ni или частностями ω i . вимы в виде
♦Пример 2.2. Для данных примера 2.1 были выполнены опера- [ zi , zi + h), i = 1, 2,..., m , (2.2)
ции ранжирования и группировки. В результате были получены где m − число интервалов.
семь значений случайной величины (варианты): 0; 1; 2; 3; 4; 5; 7. Длину h следует выбирать так, чтобы построенный ряд не
При этом значение 0 в этой группе встречается 8 раз, значение 1 – был громоздким, но в то же время позволял выявлять характерные
17 раз, значение 2 – 16 раз, значение 3 – 10 раз, значение 4 – 6 раз, изменения случайной величины.
значение 5 – 2 раза, значение 7 – 1 раз. Вычисленные значения час- Для вычисления h рекомендуется использовать следующую
тот и частностей приведены в табл. 2.1. формулу:
Таблица 2.1 x − x min
Индекс i 1, 2, 3, 4, 5, 6, 7 h = max ,
1 + 3.222 lg n
Вариант x(i ) 0, 1, 2, 3, 4, 5, 7
где x max , x min – наибольшее и наименьшее значения случайной
Частота ni 8, 17, 16, 10, 6, 2, 1
величины. Если окажется, что h – дробное число, то за длину ин-
Частность ωi 8
60
, 17 , 16 , 10 ,
60 60 60
6
60
, 2
60
, 1
60 тервала следует принять либо ближайшую простую дробь, либо
ближайшую целую величину. При этом необходимо выполнение
Таким образом, получен дискретный ряд: условий:
0(8);1(17); 2(16); 3(10); 4(6); 5(2); 7(1) , z1 ≤ x min ; z m + h ≥ x max . (2.3)
где в скобках указаны соответствующие частоты. В отличие от ис- После нахождения частных интервалов определяется, сколько
ходных данных (см. пример 2.1), этот ряд позволяет делать неко- значений случайной величины попало в каждый конкретный ин-
торые выводы о статистических закономерностях. ☻ тервал. При этом в интервал включают значения, большие или
равные нижней границе и меньшие верхней границы.
Если среди n наблюдаемых значений x i отсутствуют одина-
♦ Пример 2.3. При изменении диаметра валика после шли-
ковые значения, то m = n, ni = 1 , а дискретный вариационный ряд фовки была получена следующая выборка (объемом n = 55 ):
имеет вид
x (1) < x ( 2 ) < ... < x ( n −1) < x ( n ) .

17 18
20.3 15.4 17.2 19.2 23.3 18.1 21.9 где n x – количество элементов выборки, меньших чем x . Други-
15.3 16.8 13.2 20.4 16.5 19.7 20.5
14.3 20.1 16.8 14.7 20.8 19.5 15.3 ми словами, Fn* ( x ) есть относительная частота появления события
19.3 17.8 16.2 15.7 22.8 21.9 12.5 A = { X < x} в n независимых испытаниях. Главное различие ме-
10.1 21.1 18.3 14.7 14.5 18.1 18.4
13.9 19.8 18.5 20.2 23.8 16.7 20.4 жду F ( x ) и Fn* ( x ) состоит в том, что F ( x ) определяет вероят-
19.5 17.2 19.6 17.8 21.3 17.5 19.4 ность события A , а выборочная функция распределения Fn* ( x ) –
17.8 13.5 17.8 11.8 18.6 19.1
Необходимо построить интервальный вариационный ряд, со- относительную частоту этого события.
стоящий из семи интервалов. Из определения (2.4) имеем следующие свойства функции
Решение. Так как наибольшая варианта равна 23.8, а наимень-
Fn* ( x ) :
шая 10.1, то вся выборка попадает в интервал (10,24). Мы расши-
рили интервал (10.1,23.8) для удобства вычислений. Длина каждо- 1. 0 ≤ Fn* ( x) ≤ 1 . (2.5)
го частичного интервала равна 24 − 10 = 2 . Получаем следующие 2. Fn* ( x ) – неубывающая функция.
7
семь интервалов: 3. Fn* ( −∞ ) = 0; Fn* ( ∞) = 1.
[10,12);[12,14);[14,16);[16,18);[18, 20);[20, 22);[22;24), Напоминаем, что такими же свойствами обладает и функция
а соответствующий интервальный вариационный ряд представлен распределения F ( x ) (вспомните эти свойства и сравните).
в табл. 2.2. Функция Fn* ( x ) является "ступенчатой", имеются разрывы в
Таблица 2.2
Х 10–12 12–14 14–16 16–18 18–20 20–22 22–24 точках, которым соответствуют наблюдаемые значения вариантов.
Величина скачка равна относительной частоте варианта.
ωi 2 4 8 12 15 11 3
55 55 55 55 55 55 55 ☻ Аналитически Fn* ( x ) задается следующим соотношением:
⎧0 при x ≤ x (1) ;
2.4. Выборочная функция распределения. Гистограмма ⎪ i −1

В теории вероятностей для характеристики распределения Fn ( x) = ⎨∑ ω j при x ( i −1) < x ≤ x ( i ) , i = 1, 2,..., m;
*
(2.6)
случайной величины X служит функция распределения ⎪ j =1
⎪1 при x > x ( m ) ,
F ( x ) = P( X < x ) , ⎩
где ω i – соответствующие относительные частоты, определяемые
равная вероятности события { X < x} , где x – любое действитель-
ное число. выражением (2.1); x (i ) – элементы вариационного ряда (варианты).
Одной из основных характеристик выборки является выбороч- Замечание. В случае интервального вариационного ряда под
ная (эмпирическая) функция распределения x (i ) понимается середина i-го частичного интервала.
nx
Fn* ( x ) = , (2.4) Перед вычислением Fn* ( x ) полезно построить дискретный
n
или интервальный вариационный ряд.
19 20
♦Пример 2.4. Построить выборочную функцию распределе- Fn* ( x ) , построенной по другой выборке из той же генеральной со-
ния по наблюдаемым данным, приведенным в примере 2.1.
Решение. Используя соответствующий этим данным дискрет- вокупности.

ный вариационный ряд (см. табл. 2.1), вычислим значения Fn* ( x ) F60* (x)
по формуле (2.6) и занесем их в табл. 2.3.
Таблица 2.3
*
x F60 ( x)
x≤1 0

0<x≤1 ω1 = 8
60
1<x≤2 ω1 + ω 2 = 25
60
2<x≤3 ω1 + ω 2 + ω 3 = 41
60 x
3<x≤4 ω1 + ω 2 + ω 3 + ω 4 = 51
60
Рис. 2.1. График выборочной функции распределения
4<x≤5 ω1 + ω 2 + ω 3 + ω 4 + ω 5 = 57
60 (пример 2.4)
5<x≤7 ω1 + ω 2 + ω 3 + ω 4 + ω 5 + ω 6 = 59
60 Возникает вопрос: зачем нужна такая характеристика, меняю-
x>7 ω1 + ω 2 + ω 3 + ω 4 + ω 5 + ω 6 + ω 7 = 60
=1 щаяся от выборки к выборке? Ответ получаем на основе следую-
60 щих рассуждений.
* * По теореме Бернулли относительная частота появления собы-
Из графика F60 ( x ) (рис. 2.1) видно, что F60 ( x ) удовлетворя- тия A в n независимых опытах сходится по вероятности к вероят-
ет свойствам (2.5). ☻ ности P( X < x ) этого события при увеличении n . Следовательно,
Задача 2.1. Построить выборочную функцию распределения при больших объемах выборки выборочная функция распределе-
по наблюдаемым данным, приведенным в примере 2.3. ния Fn* ( x ) близка к теоретической функции F ( x ) . Точнее, имеет
Напомним, что Fn* ( x ) равна относительной частоте появле- место следующая теорема.
ния события A = { X < x} и, следовательно, при любом значении Теорема В.И. Гливенко. Для любого действительного числа
x и любого ε > 0
x величина Fn* ( x ) является случайной. Тогда конкретной выбор-
lim P( Fn* ( x ) − F ( x ) > ε ) = 0 .
ке ( x1 , x2 ,..., xn ) объема n соответствует функция распределения n→∞
Таким образом, по функции Fn* ( x ) мы можем получить при-
Fn* ( x ) , которая в силу своей случайности будет отличаться от
ближенно функцию F (x ) , т.е. функция Fn* ( x ) является оценкой
F ( x) .
21 22
В качестве оценки плотности распределения вероятности не- где ui – некоторое число из промежутка [ zi , zi −1 ) . Так как
прерывной случайной величины используют гистограмму отно-
сительных частот.
ω i = ( zi +1 − zi ) yi , то значения yi и p(u i ) близки друг к другу.
Гистограммой относительных частот называется система пря- Практически это означает, что график плотности распределения
моугольников, каждый из которых основанием имеет i-й интервал генеральной совокупности X проходит вблизи верхних границ
интервального вариационного ряда; площадь, равную относитель- прямоугольников, образующих гистограмму. Поэтому при боль-
ной частоте ω i , а высота yi определяется по формуле ших объемах выборок и удачном выборе длины частичных интер-
валов гистограмма напоминает график плотности распределения
ωi p( x ) .
yi = , i = 1, 2,..., m ,
hi
♦Пример 2.5. Построим гистограмму относительных частот
где hi = zi +1 − zi – длина i-го частичного интервала. Если выборочной совокупности из примера 2.3.
длина частичных интервалов одинакова, то hi = h (см. (2.2), (2.3)).
Решение. Используя интервальный вариационный ряд (см.
Очевидно, что сумма площадей всех прямоугольников равна 1 табл. 2.2), находим высоты yi по формуле yi = ω i / 2 . График по-
(докажите это свойство).
строенной гистограммы приведен на рис. 2.2. Здесь же штриховой
Площадь прямоугольника ω i равна относительной частоте
линией отмечен предполагаемый график неизвестной плотности
попадания элементов выборочной совокупности объема n на i-й p(x ) . ☻
интервал, т.е.
ω i = ω n* ( zi ≤ X < zi +1 ) . уi
С другой стороны, если y = p (x ) – плотность вероятности
случайной величины X , то вероятность
0.10
pi = P( zi ≤ X < zi +1 )
по теореме Бернулли близка при большом значении n к отно-
0.05
сительной частоте.
Поэтому значение ω i близко к
z i +1
х
pi = P( zi ≤ X < zi +1 ) = ∫ p( x )dx . (2.7)
zi
Пусть yi – высота i-го прямоугольника. По теореме о среднем Рис. 2.2. График гистограммы частностей (пример 2.5)
интеграл, выражающий вероятность в формуле (2.7), можно запи-
сать в виде 2.5. Выборочное среднее и выборочная дисперсия
zi +1
Рассмотренная выборочная функция распределения и гисто-
pi = ∫
zi
p( x)dx = ( zi +1 − zi ) ⋅ p(ui ) , (2.8)
грамма позволяют делать выводы о закономерностях исследуемого
массового явления. Однако они неудобны для описания группиро-
23 24
вания и рассеивания наблюдаемых данных. Для этого используют- ( zi + zi +1 )
ся так называемые числовые характеристики выборочной совокуп- zi* = , i = 1, 2,..., m.
2
ности, из которых рассмотрим выборочное среднее и выборочную
дисперсию. Сравним математическое ожидание дискретной случайной ве-
Выборочным средним X в называется случайная величина, оп- личины Х, вычисляемое по формуле
ределенная формулой m
X 1 + X 2 + ... + X n M ( X ) = ∑ xi pi , (2.13)
Xв = . (2.9) i =1
n
и значение выборочного среднего, определяемое (2.11). Прежде
Так как конкретная выборка x1 ,..., xn является реализацией
всего, очевидна их внешняя схожесть. Однако в формуле (2.13)
значений случайных величин X 1 ,..., X n , то среднее значение вы- xi – возможные значения случайной величины, а pi – вероятно-
борки
сти. В формуле (2.11) x (i ) – варианты случайной величины, полу-
x + x2 + ... + xn
xв = 1 (2.10) ченные в результате наблюдений, ω i – их относительная частота.
n
Далее, математическое ожидание не является случайной величи-
является одной из реализаций случайной величины X в . Другими ной, а выборочное среднее – случайная величина, значение кото-
словами, xв есть одно из значений случайной величины X в . рой меняется от выборки к выборке. Несмотря на это, как будет
Если данные представлены в виде вариационного ряда, то для показано ниже, выборочное среднее при определенных условиях
вычисления выборочного среднего целесообразно применить одно выступает как "хорошая" оценка математического ожидания.
из следующих соотношений: ♦ Пример 2.6. Вычислим значение выборочного среднего по
выборке примера 2.1.
• для дискретного вариационного ряда Решение. Используя дискретный вариационный ряд (см.
m
∑ x ( i ) ni табл. 2.1) и соотношение (2.1), имеем
m
xв = i =1
m
= ∑ x ( i )ω i ; (2.11) 8 + 1 ⋅ 17 + 2 ⋅ 16 + 3 ⋅ 10 + 4 ⋅ 6 + 5 ⋅ 2 + 7 ⋅ 1 = 2.0 . ☻
xв = 0 ⋅ 60
∑ ni i =1 60 60 60 60 60 60
i =1
Так как значение выборочного среднего есть выборочный ана-
• для интервального вариационного ряда лог математического ожидания, то имеет смысл ввести характери-
стику, которая бы оценивала величину рассеивания значений
m
∑ z i* ni m x1 , x2 ,..., xn относительно xв , а именно
xв = i =1
m
= ∑ ω i zi* , (2.12)
∑ ni i =1 n ( x i − xв ) 2
i =1 dв = ∑ . (2.14)
i =1 n
где ω i – частность (относительная частота), соответствующая i-й
Число d в является значением случайной величины
варианте или i-му частичному интервалу; zi* – середина i-го час-
тичного интервала, т.е.
25 26
n
( X i − X в )2 квадрата математического ожидания, т.е. σ 2 << ( M ( x )) 2 , то из-за
Dв = ∑ , (2.15)
i =1 n ошибок округления при машинном счете по этим формулам воз-
которую мы будем называть выборочной дисперсией. можна ситуация d в < 0 . Тогда следует положить d в = 0 .
Если данные представлены в виде вариационного ряда, то целе- Сравним формулу (2.16) с формулой дисперсии дискретной
сообразно для вычислений d в вместо (2.14) использовать сле- случайной величины
дующие соотношения: m
• для дискретного вариационного ряда
D( X ) = ∑ ( xi − M ( X )) 2 pi . (2.21)
i =1
m Различие между этими формулами состоит в том, что: а) вели-
∑ (x (i )
− xв ) 2 ni m чина D( X ) не случайна, d в – значение случайной величины, ко-
dв = i =1
= ∑ ( x ( i ) − xв ) 2 ωi ; (2.16)
торое может меняться от выборки к выборке; б) в формуле (2.21)
n i =1
xi – возможные значения случайной величины X , pi – их вероят-
• для интервального вариационного ряда
ности, M ( X ) – математическое ожидание. В формуле (2.16) x (i ) –
m
* 2
∑ ( z i − x в ) ni m
варианты случайной величины, ω i – их относительные частоты, а
i =1
dв = = ∑ ( zi* 2
− xв ) ω i , (2.17) xв – значения выборочного среднего. Несмотря на различия, меж-
n i =1
ду этими двумя формулами много общего. Во-первых, обе они яв-
где ω i , zi* –
те же, что и в формулах (2.11), (2.12). ляются мерой рассеивания. Во-вторых, кроме внешнего сходства
Можно показать справедливость следующих выражений, яв- формул, соответствующие дисперсии обладают схожими свойст-
ляющихся аналогами (2.14), (2.16), (2.17) соответственно: вами. В-третьих, как будет показано ниже, выборочная дисперсия
при определенных условиях является хорошей оценкой для гене-
1 n (i) 2 ральной дисперсии D( X ) .
dв = ∑ ( x ) − ( xв )2 ;
n i =1
(2.18)
♦ Пример 2.7. Необходимо вычислить значение выборочной
дисперсии по выборке примера 2.1.
m Решение. Воспользуемся формулой (2.19). Первоначально, ис-
d в = ∑ ( x ( i ) ) 2 ω i − ( xв ) 2 ; (2.19) пользуя дискретный вариационный ряд (см. табл. 2.1), вычислим
i =1
7
m ∑(x(i) )2ωi = 0⋅ 608 +1⋅ 1760 + 4⋅ 1660 +9⋅ 1060 +16⋅ 606 + 25⋅ 602 + 49⋅ 601 = 6.09 . (2.22)
d в = ∑ ( zi* ) 2 ω i − ( xв ) 2 . (2.20) i=1
i =1 Так как значение xв было вычислено в примере 2.6 ( xв = 2.0 ),
Приведенные соотношения (2.18)–(2.20) оказываются более то
удобными для программной реализации вычислений значения d в . 7
d в = ∑ ( x ( i ) ) 2 ω i − ( xв ) 2 = 6.09 − 4.0 = 2.09 . ☻
Однако если генеральная дисперсия σ 2 существенно меньше i =1

27 28
2.6. Вычисление выборочных характеристик в Excel ♦ Пример 2.8. По выборке примера 2.3 вычислить частоты и
частности для семи заданных интервалов [10,12); [12,14); [14,16);
Вычисление частот. Для вычисления частот ni можно исполь-
[16,18); [18,20); [20,22); [22,24), используя функцию ЧАСТОТА.
зовать функцию ЧАСТОТА, обращение к которой имеет вид:
Решение. Первоначально, начиная с ячейки А3 (рис. 2.2), вве-
=ЧАСТОТА(массив_данных;массив_границ), дем в столбец А 55 элементов выборки примера 2.3 (диапазон
где массив_данных – адреса ячеек, для которых вычисляется час- А3:А57). Затем, начиная с ячейки В3, введем границы заданных
тота ni ; массив_границ – адреса ячеек, в которых размещаются интервалов (см. рис. 2.2).
упорядоченные по возрастанию значения z j , j = 1, 2,..., m + 1 , где После подготовки этих данных выделяем ячейки С3:С11, вво-
дим выражение
m – число интервалов.
=ЧАСТОТА(А3:А57;В3:В10)
При использовании этой функции необходимо помнить:
1. Функция ЧАСТОТА вводится как формула массива, т.е. и нажимаем одновременно клавиши [Ctrl] + [Shift] + [Enter]. В
предварительно выделяется интервал ячеек, в который будут по- ячейках С3:С11 появляется результат выполнения функции (см.
мещены вычисленные частоты (число ячеек должно быть на 1 рис. 2.2).
больше числа границ), затем вводится функция ЧАСТОТА с соот- Для вычисления относительных частот ω j (частностей) необ-
ветствующими аргументами, потом одновременно нажимаются ходимо частоты поделить на число элементов выборки. Эти вы-
клавиши [Ctrl] + [Shift] + [Enter]. числения реализованы в ячейках D3:D11 (см. рис. 2.2). Для кон-
2. Функция ЧАСТОТА игнорирует пустые ячейки и текстовые троля правильности вычисления частот и частностей в ячейках
данные. С12, D12 определены суммы (см. рис. 2.2):
3. Если массив_границ не содержит возрастающих значений m +1= 9 m +1= 9
границ и интервалов, то осуществляется автоматическое вычисле- ∑n j = 55 , ∑ω j =1. ☻
ние границ интервалов равной ширины, причем число интервалов j =0 j =0

равно корню квадратному из числа элементов массива_данных. Для подсчета количества элементов выборки (т.е. объема вы-
Результатом работы является массив значений, определяе- борки) использовалась функция СЧЁТ, обращение к которой име-
мый по следующему правилу: первый элемент равен числу n0 эле- ет вид:
ментов массива_данных меньше z1 ; последний элемент равен чис- СЧЁТ(массив_данных),
лу nm +1 элементов массива_данных больше zm +1 ; остальные эле- где массив_данных – адреса ячеек или числовые константы.
менты определяются как числа nj элементов xi массива_данных, Результатом работы является количество числовых величин
удовлетворяющих условию в массиве_данных. При этом игнорируются пустые ячейки, логиче-
ские значения, тексты и значения ошибок.
z j < xi ≤ z j +1 , j = 1, 2,..., m .
Другими словами, кроме m значений частот nj, j = 1, 2,..., m ,
соответствующих m интервалам, вычисляются частоты n0 (число
значений xi , лежащих левее z1 ) и nm +1 (число значений xi , лежа-
щих правее zm +1 ).

29 30
данных выбрать режим Гистограмма и щелкнуть на кнопке ОК.
Появится окно гистограммы, показанное на рис. 2.3. В окне зада-
ются следующие параметры:

Рис. 2.2. Фрагмент вычисления частот и частностей


Рис. 2.3. Диалоговое окно режима Гистограмма
Вычисление ненормированной гистограммы относитель-
ных частот. Иногда в статистической (особенно зарубежной) ли- Входной интервал: – адреса ячеек, содержащие выборочные
тературе под гистограммой понимают систему прямоугольников, данные.
каждый из которых основанием имеет j-й интервал, а высота равна Интервал карманов: (необязательный параметр) – адреса яче-
ω j . Очевидно, что сумма высот всех прямоугольников равна 1. ек, содержащие границы интервалов (кармана). Эти значения
Заметим, что у ранее определенной гистограммы относитель- должны быть введены в возрастающем порядке.
ных частот сумма площадей прямоугольников равна 1, а высота Метки – флажок, включаемый, если первая строка во входных
данных содержит заголовки. Если заголовки отсутствуют, то фла-
прямоугольников равна y j = ω j h j , где h j – длина j-го интервала
жок следует выключить.
(т.е. выполнено нормирование). Поэтому первую гистограмму бу- Выходной интервал: / Новый рабочий лист: / Новая рабочая
дем называть ненормированной гистограммой относительных час- книга. Включенный переключатель Выходной интервал требует
тот. ввода адреса верхней ячейки, начиная с которой будут размещать-
Для построения ненормированной гистограммы необходимо ся вычисленные относительные частоты ω j . В положении пере-
обратиться к пункту Сервис строки меню Excel, а затем щелкнуть
на команде Анализ данных, в появившемся окне диалога Анализ ключателя Новый рабочий лист: открывается новый лист, в кото-

31 32
ром начиная с ячейки А1 размещаются частности ω j . В положении щелкнем на кнопке ОК. В ячейках D4:D11 выводятся вычисленные
переключателя Новая рабочая книга открывается новая книга, на значения ω j , а в ячейках Е4:Е11 – значения интегрального процен-
первом листе которой начиная с ячейки А1 размещаются частно- та. В этом же листе строится диаграмма, на которой отображаются
сти ω j . вычисленные характеристики. ☻
Парето (отсортированная гистограмма) – устанавливается в Замечание 2.1. Как правило, гистограммы изображаются в ви-
де смежных прямоугольных областей. Поэтому столбики гисто-
активное состояние, чтобы представить ω j в порядке их убывания.
граммы на рис. 2.4 целесообразно расширить до соприкосновения
Если параметр выключен, то ω j приводятся в порядке следования друг с другом. Для этого необходимо щелкнуть мышью на диа-
интервалов. грамме, далее на панель инструментов Диаграмма, раскрыть спи-
Интегральный процент – устанавливается в активное состоя- сок инструментов и выбрать элемент Ряд ‘Частота’, после чего
ние для расчета выраженных в процентах накопленных относи- щелкнуть на кнопке Формат ряда. В появившемся одноименном
тельных частот (процентный аналог значений выборочной функ- диалоговом окне необходимо активизировать закладку Парамет-
ции распределения (2.6) при xi = z j , j = 1, 2,..., m + 1 ). ры и в поле Ширина зазора установить значение 0.
Вывод графика – устанавливается в активное состояние для ав-
томатического создания встроенной диаграммы на листе, содер-
жащем относительные частоты ω j .
При использовании режима Гистограмма модуля Анализ дан-
ных необходимо помнить:
1. Относительные частоты ω j вычисляются как количество
элементов xi выборки, удовлетворяющих условию
z j < xi ≤ z j +1 .
2. Если границы интервалов не заданы, то автоматически бу-
дет создан набор интервалов с одинаковой длиной
x − xmin
h = max ,
[k ] − 1
где [k ] – целая часть величины k = 1 + 3.322 ⋅ lg n , n – объем вы-
борки.
♦ Пример 2.9. По выборке примера 2.3 построить ненормиро-
ванную гистограмму относительных частот, используя режим Гис-
тограмма модуля Анализ данных.
Решение. Первоначально, начиная с ячейки А3 (рис. 2.4), вве-
дем в столбец А 55 элементов выборки (диапазон А3:А57). Затем
обратимся к пункту Сервис, команде Анализ данных, режиму Гис-
тограмма. В появившемся диалоговом окне Гистограмма устано- Рис. 2.4. Фрагмент построения гистограммы
вим значения параметров, показанные на рис. 2.3, и после этого
33 34
На рис. 2.5 показана гистограмма, полученная из гистограммы ты прямоугольников (ячейки Е3:Е9) и середины интервалов (ячей-
(см. рис. 2.4) путем действий, описанных в замечании 2.1. ♦ ки B3:B9). Для проверки правильности вычислений в ячейках D10,
Замечание 2.2. Ненормированная гистограмма относительных E10 определим суммы ∑ ω j , ∑ y j . Очевидно, что 2 ⋅ ∑ y j = 1 .
частот не может служить оценкой для плотности распределения
В заключение по данным столбцов B, E строим гистограмму
случайной величины, из значений которой была сформирована вы-
борка (особенно в случае неравных длин интервалов), из–за того, (рис. 2.6). ☻
что сумма площадей прямоугольников ≠ 1 . В качестве такой оцен-
ки может рассматриваться гистограмма относительных частот. ♦

Рис. 2.5. График построенной гистограммы

Вычисление гистограммы относительных частот. Для вы-


числения такой гистограммы достаточно первоначально вычислить
относительные частоты (частности), а затем полученные значения
поделить на длину h j соответствующего интервала, т.е. получить
высоту соответствующего прямоугольника y j = ω j h j . Для полу-
чения соприкасающихся прямоугольников выполнить операции,
описанные в замечании 2.1 для соответствующего элемента.
♦ Пример 2.10. По выборке примера 2.3 построить гистограм- Рис. 2.6. Построение гистограммы относительных частот
му относительных частот.
Решение. Как и в примере 2.8, введем выборочные значения и, Вычисление выборочных среднего и дисперсии. Для вычис-
используя функцию ЧАСТОТА, вычислим частоты и частности. ления выборочного среднего (2.10) используется функция
Затем, используя формулу y j = ω j h j , где h j = 2 , вычислим высо- СРЗНАЧ, обращение к которой имеет вид:

35 36
=СРЗНАЧ(арг1; арг2; …; арг30), КВАДРОТКЛ, аргументами, указанными на рис. 2.7. Затем вычис-
где арг1; арг2; …; арг30 – числа или адреса ячеек, содержащих чи- лим характеристики (2.10), (2.14) с использованием статистических
словые данные. Если ячейка содержит текстовые, логические зна- функций СРЗНАЧ, ДИСПР (см. рис. 2.7). Как и следовало ожидать,
чения или ячейка пуста, то такие ячейки игнорируются при под- результаты вычислений двумя способами совпали. ☻
счете среднего значения по формуле
n

∑x i
xb = . i =1

n
Здесь и в дальнейшем запись арг1; арг2; …; арг30 означает нали-
чие от 1 до 30 аргументов функции Excel.
Для вычисления выборочной дисперсии (2.14) используется
функция ДИСПР, обращение к которой имеет вид:
=ДИСПР(арг1; арг2; …; арг30),
где арг1; арг2; …; арг30 – числа или адреса ячеек, содержащих чи-
словые данные. Ячейки, содержащие текстовые, логические дан-
ные или пустые, при вычислении выборочной дисперсии игнори-
руются.
Для вычисления суммы квадратов отклонений
n

∑ (x
i =1
i − xb ) 2

используется функция КВАДРОТКЛ, обращение к которой имеет


вид:
=КВАДРОТКЛ(арг1; арг2; …; арг30),

где арг1, арг2, …, арг30 – числа или адреса ячеек, содержащих чи- Рис. 2.7. Вычисление выборочных среднего и дисперсии
словые данные.
♦ Пример 2.11. По выборке примера 2.3 вычислить выбороч- Задание 2.1. По выборочным данным ( n = 60 ) примера 2.1 по-
ное среднее xb и выборочную дисперсию db двумя способами: строить гистограмму относительных частот. Длину интервала оп-
Способ 1. Программируя в ячейках Excel необходимые вычис- ределить по формуле
ления. xmax − xmin
h= .
Способ 2. Используя функции Excel СРЗНАЧ, ДИСПР. (1 + 3.322 ⋅ lg n )
Решение. Первоначально, начиная с ячейки А3, введем в
столбец А 55 элементов выборки (диапазон А3:А57). Запрограм- Рекомендация. При выполнении задания использовать пример
мируем выражения (2.10), (2.14), используя функции СУММ, 2.10. ♥
37 38
Задание 2.2. По выборочным данным ( n = 60 ) примера 2.1 по- 3. ТОЧЕЧНЫЕ ОЦЕНКИ НЕИЗВЕСТНЫХ ПАРАМЕТРОВ
строить ненормированную гистограмму относительных частот, ис- 3.1. Определение и свойства точечной оценки
пользуя режим Гистограмма.
Большинство случайных величин, рассмотренных в курсе тео-
Рекомендация. При выполнении задания использовать пример
2.9. ♥ рии вероятностей, имели распределения, зависящие от одного или
нескольких параметров. Так, биномиальное распределение зависит
Задание 2.3. По выборочным данным ( n = 60 ) примера 2.1 вы-
от параметров p и n , нормальное – от параметров a и σ , рас-
числить выборочные среднее и дисперсию, используя стандартные
функции Excel. пределение Пуассона – от параметра λ и т.п. Одной из основных
Рекомендация. При выполнении задания использовать пример задач математической статистики (см. главу 1) является оценива-
2.11. ♥ ние этих параметров по наблюдаемым данным, т.е. по выборочной
Кроме приведенных функций при вычислении выборочных совокупности. В главе 2 были рассмотрены выборочные среднее и
характеристик могут быть полезными следующие функции: дисперсия, которые интерпретировались как приближенные значе-
Функция МАКС вычисляет максимальное значение из задан- ния неизвестных значений математического ожидания и дисперсии
ных аргументов. Обращение к ней имеет вид: изучаемой случайной величины X , т.е. являлись оценками этих
неизвестных характеристик.
=МАКС(арг1; арг2; …; арг30),
Выборочная характеристика, используемая в качестве при-
где арг1; арг2; …; арг30 – числовые константы или адреса ячеек, ближенного значения неизвестного параметра генеральной сово-
содержащих числовые величины. купности, называется точечной оценкой этого параметра. В этом
Функция МИН вычисляет минимальное значение из заданных определении слово "точечная" означает, что значение оценки пред-
аргументов. Обращение к ней имеет вид: ставляет собой число или точку на числовой оси.
=МИН(арг1; арг2; …; арг30), Обозначим через θ некоторый неизвестный параметр гене-
где арг1; арг2; …; арг30 – числовые константы или адреса ячеек, ральной совокупности, а через θ n* – точечную оценку этого пара-
содержащих числовые величины.
метра. Оценка θ n* есть функция ϕ ( X1, X 2 ,..., X n ) от n независи-
мых экземпляров X1, X 2 ,..., X n генеральной совокупности, где
n – объем выборки (см. п. 2.1). Поэтому оценка θ n* , как функция
случайных величин, также является случайной, и свойства θ n*
можно исследовать с использованием понятий теории вероятно-
стей.
В общем случае точечная оценка θ n* не связана с оцениваемым
параметром θ . Поэтому естественно потребовать, чтобы θ n* была
близка к θ . Это требование формулируется в терминах несмещен-
ности, состоятельности и эффективности.
39 40
Оценка θ n* параметра θ называется несмещенной, если для θ n*(1) = ϕ1 ( x1,..., xn ); θ n*(2) = ϕ 2 ( x1,..., xn ) (3.3)
любого фиксированного объема выборки n математическое ожи-
дание оценки равно оцениваемому параметру, т.е. одного и того же параметра θ . Как из двух этих оценок выбрать
лучшую? Каждая из них является случайной величиной, и мы не
M (θ n* ) = θ . (3.1) можем предсказать индивидуальное значение оценки в каждом ча-
стном случае. Однако, рассматривая в качестве меры концентра-
Поясним смысл этого равенства следующим примером. Имеют-
ции распределения оценки θ n* около значения параметра θ вели-
ся два алгоритма вычисления оценок для параметра θ . Значения
оценок, построенных первым алгоритмом по различным выборкам чину M (θ n* − θ ) 2 , мы можем теперь точно охарактеризовать срав-
объема n генеральной совокупности, приведены на рис. 3.1,а, а с
использованием второго алгоритма – на рис. 3.1,б. Видим, что нительную эффективность оценок θ n*(1) и θ n*( 2 ) . В качестве меры
среднее значение оценок на рис. 3.1,а совпадает с θ , и, естествен- эффективности принимается отношение
но, такие оценки предпочтительнее по сравнению с оценками на M (θ n*(1) − θ ) 2
рис. 3.1,б, которые концентрируются слева от значения θ и для e= . (3.4)
M (θ n*( 2 ) − θ ) 2
которых M (θ n* ) < θ , т.е. эти оценки являются смещенными.
Если e > 1 , то оценка θ n*( 2 ) более эффективна, чем θ n*(1) . В случае
Оценка θ n* называется состоятельной, если
несмещенных оценок M (θ n*(1) ) = θ , M (θ *(2) ) = θ , и поэтому
p
θ n* ⎯⎯→ θ,
D (θ n*(1) )
e= , (3.5)
т.е. для любого ε > 0 при n → ∞ D (θ n*( 2 ) )

(
P θ n* − θ < ε → 1 .) (3.2) где D (θ n* ) – дисперсия оценки θ n* .

Поясним смысл этого предельного соотношения. Пусть ε – a


очень малое положительное число. Тогда (3.2) означает, что чем
больше число наблюдений n , тем больше уверенность (вероят-
θ *
n
ность) в незначительном отклонении θ n* от неизвестного парамет-
ра θ . Очевидно, что "хорошая" оценка должна быть состоятель-
б θ
ной, иначе она не имеет практического смысла, так как увеличение
объема исходной информации не будет приближать нас к "истин- θ *
n
ному" значению θ . θ
Предположим, что имеются две состоятельные и несмещенные
оценки Рис. 3.1. К определению несмещенной оценки

41 42
a σ2
D( a * ) ≥ , (3.6)
n
б θ *
n где n – объем выборки, по которой производится оценивание. Если
θ в качестве a * принять X в , то дисперсия этой оценки, как будет
θ *
n показано ниже, равна
σ2
, т.е. X в – эффективная оценка парамет-
θ n
ра а, так как для нее достигается нижняя грань в неравенстве (3.6).
Рассмотрим на примере понятие эффективной в данном классе
Рис. 3.2. К определению эффективной оценки
оценки. Предположим, что один и тот же предмет, истинная вели-
чина которого равна l , измеряется n раз различными приборами,
Таким образом, несмещенная оценка θ n* параметра θ называ- имеющими различную точность. Пусть X i – результаты i-го изме-
ется несмещенной эффективной, если она среди всех других не- рения. Тогда
смещенных оценок того же параметра обладает наименьшей дис-
персией. M ( X i ) = l, D( X i ) = σ 2 ,
Приведенная на рис. 3.2,а оценка θ n* является более эффектив-
если считать, что измерения проводятся без систематических оши-
ной по сравнению с оценкой, значения которой нанесены на
рис. 3.2,б (почему?). бок. Дисперсия σ i2 характеризует точность измерений. Для оценки
Как же выяснить, является ли несмещенная оценка эффектив- истинного значения параметра l рассмотрим класс линейных оце-
ной? Очевидно, для этого необходимо сравнить дисперсию этой нок, т.е. оценок вида
оценки с минимальной дисперсией.
Для широкого класса оценок неравенство Рао–Крамера указы- l * = c1 X 1 + ... + cn X n ,
вает точную нижнюю границу для дисперсий различных оценок
одного и того же параметра. Если существует оценка, дисперсия где c1 ,..., cn – некоторые неизвестные константы. Из всех несме-
которой в точности равна этой нижней границе, то она называется щенных оценок данного класса нужно выбрать ту, которая имеет
эффективной оценкой. Оценка, имеющая наименьшую дисперсию наименьшую дисперсию.
среди оценок данного класса, называется эффективной в данном Из несмещенности оценок получим
классе оценок. Поясним понятие эффективной оценки несколькими n n n
примерами. M (l * ) = M ( ∑ ci X i ) = ∑ ci M ( X i ) = l ∑ ci .
Предположим, что генеральная совокупность распределена по i =1 i =1 i =1
нормальному закону с параметрами a и σ , причем a – математи- Значит,
n
ческое ожидание, подлежащее оценке, а σ 2 – известная дисперсия. ∑ ci = 1. (3.7)
* i =1
Оказывается, что для любой несмещенной регулярной оценки a
имеет место неравенство Пользуясь свойствами дисперсии и независимостью проведен-
ных измерений, получим
43 44
n xг = M ( X ) .
D(l * ) = ∑ ci2σ i2 .
i =1
Теорема 3.1. Выборочное среднее X в есть состоятельная и
Числа c1 ,..., cn должны удовлетворять условию (3.7) и обеспе-
несмещенная оценка генеральной средней x г .
чивать минимум функции
n Доказательство. Вначале покажем, что X в есть состоятель-
F (c1 ,..., cn ) = ∑ ci2σ i2 .
i =1 ная оценка для x г , т.е.
Мы получим задачу на условный экстремум, которую можно
X 1 + X 2 + ... + X n p
решить с помощью функции Лагранжа: ⎯⎯ → xг .
n n
L(c1 ,..., cn ) = F (c1 ,..., cn ) − λ (∑ ci − 1) .
i =1
По следствию из теоремы Чебышева для одинаково распреде-
Найдем критические точки функции Лагранжа: ленных случайных величин имеем
X 1 + X 2 + ... + X n p
∂L ⎯⎯ → M (X ) .
= 2ciσ i2 − λ = 0, i = 1,..., n ; n
∂ci Так как М ( X ) = x г , то, используя свойства математического
n ожидания, получим
∑ ci − 1 = 0 . ⎛ X + ... + X n ⎞ M ( X 1 ) + ... + M ( X n )
i =1 M (Xв ) = M ⎜ 1 ⎟= =
Отсюда находим значение ⎝ n ⎠ n
nM ( X )
1
σ i2 = = xг .
ci = n
, i = 1,..., n. (3.8) n
∑σ
i =1
1
2
i
Теорема доказана.

Теорема 3.2. Пусть случайная величина X имеет нормальное


Полученный результат имеет простой физический смысл: чем
меньше точность данного прибора, тем с меньшим значением ко- распределение N (a, σ ) , где a – математическое ожидание, σ 2 –
эффициента его результат должен входить в оценку. дисперсия случайной величины X . Тогда выборочное среднее X в
Заметим, что если все приборы имеют одинаковую точность,
является эффективной несмещенной оценкой для x г .
т.е. σ 11 = ... = σ n2 , то ci = 1 / n и в качестве оценки получим
Доказательство. Необходимо показать, что дисперсия
l* = X в . D ( X в ) совпадает с минимальной дисперсией, равной в случае
3.2. Точечная оценка математического ожидания нормального распределения σ 2 / n , а ее математическое ожидание
Математическое ожидание M ( X ) генеральной совокупности M ( X в ) равно x г .
X назовем генеральной средней x г , т.е. Найдем дисперсию D ( X в ) :

45 46
n n nD( X ) σ2 n n
D ( X в ) = D( n1 ∑ X i ) = 1

n 2 i =1
D( X i ) =
n2
=
n
. (3.9) ∑(Xi − Xв )2 = ∑(Xi2 − 2Xв Xi + Xв2 ) =
i =1 i=1 i=1
Мы проверили при доказательстве теоремы 3.1, что n n

M ( X в ) = xг . Так как дисперсия D( X в ) равна минимальному зна- = ∑Xi2 − 2nXв2 + nXв2 =∑Xi2 − nXв2.
i=1 i=1
чению, то выборочное среднее X в является эффективной несме- Тогда из определения дисперсии следует
n n
2 2 2
щенной оценкой. ∑ X i − nX в ∑ Xi
Теорема доказана. i =1 i =1
Dв = = − X в2 .
Таким образом, показано, что выборочное среднее X в имеет n n
Воспользовавшись теперь следствием из теоремы Чебышева
все три свойства "хорошей" оценки. Этим и объясняется ее широ-
кое использование в качестве оценки математического ожидания для одинаково распределенных случайных величин X i2 и свойст-
генеральной совокупности. вами предела по вероятности, получаем
Напомним, что по конкретной выборке x1 , ..., xn вычисляется n
2
∑ Xi
(см. (2.10)–(2.12)) "конкретное" значение xв , являющееся одним из i =1 p
⎯⎯→ M ( X i2 ) = M ( X 2 );
множества возможных значений случайной величины X в . n
p
X в ⎯⎯→ M ( X )
3.3. Точечные оценки дисперсии и, значит,
p
Дисперсию D( X ) генеральной совокупности X будем назы- Dв ⎯⎯→ M ( X 2 ) − M 2 ( X ) = D ( X ) = Dг .
вать генеральной дисперсией Dг , т.е. Следовательно, выборочная дисперсия Dв является состоя-
Dг = D ( X ) . (3.10) тельной оценкой для генеральной дисперсии. Вычислим математи-
ческое ожидание Dв и убедимся, что M ( Dв ) ≠ Dг . Имеем
Теорема 3.3. Выборочная дисперсия Dв является состоятель-
⎛ n ⎞ ⎛ n 2 ⎞
ной, но смещенной оценкой генеральной дисперсии Dг . ⎜ ∑ Xi ⎜ ∑ Xi ⎟
2

Доказательство. Получим сначала формулу для вычисления M ( D в ) = M ⎜ i =1 − X в2 ⎟ = M ⎜ i =1 ⎟ − M ( X в2 ) =
⎜ n ⎟ ⎜ n ⎟
Dв . Согласно определению ⎜ ⎟ ⎜ ⎟
⎝ ⎠ ⎝ ⎠
n

∑(X i − X в )2 ⎛ n 2⎞
⎜ ∑ Xi ⎟
⎛ X 1 + ... + X n ⎞
2
Dв = i =1
. =M ⎜ i =1 ⎟ −M⎜ ⎟ =
n ⎜ n ⎟ ⎝ n ⎠
С другой стороны, ⎜ ⎟
⎝ ⎠
⎛ X 12 + X 22 + ... + X n2 + ∑ X i X j ⎞
⎜ i≠ j ⎟,
= M (X 2) − M ⎜ 2 ⎟
⎜ n ⎟
⎝ ⎠
47 48
где ∑X X
i≠ j
i j означает сумму произведений величин X i и X j для Теорема 3.4. Исправленная дисперсия S 2 является состоя-
тельной и несмещенной оценкой для генеральной дисперсии Dг .
всех значений i и j от 1 до n , но не равных между собой. Так как
X i и X j независимы при i ≠ j , то n
Заметим, что для выборок большого объема множитель
M ( X i X j ) = M ( X i )M ( X j ) . n −1
близок к 1, поэтому случайные величины S 2 и Dв мало отлича-
Поэтому, продолжая вычисления M ( Dв ) , получаем
ются друг от друга. Однако для выборок малого объема это отли-
M ( X 12 ) + ... + M ( X n2 ) + ∑ M ( X i ) M ( X j )
i≠ j
чие может быть существенным.
M ( Dв ) = M ( X ) −
2
=
n 2
Возникает вопрос: будет ли несмещенная оценка S 2 эффек-
nM ( X 2 ) + n( n − 1) M 2 ( X ) тивной?
= M (X 2) − = Предположим, что случайная величина X подчиняется нор-
n2
n −1 n −1 мальному распределению N (a, σ ) , а величины X 1 , X 2 ,..., X n , как
= ⎡⎣ M ( X 2 ) − M 2 ( X ) ⎤⎦ = Dг .
n n обычно, – n независимых экземпляров независимой величины Х.
Множитель n( n − 1) объясняется тем, что по правилу произведе- Тогда минимальная дисперсия несмещенной оценки для дисперсий
ния количество различных пар ( i, j ) при 1 ≤ i ≠ j ≤ n равно равна
n( n − 1) . Итак, мы получили, что 2σ 4
Dmin = . (3.13)
n −1 n
M ( Dв ) = Dг , 3.11)
n В п. 4.1 будет показано, что величина S 2 представима в виде
следовательно, Dв – смещенная оценка для генеральной дисперсии.
σ2
Теорема доказана. S2 = χ n2−1 , (3.14)
Полученная формула (3.11) для вычисления математического n −1
ожидания выборочной дисперсии позволяет указать состоятельную где χ n2−1 – случайная величина, имеющая χ -распределение с
2
и несмещенную оценку для генеральной дисперсии. Для этого рас-
смотрим случайную величину n − 1 степенями свободы. Поэтому
n σ4 2σ 4
2
S = Dв , (3.12) D( S 2 ) = D( χ n2−1 ) = , (3.15)
n −1 (n − 1) 2 n −1
называемую исправленной дисперсией. Понятно, что из этого следует
2 p
S ⎯⎯→ Dг , n
D( S 2 ) = Dmin . (3.16)
n n −1
так как → 1 при n → ∞ . С другой стороны,
n −1 Следовательно, S 2 , будучи несмещенной оценкой дисперсии
⎛ n ⎞ n n n −1 D( X ) , не является эффективной оценкой. Однако при достаточно
M( S 2 ) = M⎜ Dв ⎟ = M ( Dв ) = ⋅ Dг = Dг .
⎝ n −1 ⎠ n −1 n −1 n больших n увеличение D ( S 2 ) по сравнению с Dmin пренебре-
Тем самым доказана
жимо мало.
49 50
Заметим, что несмещенная эффективная оценка дисперсии имеет биномиальный закон распределения с характеристиками
D( X ) нормально распределенной величины X = N (a, σ ) имеет М(т) = пр, D(m) = пр(1 – р). Имеем
вид: ⎛m⎞ 1 1
n
M ⎜ ⎟ = M (m) = np = p ( A) .
1 ⎝n⎠ n n
S 02 = ∑
n i =1
( X i − a)2 .
Следовательно, p * = m / n является несмещенной оценкой
Однако в эту формулу входит математическое ожидание a , вероятности р(А).
которое, как правило, заранее неизвестно. Для доказательства эффективности укажем, что минимум сре-
ди дисперсий различных несмещенных оценок вероятности р(А)
3.4. Точечная оценка вероятности события равен
Обозначим через p( A) неизвестную вероятность события A p(1 − p)
Dmin = . (3.19)
в одном испытании. Для оценивания p ( A) проведем n независи- n
мых испытаний, в которых событие A произошло m раз. Тогда Определим дисперсию оценки p* :
случайная величина
⎛m⎞ 1 np(1 − p) p(1 − p)
m D ( p * ) = D ⎜ ⎟ = 2 D ( m) = = .
p* = (3.17) ⎝n⎠ n n2 n
n
является частностью (относительной частотой) события A . Свой- Так как D(p*) совпадает с минимальной дисперсией Dmin , то
ства этой точечной оценки определяет частность р*, будучи несмещенной оценкой, является также и эф-
фективной.
Теорема 3.5. Относительная частота p * = m / n появления
Теорема доказана.
события A в n испытаниях есть состоятельная, несмещенная и
эффективная оценка вероятности p( A) . 3.5. Метод максимального правдоподобия
В предыдущих пунктах были рассмотрены различные точеч-
Доказательство. Состоятельность оценки p * вытекает из
ные оценки, являющиеся некоторыми функциями от результатов
теоремы Бернулли, согласно которой для любого ε > 0 выполня- наблюдения. Однако осталось неясным, почему были взяты имен-
ется неравенство но эти функции. Рассмотрим один из методов, позволяющих их
⎛m ⎞ получить. Для понимания его сущности обратимся к следующему
lim P ⎜ − P( A) < ε ⎟ = 1 , (3.18) примеру.
n →∞
⎝ n ⎠ Предположим, что график плотности распределения генераль-
или в других обозначениях: ной совокупности Х имеет вид равнобедренного треугольника
m p АВС, длина основания и высота которого зафиксированы, а неиз-
⎯⎯→ p ( A) .
n вестным параметром θ является абсцисса точки D – середины от-
Для доказательства несмещенности этой оценки зафиксируем резка АВ. Пусть x1 , x 2 , ..., x n – выборка из генеральной совокуп-
число испытаний n . Найдем математическое ожидание частности
ности X. Зададимся вопросом: в какую точку оси абсцисс необхо-
m/n, имея в виду, что в условиях испытаний Бернулли величина т димо поместить точку D, если в результате опыта получена именно
выборка x1 , x 2 , ..., x n ? Конечно, никаких ограничений для ее рас-
51 52
положения на оси х нет. Но если мы сдвинем треугольник далеко m
влево или вправо от элементов выборки, то вероятность получения ∑nj = n .
j =1
выборки, попавшей в промежуток [ L, M ] , которому принадлежит
точка D, будет равна нулю, так как Учитывая независимость случайных величин X 1 , ..., X n , ве-
роятность получения выборки x1 , x 2 , ..., x n можно представить как
P ( X ∈ [ L, M ]) = ∫ p( x)dx = ∫ 0 ⋅ dx = 0 .
[ L,M ] [ L,M ] P ( X 1 = x1 ; ...; X n = xn ) = P( X 1 = x1 ) K P( X n = xn ) .
Поэтому точка D должна лежать в "гуще" выборки, т.е. таким Эта вероятность есть функция от x1 , x 2 , ..., x n , которая назы-
образом, чтобы значения ординат p ( xi ,θ ) были в совокупности вается функцией максимального правдоподобия и обозначается
как можно больше. Тогда становится правдоподобным получение L(x1, x2 ,K, xn ,θ) = P( X1 = x1) K P(Xn = xn ) .
именно выборки x1 , x 2 , ..., x n . Данный метод называется методом Учитывая, что значение yi встречается в выборке nj раз, по-
максимального правдоподобия. Итак, параметр θ , согласно этому лучаем
методу, нужно выбирать так, чтобы вероятность получения набора
значений x1 , x 2 , ..., x n случайной величины Х при этом значении L( x1 ,..., xn ,θ ) = p1n1 (θ ) ... pmnm (θ ) .
θ была наибольшей. Конечно, о вероятности получения данного Как уже было сказано, суть метода максимального правдопо-
набора значений мы строго можем говорить лишь в том случае, ко- добия состоит в том, что в качестве параметра θ берется такое
гда рассматриваемая генеральная совокупность распределена дис- значение, которое максимизирует функцию L( x1 ,..., xn , θ ) . Полу-
кретно. Напомним, что для непрерывных случайных величин лю-
бые конкретные значения появляются с нулевой вероятностью. ченное значение, если оно существует, является функцией
*
Поэтому метод максимального правдоподобия имеет некоторые от x1 , x 2 , ..., x n , т.е. θ = θ МП ( x1 , x 2 , ..., x n ) . Заменяя элементы
различия в случае дискретных и непрерывных генеральных сово- x1 , x2 ,..., xn случайными величинами X 1 ,..., X n , получаем оценку
купностей.
максимального правдоподобия θ МП
*
( X 1 , X 2 ,..., X n ) .
Дискретная генеральная совокупность. Пусть Х – дискрет-
ная генеральная совокупность, распределение которой зависит от Точка максимума функции L( x1 ,..., xn , θ ) удовлетворяет не-
некоторого параметра θ , т.е. линейному (в общем случае) уравнению
P ( X = y i ) = p j (θ ) , ∂L( x1 ,..., x n ,θ )
= 0, (3.20)
где j = 1,..., m; y1,…, ym – все различные значения, которые может ∂θ
принимать случайная величина X, а вероятности, с которыми эти *
и поэтому конкретное значение оценки θ МП ( x1 , x 2 , ..., x n ) опре-
значения появляются, зависят от параметра θ . Предположим, что
x1 , x 2 , ..., x n – выборка из генеральной совокупности X, причем деляют как корень уравнения (3.20).
Функции L( x1 ,..., xn , θ ) и ln L( x1 ,..., xn , θ ) достигают макси-
значение yj встречается в выборке nj раз, т.е. nj – частота значения
yj, и поэтому имеет место равенство мума при одном и том же значении θ . Поэтому вместо отыскания
максимума функции L( x1 ,..., xn , θ ) находят максимум функции

53 54
ln L( x1 ,..., xn , θ ) . Эта функция получила название логарифмиче- события А в одном опыте. По выборке x1 , ..., x n из генеральной со-
ской функции правдоподобия. вокупности Х необходимо оценить параметр р.
Построение оценки максимального правдоподобия можно Решение. Выборка x1 , ..., x n состоит из нулей и единиц, при-
разбить на следующие этапы:
Э т а п 1 . Определяют производную логарифмической функ- чем xi = 1 , если в i-м опыте событие А произошло, и xi = 0 , если
ции правдоподобия по параметру θ . событие не произошло. Предположим, что т – частота появления
Э т а п 2. Приравнивая производную к нулю, находят крити- события А в п опытах. Тогда выборка x1 , ..., x n содержит m еди-
ческую точку θ кр – корень уравнения правдоподобия ниц и (n − m) нулей. Так как P ( X = 1) = p, P ( X = 0) = 1 − p , то
∂L( x1 ,..., x n ,θ ) L( x1 , ..., xn , θ ) = p m (1 − p) n − m .
= 0.
∂θ Найдем точку максимума логарифмической функции макси-
2 мального правдоподобия
∂ ln L
Э т а п 3. Находят вторую производную и ее значение ln L( x1 ,..., xn ,θ ) = m ln p + (n − m) ln(1 − p) .
∂θ 2
Определим из уравнения
в точке θ кр . Если вторая производная в точке θ кр меньше нуля, то
∂ ln L
в точке θ кр функция L( x1 ,..., xn , θ ) достигает максимума.
=0
∂p
Найденная таким образом θ МП *
является функцией случайных критическую точку. Имеем
∂ ln L m n − m
величин X 1 , X 2 ,..., X n и, следовательно, сама является случайной = − .
*
∂p p 1− p
величиной. Конкретное значение оценки θ МП получается при Решая уравнение
подстановке в *
θ МП ( X 1 , ..., X n ) вместо X 1 , X 2 ,..., X n значений m n−m
− =0,
выборки x1 , x 2 , ..., x n . p 1− p
Непрерывная генеральная совокупность. Рассмотрим слу- находим p кр = m
n
. Убедимся, что при данном значении параметра
чай, когда генеральная совокупность имеет непрерывный ряд рас-
pкр функция ln L достигает максимума. Для этого нужно прове-
пределения. Функцию максимального правдоподобия определим
по правилу рить, что
L( x1 , ..., xn ,θ ) = p( x1 ,θ )L p( xn , θ ) , ∂ 2 ln L m n−m
= 2− < 0.
где p( x,θ ) – плотность распределения генеральной совокупности. ∂p p (1 − p ) 2
2

Все остальное, изложенное для дискретного случая, переносится Подставляя в это неравенство вместо p значение p кр , убеждаемся
на непрерывный.
♦ Пример 3.1. Проводится п независимых опытов, в каждом в его справедливости. Значит, p кр = mn – оценка максимального
из которых событие А повторяется с неизвестной вероятностью р.
Рассмотрим генеральную совокупность Х – количество появлений правдоподобия, т.е. p*МП = m
n
. Заметим, что полученная оценка –

55 56
относительная частота – является состоятельной и несмещенной при λ = λкр , то найденная критическая точка есть точка максиму-
оценкой для параметра p . ☻
ма. Поэтому оценка максимального правдоподобия для параметра
♦ Пример 3.2. Найти оценку максимального правдоподобия λ является случайной величиной
для параметра λ распределения Пуассона.
Решение. Напомним, что распределение Пуассона имеет вид X 1 + ... + X n
λ*МП = ,
λm n
P( X = m) = e−λ ,
m! т.е. X в . ☻
где m принимает любые целые неотрицательные значения. Пусть ♦ Пример 3.3. Найти оценку максимального правдоподобия
x1 , ..., xn – выборка из генеральной совокупности X . Тогда для параметра α показательного распределения
n
λx i ⎧α e −α x , x > 0;
L( x1 ,..., xn , λ ) = ∏ e−λ . p( x ) = ⎨ (3.21)
i =1 xi ! ⎩ 0, x ≤ 0.
Преобразовав произведение, получим Решение. По выборке x1 , ..., xn , состоящей из положительных
λ x +...+ x
1 n чисел, находим
L( x1 ,..., xn , λ ) = e − nλ . n
x1 !⋅ x2 !⋅ ... ⋅ xn L( x1 ,..., xn , α ) = ∏ α e −α xi = α n e−α ( x1 +...+ xn ) .
i =1
Поэтому логарифмическая функция максимального правдоподобия
имеет вид: Поэтому
ln L = n ln α − α ( x1 + ... + xn ) .
ln L = −nλ + ( x1 + ... + xn ) ln λ − ln( x1!... xn ! ) .
Решая уравнение
Находим критическую точку, решая уравнение ∂ ln L
= 0,
∂ ln L ∂α
= 0.
∂λ n
находим α = . Так как условие
Получим x1 + ... + xn
x1 + K + xn ∂ 2 ln L n
−n + =0. =− <0
λ ∂α 2 α2
x 1 + ...+ x n при λ = λкр выполняется, то оценкой максимального правдоподо-
Отсюда λкр = . Так как
n бия для параметра α является
∂ 2 ln L x + K + xn
= − 1 <0 α МП
*
= 1 .☻
∂λ 2
λ2 Хв

57 58
♦ Пример 3.4. Найти оценки максимального правдоподобия ∂ 2 ln L ∂ 2 ln L
для параметров а и σ нормально распределенной генеральной со- 2
∂ ln L ∂a 2 ∂a∂σ
вокупности. < 0 , > 0.
Решение. Учитывая, что плотность распределения в данном
∂a 2 ∂ 2 ln L ∂ 2 ln L
∂a∂σ ∂a 2
случае
( x − a )2
Вычислим вторые производные:
1 −
p ( x, а , σ ) = e 2σ 2
, ∂ 2 ln L n
2πσ 2
=−< 0;
∂a σ2
получим по выборке x1 , ..., xn
∂ 2 ln L ∂ 2 ln L n x −a
n ( xi − a ) 2 − ∑
n
( xi − a ) 2 = = −2 ∑ i 3 ;
1 − 1 ∂a∂σ ∂σ∂a i =1 σ
L( x1 , ..., xn , a,σ ) = ∏ = 2σ 2
2

e e i =1
.
2πσ ( )σ
n
i =1 2π n
∂ ln L
2
n n 3 n
4 ∑
= = − ( xi − a ) 2 . (3.24)
Отсюда ∂σ 2
∂σ 2
σ σ i =1
2

( xi − a ) 2 n
Подставляя значения для a кр и σ кр2
из (3.22) и (3.23), получа-
ln L = − n2 ln 2π − n ln σ − ∑ .
i =1 2σ 2 ем:
Находим критические точки этой функции, решая систему уравне-
∂ 2 ln L 2 ⎛ n n

ний = − 3 ⎜ ∑ xi − ∑ xi ⎟ = 0;
∂ ln L ∂ ln L ∂σ∂a σ ⎝ i =1 i =1 ⎠
= 0; =0.
∂a ∂σ ∂ ln L n
2
3 2n
Вычисляя частные производные, получим 2 = − 2 nd в = − , (3.25)
∂ ln L n ( xi − a )
∂σ dв dв dв
=∑ = 0,
∂a i =1 σ2
где d в – значения выборочной дисперсии.
∂ ln L n 1 n
= − + 3 ∑ ( xi − a ) 2 = 0 . Вычисляя определитель в критической точке, получим
∂σ σ σ i =1
∂ 2 ln L ∂ 2 ln L n
Отсюда ∂a∂σ − 0 2n 2
∂a 2 =

= > 0.
x1 + K + xn ∂ 2 ln L ∂ 2 ln L 2n
акр = ; (3.22) 0 − dв d в2
n ∂a∂σ ∂σ 2
n
2
Поэтому при значениях a кр и σ кр
∑ (x − a
i кр )2 , определенных по формулам
2
σ кр = i =1
. (3.23) (3.22) и (3.23), функция ln L принимает максимальное значение.
n Следовательно, оценками максимального правдоподобия будут
Проверим, что при найденных значениях a кр и σ кр функ- a*МП = X в ; σ *МП = Dв . ☻
ция ln L принимает максимальное значение. Для этого нужно про-
верить выполнение неравенств

59 60
♦ Пример 3.5. Генеральная совокупность распределена рав- Для вычисления выборочного значения этой оценки можно
номерно на интервале ( a, b) . По выборке x1 , ..., xn оценить пара- использовать статистическую функцию Excel ДИСП, обращение к
которой имеет вид:
метры a и b .
Решение. Найдем оценки максимального правдоподобия для =ДИСП(арг1; арг2; …; арг30),
параметров a и b . Плотность генеральной совокупности имеет где арг1; арг2; …; арг30 – числа или адреса ячеек, содержащих чи-
вид: словые величины.
⎧⎪ 1 , x ∈ ( a, b) ♦ Пример 3.6. По выборке примера 2.3 вычислить оценку
p ( x , a , b) = ⎨ b − a . (3.26) (3.28).
⎪⎩0, x ∉ ( a, b) Решение. Первоначально, начиная с ячейки А3, введем в стол-
Поэтому функция максимального правдоподобия бец А 55 элементов выборки (рис. 3.3). Затем, используя функции
n КВАДРОТКЛ, ДИСП (как показано на рис. 3.3), вычислим оценку
L( x1 ,..., xn , a, b) = ∏ p( xi , a, b) (3.28). Видно ожидаемое совпадение двух вычисленных значений.
i =1 ☻
равна нулю, если хотя бы один сомножитель произведения равен
нулю, и больше нуля, если все значения x1 , ..., xn лежат на интер-
вале ( a , b) , т.е.
a ≤ min( x1 ,..., xn ), b ≥ max( x1 ,..., xn ) . (3.27)
Тогда L( x1 ,..., xn , a , b) = 1 . Значение этой функции будет
(b − a ) n
максимальным, если величина (b − a ) минимальна. Учитывая
(3.27), получим
aкр = min( x1 ,..., xn ), bкр = max( x1 ,..., xn ) ,
т.е. a МП = min( X 1 ,..., X n ), b*МП = max( X 1 ,..., X n ) . ☻
*

3.6. Вычисление точечных оценок в Excel


Вычисление исправленной дисперсии. В п. 3.3 показано, что
оценка Рис. 3.3. Фрагмент вычисления исправленной дисперсии

1 n Вычисление оценок максимального правдоподобия. В


S2 = ∑ ( X i − X в )2
n − 1 i =1
(3.28)
п. 3.5 были рассмотрены оценки, вычисляемые из условия макси-
мума функционала правдоподобия. В приведенных примерах из
является несмещенной точечной оценкой для дисперсии случайной
условий максимума были получены алгебраические уравнения,
величины, и такую оценку часто называют исправленной дисперсией.
решения которых определялись достаточно просто.
В общем случае не удается получить таких простых соотно-
шений и оценки вычисляются непосредственным определением
61 62
точек максимума функционала правдоподобия, т.е. необходимо • включить опцию Равной: максимальному значению (ищутся
решить оптимизационную задачу. значения, при которых функционал достигает максимального зна-
Для решения такой задачи в Excel есть команда Поиск реше- чения);
ния пункта меню Сервис. Эта команда позволяет решать не только • в поле Изменяя ячейки: ввести адреса ячеек, в которых нахо-
задачи безусловной оптимизации, но и задачи условной оптимиза- дятся значения искомых оценок (в нашем примере это ячейки
ции, т.е. когда ищется максимум функционала с учетом дополни- С8:D8);
тельных ограничений на значения искомых оценок. Например, • щелкнув мышью на кнопке Добавить, сформировать ограни-
значение дисперсии σ 2 не может быть отрицательным. чения на значения искомых оценок (в нашем примере это требова-
Применение команды Поиск решения для вычисления оценок ние σ ≥ 0.0000001 , чтобы ln(σ ) не был равен –∞).
максимального правдоподобия покажем на следующем примере.
♦ Пример 3.7. По выборке примера 2.3 вычислить оценки
максимального правдоподобия для математического ожидания a и
дисперсии σ 2 из условия максимума функционала правдоподобия
вида:
n n
( x − a)2
− ln(2π ) − n ln(σ ) − ∑ i 2 , (3.29)
2 i =1 2σ
предполагая при этом, что выборка порождена случайной величи-
ной, подчиняющейся нормальному распределению.
Решение. Первоначально, начиная с ячейки А3, введем в стол-
бец А 55 элементов выборки (диапазон А3:А57). Затем в ячейку С8
занесем произвольное значение a (например, 10), в ячейку D8 –
значение σ (например, значение 4 > 0), в ячейке Е8 вычислим σ 2 .
В ячейках В3:В57 запрограммируем вычисление разностей xi − a
(рис. 3.4). В ячейке С5 запрограммируем вычисление величины
функционала (3.29). В верхней части документа на рис. 3.4 показа-
на запрограммированная формула.
После этих подготовительных операций можно перейти к вы-
полнению команды Поиск решения. Для этого необходимо обра-
титься к пункту основного меню Сервис и в появившемся меню
щелкнуть мышью на команде Поиск решения. Затем в появившем-
ся диалоговом окне выполнить следующие действия (см. рис. 3.4):
• в поле ввода Установить целевую ячейку: ввести адрес ячей-
ки, в которой вычисляется значение минимизируемого функциона-
ла (в нашем примере С5);

Рис. 3.4. Задание параметров команды Поиск решения


63 64
выборочными оценками примера 2.11 (см. рис. 2.7), видим их пол-
После выполнения этих операций щелкнуть на кнопке Выпол- ное совпадение. ☻
нить. Начинается поиск решения введенной оптимизационной за-
дачи. Спустя некоторое время на экране появится новое диалого- Задание 3.1. Предполагая, что выборка примера 2.1 порожде-
вое окно Результаты поиска решения (рис. 3.5). Для сохранения на случайной величиной, имеющей показательное распределение
найденных значений оценок в соответствующих ячейках необхо- (3.21), вычислить оценку максимального правдоподобия для пара-
димо включить опцию Сохранить найденное решение и щелкнуть метра α , используя команду Поиск решения.
на кнопке ОК. Рекомендация. Оценку максимального правдоподобия осуще-
ствлять из условия максимума функционала
n
n ln(α ) − α ∑ xi
i =1

при ограничении α > 0 . При вызове команды Поиск решения ис-


пользовать пример 3.7. ♥

Функции Excel для вычисления других точечных оценок.


Для вычисления среднеквадратичных отклонений можно ис-
пользовать следующие функции Excel.
Функция СТАНДОТКЛОН вычисляет
1 n
∑ ( xi − xв )2 .
n i =1
Обращение к ней имеет вид:
=СТАНДОТКЛОН(арг1; арг2; …; арг30),
где арг1; арг2; …; арг30 – числовые константы или адреса ячеек,
содержащих числовые данные.
Функция СТАНДОТКЛОНП вычисляет
1 n

n − 1 i =1
( xi − xв ) 2 .
Рис. 3.5. Результаты выполнения команды Поиск решения
Обращение к ней имеет вид:
Из рис. 3.5 видно, что вычисленные значения оценок находят-
=СТАНДОТКЛОНП(арг1; арг2; …; арг30),
ся в ячейках С8, D8 и равны а = 17.907, σ = 2.933. Ячейка С5 со-
держит значение максимизируемого функционала, равное –137.22. где арг1; арг2; …; арг30 – числовые константы или адреса ячеек,
Сравнивая вычисленные значения оценок a = 17.907 и σ 2 = 8.601 с содержащих числовые данные.

65 66
Функция ЭКСЦЕСС вычисляет оценку μ3
2 для характеристики асимметрии , которая для симметричной
n( n + 1) n
⎛ xi − xв ⎞ 3( n − 1)
2
σ3
∑ ⎜ ⎟ −
( n − 1)( n − 2)( n − 3) i =1 ⎝ d в ⎠ ( n − 2)( n − 3) плотности распределения равна 0.
μ4 Обращение к функции имеет вид:
для характеристики эксцесс − 3 , которая определяет островер-
σ4 =СКОС(арг1; арг2; …; арг30),
шинность или плосковершинность плотности распределения.
где арг1; арг2; …; арг30 – числовые константы или адреса ячеек,
Обращение к функции имеет вид: содержащих числовые данные.
=ЭКСЦЕСС(арг1; арг2; …; арг30),
где арг1; арг2; …; арг30 – числовые константы или адреса ячеек, Вычисление описательных статистик. Описательные стати-
содержащих числовые данные. стики можно разделить на следующие группы:
• характеристики положения описывают положение данных
Функция МОДА вычисляет наиболее часто встречающееся на числовой оси (среднее, минимальное и максимальное значения,
значение в заданных аргументах функции, т.е. значение, встре- медиана и др.);
чающееся в выборке с максимальной частотой.
• характеристики разброса описывают степень разброса
Обращение к функции имеет вид: данных относительно своего центра (дисперсия, размах выборки,
=МОДА(арг1; арг2; …; арг30), эксцесс, среднеквадратическое отклонение и др.);
• характеристики асимметрии определяют симметрию рас-
где арг1; арг2; …; арг30 – числовые константы или адреса ячеек,
пределения данных относительно своего центра (коэффициент
содержащих числовые данные.
асимметрии, положение медианы относительно среднего и др.);
Если в заданных значениях аргументов нет повторяющихся • характеристики, описывающие закон распределения (час-
значений, то функция возвращает признак ошибки #Н/Д.
тоты, относительные частоты, гистограммы и др.).
Функция МЕДИАНА вычисляет значение выборки, приходя- Основные характеристики положения, разброса и асимметрии
щееся на середину упорядоченной выборочной совокупности. Если можно вычислить, используя режим Описательная статистика
выборка имеет четное число элементов, то значение функции бу- команды Пакет анализа.
дет равно среднему двух значений, находящихся по середине упо- Для вызова режима Описательная статистика необходимо
рядоченной выборочной совокупности. Например, медиана выбор- обратиться к пункту Сервис, команде Пакет анализа, выбрать в
ки (200, 236, 250, 305, 337, 220) будет равна (236 + 250) / 2 = 243. списке режимов Описательная статистика и щелкнуть на кноп-
Обращение к функции имеет вид: ке ОК. В появившемся диалоговом окне Описательная статистика
=МЕДИАНА(арг1; арг2; …; арг30), задать следующие параметры (рис. 3.6):
Входной интервал: – адреса ячеек, содержащих элементы вы-
где арг1; арг2; …; арг30 – числовые константы или адреса ячеек,
борки.
содержащих числовые данные.
Группирование: – задает способ расположения (по столбцам
Функция СКОС вычисляет оценку или по строкам) элементов выборки.
n n
( xi − xв )
3 Метки в первой строке – включается, если первая строка

( n − 1)( n − 2) i =1 d в3 / 2
(столбец) во входном интервале содержит заголовки.

67 68
Уровень надежности: – включается, если необходимо вычис-
лить доверительный интервал для математического ожидания с за-
даваемым ( в % ) уровнем надежности γ .
К-й наименьший: – включается, если необходимо вычислить
к-й наименьший (начиная с xmin ) элемент выборки. При к = 1 вы-
числяется наименьшее значение.
К-й наибольший: – включается, если необходимо вычислить к-й
наибольший (начиная с xmax ) элемент выборки. При к = 1 вычисля-
ется наибольшее значение.
Пример задания параметров приведен на рис. 3.6.

Результаты работы режима Описательная статистика вы-


водятся в виде таблицы, в левом столбце которой приводится на-
звание вычисленной характеристики (рис. 3.7), позволяющее одно-
значно трактовать характеристику. Тем не менее, поясним сле-
дующие названия характеристик:
• Интервал – определяет размах выборки xmax − xmin ;
• Сумма – определяет сумму всех элементов выборки;
• Счет – определяет число обработанных элементов выборки;
• Уровень надежности – определяет величину Δ x , от кото-
рой зависит доверительный интервал для математического ожида-
ния, имеющий вид
[ xв − Δ x , xв + Δ x ] ,
где xв – выборочное среднее (подробнее см. п. 4.3).

♦ Пример 3.8. По выборке примера 2.3 вычислить описатель-


Рис. 3.6. Параметры режима Описательная статистика ные статистики, используя режим Описательная статистика.
Решение. Первоначально, начиная с ячейки А3, введем в стол-
Выходной интервал: / Новый рабочий лист: / Новая рабочая бец А 55 элементов выборки. После этого обратимся к пункту
книга – определяет место вывода результатов вычислений. При Сервис, команде Пакет анализа. В списке режимов выберем Опи-
включении Выходной интервал: в поле вводится адрес ячейки, на- сательная статистика. В появившемся диалоговом окне вклю-
чиная с которой будут выводиться результаты. чим параметры, показанные на рис. 3.6, и щелкнем ОК. Вычислен-
Итоговая статистика: – включается, если необходимо вы- ные характеристики приведены на рис. 3.7. ☻
вести по одному полю для каждой из вычисленных характеристик.

69 70
4. ИНТЕРВАЛЬНЫЕ ОЦЕНКИ
НЕИЗВЕСТНЫХ ПАРАМЕТРОВ

4.1. Некоторые распределения выборочных характеристик


Генеральные совокупности часто имеют нормальный закон
распределения. В этом случае многие выборочные характеристики,
в том числе X в , Dв , S 2 , выражаются через небольшое число рас-
пределений. Как правило, в математической статистике использу-
ются не плотности этих распределений, а некоторые характеристи-
ки, представленные таблицами. Чаще всего в качестве такой харак-
теристики выступает квантиль распределения.
Квантилем уровня p (0 < p < 1) или р-квантилем случайной
величины Х называется такое число dp, что вероятность
P( X < d p ) равна заданной величине р.
Из определения следует, что если непрерывная случайная ве-
личина Х имеет плотность распределения p (x ) , то квантиль d p
определяется равенством
dp
∫ p( x )dx = p . (4.1)
−∞

Это означает, что площадь фигуры, ограниченной осью абс-


Рис. 3.7. Результаты работы Описательная статистика
цисс, кривой f ( x ) и прямой x = d p , равна величине р. На
Задание 3.2. Сравните значения характеристик (см. рис. 3.7) рис. 4.1,а показан квантиль d 0.1 , а на рис. 4.1,б – квантиль d 0.9 .
со значениями аналогичных характеристик, вычисленных в преды- Площади заштрихованных фигур равны 0.1 и 0.9 соответственно.
дущих примерах. ♥ Рассмотрим несколько распределений, которым подчиняются
выборочные характеристики и которые используются для построе-
ния интервальных оценок.
Распределение χ (распределение К. Пирсона). Пусть
2

N1 ,..., N n – независимые нормально распределенные случайные


величины с параметрами (0,1). Распределение случайной величины

χ n2 = N12 + N 22 + N 32 + ... + N n2 (4.2)

71 72
называется распределением χ с п степенями свободы, а сама ве-
2
личины χ n2 . Так как случайные величины N12 ,..., N n2 независимы, то
личина χ 2 – случайной величиной χ с п степенями свободы.
2
D( χ n ) = nD( N1 ) = n ⎡⎣ M ( N1 ) − M ( N1 ) ⎤⎦ .
2 2 4 2
(4.3)
Заметим, что количество степеней свободы п является единст-
венным параметром χ -распределения и значения χ 2 неотрица-
2 Плотность распределения случайной величины N1 равна
2
− x2
тельны, т.е. P ( χ n2 < 0) = 0 .
p( x) = 1

e , значит,

а p(x) ∞ ∞
1 2

M ( N ) = ∫ x p( x)dx = ∫x e
− x2
1
4 4 4
= 3.
−∞ 2π −∞
Последний интеграл вычисляется методом интегрирования по
частям. Далее, так как M ( N12 ) = 1 , то D( χ n2 ) = n(3 − 1) = 2n . Та-
ким образом, χ -распределение с п степенями свободы имеет сле-
2

дующие числовые характеристики:


d0.1 x M [ χ n2 ] = n; D[ χ n2 ] = 2n .
(4.4)
p(x) Согласно центральной предельной теореме, если случайные
б величины N12 , N 22 ,..., N n2 независимы, одинаково распределены и
имеют конечные дисперсии, то последовательность
χ n2 = N12 + ... + N n2 асимптотически нормальна. Другими словами,
при больших значениях п распределение случайной величины χ n2
близко к нормальному распределению с параметрами
d0.9 x a = n, σ 2 = 2n . Однако при малых значениях п функция плотно-
Рис. 4.1. К определению квантилей случайной величины сти случайной величины χ n2 значительно отличается от кривой
Гаусса.
Определим математическое ожидание величины χ 2 . По опре- На рис. 4.2 показаны плотности распределения р(x) случайной
делению (4.2) имеем величины χ n2 при n = 2, n = 6 и n = 20 . Видно, что при увеличе-
нии n плотность р(x) "приближается" к плотности нормального рас-
⎛ n ⎞ n
[
n
]
M ( χ n2 ) = M ⎜ ∑ N i2 ⎟ = ∑ M ( N i2 ) = ∑ D( N i ) + M 2 ( N i ) , пределения.
⎝ i =1 ⎠ i =1 i =1
так как D( X ) = M ( X ) − M ( X ) . Но D( N i ) = 1, M ( N i ) = 0 , а зна-
2 2

чит, M ( χ n2 ) = n . Нетрудно вычислить и дисперсию случайной ве-


73 74
р(x) свободы. Плотность вероятности случайной величины Tn имеет
− n2+1
⎛ x 2 ⎞⎟
вид pn = Bn ⎜1 + , где Bn – некоторая константа, удовле-
n=2 n = 20 ⎜ n ⎟⎠


n=6 творяющая условию нормирования ∫ pn ( x )dx = 1 . При больших
−∞
значениях п кривая pn (x ) близка к кривой нормального распреде-
ления N (0,1) . Поэтому в практических расчетах при п > 30 часто
x
считают, что
2
Рис. 4.2. Плотность распределения χ2 1 − x2
pn ( x ) = e .

Обратим внимание на одно замечательное свойство распреде-
ления χ n2 . Строго говоря, это свойство можно доказать, используя, Заметим, что функция плотности pn (x ) симметрична относитель-
например, производящие функции. Свойство состоит в том, что но оси ординат.

сумма независимых случайных величин χ n2 + χ m2


также распреде- Распределение Фишера (F-распределение). Пусть χ n2 и χ m
2

лена по закону χ с ( n + m ) степенями свободы. Объясняется это


2 – независимые случайные величины, имеющие χ2-распределение с
п и m степенями свободы соответственно. Распределение случай-
тем, что случайная величина χ n2 + χ m
2
представляется в виде сум- ной величины
мы ( n + m ) квадратов случайных величин, независимых и нор-
χ n2 n
мально распределенных с параметрами (0,1). Fn , m = (4.6)
χ m2 m
Распределение Стьюдента (t-распределение). Пусть N (0,1) называется F-распределением или распределением Фишера с п и m
– нормально распределенная случайная величина с параметрами степенями свободы, а сама величина (4.6) – Fn , m величиной. Так
a = 0, σ = 1 , а χ n2 – независимая от N (0,1) случайная величина,
как случайные величины χ n2 ≥ 0 и χ m
2
≥ 0, то Fn, m ≥ 0 .
подчиняющаяся распределению χ2 с n степенями свободы. Тогда
распределение случайной величины В дальнейшем мы часто будем ссылаться на следующую тео-
рему о распределении выборочных характеристик X в и Dв , дока-
N (0,1) n занную Р. Фишером.
Tn = (4.5)
χ n2 Теорема 4.1 (о распределении выборочных характеристик).
Если генеральная совокупность Х распределена по нормальному
называется t-распределением или распределением Стьюдента. Са- закону с параметрами a и σ , то:
ма случайная величина (4.5) называется t-величиной с п степенями
75 76
а) случайная величина X в распределена нормально с пара- ( X в − a) n − 1
метрами (a, σn ) ; Dв

б) nDв σ 2 имеет распределение χ n2−1 ; имеет распределение Стьюдента с ( n − 1 ) степенями свободы.


в) случайные величины X в и Dв независимы. Напомним, что исправленная дисперсия S 2 определяется как
Мы не будем полностью доказывать эту теорему, а ограни- n
чимся доказательством утверждения а). Очевидно, что X в есть S2 = Dв .
n −1
линейная комбинация Тогда получаем новое
1 1 1
Xв = n
X1 + n
X 2 + ... + n
Xn Следствие. Если условия теоремы о распределении выбороч-
ных характеристик выполнены, то случайная величина
независимых, нормально распределенных случайных величин. Как
отмечалось в курсе теории вероятностей, в этом случае случайная ( X в − a) n
величина X в распределена нормально. Легко получить, что S2

⎛ x + x2 + ... + xn ⎞ M ( x1 ) + ... + M ( xn ) na имеет распределение с ( n − 1 ) степенями свободы.


M (Xв) = M ⎜ 1 ⎟= = =a,
⎝ n ⎠ n n 4.2. Понятие интервальной оценки параметра
2 случайной величины
⎛ x + ... + xn ⎞ D ( x1 ) + ... + D( xn ) nσ σ2
D( X в ) = D⎜ 1 ⎟= = = . Вычисляя на основании результатов наблюдений точечную
⎝ n ⎠ n2 n2 n
Тем самым первое утверждение теоремы доказано. оценку θ * неизвестного параметра θ , мы понимаем, что величина
Как следует из в), используя случайные величины X в и Dв , θ * является (в силу своей случайности) лишь приближенным зна-
можно составить случайную величину Tn −1 . Действительно, про- чением параметра θ . При большом числе наблюдений точность
( X в − a) n приближения бывает достаточной для практических выводов в си-
нормировав X в , получим = N (0,1) . Так как X в и Dв лу несмещенности, состоятельности и эффективности "хороших"
σ
независимы, то по (4.5) оценок. Для выборок малого объема точечные оценки могут значи-
( X − a ) n n − 1 nDв ( X в − a ) n − 1 тельно отличаться от оцениваемого параметра и вопрос о точности
Tn −1 = в : = . получаемых оценок становится очень важным. В математической
σ σ2 Dв
статистике он решается введением интервальных оценок.
Итак, мы получили
Интервальной оценкой для параметра θ называется такой ин-
Следствие. Если условия теоремы о распределении выбороч-
тервал ⎛⎜ θ * ,θ ⎞⎟ со случайными границами, что
*
ных характеристик выполнены, то случайная величина
⎝ ⎠
* *
P (θ < θ < θ ) = γ . (4.7)
77 78
Вероятность γ называется надежностью интервальной оценки р(х)
* *
или доверительной вероятностью, случайные величины θ , θ –
*
доверительными границами, а сам интервал (θ * , θ ) иногда назы-
вают доверительным интервалом. Центром этого интервала явля-
ется значение точечной оценки θ * .
Надежность γ принято выбирать равной 0.95, 0.99. Тогда со-
*
бытие, состоящее в том, что интервал (θ * , θ ) покроет параметр х
− xγ xγ
θ , будет практически достоверным.
Общая теория построения интервальных оценок заключается в Рис. 4.3. К построению доверительных интервалов
определении случайной величины, зависящей от оцениваемого па-
раметра. Зная распределение этой случайной величины, находят Это значение легко находится с использованием интегральной
x t2
соответствующие доверительные границы и сам доверительный −

интервал с требуемой точностью. Посмотрим, как эта идея реали-


функции Лапласа Φ ( x) = 1
2π ∫e
0
2
dt . Действительно,

зуется для различных параметров.


P (− xγ < N (0,1) < xγ ) = Φ ( xγ ) − Φ (− xγ ) = 2Φ ( xγ ) = γ . (4.9)
4.3. Интервальные оценки математического ожидания
нормального распределения Значение xγ , удовлетворяющее нелинейному уравнению
Пусть генеральная совокупность Х распределена по нормаль- γ
Φ ( xγ ) = , (4.10)
ному закону N (a,σ ) , причем параметр σ известен, а параметр a 2
требуется оценить с надежностью γ . По теореме о распределении находится по табл. П1.
( X в − a) n Так как σ > 0, то события − xγ < (X в −a ) n
< xγ и
выборочных характеристик случайная величина рас- σ
σ xγ σ xγ σ
пределена по закону N (0,1) . На рис. 4.3 изображен график функ- Xв − <a< Xв + эквивалентны, а значит, их вероятно-
n n
ции плотности этой случайной величины, т.е. кривая
сти равны:
2
−x
y= 1 e 2 . Выберем число xγ так, что заштрихованная пло- ⎛ xγ σ xγ σ ⎞
2π P⎜⎜ X в − <a < Xв + ⎟⎟ = γ . (4.11)
щадь равна γ , т.е. ⎝ n n ⎠
Таким образом, для параметра a мы построили доверительный
P( − xγ <
(X в − a ) n
< xγ ) = γ . (4.8) интервал (интервальную оценку), левая граница которого
σ
79 80
xγ σ xγ σ xγ σ Поэтому только для интервала (4.12) со случайными границами
Xв − , правая – X в + , а точность – δ = . Центр можно утверждать, что
n n n
этого интервала находится в точке с координатой X в , а длина ин- P ( X в − 1.31 < a < X в + 1.31) = 0.95 . ☻
xγ σ Определим теперь интервальную оценку для неизвестной ге-
тервала 2 . Если объем выборки неограниченно возрастает, то
n неральной средней x г нормально распределенной генеральной со-
интервал стягивается в одну точку X в , которая является состоя- вокупности Х в том случае, когда генеральная дисперсия Dг неиз-
тельной и несмещенной оценкой для параметра a . вестна, т.е. построим доверительный интервал для параметра a ,
♦ Пример 4.1. По выборке объема п = 9 найдено среднее зна- если параметр σ неизвестен.
чение x в = 1.5 . Считая, что генеральная совокупность распреде- В отличие от предыдущего случая, вместо случайной величи-
лена по нормальному закону с σ = 2 , определить интервальную ( X в − a) n
ны , распределенной по закону N (0,1) , рассмотрим
оценку для математического ожидания с надежностью γ = 0.95 . σ
Решение. Используя табл. П1, находим, что ( X в − a) n − 1
случайную величину , которая согласно следствию

0.95
Φ ( xγ ) = = 0.475
из теоремы 4.1 распределена по закону Стьюдента Tn −1 . При за-
2
данном значении γ , пользуясь табл. П2, вычислим значение
при xγ = 1.96 . Тогда δ = 1.96 ⋅ 2 = 1.31 и доверительный интер-
9 t (γ , n) из условия
вал (4.11) имеет границы ( X в − 1.31, X в + 1.31) . Таким образом, с ⎛ ( X − a) n − 1 ⎞
вероятностью 0.95 можно быть уверенным в том, что интервал P⎜ − t (γ , n) < в < t (γ , n) ⎟ = γ , (4.13)
⎜ Dв ⎟
⎝ ⎠
( X в − 1.31, X в + 1.31) (4.12) где γ – надежность интервальной оценки. Заметим, что в табл. П2
накроет параметр a или, другими словами, с вероятностью 0.95 n означает не число степеней свободы, а объем выборки. Число
значение X в дает значение параметра а с точностью δ = 1.31. степеней свободы будет равно n − 1 .
Заметим, что эта трактовка неверна, если вместо случайной ( X в − a) n
Замена случайной величины на случайную вели-
σ
величины X в использовать вычисленное по конкретной выборке
( X в − a) n − 1
значение xв = 1.5. Тогда границы интервала (0.19, 2.81) будут не чину вызвана тем, что закон распределения послед-

случайными и возможны два случая:
• точка а лежит внутри этого интервала, тогда ней случайной величины известен и в ее запись не входит неиз-
вестный в данном случае параметр σ . Из условия (4.13) получаем
Р(0.19 < а < 2.81) = 1;
• точка а не лежит внутри (0.19, 2.81), тогда ⎛ t (γ , n) Dв t (γ , n) Dв ⎞
P⎜ X в − < a < Xв − ⎟=γ .
Р(0.19 < а < 2.81) = 0. ⎜ n −1 n −1 ⎟
⎝ ⎠
81 82
Таким образом, интервальная оценка надежности γ для неизвест- t (0.95,9) S 2.31
(см. (4.15)): δ = = S = 0.77 S , а интервальная оценка
ной генеральной средней а имеет границы n 3
⎛ ⎞ имеет границы ( X в − 0.77 ⋅ S , X в + 0.77 ⋅ S ) , которые зависят от двух
⎜ X − t (γ , n) Dв , X + t (γ , n) Dв ⎟.
⎜ в n −1
в
n −1 ⎟ случайных величин: X в и S. Подставляя вместо S ее вычисленное
⎝ ⎠
значение s = 2, получаем интервал
Выразим границы интервала через исправленную дисперсию S 2 .

(X в − 1.54, X в + 1.54 ) .
Так как S 2 = n Dв , то = S . Поэтому
n −1 n −1 n Сравнивая эту оценку с интервальной оценкой примера 4.1
(см. (4.12)), видим, что замена неизвестной величины σ вычис-
t (γ , n) Dв t (γ , n) S ляемой величиной s приводит к уменьшению точности интерваль-
= . ной оценки и увеличению длины доверительного интервала. Под-
n −1 n
ставив вместо случайной величины X в ее конкретное значение
Значит, границы доверительного интервала можно записать как
xв = 1.5 , получаем конкретное значение границ (0, 3). ☻
⎛ t (γ , n) S t (γ , n) S ⎞
⎜⎜ X в − , Xв + ⎟⎟ , (4.14) 4.4. Интервальные оценки дисперсии
⎝ n n ⎠
нормального распределения
а точность интервальной оценки определить соотношением Как и при построении интервальных оценок для математиче-
t (γ , n) ского ожидания, в данном случае также необходимо определить
δ = S. (4.15) случайную величину, распределение которой было известно и
n включало оцениваемый параметр σ. В соответствии с теоремой 4.1
Как и в предыдущем случае, центр интервала находится в точ- такой отправной точкой для построения доверительного интервала
t (γ , n) nDв
ке X в , но длина интервала 2 S является случайной величи- может быть случайная величина , распределенная по закону χ2
σ2
n
с (n − 1) степенями свободы. Заметим, что доверительные интер-
ной, принимающей тем меньшие значения, чем больше значение п.
Это объясняется тем, что наличие большей информации x1 ,..., x n о валы, построенные для параметра a , вообще говоря, можно было
выбрать несимметричными относительно X в и это не противоре-
генеральной совокупности Х позволяет сузить интервал.
♦ Пример 4.2. По выборке объема п = 9 из нормально распре- чило бы определению интервальной оценки. Но такой выбор ин-
деленной генеральной совокупности найдены значения xв = 1.5 и тервала, когда в его середине лежит состоятельная и несмещенная
оценка параметра, являлся предпочтительным. В данном случае
s = 2 . Построить интервальную оценку для математического ожи- 2 2
дания с надежностью γ = 0.95 . целесообразно выбрать два предела χ лев ,γ и χ пр ,γ так, что
Решение. Пользуясь табл. П2, находим величину
t (0.95,9) = 2.31 . Тогда точность δ определяется соотношением
(
P χ n2−1 < χ лев
2
) (2 2
,γ = P χ n −1 > χ пр ,γ = ) α
2
,

где α = 1 − γ , γ – надежность интервальной оценки.


83 84
2
Следовательно, χ лев 0.98. По табл. П3 квантилей χ2-распределения находим
,γ – квантиль χ n −1 -распределения уровня
2

2 2
2
α 2 , χ пр ,γ – уровня 1 − α 2 . Тогда имеет место равенство
χ лев ,γ = 8.6 ; χ пр ,γ = 33.7 .

⎛ 2 nDв 2 ⎞ Тогда интервальная оценка (4.16) принимает вид


P⎜ χ лев ,γ < 2
< χ пр ,γ ⎟ = γ , а интервал
⎝ σ ⎠ ( 0.59 Dв , 2.33 Dв ) .
⎛ nD nD ⎞ Подставляя вычисленное значение d в = 1.5 случайной величины
⎜ в
, 2 в ⎟ (4.16)
⎜ χ2 ⎟ Dв , получаем
⎝ пр,γ χ лев,γ ⎠
2 0.89 < σ 2 < 3.488. ☻
является интервальной оценкой для σ надежности γ .
2
Так как Dв = (n − 1) S n , то nDв = (n − 1) S 2 и интервал 4.5. Интервальная оценка вероятности события
В п. 3.4 было показано, что "хорошей" точечной оценкой ве-
⎛ n −1 ⎞
⎜ 2 n −1 2⎟ роятности р события является частность p * = m / n (см. (3.17)),
S , S (4.17)
⎜ χ2 2
χ лев ⎟ где п – общее число независимых испытаний, в каждом из которых
⎝ пр,γ ,γ ⎠ событие А может произойти с вероятностью р, а m – число испыта-
является также интервальной оценкой для дисперсии σ2 надежно- ний, в которых произошло событие А.
сти γ. Зададимся надежностью интервальной оценки γ и найдем
Заметим, что границы интервалов (4.16), (4.17) являются слу- числа p лев ,γ , p пр ,γ такие, чтобы выполнялось соотношение
чайными величинами (почему?) и с вероятностью γ можно утвер-
ждать, что интервалы (4.16), (4.17) накроют неизвестную диспер- P ( p лев ,γ < p < pпр ,γ ) = γ . (4.18)
2
сию σ . Интервальную оценку построим для двух случаев: когда число
♦ Пример 4.3. По выборке объема п = 20 из нормально рас- испытаний п сравнительно велико (np > 10, n > 30) и для малого
пределенной генеральной совокупности вычислено значение дис-
числа испытаний.
персии выборки d в = 1.5 . Построить интервальную оценку для Интервальная оценка вероятности при большом числе ис-
параметра σ2 надежности γ = 0.96. пытаний. Если np > 10, n > 30 , то распределение случайной ве-
2 2
Решение. Значения χ лев ,γ , χ пр ,γ находим из условий: m
личины p * = можно аппроксимировать нормальным распреде-
n
(
P χ192 < χ лев
2
)
,γ = 0.02; (
P χ192 < χ пр
2
)
,γ = 0.98.
лением N ( p, pq / n ) . Следовательно, при этих же условиях рас-
2
Эти условия означают, что χ лев ,γ есть квантиль χ -распределения
2 ( p* − p)
пределение величины близко к нормальному с нулевым
2 pq / n
с 19 степенями свободы уровня 0.02, а χ пр ,γ – квантиль уровня математическим ожиданием и единичной дисперсией, т.е.
85 86
p* − p Корни этого уравнения и являются границами интервальной оцен-
= N (0,1) . ки (4.18)
pq / n
p лев ,γ = p1; pпр ,γ = p2 . (4.22)
По аналогии с (4.8) найдем такое число xγ , для которого справед-
ливо равенство
Если п >> 100, то для вычисления p1 , p2 можно использовать при-
⎛ p −p * ⎞ ближенные формулы:
P ⎜ − xγ < < xγ ⎟ = γ . (4.19)
⎜ pq / n ⎟ p1 ≈ p* − xγ p* (1 − p* ) n ; p2 ≈ p* + xγ p* (1 − p* ) n . (4.23)
⎝ ⎠
Это число является корнем уравнения Видно, что границы интервала (4.18) являются случайными вели-
чинами и конкретные значения границ получаются в результате
Φ ( xγ ) = γ 2 ,
подстановки наблюдаемого значения случайной величины р*.
где Φ (x) – функция Лапласа, и корень может быть найден с по-
♦ Пример 4.4. Событие А в серии из п = 100 испытаний про-
мощью табл. П1.
изошло т = 78 раз. Построить интервальную оценку для вероятно-
Неравенство, стоящее в скобках выражения (4.19), разрешим
сти р события с надежностью γ = 0.9 .
относительно р. Для этого неравенство перепишем в виде эквива-
Решение. Значение точечной оценки вероятности р равно
p* − p
лентного неравенства < xγ . Возведем в квадрат, в резуль- p * = 78 / 100 = 0.78 . По табл. П1 определяем xγ = 1.64 и вычис-
pq / n
ляем по формулам (4.20), (4.21) значения p1 , p2 при
* 2p(1 − p) 2
тате получим ( p − p ) < xγ . Далее, возведя в квадрат
n p * = 0.78 : p1 = 0.705, p2 = 0.848 . Таким образом, получили
реализацию доверительного интервала (0.705, 0.848) для вероятно-
( p * − p ) и перенеся все члены влево, получим
сти р события А. ☻
⎛ x2 ⎞ ⎛ x2 ⎞ Интервальная оценка вероятности при малом числе испы-
⎜1 + γ ⎟ p 2 − ⎜ 2 p * + γ ⎟ p + p * < 0 .
2

⎜ ⎟ ⎜ ⎟ таний. При малом числе испытаний п предположение о прибли-


⎝ n ⎠ ⎝ n ⎠
женном распределении случайной величины m по нормальному за-
Корни p1 и p2 квадратного трехчлена, стоящего в правой части кону m = N (np, npq ) становится несправедливым. Для описания
неравенства, определяются выражениями распределения величины m необходимо использовать формулу
Бернулли:
p* + xγ2 (2n) − xγ p* (1 − p* ) n + xγ2 ( 4n 2 )
p1 =
1 + xγ2 n
; (4.20) P( m = x ) = Cnx p x (1 − p ) n − x , x = 0,1,..., n .

Можно показать, что граничные точки интервальной оценки (4.18)


p* + xγ2 (2n) + xγ p* (1 − p* ) n + xγ2 (4n 2 ) являются решениями следующих нелинейных уравнений:
p2 = . (4.21)
1 + xγ2 n

87 88
m −1
1+ γ верительной вероятности. Эта величина находится по специаль-
∑С
x =0
x
n
x
pлев ,γ (1 − p лев ,γ )
n− x
=
2
; (4.24) ным таблицам. Поэтому часто возникает необходимость интерпо-
ляции или экстраполяции табличных данных и, следовательно,
требуются дополнительные вычисления. В табличном процессоре
m
1− γ
∑С x
n
x
pпр ,γ (1 − pпр ,γ )
n− x
=
2
, (4.25) Excel определены функции, позволяющие вычислять величины,
x =0 входящие в интервальные оценки для различных числовых харак-
где γ – надежность интервальной оценки. Вновь заметим, что ре- теристик случайной величины.
Вычисление величины xγ , входящей в доверительный ин-
шения p лев ,γ , pпр ,γ этих уравнений являются случайными величи-
тервал (4.11):
нами (почему?) и только при подстановке конкретного значения т
⎡ xγ σ xγ σ ⎤
(количество испытаний, в которых появилось событие А) будут ⎢Хв − , Хв + ⎥. (4.26)
получены конкретные значения граничных точек интервальной ⎣ n n⎦
оценки (4.18). Величина xγ является корнем нелинейного уравнения (4.10) и вы-
Корни уравнений (4.24), (4.25) могут быть найдены одним из
известных численных методов решения нелинейных уравнений. числяется с помощью функции НОРМСТОБР:
Кроме этого, существуют специальные таблицы для нахождения xγ = НОРМСТОБР((γ + 1) / 2) ,
p лев ,γ , pпр,γ , удовлетворяющих уравнениям (4.24), (4.25) по за-
где γ – надежность интервальной оценки (4.26).
данным n, m − n, γ . Фрагмент этих таблиц представлен в прило-
жении (табл. П4). Вычисление величины xγ σ n осуществляется с помощью
функции ДОВЕРИТ:
♦ Пример 4.5. В пяти испытаниях событие А произошло три Δ Х = xγ σ n = ДОВЕРИТ(α ; σ ; n) ,
раза. Построить интервальную оценку для вероятности р события в

А с надежностью γ = 0.95 . где α = 1 − γ , σ – известное среднеквадратичное отклонение, n –


Решение. Из условий примера имеем п = 5, m = 3, γ = 0.95. По объем выборки. Тогда интервальную оценку (4.26) можно записать
табл. П4 находим p лев ,γ = 0.147, pпр ,γ = 0.947 , а интервальная в виде ⎡ Х в − Δ Х , Х в + Δ Х ⎤ .
⎣ в в ⎦
оценка определяется как (0.147,0.947).
Сравнивая интервальные оценки примеров 4.4, 4.5, видим, что Вычисление величины t (γ , n) , входящей в доверительный
длина доверительного интервала для примера 4.5 (равная 0.8) су- интервал
щественно больше длины доверительного интервала примера 4.4 ⎡ t (γ , n) ⋅ Dв t (γ , n) ⋅ Dв ⎤
(0.143). Это является следствием разного объема выборок (n = 5 и ⎢Хв − , Хв + ⎥,
⎢⎣ n −1 n − 1 ⎥⎦
n = 100) и различных дисперсий случайной величины p * = m n .
осуществляют с использованием функции СТЬЮДРАСПОБР, об-

ращение к которой имеет вид:
4.6. Вычисление границ доверительных интервалов в Excel t (γ , n ) = СТЬЮДРАСПОБР(α ; n ) ,
Границы доверительных интервалов зависят от некоторой ве-
личины, которая зависит от распределения точечной оценки и до-
89 90
где α = 1 − γ , n – число степеней свободы (обратите на это вни- 5. ПРОВЕРКА СТАТИСТИЧЕСКИХ ГИПОТЕЗ
мание). 5.1. Понятие статистической гипотезы. Основные этапы
2
Вычисление величин χ лев ,γ ,
2
χ пр ,γ , входящих в доверитель- проверки гипотезы
ный интервал (4.17), для дисперсии σ : 2 Прежде чем перейти к математическим формулировкам, рас-
смотрим один пример.
⎡ n −1 2 n −1 2 ⎤ Результаты многолетних статистических исследований пока-
⎢ 2 S , 2 S ⎥, зали, что для населения некоторого региона вероятность предрас-
⎣⎢ χ пр ,γ χ лев ,γ ⎥⎦
положения к данному заболеванию R равна р0 = 0.1. После строи-
где S 2 – исправленная дисперсия. Используется функция тельства в этом регионе химического предприятия была проведена
ХИ2ОБР: выборочная проверка населения. Из 1000 обследованных у 120 че-
ловек были обнаружены признаки заболевания R. Можно ли ут-
2 ⎛ α⎞
χ лев ,γ = ХИ2ОБР ⎜ 1 − ;n⎟ ; верждать: а) полученные данные не противоречат предположению,
2 ⎠
⎝ что строительство не повлияло на уровень заболевания R, или
χ пр,γ = ХИ2ОБР (α 2; n ) ,
2 б) изменение экологической обстановки после строительства ком-
бината повлияло на распространение заболевания R? Приведенный
где α = 1 − γ , γ – надежность интервальной оценки.
пример является типичной задачей проверки статистической гипо-
Задание 4.1. Используя функции Excel, вычислите интерваль- тезы. Под статистической гипотезой понимается всякое выска-
ные оценки для примеров 4.1 и 4.2. ♥ зывание о генеральной совокупности (случайной величине X), про-
веряемое по выборочной совокупности (по результатам наблюде-
Задание 4.2. Используя функции Excel, вычислите интерваль- ний). В нашем примере высказывание формулируется в терминах
ные оценки для примера 4.3. ♥ вероятности p 0 события А = {наличие у человека заболевания R}.
Не располагая сведениями о всей генеральной совокупности, вы-
сказанную гипотезу сопоставляют по определенным правилам с
выборочными данными и делают вывод о том, можно принять ги-
потезу или нет. Эта процедура сопоставления называется провер-
кой гипотезы.
Рассмотрим этапы проверки гипотезы и используемые при
этом понятия.
Э т а п 1. Располагая выборочными данными и руководствуясь
конкретными условиями рассматриваемой задачи, формулируют
гипотезу Н0, которую называют основной или нулевой, и гипотезу
Н1, конкурирующую с гипотезой Н0. Гипотезу Н1 называют также
альтернативной.
Термин "конкурирующая" означает, что являются взаимоис-
ключающими следующие два события:
• по выборке принимается решение о справедливости для ге-

91 92
неральной совокупности гипотезы Н0; Тогда уровень значимости α определяет ошибку первого рода, т.е.
• по выборке принимается решение о справедливости для ге-
α = P ( H1 / H 0 ) . (5.2)
неральной совокупности гипотезы Н1.
Вернемся к нашему примеру. Обозначим через А событие, со- Поэтому вероятность α задается малым числом, поскольку это
стоящее в том, что случайно выбранный человек в данном регионе вероятность ошибочного высказывания. При этом обычно исполь-
предрасположен к заболеванию R. До строительства химического зуются стандартные значения: 0.05; 0.01; 0.005. Например,
предприятия вероятность события А была равна 0.1. В качестве ги- α = 0.05 означает следующее: если гипотезу Н0 проверять по каж-
потезы Н0 рассмотрим гипотезу о том, что после строительства хи- дой из 100 выборок одинакового объема, то в среднем в 5 случаях
мического предприятия вероятность события А не изменилась. Та- из 100 совершим ошибку первого рода.
ким образом, если р1 – вероятность события А после строительства Обратим внимание на то, что в результате проверки гипотезы
предприятия, то в качестве нулевой (основной) гипотезы принима- Н0 могут быть приняты правильные решения двух следующих ви-
ется дов:
Н0 : р1 = р0. • принимается гипотеза Н0 тогда, когда она верна (т.е. Н0
Учитывая, что: а) строительство комбината вряд ли улучшило эко- имеет место в генеральной совокупности); вероятность это-
логическую обстановку в регионе; б) при выборке из 1000 человек го решения равна P ( H 0 / H 0 ) = 1 − α (почему?);
у 120 человек обнаружено заболевание R, что соответствует отно- • не принимается гипотеза Н0 (т.е. принимается гипотеза Н1)
сительной частоте р* = 120/1000 = 0.12 > 0.1, в качестве альтерна- тогда, когда и на самом деле она неверна (т.е. справедлива
тивной гипотезы примем: гипотеза Н1), вероятность этого решения равна (почему?)
Н1 : р1 > р0. P ( H1 / H1 ) = 1 − β . (5.3)
Э т а п 2 . Задается вероятность α , которую называют уров- Э т а п 3. Определяют величину K такую, что: а) ее значения
нем значимости. Эта вероятность имеет следующий смысл.
зависят от выборочных данных x1 , x 2 ,..., x n , т.е.
Решение о том, можно ли считать высказывание Н0 справед-
ливым для генеральной совокупности, принимается по выбороч- K = K ( x1 , x 2 ,..., x n ) ; б) будучи величиной случайной (в силу слу-
ным данным, т.е. по ограниченному объему информации. Следова- чайности выборки x1 ,..., x n ), величина K подчиняется при выпол-
тельно, это решение может быть ошибочным. При этом может
нении гипотезы Н0 некоторому известному закону распределения;
иметь место ошибка двух родов:
в) ее значения позволяют судить о расхождении гипотезы Н0 с вы-
• ошибка первого рода совершается при отклонении гипоте- борочными данными. Величину K называют критерием.
зы Н0 (т.е. принимается альтернативная Н1), тогда как на Обратимся к нашему примеру. Пусть S1000 – количество об-
самом деле гипотеза Н0 верна; вероятность такой ошибки
следуемых, предрасположенных к заболеванию R в выборке из
обозначим P ( H1 / H 0 );
1000 человек. Если гипотеза Н0 верна, т.е. p1 = p0 = 0.1 , то случай-
• ошибка второго рода совершается при принятии гипотезы
ная величина S1000 распределена по биномиальному закону и ее
Н0, тогда как на самом деле высказывание Н0 неверно и
следовало бы принять гипотезу Н1; вероятность ошибки числовые характеристики равны M ( S1000 ) = 100 , D( S1000 ) = 90 (по-
второго рода обозначим как чему?). С другой стороны, ее распределение близко к нормально-
му. Поэтому случайная величина
β = P ( H 0 / H1 ) . (5.1)
93 94
S1000 − 100 Обычно этому требованию удовлетворяют три случая распо-
K= (5.4) ложения критической области (в зависимости от вида нулевой и
9.487
распределена по закону, близкому к нормальному N (0,1). альтернативной гипотез, формы и распределения критерия K):
Заметим, что если вероятность события A возросла после • правосторонняя критическая область (рис. 5.1,а), состоящая
строительства химического комбината, то случайная величина K из интервала ( xпр ,α , +∞) , где точка xпр ,α определяется из ус-
преимущественно будет принимать положительные значения (по- ловия
чему?) и это может трактоваться в пользу принятия гипотезы H 1 . P ( K > xпр ,α ) = α (5.6)
Видно, что величина (5.4) удовлетворяет требованиям а), б), в) и
может быть принята при проверке гипотезы H 0 : p1 = p0 при аль- и называется правосторонней критической точкой;
тернативной H1 : p1 > p0 . • левосторонняя критическая область (см. рис. 5.1,б) состоит
Э т а п 4. В области всевозможных значений критерия K вы- из интервала ( −∞, x лев ,α ) , где x лев ,α определяется из ус-
деляют подобласть ω, называемую критической областью. Значе- ловия
ния критерия, попавшие в критическую область, свидетельствуют
о существенном расхождении выборки с гипотезой Н0. Поэтому P ( K < xлев ,α ) = α (5.7)
руководствуются следующим правилом: если вычисленное по вы-
борке значение критерия попадает в критическую область ω, то и называется левосторонней критической точкой;
гипотеза Н0 отвергается и принимается альтернативная Н1. При • двусторонняя критическая область (см. рис. 5.1,в), состоя-
этом следует помнить, что такое решение может быть ошибочным щая из двух интервалов: ( −∞, x лев ,α / 2 ), ( xпр ,α / 2 ,+∞ ) , где
– на самом деле гипотеза Н0 может быть справедливой. Таким обра-
зом, ориентируясь на критическую область, можно совершить точки x лев ,α / 2 , xпр ,α / 2 определяются из условий
ошибку первого рода, вероятность которой задана заранее и равна α. P ( K < xлев ,α / 2 ) = α / 2 ; P ( K > xпр ,α / 2 ) = α / 2 . (5.8)
Отсюда вытекает следующее требование к критической области ω:
Вероятность принятия критерием K значения из критиче- Вернемся к нашему примеру. Так как альтернативная гипоте-
ской области ω при справедливости гипотезы Н0 должна быть за имеет вид H1 : p1 > p0 , то принимается правосторонняя крити-
равна α, т.е. ческая область (см. рис. 5.1,а). Задаваясь α = 0.005, определяем
P(K ∈ ω ) = α . (5.5) xпр,α из уравнения (5.6).
Однако критическая область определяется равенством (5.5) неод- При справедливости гипотезы Н0 критерий K, определяемый
нозначно. Пусть pK(x) является плотностью распределения крите- выражением (5.4), имеет нормальное распределение N(0,1), и, сле-
рия K. Тогда нетрудно увидеть, что на оси X существует бесчис- довательно, по таблице функции Лапласа Φ ( x) (по табл. П1) необ-
ленное множество интервалов таких, что площади построенных на
ходимо найти такое xпр ,α , что Φ ( xпр ,α ) = 0.495 . Это значение рав-
них криволинейных трапеций, ограниченных сверху кривой pK(x),
равны α. Поэтому кроме требования (5.5) выдвигается следующее: но 2.58. Тогда вероятность того, что критерий K при справедливо-
критическая область ω должна быть расположена так, чтобы при сти гипотезы Н0 примет значение больше 2.58, равна
заданной вероятности α – ошибки первого рода вероятность β – P ( K > 2.58) = P (2.58 < N (0.1) < ∞) = Φ (∞ ) − Φ (2.58) = 0.005 .
ошибки второго рода (см. (5.1)) была минимальной.

95 96
а Выбор критической области из условия минимума вероятно-
PN(0,1) (x)
сти ошибки второго рода эквивалентен выбору критической об-
ласти из условия максимума величины
m = 1− β ,
называемой мощностью критерия K и равной вероятности
P( H1 / H1 ) принятия гипотезы Н1 при справедливости гипотезы Н1.
Поясним понятие мощности критерия следующим примером.
Предположим, что если верна гипотеза Н0, то критерий K рас-
пределен по нормальному закону N(5,3) (т.е. математическое
б ожидание a = 5 , дисперсия σ 2 = 9 ), а если верна конкурирующая
гипотеза Н1, то критерий распределен по закону N(15,3). Требуется
PN(0,1) (x)
вычислить мощность критерия m1 , когда в качестве критической
рассматривается область больших значений, и мощность m2, когда
в качестве критической рассматривается область больших по мо-
дулю значений. Уровень значимости α возьмем 0.05. В первом
случае границу правосторонней критической области найдем из
условия P ( N (5,3) > xпр ,α ) = 0.05 , поэтому
1 ⎛ xпр ,α − 5 ⎞
P ( N (5,3) > xпр ,α ) = P ( xпр ,α < N (5,3) < ∞ ) = −Φ ⎜ ⎟ = 0.05.
2 ⎝ 3 ⎠
в ⎛ xпр ,α − 5 ⎞
Значит, Φ ⎜ ⎟ = 0.45 . По таблицам значений функции Φ ( x)
⎝ 3 ⎠
PN(0,1) (x)
xпр,α − 5
находим, что = 1.64 . Поэтому границы правосторонней
3
критической области xпр ,α = 9.92 . Чтобы вычислить ошибку вто-
рого рода β1, нужно найти вероятность попадания критерия в об-
ласть допустимых значений (–∞, 9.92) при условии, что гипотеза
Н0 неверна. В этом случае считается справедливой гипотеза Н1, а
критерий будет распределен по закону N(15,3). Значит,

( )
β1 = P( N (15,3) < 9.92) = 0.5 + Φ 9.92 − 15 = 0.5 − Φ (1.69) =
3
Рис. 5.1. Три вида критических областей при проверке = 0.5 − 0.4545 = 0.0455
статистических гипотез и мощность критерия m1 = 1 – β1 = 0.955.
97 98
Во втором случае правая граница критической области Правосторонняя критическая точка ранее была определена как
xпр,α / 2 вычисляется из условия P ( N (5,3) > xпр ,α ) = 0.025. Поэтому xпр ,α / 2 = 2.58 . Так как 2.108 < 2.58, то можно принять гипотезу
x пр ,α 2 − 5 H 0 : p1 = p0 , а полученные расхождения между теоретической
= 1.96 . Значит, xпр ,α / 2 = 10.88 . Левая граница критиче-
3 вероятностью p0 = 0.1 и наблюдаемой частностью 0.120 считать
ской области с точкой xпр ,α / 2 симметрична относительно точки допустимыми на уровне значимости α = 0.005 .
x = 5 , т.е. левая граница xпр ,α / 2 = 5 − 5.88 = 0.88 . Тогда вероят- Если бы количество человек с признаками заболевания R со-
ность ошибки β 2 составит ставило 130 (из 1000 обследованных), то K наб = 130 − 100 = 3.162 .
9.487

( ) ( )
В этом случае случайная величина K приняла значение из критиче-
β 2 = P( −0.88 < N (15,3) < 10.88) = Φ 10.88 − 15 − Φ −0.88 − 15 = ской области, т.е. произошло событие K > xпр ,α / 2 , которое прак-
3 3
= Φ (5.29) − Φ (1.37) = 0.5 − 0.41147 = 0.0853. тически невозможно, если гипотеза Н0 справедлива. Поэтому сле-
дует отвергнуть гипотезу Н0 в пользу альтернативной гипотезы
Поэтому мощность критерия во втором случае равна H1 : p1 > p0 .
m2 = 1 − β 2 = 1 − 0.0853 = 0.9147 . Значит, односторонняя крити-
ческая область больших значений является предпочтительной. 5.2. Проверка гипотезы о числовом значении
Э т а п 5 . В формулу критерия K, который является функци- математического ожидания
ей п случайных величин X 1 , X 2 ,..., X n , подставляются выбороч- нормального распределения
Полагаем, что Х является случайной величиной, имеющей
ные значения x1 , x2 ,..., xn и подсчитывается числовое значение
нормальное распределение с параметрами a и σ , т.е.
критерия K наб . X = N ( a, σ ) , причем числовое значение а неизвестно.
Если K наб попадает в критическую область ω , то гипотеза Н0 Дать точный ответ на вопрос, каково численное значение не-
отвергается и принимается гипотеза Н1. При этом можно допустить известного параметра а , по выборочной совокупности, нельзя. По-
этому поступают следующим образом. Полагая, что наблюдения
ошибку первого рода с вероятностью α . Если K наб не попадает в
X 1 , X 2 ,..., X n независимы, вычисляют значение выборочной
критическую область, гипотеза Н0 не отвергается. Однако это не
означает, что Н0 является единственной подходящей гипотезой: оценки X в , которое дает приближенные представления об a . За-
просто Н0 не противоречит результатам наблюдений; возможно, тем приступают к проверке гипотез о числовых значениях неиз-
таким же свойством наряду с Н0 могут обладать и другие гипотезы. вестного параметра а.
Вновь обратимся к нашему примеру. Напомним, что из обсле-
дованных 1000 человек признаки заболевания R были обнаруже- Проверка гипотезы о числовом значении математического
ны у 120 человек, т.е. S1000 = 120 . Подставляя это выборочное ожидания при известной дисперсии. Предполагается, что
X = N (a, σ ) , причем значение математического ожидания а не-
значение в формулу (5.4), получаем
K наб = 120 − 100 = 2.108 . известно, а числовое значение дисперсии σ 2 известно.
9.487 Выдвинем гипотезу Н0 о том, что неизвестный параметр а ра-
вен числу a0. Возможны три случая: 1) параметр а равен числу a1,
99 100
которое больше числа a0 (т.е. a > a0 ); 2) параметр а равен числу Остановимся на методике вычисления xпр ,α (которая будет
a1, которое не равно a0 (т.е. a ≠ a0 ); 3) параметр а равен числу a1, использована в дальнейшем для других критических точек). Веро-
которое меньше a0 (т.е. a < a0 ). Для случаев 1, 2 рассмотрим эта- ятность события N (0,1) ≤ xпр ,α можно представить как
пы проверки гипотезы Н0, приведенные в п. 5.1. 0 xпр ,α

Случай 1

−∞
pN (0,1) ( x)dx + ∫
0
pN (0,1) ( x)dx = 12 + Φ ( xпр ,α ),

Э т а п 1. Сформулируем нулевую гипотезу


где p N ( 0,1) ( x ) – плотность нормального распределения N(0,1);
H 0 : a = a0 (5.9)
Ф(х) – функция Лапласа (см. табл. П1). Следовательно, вероят-
и альтернативную ность противоположного события N (0,1) > xпр ,α выражается в
H1 : a = a1 > a0 . (5.10) виде 1 − ⎡⎣ 12 + Φ ( xпр ,α ) ⎤⎦ = 12 − Φ ( xпр ,α ) , и эта вероятность должна
быть равна α . Таким образом, приходим к уравнению
Э т а п 2 . Зададимся уровнем значимости α .
Φ ( xпр ,α ) = 12 − α .
Э т а п 3 . В качестве критерия возьмем величину
X в − a0 Воспользовавшись табл. П1, находим значение xпр ,α , удовлетво-
K= , (5.11)
σ n ряющее этому уравнению. Критическая область изображена на
значение которой зависит от выборочных данных (почему?), явля- рис. 5.1,а.
ется случайной величиной и при выполнении гипотезы (5.9) под- Э т а п 5. Используя вместо X 1 , X 2 ,..., X n конкретные числа,
чиняется нормальному распределению N(0,1), т.е. находим xв (см. (2.10)), а затем численное значение K наб крите-
X в − a0 рия (5.11). Если K наб > xпр ,α , то гипотеза H 0 (5.9) отвергается и
K= = N (0,1) . (5.12)
σ n принимается гипотеза H 1 (5.10). Напомним, что, поступая таким
образом, мы можем совершить ошибку первого рода. Вероятность
Э т а п 4 . Построим критическую область ω , т.е. область та-
такой ошибки равна α .
ких значений критерия K, при которых гипотеза H0 отвергается.
Если нулевая и альтернативная гипотезы имеют вид (5.9), (5.10) Случай 2
соответственно, а критерий (5.11) – вид K = N (0,1) , то критиче- Э т а п 1 . Сформулируем нулевую гипотезу
ская область будет правосторонней: ее образует интервал H 0 : a = a0 (5.13)
( xпр ,α , +∞) , где xпр ,α определяется из условия (5.6), которое с уче-
том (5.12) записывается как и альтернативную
H1 : a ≠ a0 . (5.14)
P( N (0,1) > xпр,α ) = α .
Э т а п 2. Зададимся уровнем значимости α .

101 102
Э т а п 3. В качестве критерия, как и в случае 1, возьмем ве- Решение.
личину (5.11), которая при справедливости гипотезы (5.13) удовле- а) по условию задачи нулевая гипотеза H0 : а = 50 с. Так как
творяет распределению N(0,1). xв = 52 c , то в качестве альтернативной возьмем гипотезу
Э т а п 4. Если нулевая и альтернативная гипотезы имеют со- H1 : a > 50 c , т.е. имеем случай 1 (см. (5.9), (5.10)) при a0 = 50 c . По
ответственно вид (5.13), (5.14), а критерий определяется выраже-
нием (5.12), то критическая область будет двусторонней: ее обра- изложенной схеме получаем xпр ,α = 1.65 . Подставляя в (5.11) исход-
зуют интервалы (−∞, xлев ,α / 2 ) , ( xпр ,α / 2 , +∞) , где критические точки ные данные xв = 52 c, σ = 3, n = 9 , получаем K наб = 52 − 50 = 2 . Так
3 9
xпр,α / 2 , x лев ,α / 2 находятся из условия (5.8), которое, учитывая
как число 2 попадает в критическую область (1.65, ∞) , то гипотеза
(5.12), запишется так:
H0 : а = 50 с отвергается и принимается H1 : а > 50 с;
α α б) здесь нулевая гипотеза H 0 : a = 51 с, альтернативная
P ( N (0,1) < xлев ,α / 2 ) = ; P ( N (0,1) > xпр ,α / 2 ) = . (5.15)
2 2 H1 : а > 51 с. Снова имеет место случай 1 при а0 = 51 с. Так как
Из рис. 5.1,в видно, что K наб = 51 − 50 = 1 не попадает в критическую область, то гипотеза
3 9
(1 − α )
Φ ( xпр ,α / 2 ) = . (5.16) H0 : а = 51 с не отвергается и в качестве норматива времени
2 изготовления детали берем 51 с. ☻
Воспользовавшись табл. П1, находим решение этого уравнения Проверка гипотезы о числовом значении математического
xпр,α / 2 . В силу симметричности функции плотности распределе- ожидания при неизвестной дисперсии. В этом случае за основу
проверки гипотезы
ния N (0,1) имеем
H 0 : a = a0 , (5.17)
x лев ,α / 2 = − xпр,α / 2 .
где а0 – заранее заданное число, положен критерий
Э т а п 5. Находим числовое значение K наб критерия (5.11). X в − a0
K= , (5.18)
Если K наб попадает в интервал ( −∞, x лев ,α / 2 ) или ( xпр ,α / 2 ,+∞ ) , S n
то гипотеза H 0 (5.13) отвергается и принимается альтернативная
где X в , S – случайные величины, вычисляемые по формулам
(5.14). Поступая таким образом, можно с вероятностью α допус-
тить ошибку первого рода. (2.9) и (3.12). Этот критерий при выполнении гипотезы (5.17) име-
♦ Пример 5.1. По результатам п = 9 замеров установлено, что ет t-распределение с числом степеней свободы k = n − 1 , т.е.
среднее время изготовления детали xв = 52 c . Предполагая, что X в − a0
время изготовления подчиняется нормальному распределению с K= = T n −1 , (5.19)
S n
дисперсией σ 2 = 9 c 2 , решить на уровне значимости α = 0.05 :
а) можно ли принять 50 с в качестве нормативного времени где T n −1 – случайная величина, подчиняющаяся распределению
(математического ожидания) изготовления детали; Стьюдента (см. (4.5)).
б) можно ли принять за норматив 51 с?

103 104
Задаваясь уровнем значимости α , построим критическую об- виде P (Tn −1 < x лев ,α / 2 ) = α / 2 ; P (Tn −1 > xпр ,α / 2 ) = α / 2 .
ласть для проверки гипотезы (5.17) при следующих альтернатив-
ных гипотезах. Обращаясь к табл. П2, находим
Случай 1 x лев ,α / 2 = −t (1 − α , n ) ; xпр ,α / 2 = t (1 − α , n ) . (5.23)
Альтернативная гипотеза
Подставляя в (5.18) конкретные значения величин X в , S , полу-
H1 : a > a0 . (5.20)
чаем значение критерия Kнаб . Если K наб попадает в интервал
Критическая область является правосторонней: ее образует интер- ( −∞, x лев ,α / 2 ) или ( xпр ,α / 2 ,+∞) , то гипотеза H 0 (5.17) отверга-
вал ( x пр ,α ,+∞ ) , где точка xпр ,α определяется из условия (5.6),
ется и принимается альтернативная гипотеза H 1 (5.22). Если
которое с учетом (5.12) можно записать в виде
K наб ∈ [ x лев ,α / 2 , xпр,α / 2 ], то принимается основная гипотеза
P (Tn −1 > xпр ,α ) = α .
H 0 (5.17).
В табл. П2 приведены значения t (γ , n ) , определяемые соотноше- ♦ Пример 5.2. Хронометраж затрат времени на сборку узла
машины п = 21 слесарей показал, что xв = 77 мин, а s 2 = 4 мин2.
t ( γ ,n )

нием ∫
− t ( γ ,n )
PT ( x )dx = γ , где n – объем выборки, а не число степе-
В предположении о нормальности распределения решить вопрос:
ней свободы. Так как функция плотности t-распределения симмет- можно ли на уровне значимости α = 0.05 считать 80 мин норма-
рична относительно нуля, то искомая точка xпр ,α определяется тивом (математическим ожиданием) трудоемкости?
Решение. В качестве основной гипотезы принимается
как
H 0 : a = 80 мин, в качестве альтернативной H1 : a ≠ 80 мин, т.е.
xпр ,α = t (1 − 2α , n ) . (5.21) имеем случай 2, при этом a0 = 80 . Используя (5.23) и табл. П2
( n = 21) , находим
Подставив в (5.18) конкретные значения X в , S , получаем значе-
ние критерия Kнаб . Если K наб > xпр ,α (т.е. попадает в критиче- x лев ,α / 2 = −2.086 ; xпр ,α / 2 = 2.086 . (5.24)
скую область), то гипотеза (5.17) отвергается и принимается гипо-
теза (5.20). При этом возможна ошибка первого рода с вероятно- По формуле (5.18) вычисляем K наб = (77 − 80) (2 2) = −6.708 . Так
стью α . как число –6.708 попадает в критическую область (конкретно в ин-
Случай 2 тервал (−∞, −2.086) ), то гипотеза H 0 : a = 80 мин отвергается. ☻
Альтернативная гипотеза
5.3. Проверка гипотезы о числовом значении дисперсии
H1 : a ≠ a0 . (5.22) нормального распределения
Критическая область состоит из двух интервалов ( −∞, x лев ,α / 2 ) ,
Полагаем, что X является случайной величиной, имеющей нор-
( xпр ,α / 2 ,+∞) , где критические точки x лев ,α / 2 , xпр,α / 2 опреде- мальное распределение N(a,σ), причем числовое значение дисперсии
ляются из условий (5.8), которые с учетом (5.19) можно записать в
105 106
P ( χ k2 < χ 2 (γ , k ) ) = γ = 1 − α .
n
σ2 неизвестно. Выборочная оценка S 2 = ∑ ( X i − X в ) 2 /(n − 1) дает
i =1

приближенное представление о σ2. Используя эту оценку, прове- Следовательно, искомая критическая точка xпр ,α находится как
рим гипотезу
xпр,α = χ 2 (1 − α , n − 1) .
H 0 : σ 2 = σ 02 , (5.25)
Подставив в (5.26) конкретные значения S 2 , σ 02 , находим K наб .
где σ 02– заранее заданное число. В качестве критерия возьмем
Если K наб > xпр ,α , то гипотеза H0 (5.25) отвергается и принимает-
случайную величину
ся гипотеза H1 (5.28).
2
( n − 1) S Случай 2
K= . (5.26)
σ 02 В качестве альтернативной гипотезы примем

При выполнении гипотезы (5.25) эта величина подчиняется χ2-рас- H1 : σ 2 ≠ σ 02 . (5.29)


пределению с числом степеней свободы k = n − 1 , т.е.
В этом случае критическая область состоит из двух интервалов
( n − 1) S 2 (0, x лев ,α / 2 ) и ( xпр ,α / 2 ,+∞ ) , где критические точки x лев ,α / 2 ,
K= = χ n2−1 . (5.27)
σ 02 xпр,α / 2 определяются из условий (5.8), которые с учетом (5.27)
Зададимся уровнем значимости α и перейдем к построению кри- можно записать в виде
тических областей для проверки гипотезы H0 (5.25) при следую-
P( χ n2−1 < x лев ,α / 2 ) = α / 2 ; P ( χ n2−1 > x пр ,α / 2 ) = α / 2 .
щих двух альтернативных гипотезах H1.
Случай 1 Обращаясь к табл. П3, находим
В качестве альтернативной гипотезы примем
x лев ,α / 2 = χ 2 (α / 2, n − 1) ; xпр ,α / 2 = χ 2 (1 − α / 2, n − 1) .
H1 : σ 2 > σ 02 . (5.28) Если значение K наб , вычисленное по формуле (5.26), попадает в
Критическая область является правосторонней и определяется ин- один из интервалов (0, x лев ,α / 2 ) или ( x пр ,α / 2 , ∞) , то гипотеза H0
тервалом ( x пр ,α ,+∞) , где критическая точка xпр ,α находится из отвергается и принимается гипотеза H1 (5.29). В противном случае
условия (5.6), которое с учетом (5.27) можно записать в виде нет оснований отвергнуть гипотезу H0 (5.25).

P ( χ n2−1 > xпр,α ) = α . ♦ Пример 5.3. Точность работы станка-автомата проверяется


по дисперсии контролируемого размера изделия. По выборке из 25
В табл. П3 приведены квантили χ 2 (γ , k ) , определяемые соотно- деталей вычислена s 2 = 0.25 . При уровне значимости α = 0.05
шением проверить гипотезу H 0 : σ 2 = 0.15 .

107 108
Решение. За альтернативную примем гипотезу H1 : σ 2 > 0.15 , ω − p0
(5.31)
т.е. имеем случай 1. По табл. П3 находим xпр ,0.05 = χ (0.95, 24) =36.4,
2
p0 (1 − p0 ) / n
следовательно, критическая область (36.4, ∞) . По формуле (5.26) можно аппроксимировать нормальным распределением N(0,1), т.е.
находим ω − p0
= N (0,1) . (5.32)
K наб = ( 25 − 1)0.25 / 0.15 = 40 . p0 (1 − p0 ) n
Напомним, что при проверке гипотез о численном значении
Так как K наб попадает в критическую область, гипотезу H 0
математического ожидания (при известной дисперсии) уже ис-
отвергаем. ☻ пользовался критерий, имеющий нормальное распределение. По-
5.4. Проверка гипотезы о числовом значении этому, не останавливаясь на вычислении критических точек, опре-
вероятности события делим только следующие три вида альтернативной гипотезы H1.
Альтернативная гипотеза H1 имеет вид
Предположим, что А – случайное событие, вероятность p по-
явления которого в единичном испытании неизвестна. Выдвинем H 1 : p > p0 . (5.33)
гипотезу
В этом случае критическая область представляет собой отрезок
H 0 : p = p0 (5.30) ( xпр,α ,+∞) (см. рис.5.1,а). Подставляя в формулу (5.31) значение

о том, что вероятность p равна числу p0 . В основе проверки этой частности ω и заданные числа p0 и n , вычисляем значения кри-

гипотезы должно лежать сравнение числа p0 с приближенными терия K наб . Если K наб > xпр ,α , то гипотеза H 0 (5.30) отвергает-
значениями вероятности p , найденными по опытным данным. ся и принимается гипотеза H1 (5.33).
Хорошим приближением к p является относительная частота Альтернативная гипотеза H1 имеет вид
ω = m n , где n – число независимых испытаний, проводимых в H 1 : p < p0 . (5.34)
одинаковых условиях, m – число испытаний (из n проведенных),
В этом случае критическая область имеет вид (−∞, xлев ,α )
в которых произошло событие А. Поскольку А – случайное собы-
тие, то число m – случайная величина. Поэтому рассмотрим два (см. рис. 5.1,б). Если числовое значение K наб попадает в интервал
случая. ( −∞, x лев ,α ) , то принимается гипотеза H1 (5.34).
Случай большого числа наблюдений. Напомним, что при
Альтернативная гипотеза H1 имеет вид
ω−p
большом n распределение величины можно ап-
p (1 − p ) / n H 1 : p ≠ p0 . (5.35)
проксимировать нормальным распределением N (0,1) . Если гипо- В этом случае критическая область состоит из двух отрезков
теза (5.30) справедлива, то распределение критерия (−∞, xлев ,α ) , ( xпр ,α + ∞) (см. рис. 5.1,в). Если числовое значение
2 2
критерия Kнаб попадает в критическую область, принимается гипо-
теза H1 (5.35), в противном случае – гипотеза H0 (5.30).
109 110
♦ Пример 5.4. Партия принимается, если вероятность того, Альтернативная гипотеза H1 имеет вид
что изделие окажется бракованным, не превышает p0 = 0.02 . H1 : p < p0 .
Среди случайно отобранных п = 1000 деталей оказалось m = 40
бракованных. Можно ли при уровне значимости α = 0.01 принять Полагая γ = 1 – 2α и зная n, m, по табл. П4 находим р2 (верхнее
партию? число в таблице). Если p0 > p2 , то принимаем гипотезу
Решение. Из условий задачи следует, что нулевая гипотеза H1 : p < p0 , в противном случае – гипотезу H1 : p = p0 .
H 0 : p = 0.02 , Альтернативная гипотеза Н1 имеет вид

а альтернативная имеет вид H 1 : p ≠ p0 .


H1 : p > 0.02 . Полагая γ = 1 − α и зная п, т, по табл. П4 находим p1 , p2 . Если
Критическую точку xпр ,α находим из уравнения p0 < p1 или p0 > p2 , то принимаем гипотезу H1 : p ≠ p0 ; если
1
p1 < p0 < p2 , то принимаем гипотезу H 0 : p = p0 .
Φ ( xпр ,α ) =
− 0.01 = 0.49 .
2
♦ Пример 5.5. В n = 5 опытах событие A произошло m = 4
По табл. П1 проводим линейную интерпретацию, получаем
раза. Можно ли принять вероятность p равной 0.2 при уровне
xпр,α = 2.33 . Числовое значение критерия (5.31)
значимости α = 0.025 ?
0.04 − 0.02 Решение. Основная гипотеза Н0 имеет вид H 0 : p = p0 = 0.2 .
K наб = = 4.5 .
0.02 ⋅ 0.98 1000 Рассмотрим три случая альтернативной гипотезы.
1. H1 : p > p0 . Принимая γ = 1 − 2α = 0.95 , по табл. П4 на-
Так как это число попадает в критическую область ( 2.33,+∞) , то
гипотезу H 0 : p = 0.02 отвергаем и делаем вывод, что при уровне ходим p1 = 0.284 . Так как p0 < p1 , то принимаем гипотезу Н1,
значимости α = 0.01 партию изделий принять нельзя. ☻ т.е. считаем, что p > 0.2 .
2. H1 : p < p0 . Для γ = 1 − 2α = 0.95 по табл. П4 находим
Случай малого числа наблюдений. При малом числе наблю-
дений допущение (5.32) несправедливо. В этом случае проверка p2 = 0.995 . Так как p0 < p2 , то принимаем гипотезу Н0, т.е. счита-
гипотезы (5.30) проводится следующим образом. ем, что вероятность события р = 0.2.
Альтернативная гипотеза Н1 имеет вид 3. H1 : p ≠ p0 . Полагая α = 0.05 , по табл. П4 для
H 1 : p > p0 . γ = 1 − α = 0.95 находим p1 = 0.284 и p2 = 0.995 . Так как
p0 = 0.2 не попадает в интервал (0.284, 0.995), то принимается ги-
Задаемся уровнем значимости α . Полагая γ = 1 − 2α и зная зна-
потеза H1 : p ≠ 0.2 . ☻
чение n, m , по табл. П4 находим p1 (это нижнее число). Если
p0 < p1 , то принимается гипотеза H1 : p > p0 , в противном слу-
чае – гипотеза H 0 : p = p0 .
111 112
5.5. Проверка гипотезы о равенстве Пользуясь свойствами дисперсии, получим
математических ожиданий
двух нормальных распределений ⎛ X + ... + X n Y1 + ... + Ym ⎞
D ( X в − Yв ) = D ⎜ 1 − ⎟=
⎝ n m ⎠
Проверка гипотезы о равенстве математических ожиданий (5.37)
nD ( X ) mD (Y ) D ( X ) D (Y ) σ X σ Y2 2
двух генеральных совокупностей имеет важное практическое зна- = + = + = + .
чение. Действительно, иногда оказывается, что средний результат n2 m2 n m n m
xв одной серии наблюдений отличается от среднего результата y в Так как случайная величина X в − Yв является линейной комбина-
другой серии. Возникает вопрос: можно ли это различие объяснить цией независимых нормально распределенных случайных величин
случайной ошибкой экспериментов или оно неслучайно? Иначе
X 1 ,..., X n , Y1 ,..., Ym , то X в − Yв распределена по нормальному
говоря, можно ли считать, что результаты экспериментов пред-
ставляют собой выборки из двух генеральных совокупностей с σ X2 σ Y2
закону с параметрами a = 0 , σ 2 = +
. В качестве критерия
одинаковыми средними. Приведем точную формулировку задачи. n m
Пусть генеральные совокупности Х и Y распределены по нор- выберем пронормированную случайную величину X в − Yв , т.е.
мальному закону, причем их средние квадратические отклонения
известны и равны соответственно σ X и σ Y . Требуется по двум X в − Yв
K= . (5.38)
независимым выборкам x1,…,xn и y1,…,ym из генеральных совокуп- σ X2 σ Y2
+
ностей Х и Y проверить гипотезу о равенстве генеральных средних, n m
т.е. основная гипотеза имеет вид:
Таким образом, если гипотеза (5.36) верна, случайная величи-
H 0 : M ( X ) = M (Y ) . (5.36) на K имеет нормальное распределение N (0,1) , т.е.

Построим критерий проверки этой гипотезы, основываясь на X в − Yв


K= = N (0,1) . (5.39)
следующем соображении: так как приближенное представление о σ X2 σ Y2
математическом ожидании дает выборочная средняя, то в основе +
n m
проверки гипотезы (5.36) должно лежать сравнение выборочных
средних X в , Yв . Найдем закон распределения разности ( X в − Yв ) . Теперь зададимся уровнем значимости α и перейдем к по-
Эта разность является случайной величиной, и если гипотеза строению критических областей и проверке гипотезы (5.36) для
двух видов альтернативной гипотезы Н1. Заметим, что вычисление
H 0 (5.36) верна, то критических точек критерия, распределенного по нормальному за-
кону N (0,1) , подробно рассматривалось в п. 5.2. Поэтому здесь
⎛ X + ... + X n Y1 + ... + Ym ⎞
M ( X в − Yв ) = M ⎜ 1 − ⎟ = M ( X ) − M (Y ) = 0 . ограничимся только определением соответствующих критических
⎝ n m ⎠
областей.
1. Альтернативная гипотеза имеет вид
H1 : M ( X ) > M (Y ) . (5.40)

В этом случае критическая область есть интервал (xпр,α, +∞), где


113 114
критическая точка xпр,α определяется из условия P ( N (0,1) > xпр ,α ) = численное по формуле (5.38), попадает в интервал ( −∞, x лев ,α / 2 )
= α (см. п. 5.2). Критическая область приведена на рис. 5.1,а. Под- или в интервал ( xпр ,α / 2 ,+∞ ) , то принимаем гипотезу Н1 (5.41);
ставляя в (5.38) числовые значения, найдем значения случайных
если x лев ,α / 2 < K наб < xпр ,α / 2 , то принимаем гипотезу Н0 (5.36).
величин X в , Yв и значение критерия K наб . Если K наб > xпр ,α , то
гипотезу Н0 (5.36) отвергаем и принимаем гипотезу Н1 (5.40). По- 5.6. Проверка гипотезы о равенстве
ступая таким образом, можно допустить ошибку первого рода с математических ожиданий двух произвольных
вероятностью α. распределений по выборкам большого объема
♦ Пример 5.6. По двум независимым выборкам, извлеченным
из нормальных генеральных совокупностей, объемы которых рав- Пусть x1 ,..., xn – выборка из генеральной совокупности X, а
ны n = 12 и m = 8 , найдены средние значения xв = 143 , y1 ,..., y n – выборка из генеральной совокупности Y , причем
y в = 122 . Генеральные дисперсии известны: σ Х2 = D( X ) = 36,σ Y2 = объемы выборок п и т достаточно большие (не менее 30 элементов
в каждой). Распределение генеральных совокупностей нам неиз-
= D(Y ) = 8 . При уровне значимости α = 0.005 проверить гипотезу
вестно, но недостаток этой информации компенсируется большими
H 0 : M ( X ) = M (Y ) при конкурирующей гипотезе M ( X ) > M (Y ) . объемами выборок. Согласно центральной предельной теореме,
Решение. Критическую точку xпр,α находим по табл. П1 из ус- случайная величина X в − Yв распределена по закону, близкому к
ловия Φ ( xпр ,α ) = 1 − α = 0.495 . Получаем xпр,α = 2.58. Наблюдаемое нормальному. Если гипотеза H 0 : M ( X ) = M (Y ) верна, то
2
значение критерия σ X2 σ Y2
143 − 122 21
M ( X в − Yв ) = 0 . Как и в п. 5.5, D( X в − Yв ) =+ , однако
n m
K наб = = = 10.5 .
36 + 8 2 σ Х2 ,σ Y2 неизвестны. Но при выборках большого объема случайные
12 8 величины Dвx (выборочная дисперсия Х) и Dвy (выборочная дис-
Так как K наб > 2.58 , то гипотеза о равенстве генеральных
персия Y) являются достаточно хорошими оценками для D(x) и
средних отвергается на уровне значимости α = 0.005 . ☻ D(y). Поэтому случайная величина
2. Альтернативная гипотеза имеет вид X в − Yв
K= (5.42)
H1 : M ( x ) ≠ M ( y ) . (5.41) Dвx Dвy
+
n m
В этом случае наибольшая мощность критерия достигается при
двусторонней критической области, состоящей из двух интервалов распределена по закону, близкому к нормальному N(0,1), и может
( −∞, x лев ,α / 2 ) и ( xпр,α / 2 ,+∞ ) . Критические точки определяются быть принята в качестве критерия. Тогда построение критических
областей для двух видов конкурирующих гипотез осуществляется
из условия (см. п. 5.2) так же, как и в п. 5.5.
P ( N (0,1) < xлев ,α / 2 ) = α / 2 ; P ( N (0,1) > xпр ,α / 2 ) = α / 2 . ♦ Пример 5.7. По двум независимым выборкам объемов
В силу симметрии плотности распределения N(0,1) относительно n = 120 , m = 150 найдены значения выборочных дисперсий
нуля xлев ,α / 2 = − xпр ,α / 2 . Если числовое значение критерия K наб , вы- d вx = 1.2 и d вy = 4.5 , а также средние значения xв = 30 , y в = 28.3 .

115 116
При уровне значимости α = 0.05 проверить гипотезу рассмотрим случайные величины
nDвx
и
mDвy
. По теореме о рас-
H 0 : M ( X ) = M (Y ) при конкурирующей H1 : M ( X ) ≠ M (Y ) . σ 2
σ2
Решение. Вычислим наблюдаемое значение критерия K : пределении выборочных характеристик они имеют распределения

X в − Yв 30 − 28.3
χ n2−1 и χ m2 −1 соответственно. Так как рассматриваются независи-
K наб = = = 8.5 . nDвx mDвy
d вx d вy 1.2 + 4.5 мые выборки, то случайные величины и независимы.
+ 120 150 σ 2
σ2
n m
Поэтому их сумма имеет распределение χ n2+ m − 2 , т.е.
Правую границу xпр,α / 2 двусторонней критической области
(xпр,α / 2,+∞) найдем из условия Φ ( xпр ,α / 2 ) = (1 − α ) / 2 = 0.475 . Полу- nDвx mDвy
+ = χ n2+ m − 2 . (5.44)
чаем xпр ,α / 2 = 1.96 , xлев ,α / 2 = −1.96 . Так как K наб > xпр ,α / 2 , гипотеза о σ 2
σ 2

равенстве генеральных средних на уровне значимости α = 0.05 от- В силу независимости величин Х и Y имеем
вергается. ☻ D( X в − Yв ) = σ2 + σ 2 . Если гипотеза Н справедлива, то случай-
n m 0

5.7. Проверка гипотезы о равенстве ная величина


математических ожиданий двух нормальных
распределений с неизвестными, X в − Yв nm
U= = ( X в − Yв ) (5.45)
но равными дисперсиями σ 1
+ 1 σ n+m
n m
Сформулируем задачу. Пусть x1 ,..., xn и y1 ,..., y m – две неза-
висимые выборки из нормально распределенных генеральных со- имеет нормальное распределение N (0,1) (убедитесь в этом), т.е.
вокупностей Х и Y соответственно. Ранее мы рассмотрели случай U = N (0,1) .
выборок большого объема и научились проверять гипотезу Напомним, что случайная величина
H 0 : M ( X ) = M (Y ) . Такую же гипотезу мы можем проверить и в
U n+m−2
том случае, если выборки имеют малый объем, но D( X ) и Tn + m − 2 =
D(Y ) известны. Поэтому рассмотрим случай, когда выборки име- χ n2+ m − 2
ют малый объем и их дисперсии D( X ) и D(Y ) неизвестны, но
подчиняется распределению Стьюдента с n + m − 2 степенями
равны. свободы (см. п. 4.1). Подставив вместо U правую часть выражения
Таким образом, при следующих предположениях:
а) случайные величины Х и Y имеют нормальное распределение и (5.45), а вместо χ n2+ m − 2 левую часть (5.44), получим
независимы; б) D( X ) = D (Y ) = σ 2 , требуется проверить гипотезу о
X в − Yв nm ( n + m − 2)
равенстве математических ожиданий случайных величин Х и Y, т.е. K= × . (5.46)
nDвx + mDвy n+m
H 0 : M ( X ) = M (Y ) . (5.43)
Эта случайная величина не содержит неизвестного параметра σ и
Построим критерий для проверки этой гипотезы. Для этого может быть взята в качестве критерия для проверки гипотезы Н0

117 118
(5.43). Если эта гипотеза справедлива, то критерий (5.46) имеет x лев ,α = −t (1 − 2α , n + m − 1) ,
t-распределение с k = n + m − 2 степенями свободы, т.е.
где t (1 − 2α , n + m − 1) находится по табл. П2. Если числовое значе-
K = Tn + m − 2 . (5.47)
ние K наб < x лев ,α , то принимается гипотеза Н1 (5.50), в против-
Зададимся уровнем значимости α и перейдем к построению ном случае – гипотеза Н0 (5.43).
критических областей для трех видов альтернативной гипотезы. 3. Альтернативная гипотеза имеет вид
Заметим, что ранее рассматривался критерий (5.18), имеющий рас-
пределение Стьюдента с k = n − 1 степенями свободы. Сейчас
H1 : M ( X ) ≠ M (Y ) . (5.51)
рассмотрим критерий (5.46), имеющий t-распределение с В этом случае критическая область состоит из двух интерва-
k = n + m − 2 степенями свободы. Никаких принципиальных раз- лов ( −∞, x лев ,α / 2 ) , ( xпр ,α / 2 ,+∞ ) , где критические точки опреде-
личий в алгоритмы построения критических областей это не вно-
ляются из условий
сит. Поэтому лишь кратко приведем схемы нахождения критиче-
ских точек. P (Tn + m − 2 < xлев ,α / 2 ) = α / 2; P (Tn + m − 2 > xпр ,α / 2 ) = α / 2.
1. Альтернативная гипотеза имеет вид
Используя табл. П2, получаем
H 1 : M ( X ) > M (Y ) . (5.48)
xлев ,α / 2 = −t (1 − α , n + m − 1); xпр ,α / 2 = t (1 − α , n + m − 1).
Критическая область представляет собой интервал (xпр,α,+∞), где
точка xпр,α находится из условия Если числовое значение K наб попадает в интервал ( −∞, x лев ,α / 2 )
P (Tn + m −2 > xпр ,α ) = α . или в интервал ( xпр ,α / 2 ,+∞ ) , то принимается гипотеза Н1 (5.51).
В табл. П2 приведены величины t (γ , N ) , определяемые условием (
Если K наб попадает в интервал x лев ,α / 2 , x пр ,α / 2 , то принимает- )
P ( TN −1 < t (γ , N ) ) = γ , где N – объем выборки, N − 1 – число сте- ся гипотеза H 0 (5.43).
пеней свободы. Поэтому ♦ Пример 5.8. По двум малым выборкам из нормальных гене-
xпр ,α = t (1 − 2α , n + m − 1) . (5.49) ральных совокупностей Х и Y найдены средние значения xв = 30,

Подставив в (5.46) числовые значения, получаем значения крите- y в = 39 и значения исправленных дисперсий s Х2 = 0.8 , sY2 = 0.4 .
рия K наб . Если K наб > x пр ,α , то принимается гипотеза Н1 (5.48), Требуется на уровне значимости α = 0.05 проверить гипотезу
в противном случае – гипотеза Н0 (5.43). H 0 : M ( X ) = M (Y ) при конкурирующей гипотезе
2. Альтернативная гипотеза имеет вид H1 : M ( X ) ≠ M (Y ) . Объемы выборок равны соответственно п = 12,
т = 18.
H 1 : M ( X ) < M (Y ) . (5.50) Решение. Так как выборки имеют малый объем, то для приме-
нения критерия Стьюдента мы должны вначале проверить гипоте-
Критическая область – это интервал (−∞, x лев ,α ) , где точка x лев ,α
зу о равенстве генеральных дисперсий D( X ) = D(Y ) (см. п. 5.8).
определяется из условия P (Tn + m −2 < x лев ,α ) = α и равна Для проверки используем критерий Фишера. В качестве конкури-
рующей выберем гипотезу D ( X ) > D(Y ) . Найдем наблюдаемое
119 120
0.8 Построим критерий для проверки этой гипотезы. Для этого
значение критерия Фишера: K наб = = 2 . Граница правосто- рассмотрим исправленные дисперсии:
0.4
n m
ронней критической области xпр ,α = f γ (11,17) = 2.41 . Так как ∑ (Y
∑ ( X i − X в )2 j − Yв ) 2
K наб < xпр,α , то нет оснований отвергать гипотезу о равенстве S Х2 = i =1
, SY2 =
j =1
.
n −1 m −1
дисперсий D( X ) и D(Y ) . Считая их равными, применим крите- Как известно (см. п. 3.3), эти величины могут быть приняты за
рий (5.46) и вычислим приближенные значения σ Х2 и σ Y2 . Имеют место следующие рас-
xв − y в mn(n + m − 2) пределения (см. теорему 4.1):
K= ⋅ . (n − 1) S Х2 (m − 1) SY2
nd вx + md вy n+m = χ 2
n −1 ; = χ m2 −1 .
2
σХ 2
σY
Поэтому в соответствии с определением F-распределения (см.
Так как S 2 = n n−1 Dв , то nd вx = (n − 1) s Х2 , md вy = (m − 1) sY2 . После вы-
χ2 l (n − 1) S Х2 (m − 1) SY2
числений получим K наб = 3.594 . Критическая область для крите- п. 4.1) отношение 2l или отношение 2 бу-
χk k σ Х (n − 1) σ Y2 (m − 1)
рия является двусторонней. По табл. П2 находим дет иметь распределение Фишера с l = n − 1 и k = m − 1 степеня-
xпр ,α / 2 = t (1 − α ,29) = 2.048; x лев ,α / 2 = −t (1 − α ,29) = −2.048 . ми свободы, т.е.
S X2 SY2
Так как K наб > 2.048 , то гипотеза о равенстве математических = Fn −1,m −1 . (5.53)
2 2
σX σY
ожиданий М(Х) и M(Y) отвергается на уровне значимости 0.05. ☻
Если гипотеза (5.52) верна, то из (5.53) непосредственно получаем
5.8. Проверка гипотезы о равенстве дисперсий критерий
двух нормальных распределений max( S X2 , SY2 )
K= , (5.54)
В п. 5.7 при проверке гипотезы о равенстве математических min( S X2 , SY2 )
ожиданий предполагалось, что дисперсии этих совокупностей оди- который подчиняется распределению Фишера с l и k степенями
наковы. Как убедиться в этом, имея лишь значения выборочных свободы, т.е.
дисперсий? Задача проверки гипотезы о равенстве дисперсий име-
ет и самостоятельный интерес. Так как дисперсия, например, ха- K = Fl , k . (5.55)
рактеризует точность работы прибора или технологического про-
цесса, то, убедившись в равенстве дисперсий, можно говорить об Предположим, что выборка с большей исправленной дисперсией
одинаковой точности прибора или технологического процесса. имеет объем n 1 , с меньшей – m1 . В этом случае
Пусть Х и Y – две случайные величины, имеющие нормальные
l = n1 − 1; k = m1 − 1 .
распределения и неизвестные дисперсии σ Х2 и σ Y2 . Требуется про-
Зададим уровень значимости α и перейдем к построению крити-
верить гипотезу
ческих областей и проверке гипотезы (5.52) для двух следующих
H 0 : σ Х2 = σ Y2 . (5.52) видов альтернативной гипотезы.
1. Альтернативная гипотеза имеет вид
121 122
H1 : σ X2 > σ Y2 . (5.56) xпр ,α = f 0.95 (8,12) = 2.85 (l = n1 − 1 = 9 − 1 = 8; k = m1 − 1 = 13 − 1 = 12).
В этом случае критическая область представляет собой интервал Так как K наб < 2.85 , то принимается гипотеза H 0 : σ X2 = σ Y2 . ☻
( xпр,α ,+∞) , где точка xпр,α определяется из условия 2. Альтернативная гипотеза Н1 имеет вид
H1 : σ X2 ≠ σ Y2 . (5.58)
P ( Fl , k > xпр,α ) = α .
В этом случае критическая область состоит из двух интервалов
Исходя из этого условия, найдем xпр ,α . В табл. П5 приведены зна- (0, x лев ,α / 2 ) , ( xпр,α / 2 ,+∞ ) , где точки x лев ,α / 2 и xпр,α / 2 опреде-
чения f γ (l , k ) , удовлетворяющие условию ляются следующими соотношениями (докажите это):

x лев,α / 2 = 1 ;
P ( Fl ,k < f γ (l , k )) = γ = 1 − α . f1−α / 2 (l ,k ) xпр ,α / 2 = f1−α / 2 (l , k ) , (5.59)
Тогда, задавая γ = 1 − α , приходим к соотношению в которых, как и прежде, значения fγ (l , k ) находятся по табл. П5.
xпр,α = f γ (l , k ). (5.57) При попадании числового значения K наб (5.54) в интервал
Перейдем к проверке гипотезы H 0 . В соответствии с выраже- (0, x лев ,α / 2 ) или ( xпр,α / 2 ,+∞ ) принимается гипотеза Н1 (5.58);
ниями если K наб попадает в интервал [ x лев ,α / 2 , xпр ,α / 2 ] , то принимает-
1 n 1 m
s X2 = ∑
n − 1 i =1
( xi − xв ) 2 , sY2 = ∑
m − 1 j =1
( y j − yв ) 2 , ся гипотеза Н0 (5.52).

где xi , y j – выборочные значения, xв , y в – значения выборочных ♦ Пример 5.10. По двум независимым выборкам, объемы ко-
торых n = 13, m = 15 , извлеченным из нормальных генеральных со-
средних, находим s X2 , sY2 . Подставляя эти значения в (5.54), вычис-
вокупностей, найдены исправленные выборочные дисперсии
ляем числовое значение критерия K наб . Если K наб > xпр ,α , то s X2 = 1.05, sY2 = 0.35 . При уровне значимости α = 0.10 проверить
гипотеза Н 0 (5.52) отвергается и принимается гипотеза H 1 . При гипотезу H 0 : σ X2 = σ Y2 при конкурирующей гипотезе H1 : σ X2 ≠ σ Y2 .
этом можно совершить ошибку первого рода с вероятностью α . Решение. Вычислим K наб = s X2 sY2 =1.05 0.35 = 3. Количество
Если K наб < x пр ,α , то принимается гипотеза Н 0 . степеней свободы l = 13 − 1 = 12; k = 15 − 1 = 14 . По табл. П5 для
♦ Пример 5.9. По двум независимым выборкам объемов γ = 1 − α / 2 = 0.95 , l = 12, k = 14 находим f 0.95 (12,14) = 2.53 . Тогда,
n = 9, m = 13 , извлеченным из нормальных генеральных совокуп- используя (5.59), получаем
ностей, найдены исправленные дисперсии s X2 = 12, sY2 = 6 . При x лев ,α / 2 = 1 2.53 = 0.395 ; xпр ,α / 2 = 2.53 .
уровне значимости α = 0.05 проверить нулевую гипотезу Так как K наб = 3 > 2.53 , то гипотеза H 0 : σ X2 = σ Y2 отвергается и
H 0 : σ X2 = σ Y2 при альтернативной H1 : σ X2 > σ Y2 . принимается гипотеза H1 : σ X2 ≠ σ Y2 . ☻
Решение. Вычислим значение критерия по формуле (5.54): В заключение сделаем следующее замечание. Выше, в п. 5.2,
K наб = 12 / 6 = 2 . В соответствии с соотношением (5.57) находим 5.3, 5.5, 5.7, предполагалась нормальность распределения иссле-
дуемых случайных величин Х и Y. Однако приведенные критерии
точку
123 124
весьма устойчивы (особенно при больших объемах выборок) к от- а
клонению от нормального распределения. Данный факт позволяет
надеяться на успешное использование этих критериев для провер-
ки гипотез в случаях, когда нет уверенности в нормальном распре-
делении случайных величин Х и Y.
5.9. Проверка гипотезы о законе распределения
с применением критерия согласия Пирсона
В предыдущих пунктах этой главы рассматривались гипотезы,
относящиеся к отдельным параметрам распределения случайных
величин, при этом предполагался известным вид самого распреде-
ления. б
При обработке статистических данных большого объема часто
возникает ситуация, когда закон распределения генеральной сово-
купности не известен заранее. Однако сравнение гистограммы с
известными кривыми функций плотностей позволяет выдвинуть
гипотезу о виде распределения генеральной совокупности. Так,
например, если гистограмма имеет один явно выраженный пик
(рис. 5.2,а), то можно предположить, что исследуемая генеральная
совокупность распределена по нормальному закону N (a, σ ) , т.е.
имеет плотность
( x − a )2
1 −
p ( x) = e 2σ 2
.
2πσ
Если гистограмма представляет собой "убывающие ступеньки в
прямоугольников" (см. рис. 5.2,б), то генеральная совокупность
может быть распределена по показательному закону:
⎧⎪0, , x < x0 ;
p( x ) = ⎨ − λ ( x − x )
⎪⎩λe 0 ,x ≥ x .
0

Для гистограммы, представленной на рис. 5.2,в, естественно


выдвинуть гипотезу о равномерном распределении генеральной
совокупности.

Рис. 5.2. К проверке гипотезы о законе распределения


125 126
Возникает вопрос о критерии проверки по выборочным дан- m1 + m2 + ... + ml = n . Сдвинем границу левого интервала на –∞, а
ным гипотезы о том, что случайная величина Х подчиняется рас-
правого на +∞, т.е. вместо первого интервала ( z0 , z1 ) рассмотрим
пределению с плотностью y = p (x ) . Такие критерии называются
критериями согласия. Рассмотрим лишь один критерий согласия, интервал ( −∞; z1 ) , а вместо последнего ( zl −1 , zl ) – интервал
использующий χ2-распределение и получивший название критерия ( zl −1 , ∞) . Вычислим вероятность попадания случайной величины
согласия Пирсона (или критерия χ2). Выдвигая гипотезу о виде
Х на каждый из полученных промежутков Δ1 ,..., Δ l , воспользо-
распределения генеральной совокупности, мы должны различать
два случая. В первом из них вид функции плотности определен в вавшись известной формулой:
гипотезе полностью. Например, мы выдвигаем гипотезу о том, что
генеральная совокупность распределена по нормальному закону с
pi = ∫ p( x)dx,
Δi
i = 1, 2,..., l.

параметрами a = 0 и σ = 1 . Такие гипотезы называются просты-


Заметим, что первый и последний из интегралов являются не-
ми. Если же гипотеза состоит лишь в том, что функция плотности
собственными. Полученные вероятности p1,…, pn должны удовле-
р(х) принадлежит к некоторому семейству функций, то такая гипо-
творять условию p1 + p2 + … + pn = 1.
теза называется сложной. Например, можно выдвинуть гипотезу о
том, что генеральные совокупности распределены по показатель- Рассмотрим п опытов, каждый из которых состоит в выборе
ному закону, не оговаривая значений параметров λ и x0 . Такая случайного значения величины Х и события Ai = {значение попа-
гипотеза будет сложной. ло в интервал Δ i }. Событие Ai в каждом опыте происходит с ве-
Остановимся вначале на простой гипотезе, предполагая, что роятностью pi . Поэтому ожидаемое количество появлений собы-
генеральная совокупность распределена непрерывно. В качестве
тия А в п опытах равно npi (математическое ожидание биномиаль-
нулевой гипотезы принимается предположение, что неизвестная
плотность распределения рX (х) исследуемой случайной величины ного распределения). Понятно, что если гипотеза верна, то между
Х совпадает с предполагаемой плотностью р(х), т.е. фактическими частотами mi и теоретическими npi попаданий на
H 0 : p X ( x) = p( x) . (5.60) i-й интервал не должно быть "больших" расхождений, т.е. величи-
ны np1 ,..., npl и числа m1 ,..., ml должны быть соответственно
В качестве предполагаемой (теоретической) плотности могут
быть рассмотрены различные плотности (нормальная, показатель- близки друг к другу. В качестве меры расхождения между ними
ная и т.д). Выберем наименьшее и наибольшее значения в данной используем сумму квадратов взвешенных расхождений:
выборке: a = min{x1 ,..., x n }, b = max{x1 ,..., x n } . Промежуток mi − npi
Yi = .
b−a npi
[a, b] разобьем на l промежутков равной длины h = . Гра-
l l ( mi − npi ) 2
l
ницы этих промежутков обозначим z0 = a, z1 ,..., zl = b , где Случайная величина ∑ Yi2 = ∑ при большом объеме
i =1 i =1 npi
zi +1 = zi + h при i = 0,..., l − 1 . Считаем, что гипотеза верна. Вы- выборки n имеет распределение, близкое к χ2 с (l − 1) степенями
числим частоту mi (i = 1,..., l ) попадания элементов генеральной свободы. Поэтому эта случайная величина принимается за крите-
совокупности на каждый промежуток. Понятно, что рий

127 128
l ( mi − npi ) 2 X 0–1 1–2 2–3 3–4 4–5 5–6 6–7 7–8
K= ∑ . (5.61)
i =1 npi mi 16 17 19 16 24 19 17 16
Если гипотеза Н0 (5.60) справедлива, то критерий K имеет χ -рас- 2

пределение с k = l − 1 степенями свободы, т.е. Проверить на уровне значимости α = 0.05 гипотезу о равно-
l ( mi − npi ) 2 мерности распределения генеральной совокупности на отрезке
K= ∑ = χ k2 . (5.62) [0,8].
i =1 npi Решение. Нулевая гипотеза имеет вид
Далее задаемся уровнем значимости α и, зная распределение кри-
⎧ 1 , 0 ≤ x ≤ 8;
терия K, строим правостороннюю критическую область. Это будет ⎪
H 0 : p X ( x) = p( x) = ⎨ 8 − 0 (5.64)
область вида ( xпр ,α ,+∞ ) . Критическая точка xпр ,α находится из ⎪⎩0, для остальных x.
условия P ( χ k2 > xпр ,α ) = α . В табл. П3 приведены значения χ γ2 ,
Вычислим вероятность попадания случайной величины X в каж-
дый интервал:
удовлетворяющие условию P ( χ k2 < χ γ2 ) = γ . Следовательно,
i
1 1 1
x пр ,α = χ 2 (1 − α , l − 1) . (5.63) pi = ∫ 8 dx = 8 (i − i + 1) = 8 , i = 1,2,...,8 .
i =1
Если числовое значение критерия K наб , вычисляемое по формуле
(5.61), попадает в критическую область ( x пр ,α , ∞) , то делается вы- Поэтому npi = 1 144 = 18 при любом i . Так как np i ≥ 10 , то нет
8
вод о неправомерности гипотезы Н0 (5.60). Следует помнить, что необходимости объединять несколько интервалов. Результаты
этот вывод может быть ошибочным (т.е. генеральная совокупность дальнейших вычислений сведены в табл. 5.1.
имеет плотность распределения p (x) с вероятностью α (ошибка
Таблица 5.1
первого рода)). (mi − npi ) 2
Номер mi npi mi − npi
Отметим одну рекомендацию для выбора длины интервала h .
интервала npi
l (mi − npi ) 2
Чтобы случайная величина ∑ была приемлемо близка 1 16 18 –2 0.22
i =1 npi 2 17 18 –1 0.06
к распределению χ l2−1 , достаточным для практических расчетов 3 19 18 1 0.06
4 16 18 –2 0.22
является выполнение условия npi ≥ 10 для всех i. В том случае, 5 24 18 6 2.00
когда для некоторого i имеет место np i < 10 , рекомендуется объ- 6 19 18 1 0.06
единить несколько интервалов, пока данное условие не будет вы- 7 17 18 –1 0.06
полнено. 8 16 18 –2 0.22
∑ 144 144 0 2.9
♦ Пример 5.11. По выборке объема n = 144 составлен груп-
пированный статистический ряд:
129 130
Таким образом, числовое значение K наб = 2.9. Для заданного дено xв , s 2 = 94.26 . При уровне значимости α = 0.02 проверить ги-
уровня значимости α = 0.05 находим γ = 1 − α = 0.95 , потезу о нормальности распределения генеральной совокупности.
χ 2 = (0.95,7) = 14.1 . Так как K наб < xпр ,α , то гипотеза Н0 (5.60) при- Таблица 5.2
Но-
нимается. ☻ мер Границы z −x ⎛ z i −1 − xв ⎞ (mi − npi ) 2
ин- интер- mi i −1 в Φ ⎜ ⎟ pi npi
Обычной является ситуация, когда предполагается лишь, что s ⎝ s ⎠ npi
тер- валов
распределение генеральной совокупности принадлежит некоторо- вала
му классу распределений. Например, генеральная совокупность
распределена нормально. В этой гипотезе не оговорены значения 1 2 3 4 5 6 7 8
параметров а и σ . Отличие в применении критерия χ2 в этом слу- 1 [–20,15] 7 –1.99 –0.4767 0.023 4.66 1.18
чае от ранее рассмотренного состоит в том, что нет возможности
сразу вычислить значения вероятностей. Поэтому вначале находят 2 [–15,10] 11 –1.47 –0.4292 0.047 9.50 0.24
оценки неизвестных параметров. Например, для оценки параметра
а, как известно, можно использовать случайную величину Х в и 3 [–10,–5] 15 –0.96 –0.331 0.098 19.54 1.05
заменить а ее значением, т.е. а = xв .
4 [–5,0] 24 –0.44 –0.1700 0.162 32.30 2.13
В качестве оценки параметра σ2 можно выбрать исправленную
дисперсию S 2 и заменить σ2 ее значением s 2 . Таким образом, 5 [0,5] 49 0.07 0.0279 0.198 39.58 2.24
( x − xв )2
1 −
6 [5,10] 41 0.59 0.222 0.194 38.90 0.11
р ( x) = e 2 s2
.
2π s
7 [10,15] 26 1.10 0.364 0.142 28.38 0.20
В качестве критерия также принимается случайная величина
(5.61). Если гипотеза Н0 справедлива, то критерий имеет χ2-распре- 8 [15,20] 17 1.62 0.4474 0.083 16.62 0.01
деление с k степенями свободы. Однако количество степеней сво-
боды критерия подсчитывается по формуле l − r − 1 , где r – коли- 9 [20,25] 7 2.13 0.4834 0.053 10.52 0.03
чество параметров, оцененных по выборке. В рассмотренном при-
мере r = 2, так как по выборке были оценены два параметра а и σ . 10 [25,30] 3 +∞ 0.5
В этом же примере вероятность pi попадания случайной величи-
ны X в интервал [z i −1 , z i ] находится с помощью функции Лапласа ∑ 200 1 200.0 7.19

⎛z −x ⎞ ⎛z −x ⎞ ⎛ z − xв ⎞ ⎛z −x ⎞
pi = P( zi −1 < N ( xв , s) < zi ) = Φ ⎜ i в ⎟ − Φ ⎜ i −1 в ⎟ . Решение. Так как pi = Φ ⎜ i − Φ ⎜ i −1 в ⎟ , то в графе 4
⎝ s ⎠ ⎝ s ⎠ ⎟
⎝ s ⎠ ⎝ s ⎠
♦ Пример 5.12. Группированный статистический ряд частот zi −1 − x
вычислены значения . При этом левая граница первого ин-
занесен в графы 2 и 3 табл. 5.2. По выборке объема n = 200 най- s
131 132
тервала заменена на –∞, а правая граница последнего интервала l
z −x чим ni • . Аналогично ∑ nij = n• j . Ясно, что
заменена на +∞. В графе 5 вычислены значения i −1 , в графе 6 i =1
s l s s l s l

– вероятности pi , в графе 7 – математические ожидания npi , а в ∑∑ n = ∑∑ n = ∑ n


i =1 j =1
ij
j =1 i =1
ij
j =1
•j = ∑ ni• = n .
i =1
(mi − npi ) 2
графе 8 – взвешенные отклонения . Так как для 9-го и
npi Если числа nij концентрируются вдоль диагонали, идущей из
10-го интервалов np9 = 7.2 < 10 и np10 = 3.32 < 10 , то эти интер- левого верхнего угла к правому нижнему, то между величинами Х
и Y можно предположить тесную прямую связь.
валы объединяем. Для полученного интервала np = 10.52 > 10
Если числа nij сосредоточены вдоль другой диагонали, то
(см. графу 7). Числовое значение критерия K наб = 7.19 (см. итог
между случайными величинами X и Y вероятна обратная связь,
графы 8). По табл. П3 при γ = 1 − α = 0.98 и k = 9 − 2 − 1 = 6 нахо-
т.е. с ростом X значения Y убывают. Если числа nij
дим χ 2 (0.98) = 15.0 , xпр ,α = 15.0 . Так как K наб < 15.0 , то гипоте-
распределены по большинству ячеек таблицы, то между X и
за H 0 о нормальности распределения генеральной совокупности Y скорее всего нет связи.
принимается на уровне значимости α = 0.02 . ☻ Предположим, что анализ корреляционной таблицы позволил
нам выдвинуть гипотезы: основную H 0 – случайные величины X
5.10. Проверка гипотезы о независимости и Y независимы и альтернативную H1 – случайные величины X и
двух генеральных совокупностей с применением
критерия χ2 Y зависимы. Используем критерий χ2 для проверки этих гипотез.
Если гипотеза H 0 верна, то
Пусть ( X , Y ) – двухмерная генеральная совокупность, причем P ( X = ai , Y = b j ) = P( X = ai ) ⋅ P(Y = b j ) .
все значения случайной величины X исчерпываются числами
a1 ,..., al , а все значения случайной величины Y – числами Корреляционная таблица
b1 ,..., bs . Выборка объема п в этом случае состоит из пар Y
b1 b2 ... bs
( x1 , y1 ),..., ( x n , y n ) , где xi и yi – соответствующие значения слу- X
чайных величин X и Y . Заполним таблицу, называемую кор- a1 n11 n12 ... n1s
реляционной, в первой строке которой перечислим все различные a2 n21 n22 ... n2 s
значения случайной величины Y , в первом столбце – все различ- K K K K K
ные значения случайной величины X , а на пересечении i-й строки al nl 2 nls
nl 2 ...
и j-го столбца поместим число nij – количество пар (ai , bi ) , встре-
s
Пусть значение X = ai встречается среди чисел x1 ,..., xn ni•
чающихся в выборке. Сумму элементов ∑ nij i-й строки обозна-
j =1
раз. Тогда относительная частота события { X = ai } равна ni• n .
Она является состоятельной и несмещенной оценкой параметра
133 134
pi = P( X = ai ) . Аналогично n• j n – состоятельная и несмещен- ♦ Пример 5.13. Комплектующие изделия одного наименова-
ния поступают с трех предприятий: 1, 2, 3. Результаты проверки
ная оценка вероятности p ′j = P (Y = b j ) . Если гипотеза H 0 верна, изделий приведены в табл. 5.3.
то ожидаемое количество попаданий в клетку (i, j ) можно найти Таблица 5.3
ni• n• j ni• n• j
по формуле nij′ = n ⋅ = (как математическое ожида-
n 2
n Результаты Поставщик
проверки Всего
ние случайной величины, распределенной по биномиальному за- 1 2 3
изделий
ni• n• j ni• n• j
кону с параметрами n и p = 2
) и числа nij , близки Годные 29 38 53 120
n n
друг к другу в совокупности. В качестве критерия примем случай- Негодные 1 2 7 10
ную величину Всего 30 40 60 130
2
⎛ ( ni •n• j ) ⎞
l s ⎜ nij − ⎟ Можно ли считать, что качество изделий не зависит от по-
K = ∑∑ ⎝ n ⎠ . (5.65) ставщика? Уровень значимости принять равным 0.05.
i =1 j =1 ni• n• j n Решение. Находим наблюдаемое значение критерия:

( 29 − 120 ⋅ 30 ) ( 38 − 120 ⋅ 40 ) ( 53 − 120 ⋅ 60 )


2 2 2
Если гипотеза H 0 справедлива, то эта случайная величина имеет
K наб = 130 + 130 + 130 +
χ2-распределение с k = (l − 1)( s − 1) степенями свободы, т.е. 120 ⋅ 30 120 ⋅ 40 120 ⋅ 60
130 130 130
(5.67)
K = χ (2l −1)( s −1) . (5.66)
( ) ( ) ( )
2 2 2
1 − 10 ⋅ 30 2 − 10 ⋅ 40 7 − 10 ⋅ 60
+ 130 + 130 + 130 = 2.55.
Критическая область представляет собой отрезок ( xпр ,+∞) , где 10 ⋅ 30 10 ⋅ 40 10 ⋅ 60
130 130 130
точка хпр,α определяется соотношением xпр ,α = χ 2 (1 − α ,(l − 1)( s − 1)) .
По табл. П3 для числа степеней свободы k = (l − 1)( s − 1) =
Если числовое значение критерия K наб , найденное по форму-
= ( 2 − 1)(3 − 1) = 2 и α = 0.05 находим χ 2 (0.95,2) = 6 , xпр ,α = 6 .
ле (5.65), попадает в критическую область, т.е. K наб > xпр ,α , то
Так как K наб < 6 , то можно принять гипотезу H 0 о независимо-
нулевая гипотеза о независимости X и Y отвергается.
сти качества изделий от поставщика. ☻
Заметим, что вместо ограничения npi ≥ 10 , указанного в
ni• n• j 5.11. Проверка статистических гипотез в Excel
п. 5.9, здесь желательно выполнение условия ≥ 4 . Если это В табличном процессоре Excel определены несколько функ-
n
ций и режимов работы Пакета анализа, которые можно использо-
условие не выполняется, то соответствующие строки и столбцы
вать для проверки различных статистических гипотез.
должны быть объединены с соседними.
135 136
Проверка гипотезы о числовом значении математического брать данный режим и щелкнуть ОК. В диалоговом окне (рис. 5.3)
ожидания нормального распределения при известной диспер- задаются следующие параметры:
сии. В качестве нулевой гипотезы H 0 принимается (5.13), в каче-
стве альтернативной H1 – (5.14). Уровень значимости α принима-
ется равным 0.05.
Используется функция ZТЕСТ, обращение к которой имеет
вид:
=ZТЕСТ(массив; a0 ; σ ),
где массив – адреса ячеек, содержащих выборочные данные слу-
чайной величины, математическое ожидание которой сравнивается
с заданной величиной a0 ;
a0 – задаваемое значение математического ожидания;
σ – задаваемое среднеквадратичное отклонение случайной вели-
чины (если этот параметр опущен, то используется выборочная
дисперсия, вычисленная по той же выборке).
Результатом работы функции является корень xпр ,0.05 / 2 урав-
нения (5.8), т.е.
xпр ,0.05 / 2 = ZТЕСТ(массив; a0 ; σ ).
Рис. 5.3. Задание параметров режима
Величины xпр ,0.05 / 2 , xлев ,0.05 / 2 = − xпр ,0.05 / 2 определяют критиче- Двухвыборочный z-тест для средних
ские области ( −∞, xлев ,0.05 / 2 ⎤⎦ , ⎡⎣ xпр ,0.05 / 2 , ∞ ) .
Интервал переменной 1: – адреса ячеек, содержащих выбо-
Проверка гипотезы о равенстве математических ожиданий рочные значения случайной величины X .
двух нормальных распределений с известными дисперсиями. Интервал переменной 2: – адреса ячеек, содержащих выбо-
Изучаются две нормально распределенные случайные величины рочные значения случайной величины Y .
X N ( a X ,σ X ) , Y N ( aY ,σ Y ) . Числовые значения дисперсий σ X2 , Гипотетическая средняя разность: – задает число, равное
предполагаемой разности математических ожиданий aX – aY (при
σ Y2 известны. Проверяется основная гипотеза H 0 (5.41) – H 0 :
проверке гипотезы о равенстве математических ожиданий зада-
M ( X ) = M (Y ) . ется 0).
Для проверки этой гипотезы используется режим работы Дисперсия переменной 1 (известная): – вводится известное
Двухвыборочный z-тест для средних. Для вызова этого режима значение σ Х2 .
необходимо обратиться к пункту Сервис строки меню Excel, ко- Дисперсия переменной 2 (известная): – вводится известное
манде Пакет анализа. Затем в появившемся списке режимов вы- значение σ Y2 .

137 138
Метки – включается, если первая строка содержит заголовки Решение. Обратимся к режиму
столбцов. Двухвыборочный z-тест для средних и
Альфа: – задается уровень значимости. в появившемся диалоговом окне зада-
Выходной интервал: / Новый рабочий лист: / Новая рабочая дим необходимые параметры (см.
книга – указывается, куда выводятся результаты вычислений. При рис. 5.3), а затем щелкнем на ОК. Ре-
включении Выходной интервал: вводится адрес ячейки, начиная с зультаты работы режима показаны на
которой выводятся результаты, которые оформлены в виде табли- рис. 5.4. Величина z является расчет-
цы (пример такой таблицы приведен на рис. 5.4). ным значением критерия (5.39)
K наб = z = −2.867 . Это значение попада-
♦ Пример 5.14. Выборочные данные о диаметре валиков (мм), ет в критическую область
изготовленных автоматом 1 и автоматом 2, приведены в столбцах
K наб > zкр = 1.96 . Поэтому нулевая ги-
А, В документа Excel (рис. 5.5). Предварительным анализом уста-
новлено, что размер валиков, изготовленных каждым автоматом, потеза с уровнем значимости α = 0.05
имеет нормальное распределение с дисперсиями σ X2 = 5 мм 2 (ав- отвергается и принимается альтерна-
тивная гипотеза a X ≠ aY . ☻
томат 1) и σ Y2 = 7 мм 2 (автомат 2).
Необходимо проверить нулевую гипотезу H 0 : a X = aY при
альтернативной гипотезе H1 : a X ≠ aY .

Рис. 5.5. Исходные данные к примеру 5.14

Проверка гипотезы о равенстве математических ожиданий


двух нормальных распределений с неизвестными, но равными
дисперсиями. Изучаются две нормально распределенные случай-
ные величины X N ( a X ,σ X ) и Y N ( aY ,σ Y ) . Дисперсии равны,
но не известны, т.е. σ X2 = σ Y2 = σ 2 . Необходимо проверить стати-
стическую гипотезу H 0 : a X = aY при альтернативной гипотезе
H1 : a X ≠ aY .
Для проверки этой гипотезы используется режим Двухвыбо-
рочный t-тест с одинаковыми дисперсиями. Для вызова режима
необходимо обратиться к пункту Сервис строки меню Excel, ко-
манде Пакет анализа. Затем в появившемся списке режимов вы-
Рис. 5.4. Результаты работы режима
брать данный режим и щелкнуть ОК. В появившемся диалоговом
Двухвыборочный z-тест для средних
окне этого режима задаются следующие параметры (рис. 5.6):

139 140
Рис. 5.6. Задание параметров режима
Двухвыборочный t-тест с одинаковыми дисперсиями

Интервал переменной 1: – адреса ячеек, содержащих выбо-


рочные значения случайной величины X . Рис. 5.7. Результаты работы режима
Интервал переменной 2: – адреса ячеек, содержащих выбо- Двухвыборочный t-тест с одинаковыми дисперсиями
рочные значения случайной величины Y .
Гипотетическая средняя разность: – задает число, равное
предполагаемой разности математических ожиданий a X − aY (при ♦ Пример 5.15. Выборочные данные о расходе сырья при про-
проверке гипотезы a X = aY задается 0). изводстве продукции по старой и новой технологии приведены в
Метки – включается, если первая строка содержит заголовки столбцах А, В документа Excel (рис. 5.8). Предполагая, что расход
столбцов. сырья по старой и новой технологии распределен по нормальному
Альфа: – задает уровень значимости α . закону и имеет одинаковую дисперсию, проверить статистическую
Выходной интервал: / Новый рабочий лист: / Новая рабочая гипотезу a X = aY при уровне значимости α = 0.05 .
книга – указывается, куда выводятся результаты вычислений. При
включении Выходной интервал: вводится адрес ячейки, начиная с
которой выводятся результаты, представленные в виде таблицы
(пример такой таблицы приведен на рис. 5.7).

141 142
Решение. Обратимся к режиму Граница xпр,α / 2 при построении двухсторонней критической
Двухвыборочный t-тест с одина- области вычисляется с помощью выражения
ковыми дисперсиями. В появив-
xпр ,α 2 = FРАСПОБР (α 2; l ; k ) .
шемся диалоговом окне зададим
необходимые параметры (см. Проверить гипотезу о равенстве дисперсий двух случайных
рис. 5.6), а затем щелкнем ОК. Ре- величин X N ( a X ,σ X ) , Y N ( aY ,σ Y ) можно с использованием
зультаты работы режима показаны
на рис. 5.7 (t-статистика является режима Двухвыборочный F-тест для дисперсии. Для вызова ре-
наблюдаемым значением критерия жима необходимо обратиться к пункту Сервис строки меню Excel,
команде Пакет анализа. Затем в появившемся списке режимов вы-
(5.46): K наб = 3.58 ). Это значение
брать данный режим и щелкнуть ОК. В появившемся диалоговом
попадает в критическую область окне этого режима задаются следующие параметры (рис. 5.9):
( −∞, −2.09] ∪ [ 2.09, ∞ ) . Действи-
тельно, K наб > tкр = 2.09 . Следо-
вательно, нулевая гипотеза aX = aY
с уровнем значимости 0.05 отвер-
гается и принимается альтерна-
тивная гипотеза a X ≠ aY . ☻
Рис. 5.8. Исходные данные
к примеру 5.15

Проверка гипотезы о равенстве дисперсий двух нормаль-


ных распределений. В качестве границ критической области вы-
ступают квантили fγ (l , k ) распределения Фишера (см. (5.57) или
(5.59)). Для вычисления этих квантилей используется функция
FРАСПОБР, обращение к которой имеет вид:
=FРАСПОБР(вероятность; степень1; степень2),
Рис. 5.9. Задание параметров режима
где вероятность – уровень значимости α при построении право- Двухвыборочный F-тест для дисперсии
сторонней критической области; степень1 – число степеней свобо-
ды l ; степень2 – число степеней свободы k . Интервал переменной 1: – адреса ячеек, содержащих выбо-
Граница xпр,α правосторонней критической области (см. (5.57)) рочные значения случайной величины X .
вычисляется с помощью выражения Интервал переменной 2: – адреса ячеек, содержащих выбо-
xпр ,α = FРАСПОБР (α ; l ; k ) . рочные значения случайной величины Y .
Метки – включается, если первая строка содержит заголовки
столбцов.
Альфа: – задает уровень значимости α .
143 144
Выходной интервал: / Новый рабочий лист: / Новая рабочая 6. ВОПРОСЫ ДЛЯ САМОКОНТРОЛЯ
книга – указывается, куда выводятся результаты вычислений. При
включении Выходной интервал: вводится адрес ячейки, начиная с Основные понятия математической статистики
которой выводятся результаты, представленные в виде таблицы 1. Что называется генеральной совокупностью?
(пример такой таблицы приведен на рис. 5.10). 2. Что называется выборкой (выборочной совокупностью)?
3. Что называется объемом выборки и выборочными характери-
стиками?
4. Как определяются повторная выборка и бесповторная выборка?
5. Как определяется простая статистическая совокупность?
6. Как определяется вариационный ряд?
7. Как определяется статистический ряд для дискретной случай-
ной величины?
8. Как производится группирование статистических данных для
непрерывной случайной величины?
9. Как строится гистограмма?
10. Какой смысл имеет гистограмма?
11. Какой вид имеет статистическая (эмпирическая) функция рас-
пределения?
12. Какие вычисления осуществляет функция Excel ЧАСТОТА?
Рис. 5.10. Результаты работы режима 13. Как построить в Excel гистограмму?
Двухвыборочный F-тест для дисперсии 14. Какие вычисления осуществляет функция Excel СЧЁТ?
15. Какая функция Excel вычисляет выборочную дисперсию?
♦ Пример 5.16. Выборочные данные о расходе сырья при про-
изводстве продукции по старой и новой технологии приведены в
Статистическое оценивание. Точечная оценка
столбцах А, В документа Excel (см. рис. 5.8). Предполагая, что рас- 1. Что такое статистическая оценка и какова ее основная особен-
ход сырья по старой и новой технологии распределен по нормаль- ность?
ному закону, нужно проверить статистическую гипотезу σ X2 = σ Y2 2. Какая оценка называется точечной?
при уровне значимости α = 0.05 . 3. Как определяется несмещенная оценка и смещенная оценка?
Решение. Обратимся к режиму Двухвыборочный F-тест для 4. Как определяется состоятельная оценка?
дисперсии. В появившемся диалоговом окне зададим необходимые 5. Как находится точечная оценка математического ожидания?
параметры (см. рис. 5.9), а затем щелкнем ОК. Результаты работы 6. Как формулируются теоремы о несмещенности и состоятель-
режима показаны на рис. 5.10. Так как S X2 < SY2 , то в качестве аль- ности точечной оценки математического ожидания?
7. Как находится точечная оценка дисперсии случайной величины?
тернативной гипотезы H1 принимаем σ X2 < σ Y2 и строим левосто- 8. Как формулируется теорема о смещенности выборочной дис-
роннюю критическую область ( 0, x лев ,α ) . Граница x лев ,α = 0.305 , а персии?
9. Что такое исправленная выборочная дисперсия и исправлен-
наблюдаемое значение K наб (5.54) равно 0.73 и не попадает в кри-
ное выборочное среднее квадратическое отклонение?
тическую область. Следовательно, можно принять гипотезу о ра- 10. Какая функция Excel вычисляет исправленную дисперсию S 2 ?
венстве дисперсий σ X2 = σ Y2 с уровнем значимости α = 0.05 . ☻
145 146
11. Как осуществить вычисление оценок максимального правдо- 6. Как проверить гипотезу о равенстве генеральных средних в
подобия в табличном процессоре Excel? различных случаях?
12. Что осуществляет команда Поиск решения? 7. Как проверить гипотезу о равенстве генеральных дисперсий?
13. Можно ли задать априорные ограничения на значения оценок 8. Как проверить гипотезу о некоррелированности двух гене-
максимального правдоподобия, вычисляемые в табличном ральных совокупностей?
процессоре Excel? Если да, то как это осуществить? 9. Проверку какой гипотезы осуществляет функция Excel
14. Назовите функции Excel, осуществляющие вычисление точеч- ZTEST?
ных оценок по заданной выборке. 10. Как выполнить проверку в табличном процессоре Excel гипо-
15. Что такое описательные статистики и на какие группы они де- тезы о равенстве математических ожиданий при известных
лятся? дисперсиях?
16. Как вычислить описательные статистики в табличном процес- 11. Как выполнить проверку в табличном процессоре Excel гипо-
соре Excel? тезы о равенстве математических ожиданий при неизвестных,
но равных дисперсиях?
Интервальные оценки неизвестных параметров 12. Как выполнить проверку в табличном процессоре Excel гипо-
1. Какая оценка называется интервальной? тезы о равенстве дисперсий двух нормальных распределений?
2. Что называется доверительным интервалом, доверительными
границами и доверительной вероятностью? ЗАКЛЮЧЕНИЕ
3. В чем заключается смысл интервальной оценки?
4. Какое распределение используют при интервальном оценива- В данном учебном пособии были изложены основные методы
нии математического ожидания нормально распределенной математической статистики, позволяющие сделать выводы о ста-
случайной величины при известной дисперсии? тистических закономерностях, которым подчиняется изучаемое
5. Какое распределение используют при интервальном оценивании явление.
дисперсии нормально распределенной случайной величины? Наличие в учебном пособии большого числа рассмотренных
6. Какое распределение используют при интервальном оценива- типовых примеров позволяет не только лучше усвоить теоретиче-
нии математического ожидания нормально распределенной ские положения математической статистики, но и успешно ис-
случайной величины при неизвестной дисперсии? пользовать методы математической статистики для решения прак-
7. Какую величину вычисляет функция Excel ДОВЕРИТ? тических задач, возникающих в математико-статистических иссле-
8. Какие вычисления осуществляет функция Excel ХИ2ОБР? дованиях. Включение в учебное пособие фрагментов документов
9. Какие вычисления осуществляет функция Excel табличного процессора Excel, в которых реализуются алгоритмы
СТЬЮДРАСПОБР? решения задач математической статистики, существенно повысит
эффективность использования методов математической статистики
Проверка статистических гипотез на практике.
1. Что называется критерием, уровнем значимости, критической
областью и областью допустимых значений критерия?
2. Что такое ошибки первого и второго рода?
3. Что называется мощностью критерия?
4. Сформулируйте этапы проверки статистических гипотез.
5. Как проверить гипотезу о виде распределения генеральной со-
вокупности?
147 148
БИБЛИОГРАФИЧЕСКИЙ СПИСОК ПРИЛОЖЕНИЕ
Таблица П1
1. Тимошенко Е. И. Теория вероятностей : учеб. пособие / 1
x
Значения функции Φ ( x) = ∫ exp(− z
2
Е. И. Тимошенко, Ю. Е. Воскобойников. – Новосибирск : 2)dz
2π 0
НГАСУ, 2003. – 88 с. (есть электронная версия:
http://www.ngasu.nsk.su/prikl/terver.html). x Ф(х) x Ф(х) x Ф(х) x Ф(х)
2. Гмурман В. Е. Теория вероятностей и математическая стати-
0.00 0.0000 0.33 0.1293 0.66 0.2454 0.99 0.3389
стика : учеб. для вузов / В. Е. Гмурман. – 6-е изд., стер. – М. :
0.01 0.0040 0.34 0.1331 0.67 0.2486 1.00 0.3413
Высш. шк., 1997. – 479 с.
0.02 0.0080 0.35 0.1368 0.68 0.2517 1.01 0.3438
3. Смирнов Н. В. Курс теории вероятностей и математической
0.03 0.0120 0.36 0.1406 0.69 0.2549 1.02 0.3461
статистики для технических приложений / Н. В. Смирнов, 0.04 0.0160 0.37 0.443 0.70 0.2580 1.03 0.3485
И. В. Дунин-Барковский. – 3-е изд., стер. – М. : Наука, 1969. – 0.05 0.0199 0.38 0.1480 0.71 0.2611 1.04 0.3508
511 с. 0.06 0.0239 0.39 0.1517 0.72 0.2642 1.05 0.3531
4. Калинина В. Н. Математическая статистика : учеб. для тех- 0.07 0.0279 0.40 0.1554 0.73 0.2673 1.06 0.3554
никумов / В. Н. Калинина, В. Ф. Панкин. – М. : Высш. шк., 0.08 0.0319 0.41 0.1591 0.74 0.2703 1.07 0.3577
1994. – 336 с. 0.09 0.0359 0.42 0.1628 0.75 0.2734 1.08 0.3599
5. Вентцель Е. С. Теория вероятностей : учеб. для вузов / 0.10 0.0398 0.43 0.1664 0.76 0.2764 1.09 0.3621
Е. С. Вентцель. – 5-е изд., стер. – М. : Высш. шк., 1998. – 576 с. 0.11 0.0438 0.44 0.1700 0.77 0.2794 1.10 0.3643
6. Гмурман В. Е. Руководство к решению задач по теории веро- 0.12 0.0478 0.45 0.1736 0.78 0.2823 1.11 0.3665
ятностей и математической статистике : учеб. пособие для ву- 0.13 0.0517 0.46 0.1772 0.79 0.2852 1.12 0.3686
зов / В. Е. Гмурман. – 5-е изд., стер. – М. : Высш. шк., 2000. – 0.14 0.0557 0.47 0.1808 0.80 0.2881 1.13 0.3708
400 с. 0.15 0.0596 0.48 0.1844 0.81 0.2910 1.14 0.3729
0.16 0.0636 0.49 0.1879 0.82 0.2939 1.15 0.3749
0.17 0.0675 0.50 0.1915 0.83 0.2967 1.16 0.3770
0.18 0.0714 0.51 0.1950 0.84 0.2995 1.17 0.3790
0.19 0.0753 0.52 0.1985 0.85 0.3023 1.18 0.3810
0.20 0.0793 0.53 0.2019 0.86 0.3051 1.19 0.3830
0.21 0.0832 0.54 0.2054 0.87 0.3078 1.20 0.3849
0.22 0.0871 0.55 0.2088 0.88 0.3106 1.21 0.3869
0.23 0.0910 0.56 0.2123 0.89 0.3133 1.22 0.3883
0.24 0.0948 0.57 0.2157 0.90 0.3159 1.23 0.3907
0.25 0.0987 0.58 0.2190 0.91 0.3186 1.24 0.3925
0.26 0.1026 0.59 0.2224 0.92 0.3212 1.25 0.3944
0.27 0.1064 0.60 0.2257 0.93 0.3238 1.26 0.3962
0.28 0.1103 0.61 0.2291 0.94 0.3264 1.27 0.3980
0.29 0.1141 0.62 0.2324 0.95 0.3289 1.28 0.3997
0.30 0.1179 0.63 0.2357 0.96 0.3315 1.29 0.4015
0.32 0.1225 0.65 0.2422 0.98 0.3365 1.31 0.4049
149 150
Окончание табл. П1 Таблица П2
x Ф(х) x Ф(х) x Ф(х) x Ф(х) Таблица значений t (γ , n) , определяемых выражением
1.32 0.4066 1.69 0.4545 2.12 0.4830 2.86 0.4979 P ( Tn < t (γ , n)) = γ , где n – объем выборки
1.33 0.4082 1.70 0.4554 2.14 0.4838 2.88 0.4980
1.34 0.4099 1.71 0.4564 2.16 0.4846 2.90 0.4981 γ γ
0.95 0.99 0.999 0.95 0.99 0.999
1.35 0.4115 1.72 0.4573 2.18 0.4854 2.92 0.4982 n n
1.36 0.4131 1.73 0.4582 2.20 0.4861 2.94 0.4984 5 2.78 4.6 8.61 20 2.093 2.861 3.883
1.37 0.4137 1.74 0.4591 2.22 0.4868 2.96 0.4985 6 2.57 4.03 6.86 25 2.064 2.797 3.745
1.38 0.4162 1.75 0.4599 2.24 0.4875 2.98 0.4986 7 2.45 3.71 5.96 30 2.045 2.756 3.659
1.39 0.4177 1.76 0.4608 2.26 0.4881 3.00 0.49865 8 2.37 3.50 5.41 35 2.032 2.720 3.600
1.40 0.4192 1.77 0.4616 2.28 0.4887 3.20 0.49931 9 2.31 3.36 5.04 40 2.023 2.0708 3.558
1.41 0.4207 1.78 0.4625 2.30 0.4893 3.40 0.49966 10 2.26 3.25 4.78 45 2.016 2.692 3.527
1.42 0.4222 1.79 0.4633 2.32 0.4898 3.60 0.499841 11 2.23 3.17 4.59 50 2.009 2.679 3.502
1.43 0.4236 1.80 0.4641 2.34 0.4904 3.80 0.499928 12 2.20 3.11 4.44 60 2.001 2.662 3.464
1.44 0.4251 1.81 0.4649 2.36 0.4909 4.00 0.499968 13 2.18 3.06 4.32 70 1.996 2.649 3.439
1.45 0.4265 1.82 0.4656 2.38 0.4913 4.50 0.499997 14 2.16 3.01 4.22 80 1.991 2.640 3.418
1.46 0.4279 1.83 0.4664 2.40 0.4918 5.00 0.499997 15 2.15 2.98 4.14 90 1.987 2.633 3.403
1.47 0.4292 1.84 0.4671 2.42 0.4922 16 2.13 2.95 4.07 100 1.984 2.627 3.3392
1.48 0.4306 1.84 0.4678 2.44 0.4927 17 2.12 2.92 4.02 120 1.980 2.617 3.374
1.49 0.4319 1.86 0.4686 2.46 0.4931 18 2.11 2.90 3.97 ∞ 1.960 2.576 3.291
1.50 0.4332 1.87 0.4693 2.48 0.4934 19 2.10 2.88 3.92
1.51 0.4345 1.88 0.4699 2.50 0.4938
1.52 0.4357 1.89 0.4706 2.52 0.4938
1.53 0.4370 1.90 0.4713 2.54 0.4945
1.54 0.4382 1.91 0.4719 2.56 0.4948
1.55 0.4394 1.92 0.4726 2.58 0.4951
1.56 0.4406 1.93 0.4732 2.60 0.4953
1.57 0.4418 1.94 0.4738 2.62 0.4956
1.58 0.4429 1.95 0.4744 2.64 0.4959
1.59 0.4441 1.96 0.4750 2.66 0.4961
1.60 0.4452 1.97 0.4756 2.68 0.4961
1.61 0.4463 1.98 0.4761 2.70 0.4963
1.62 0.4474 1.99 0.4767 2.72 0.4965
1.63 0.4484 2.00 0.4772 2.74 0.4967
1.64 0.4495 2.02 0.4783 2.76 0.4971
1.65 0.4505 2.04 0.4793 2.78 0.4973
1.66 0.4515 2.06 0.4803 2.80 0.4974
1.68 0.4535 2.10 0.4821 2.84 0.4977
151 152
Таблица П3
Таблица значений квантилей χ k2 -распределения, Таблица П4
определяемых соотношением
P ( χ k2 < χ 2 (γ , k )) = γ Доверительные границы р2 и р1
для вероятности p при γ = 0.95 (значения р2 приведены
в верхней строке, р1 – в нижней)
γ
0.02 0.05 0.1 0.9 0.95 0.98
k
1 0.006 0.0039 0.016 2.7 3.8 5.4
2 0.040 0.103 0.211 4.6 6.0 7.8 n–m
1 2 3 4 5 6 7 8
3 0.185 0.352 0.584 6.3 7.8 9.8 m
4 0.43 0.71 1.06 7.8 9.5 11.7 0.975 0.842 0.708 0.602 0.522 0.459 0.410 0.369
5 0.75 1.14 1.61 9.2 11.1 13.4 0
6 1.13 1.63 2.20 10.6 12.6 15.0 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000
7 1.56 2.17 2.83 12.0 14.1 16.6
8 2.03 2.73 3.49 13.4 15.5 18.2 0.987 0.906 0.806 0.716 0.641 0.579 0.527 0.463
9 2.53 3.32 4.17 14.7 16.9 19.7 1
10 3.06 3.94 4.86 16.0 18.3 21.2 0.013 0.008 0.006 0.005 0.004 0.004 0.003 0.003
12 4.2 5.2 6.3 18.5 21.0 24.1
14 5.4 6.6 7.8 21.1 23.7 26.9 0.992 0.932 0.853 0.727 0.710 0.651 0.600 0.556
16 6.6 8.0 9.3 23.5 26.3 29.6 2
18 7.9 9.4 10.9 26.0 28.9 32.3 0.094 0.068 0.053 0.037 0.037 0.032 0.028 0.028
20 9.2 10.9 12.4 28.4 31.4 35.0
22 10.6 12.3 14.0 30.8 33.9 37.7 0.094 0.947 0.882 0.816 0.755 0.701 0.652 0.610
24 12.0 138 15.7 33.2 36.4 40.3 3
26 13.4 15.4 17.3 35.6 38.9 42.9 0.194 0.147 0.118 0.099 0.085 0.075 0.067 0.060
28 14.8 16.9 18.9 37.9 41.3 45.4
30 16.3 18.5 20.6 40.3 43.8 48.0 0.995 0.957 0.901 0.843 0.788 0.738 0.692 0.651
4
0.284 0.223 0.184 0.157 0.137 0.122 0.109 0.099

153 154
Таблица П5
Квантили fγ (l , k ) распределения Фишера,
определяемые уравнением
P ( F (l , k ) < f γ (l , k )) = γ = 0.95
( l – степени свободы для большей дисперсии,
k – для меньшей дисперсии)
l
1 2 3 4 6 8 12 24
k
1 161.4 199.5 215.7 224.6 234.0 238.9 243.9 249.0
2 18.51 19.00 19.16 19.25 19.33 19.37 19.41 19.45
3 10.13 9.55 9.28 9.21 8.84 8.82 8.74 8.64
4 7.71 6.94 5.59 6.39 6.16 6.04 5.91 5.77
5 6.61 5.79 5.41 5.19 4.95 4.82 4.68 4.53
6 5.99 5.14 4.76 4.53 4.88 4.15 4.00 3.84
7 5.59 4.74 4.35 4.12 3.87 3.73 3.57 3.41
8 5.32 4.46 4.07 3.84 3.58 3.44 3.28 3.12
9 5.12 4.26 3.86 3.63 3.37 3.23 3.07 2.90
10 4.96 4.10 3.71 3.48 3.22 3.07 2.91 2.74
12 4.75 3.88 3.49 3.26 3.00 2.85 2.69 2.50
14 4.60 3.74 3.34 3.11 2.85 2.70 2.53 2.35
16 4.49 3.63 3.24 3.01 2.74 2.59 2.42 2.24
18 4.41 3.55 3.16 2.93 2.66 2.51 2.34 2.15
20 4.35 3.49 3.10 2.87 2.60 2.45 2.28 2.08
22 4.30 3.44 3.05 2.82 2.55 2.40 2.23 2.03
24 4.26 3.40 3.01 2.78 2.51 2.36 2.18 1.98
26 4.22 3.37 2.98 2.74 2.47 2.32 2.15 1.95
28 4.20 3.34 2.95 2.71 2.44 2.29 2.12 1.91
30 4.17 3.32 2.92 2.69 2.42 2.27 2.09 1.89
40 4.08 3.23 2.84 2.61 2.34 2.18 2.00 1.79
60 4.00 3.15 2.76 2.52 2.25 2.10 1.92 1.70

155