Вы находитесь на странице: 1из 77

ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ РОССИЙСКОЙ ФЕДЕРАЦИИ

НОВОСИБИРСКИЙ ГОСУДАРСТВЕННЫЙ АРХИТЕКТУРНО-СТРОИТЕЛЬНЫЙ


УНИВЕРСИТЕТ (СИБСТРИН)

Ю.Е. ВОСКОБОЙНИКОВ
Е.И. ТИМОШЕНКО

Ю.Е. Воскобойников, Е.И. Тимошенко

МАТЕМАТИЧЕСКАЯ СТАТИСТИКА МАТЕМАТИЧЕСКАЯ СТАТИСТИКА


(с примерами в Excel) (с примерами в Excel)

УЧЕБНОЕ ПОСОБИЕ

2 издание, переработанное и дополненное

НОВОСИБИРСК 2006 НОВОСИБИРСК 2006

3 4
УДК 519.2 ОГЛАВЛЕНИЕ
ББК 22.172
В650 ВВЕДЕНИЕ ........................................................................................... 5
Воскобойников Ю. Е. 1. МАТЕМАТИЧЕСКАЯ СТАТИСТИКА И ЕЕ ЗАДАЧИ............... 9
МАТЕМАТИЧЕСКАЯ СТАТИСТИКА (С ПРИМЕРАМИ В EXCEL) : учеб. пособие / 1.1. Задачи математической статистики ..........................................9
Ю. Е. Воскобойников, Е. И. Тимошенко ; Новосиб. гос. архитектур.- 1.2. Решение задач математической статистики в табличном
строит. ун-т (Сибстрин). – 2-е изд., перераб. и доп. – Новосибирск : НГА-
процессоре Excel .......................................................................11
СУ (Сибстрин), 2006. – 152 с.
2. ГЕНЕРАЛЬНАЯ И ВЫБОРОЧНАЯ СОВОКУПНОСТИ.
ISBN 5-7795-0292-7
ВЫБОРОЧНЫЕ ХАРАКТЕРИСТИКИ ............................................ 13
Данное учебное пособие содержит наиболее важные разделы ма- 2.1. Генеральная и выборочная совокупности ..............................13
тематической статистики: точечное и интервальное оценивание парамет-
ров распределений, проверку различных статистических гипотез. Приве- 2.2. Свойства выборочной совокупности ......................................14
дено большое количество примеров, которые позволят студентам лучше 2.3. Вариационные ряды..................................................................16
усвоить не только общетеоретические положения, но и возможные об- 2.4. Выборочная функция распределения. Гистограмма .............19
ласти приложения математической статистики. 2.5. Выборочное среднее и выборочная дисперсия ......................24
Учебное пособие написано в соответствии с программой курса 2.6. Вычисление выборочных характеристик в Excel ..................29
"Математическая статистика" для студентов специальности 080502 "Эко-
номика и управление на предприятии (в строительстве)". Также оно будет 3. ТОЧЕЧНЫЕ ОЦЕНКИ НЕИЗВЕСТНЫХ ПАРАМЕТРОВ ........ 40
полезно студентам других специальностей строительных вузов.
3.1. Определение и свойства точечной оценки .............................40
3.2. Точечная оценка математического ожидания ........................45
Печатается по решению издательско-библиотечного совета 3.3. Точечные оценки дисперсии....................................................47
НГАСУ (Сибстрин) 3.4. Точечная оценка вероятности события...................................51
Рецензенты:
3.5. Метод максимального правдоподобия....................................52
⎯ С.М. Зеркаль, д-р техн. наук, профессор, вед. науч. сотр. 3.6. Вычисление точечных оценок в Excel ....................................61
(Институт математики СО РАН);
4. ИНТЕРВАЛЬНЫЕ ОЦЕНКИ
⎯ А.В. Федоров, д-р физ.-мат. наук, профессор,
завлабораторией (Институт теоретической и прикладной НЕИЗВЕСТНЫХ ПАРАМЕТРОВ .................................................... 72
механики СО РАН) 4.1. Некоторые распределения выборочных характеристик........72
4.2. Понятие интервальной оценки параметра
ISBN 5-7795-0292-7 © Воскобойников Ю.Е., случайной величины .................................................................78
Тимошенко Е.И., 2006
© Новосибирский государственный 4.3. Интервальные оценки математического ожидания
архитектурно-строительный нормального распределения.....................................................79
университет (Сибстрин), 2006 4.4. Интервальные оценки дисперсии
нормального распределения.................................................... 84

5 6
4.5. Интервальная оценка вероятности события ...........................86 ВВЕДЕНИЕ
4.6. Вычисление границ доверительных интервалов в Excel.......89
Цель науки – описание, объяснение и предсказание явлений
5. ПРОВЕРКА СТАТИСТИЧЕСКИХ ГИПОТЕЗ ............................ 92 действительности на основе установленных законов, что позволя-
ет находить решения в типичных ситуациях. Многие явления ок-
5.1. Понятие статистической гипотезы. Основные этапы
ружающего мира взаимно связаны и влияют одно на другое. Про-
проверки гипотезы ....................................................................92 следить все связи и определить влияние каждой из них на явление
5.2. Проверка гипотезы о числовом значении математического не всегда представляется возможным. Поэтому ограничиваются
ожидания нормального распределения .................................100 изучением влияния лишь основных факторов, определяющих изу-
5.3. Проверка гипотезы о числовом значении дисперсии чаемое явление. В основе выявления этих связей лежит наблюде-
нормального распределения...................................................106 ние. При этом для обнаружения общих закономерностей, которым
5.4. Проверка гипотезы о числовом значении подчиняется явление, необходимо многократно его наблюдать в
вероятности события...............................................................109 одинаковых условиях, т.е. соблюдать во всех наблюдениях прак-
5.5. Проверка гипотезы о равенстве математических ожиданий тически одинаковые значения основных факторов. После накопле-
двух нормальных распределений ..........................................113 ния полученных таким образом данных возникает главный во-
прос: как обработать результаты наблюдений и сделать обоснован-
5.6. Проверка гипотезы о равенстве математических ожиданий
ные выводы об изучаемых закономерностях? Ответы на этот во-
двух произвольных распределений по выборкам большого прос и другие вопросы, связанные с обработкой данных, дает ма-
объема.......................................................................................116 тематическая статистика.
5.7. Проверка гипотезы о равенстве математических ожиданий Математическая статистика – наука, изучающая методы об-
двух нормальных распределений с неизвестными, работки результатов наблюдений массовых случайных явлений,
но равными дисперсиями .......................................................117 обладающих статистической устойчивостью, закономерностью, с
5.8. Проверка гипотезы о равенстве дисперсий двух нормальных целью выявления этой закономерности. Выводы о закономерно-
распределений .........................................................................121 стях, которым подчиняются явления, изучаемые методами матема-
5.9. Проверка гипотезы о законе распределения с применением тической статистики, всегда основываются на ограниченном числе
критерия согласия Пирсона....................................................125 наблюдений. Для вынесения обоснованного заключения о законо-
мерностях изучаемого явления математическая статистика опира-
5.10. Проверка гипотезы о независимости
ется на теорию вероятностей, которая имеет дело с математиче-
двух генеральных совокупностей с применением критерия скими моделями случайных явлений. Обработав результаты на-
χ2 ...............................................................................................133 блюдений, исследователь выдвигает ряд гипотез (предположений)
5.11. Проверка статистических гипотез в Excel ..........................136 о том, что рассматриваемое явление можно описать той или иной
вероятностной теоретической моделью. Далее, используя матема-
6. ВОПРОСЫ ДЛЯ САМОКОНТРОЛЯ ......................................... 146
тико-статистические методы, можно дать ответ на вопрос, какую
ЗАКЛЮЧЕНИЕ................................................................................. 145 из гипотез или моделей следует принять, которая и будет считаться
искомой закономерностью изучаемого явления. Правомерен такой
БИБЛИОГРАФИЧЕСКИЙ СПИСОК ............................................. 149 вывод или нет, покажет практика использования выбранной моде-
ли. Таково типичное содержание математико-статистического
ПРИЛОЖЕНИЕ ................................................................................ 150 исследования.
7 8
1. МАТЕМАТИЧЕСКАЯ СТАТИСТИКА И ЕЕ ЗАДАЧИ числа наблюдений, отражают данное массовое явление лишь при-
ближенно. Математическая статистика указывает, как наилучшим
1.1. Задачи математической статистики способом использовать имеющуюся информацию для получения
по возможности более точных характеристик массового явления.
Математическая статистика – наука, изучающая методы Конкретизируем задачи, решение которых будет рассмотрено
исследования закономерностей в массовых случайных явлениях и в данном пособии.
процессах по данным, полученным из конечного числа наблюдений 1. Оценка неизвестной функции распределения и функции плот-
за ними. ности. По результатам n независимых испытаний над случай-
Построенные на основании этих методов закономерности от-
ной величиной X получены ее значения
носятся не к отдельным испытаниям, из повторения которых скла-
x1 , x 2 , ..., xn .
дывается данное массовое явление, а представляют собой утвер-
ждения об общих вероятностных характеристиках данного процес- Требуется оценить, хотя бы приближенно, неизвестные функ-
са. Такими характеристиками могут быть вероятности, плотности ции распределения F (x ) и плотности p (x ) .
распределения вероятностей, математические ожидания, диспер- 2. Оценка неизвестных параметров распределения. Поясним за-
сии и т.п. дачу на примере нормального распределения генеральной со-
Найденные характеристики позволяют построить вероятно- вокупности, зависящей от двух параметров α и σ . Требуется
стную модель изучаемого явления. Применяя к этой модели мето- на основании имеющихся данных приближенно найти значе-
ды теории вероятностей, исследователь может решать технико– ние этих параметров. Для этого изучаются некоторые случай-
экономические задачи, например, определять вероятность безот- ные величины и на основе их свойств определяется точность
казной работы агрегата в течение заданного отрезка времени. Та- полученных оценок. Мы будем различать два случая: когда
ким образом, теория вероятностей по вероятностной модели про- имеется достаточно большое количество статистических дан-
цесса предсказывает его поведение, а математическая статистика ных и когда их набор ограничен. Во втором случае будем
по результатам наблюдений за процессом строит его вероятност- строить интервалы со случайными границами, на которые по-
ную модель. В этом состоит тесная взаимосвязь между данными падают неизвестные параметры распределения.
науками.
Очевидно, что для обнаружения закономерностей случайного 3. Проверка статистических гипотез. Предположим, например,
массового явления необходимо провести сбор статистических све- что игральная кость подбрасывается n раз, причем
дений, т.е. сведений, характеризующих отдельные единицы каких– ni (i = 1,...,6) означает количество появлений i очков. Если
либо массовых явлений. Пусть, например, мы располагаем мате- кость симметрична, то любое количество очков должно поя-
риалом о числе дефектных изделий в изготовленной в определен- виться практически одинаковое число раз (при условии, что n
ных условиях партии продукции. Проблемы возникают тогда, ко- достаточно велико). Это следует из известной теоремы Бер-
гда на основании этой информации мы захотим сделать выводы n
относительно качества производства продукции, выпускаемой нулли, утверждающей, что относительная частота ni близка к
предприятием. Нас может интересовать вероятность производства n
вероятности p = 16 . Однако между числами ni могут быть
дефектного изделия, средняя долговечность всех выпускаемых из-
делий и т.д. Собранный материал рассматривается лишь как неко- различия. Возникает вопрос: насколько эти различия согласо-
торая пробная группа, одна из многих возможных пробных групп. ваны с гипотезой о симметричности игральной кости? Разра-
Конечно, выводы, сделанные на основании этого ограниченного
9 10
ботаны методы, позволяющие дать ответы на подобные во- СРЗНАЧ( x1; x2 ; ...; xm ) ,
просы с заданной надежностью.
При обращении к понятиям теории вероятностей мы будем где x1 , x2 ,..., xm – формальные параметры, число которых не пре-
опираться на учебное пособие [1]. вышает 30 ( m ≤ 30 ). Для вычисления среднего значения величин,
находящихся в ячейках B3, B4, B5, B6, C3, C4, C5, C6, обращение
1.2. Решение задач математической статистики к функции в соответствующей ячейке имеет вид:
в табличном процессоре Excel
Решение задач математической статистики обусловливает су- =СРЗНАЧ(B3:B6;С3:C6),
щественный объем вычислений, связанный с численной реализа- т.е. в качестве фактических параметров используются два диапазо-
цией необходимого вычислительного алгоритма и графической ин- на ячеек. ♦
терпретацией результатов решения. Этому моменту в учебной ли- Замечание 1.2. Так как в запрограммированной ячейке выво-
тературе уделяется крайне мало внимания, что затрудняет исполь- дится результат вычислений и не видно самого запрограммирован-
зование методов математической статистики на практике. Поэтому ного выражения, то в некоторых случаях рядом с результатом при-
одной из основных целей данного пособия является изложение водится (в другой ячейке) запрограммированное выражение (свое-
численных методик решения задач математической статистики образный комментарий к выполняемым вычислениям). В случаях,
в вычислительной среде табличного процессора Excel 2003. Для когда не очевидно, к какой ячейке относится приводимое выраже-
каждой из рассматриваемых задач математической статистики ние, используется стрелка, указывающая на нужную ячейку. ♦
кроме теоретических положений даются фрагменты документов
Excel 2003, реализующих алгоритмы решения задачи. При этом ал-
горитм решения может быть реализован путем программирования
необходимых выражений в ячейках электронной таблицы или пу-
тем обращения к стандартным функциям или модулям Excel 2003.
В учебном пособии будут использоваться обе рассмотренные воз-
можности реализации требуемого вычислительного алгоритма.
Поэтому предполагается, что читатель имеет достаточные навыки
для реализации вычислений в Excel с использованием:
• программирования арифметических выражений в ячейках
электронной таблицы;
• функций Excel (в основном математических и статистиче-
ских).
Замечание 1.1. При описании той или иной функции в качест-
ве формальных параметров используются имена переменных, оп-
ределенные в тексте пособия. При обращении к функции в качест-
ве фактических параметров могут использоваться константы,
адреса ячеек, диапазоны адресов и арифметические выражения.
Например, описание функции для вычисления среднего арифмети-
ческого значения (выборочного среднего) имеет вид:

11 12
2. ГЕНЕРАЛЬНАЯ И ВЫБОРОЧНАЯ СОВОКУПНОСТИ. получить n значений случайной величины X – все равно что по-
ВЫБОРОЧНЫЕ ХАРАКТЕРИСТИКИ лучить одно значение n-мерной случайной величины
( X 1 , X 2 ,..., X n ). Поэтому каждую выборку x1 , x 2 ,..., xn объема n
2.1. Генеральная и выборочная совокупности
мы можем рассматривать как одно значение n-мерной случайной
Для обнаружения закономерностей, описывающих исследуе-
мое массовое явление, необходимо иметь опытные данные, полу- величины ( X 1 ,..., X n ).
ченные в результате обследования соответствующих объектов, Поясним сказанное на примере. Пусть X – дискретная слу-
отображающих изучаемое явление. Например, для определения чайная величина, принимающая значения 1, 2, 3, 4, 5, 6, каждое с
плотности распределения диаметра прошлифованного валика не- вероятностью p = 16 . Данную случайную величину, или в новой
обходимо располагать набором возможных значений его диаметра.
Зачастую реально существующую совокупность объектов (на- терминологии – генеральную совокупность, мы можем вообразить
пример, валики, изготовленные в течение января) можно мысленно как урну, содержащую одинаковое количество шаров с номерами
дополнить любым количеством таких же однородных объектов от 1 до 6. Производя выбор с возвращением трех шаров и записы-
(например, валики, изготовленные в тех же условиях в феврале, вая их номера, мы получим выборку объема 3 из генеральной со-
марте и т.д.). Такие совокупности объектов будем называть гене- вокупности Х. Вообразим себе три урны того же содержания, т.е.
ральными совокупностями. три копии Х1, Х1, Х3 урны Х. Выберем из каждой урны по одному
Каждой генеральной совокупности соответствует случайная шару. Получим выборку x1 , x 2 , x3 из генеральной совокупности Х.
величина, определяемая изучаемым признаком объекта. В нашем
примере – это диаметр валика. Так как понятия генеральной сово- 2.2. Свойства выборочной совокупности
купности и соответствующей случайной величины связаны с на- Для того чтобы по отобранным значениям некоторого количе-
блюдениями (измерениями) в неизменных условиях, то для ее обо- ственного показателя можно было достаточно уверенно судить обо
значения (по аналогии с курсом теории вероятностей) будем ис- всей совокупности, полученная выборка должна быть репрезента-
пользовать прописные буквы латинского алфавита (например, тивной (представительной), т.е. правильно отражать пропорции
X , Y ). генеральной совокупности. Предположим, например, что вся сово-
Часть отобранных объектов из генеральной совокупности на- купность состоит из равного большого количества белых и черных
зывается выборочной совокупностью, или выборкой. шаров, помещенных в ящик, на дне которого имеется отверстие.
Результаты измерений изучаемого признака n объектов выбо- Если черные шары сосредоточены в нижней части ящика, а белые
рочной совокупности порождают n значений x1 , x 2 ,..., xn случай- – в верхней, то, открывая некоторое небольшое количество раз за-
ной величины X . Число n называется объемом выборки. слонку в отверстии ящика, мы получим выборку только из черных
шаров. На основании такого способа отбора шаров мы не сможем
Наряду с генеральной совокупностью X будем рассматривать
сделать правильных выводов о содержании всей совокупности ша-
n независимых случайных величин, обозначаемых той же буквой,
ров, т.е. такая выборка не будет репрезентативной. Выборка будет
что и генеральная совокупность, и имеющих точно такое же рас-
представительной лишь тогда, когда все объекты генеральной со-
пределение, как генеральная совокупность. Итак, X 1 , X 2 ,..., X n – вокупности будут иметь одинаковую вероятность попасть в вы-
n независимых экземпляров X . Если F (x ) – функция распреде- борку. Для этого шары должны быть перемешаны. Другими слова-
ления генеральной совокупности X , то у каждой случайной вели- ми, репрезентативность выборки обеспечивается случайностью
чины X i функция распределения также равна F (x ) . Понятно, что отбора объектов в выборку.

13 14
Существует несколько способов отбора, обеспечивающих ре- 2.3. Вариационные ряды
презентативность выборки. После получения (тем или иным способом) выборочной сово-
Пусть небольшие по размеру объекты генеральной совокупно- купности все ее объекты обследуются по отношению к определен-
сти находятся, например, в ящике. Каждый раз после тщательного ной случайной величине, т.е. обследуемому признаку объекта. В
перемешивания (если оно не вызывает разрушения объектов) из результате этого получают наблюдаемые данные, которые пред-
ящиков наудачу берут один объект. Эту операцию повторяют до ставляют собой множество чисел, расположенных в беспорядке.
тех пор, пока не образуется выборка нужного объема. Очевидно, Анализ таких данных весьма затруднителен, и для изучения зако-
что такая техника отбора невозможна, если генеральная совокуп- номерностей полученные данные подвергаются определенной об-
ность состоит из больших (по размерам) или хрупких объектов, работке.
например из мощных электромоторов. В этих случаях поступают ♦Пример 2.1. На телефонной станции проводились наблюде-
следующим образом. Все объекты генеральной совокупности ну- ния над числом Х неправильных соединений в минуту. Наблюде-
меруют и каждый номер записывают на отдельную карточку. По- ния в течение часа дали следующие 60 значений:
сле этого карточки с номерами тщательно перемешивают и из пач- 3; 1; 3; 1; 4; ⎪ 1; 2; 4; 0; 3; ⎪ 0; 2; 2; 0; 1; ⎪1; 4; 3; 1; 1;
ки карточек выбирают одну. Объект, номер которого совпал с но- 4; 2; 2; 1; 1; ⎪ 2; 1; 0; 3; 4; ⎪ 1; 3; 2; 7; 2; ⎪0; 0; 1; 3; 3;
мером выбранной карточки, включают в выборку. Номера объек-
тов можно "отбирать" с помощью таблиц случайных чисел – это 1; 2; 1; 2; 0; ⎪ 2; 3; 1; 2; 5; ⎪ 1; 2; 4; 2; 0; ⎪ 2; 3; 1; 2; 5. ☻
целесообразно при большом объеме генеральной совокупности. Очевидно, что число X является дискретной случайной величи-
Принципиально, что при отборе объектов в выборочную сово- ной, а полученные данные есть значения этой случайной величи-
купность возможны два варианта: ны. Анализ исходных данных в таком виде весьма затруднителен.
1. Объект возвращается в генеральную совокупность. Выбо- Простейшая операция – ранжирование опытных данных, ре-
рочная совокупность, полученная таким образом, называет- зультатом которого являются значения, расположенные в порядке
ся случайной выборкой с возвратом (или повторной выбор- неубывания. Если среди элементов встречаются одинаковые, то
кой). они объединяются в одну группу. Значение случайной величины,
2. Объект, включенный в выборку, не возвращается в гене- соответствующее отдельной группе сгруппированного ряда на-
ральную совокупность. Образованная выборка называется блюдаемых данных, называется вариантом, а изменение этого
случайной выборкой без возврата (или бесповторной вы- значения – варьированием. Варианты будем обозначать строчными
боркой). буквами с соответствующими порядковому номеру группы индек-
Очевидно, что в повторной выборке возможна ситуация, когда сами x (1) , x ( 2 ) , ..., x ( m ) , где m – число групп. При этом
один и тот же объект будет обследован несколько раз. Если объем (1) ( 2) (m)
генеральной совокупности велик, то различие между повторной и x <x .< ... < x
бесповторной выборками (которые составляют небольшую часть Численность отдельной группы сгруппированного ряда данных
генеральной совокупности) незначительно и это практически не называется частотой ni , где i – индекс варианта, а отношение
сказывается на окончательных результатах. В таких случаях, как частоты данного варианта к общей сумме частот называется част-
правило, используют выборку без возврата. Если генеральная со-
ностью (или относительной частотой) и обозначается ω i ,
вокупность имеет не очень большой объем, то различие между
указанными выборками будет существенным. i = 1, ..., m , т.е.

15 16
ni Если число возможных значений дискретной случайной вели-
ωi = m
, (2.1) чины достаточно велико или наблюдаемая случайная величина яв-
∑ ni ляется непрерывной, то строят интервальный вариационный ряд,
i =1 под которым понимают упорядоченную совокупность интервалов
m
варьирования значений случайной величины с соответствующими
при этом ∑n
i =1
i = n. частотами или частностями попаданий в каждый из них значений
случайной величины.
Дискретным вариационным рядом называется ранжированная
Как правило, частичные интервалы, на которые разбивается
совокупность вариантов x (i ) с соответствующими им частотами весь интервал варьирования, имеют одинаковую длину и предста-
ni или частностями ω i . вимы в виде
♦Пример 2.2. Для данных примера 2.1 были выполнены опера- [ zi , zi + h), i = 1, 2,..., m , (2.2)
ции ранжирования и группировки. В результате были получены где m − число интервалов.
семь значений случайной величины (варианты): 0; 1; 2; 3; 4; 5; 7. Длину h следует выбирать так, чтобы построенный ряд не
При этом значение 0 в этой группе встречается 8 раз, значение 1 – был громоздким, но в то же время позволял выявлять характерные
17 раз, значение 2 – 16 раз, значение 3 – 10 раз, значение 4 – 6 раз, изменения случайной величины.
значение 5 – 2 раза, значение 7 – 1 раз. Вычисленные значения час- Для вычисления h рекомендуется использовать следующую
тот и частностей приведены в табл. 2.1. формулу:
Таблица 2.1 x − x min
Индекс i 1, 2, 3, 4, 5, 6, 7 h = max ,
1 + 3.222 lg n
Вариант x(i ) 0, 1, 2, 3, 4, 5, 7
где x max , x min – наибольшее и наименьшее значения случайной
Частота ni 8, 17, 16, 10, 6, 2, 1
величины. Если окажется, что h – дробное число, то за длину ин-
Частность ωi 8
60
, 17 , 16 , 10 ,
60 60 60
6
60
, 2
60
, 1
60 тервала следует принять либо ближайшую простую дробь, либо
ближайшую целую величину. При этом необходимо выполнение
Таким образом, получен дискретный ряд: условий:
0(8);1(17); 2(16); 3(10); 4(6); 5(2); 7(1) , z1 ≤ x min ; z m + h ≥ x max . (2.3)
где в скобках указаны соответствующие частоты. В отличие от ис- После нахождения частных интервалов определяется, сколько
ходных данных (см. пример 2.1), этот ряд позволяет делать неко- значений случайной величины попало в каждый конкретный ин-
торые выводы о статистических закономерностях. ☻ тервал. При этом в интервал включают значения, большие или
равные нижней границе и меньшие верхней границы.
Если среди n наблюдаемых значений x i отсутствуют одина-
♦ Пример 2.3. При изменении диаметра валика после шли-
ковые значения, то m = n, ni = 1 , а дискретный вариационный ряд фовки была получена следующая выборка (объемом n = 55 ):
имеет вид
x (1) < x ( 2 ) < ... < x ( n −1) < x ( n ) .

17 18
20.3 15.4 17.2 19.2 23.3 18.1 21.9 где n x – количество элементов выборки, меньших чем x . Други-
15.3 16.8 13.2 20.4 16.5 19.7 20.5
14.3 20.1 16.8 14.7 20.8 19.5 15.3 ми словами, Fn* ( x ) есть относительная частота появления события
19.3 17.8 16.2 15.7 22.8 21.9 12.5 A = { X < x} в n независимых испытаниях. Главное различие ме-
10.1 21.1 18.3 14.7 14.5 18.1 18.4
13.9 19.8 18.5 20.2 23.8 16.7 20.4 жду F ( x ) и Fn* ( x ) состоит в том, что F ( x ) определяет вероят-
19.5 17.2 19.6 17.8 21.3 17.5 19.4 ность события A , а выборочная функция распределения Fn* ( x ) –
17.8 13.5 17.8 11.8 18.6 19.1
Необходимо построить интервальный вариационный ряд, со- относительную частоту этого события.
стоящий из семи интервалов. Из определения (2.4) имеем следующие свойства функции
Решение. Так как наибольшая варианта равна 23.8, а наимень-
Fn* ( x ) :
шая 10.1, то вся выборка попадает в интервал (10,24). Мы расши-
рили интервал (10.1,23.8) для удобства вычислений. Длина каждо- 1. 0 ≤ Fn* ( x) ≤ 1 . (2.5)
го частичного интервала равна 24 − 10 = 2 . Получаем следующие 2. Fn* ( x ) – неубывающая функция.
7
семь интервалов: 3. Fn* ( −∞ ) = 0; Fn* ( ∞) = 1.
[10,12);[12,14);[14,16);[16,18);[18, 20);[20, 22);[22;24), Напоминаем, что такими же свойствами обладает и функция
а соответствующий интервальный вариационный ряд представлен распределения F ( x ) (вспомните эти свойства и сравните).
в табл. 2.2. Функция Fn* ( x ) является "ступенчатой", имеются разрывы в
Таблица 2.2
Х 10–12 12–14 14–16 16–18 18–20 20–22 22–24 точках, которым соответствуют наблюдаемые значения вариантов.
Величина скачка равна относительной частоте варианта.
ωi 2 4 8 12 15 11 3
55 55 55 55 55 55 55 ☻ Аналитически Fn* ( x ) задается следующим соотношением:
⎧0 при x ≤ x (1) ;
2.4. Выборочная функция распределения. Гистограмма ⎪ i −1

В теории вероятностей для характеристики распределения Fn ( x) = ⎨∑ ω j при x ( i −1) < x ≤ x ( i ) , i = 1, 2,..., m;
*
(2.6)
случайной величины X служит функция распределения ⎪ j =1
⎪1 при x > x ( m ) ,
F ( x ) = P( X < x ) , ⎩
где ω i – соответствующие относительные частоты, определяемые
равная вероятности события { X < x} , где x – любое действитель-
ное число. выражением (2.1); x (i ) – элементы вариационного ряда (варианты).
Одной из основных характеристик выборки является выбороч- Замечание. В случае интервального вариационного ряда под
ная (эмпирическая) функция распределения x (i ) понимается середина i-го частичного интервала.
nx
Fn* ( x ) = , (2.4) Перед вычислением Fn* ( x ) полезно построить дискретный
n
или интервальный вариационный ряд.
19 20
♦Пример 2.4. Построить выборочную функцию распределе- Fn* ( x ) , построенной по другой выборке из той же генеральной со-
ния по наблюдаемым данным, приведенным в примере 2.1.
Решение. Используя соответствующий этим данным дискрет- вокупности.

ный вариационный ряд (см. табл. 2.1), вычислим значения Fn* ( x ) F60* (x)
по формуле (2.6) и занесем их в табл. 2.3.
Таблица 2.3
*
x F60 ( x)
x≤1 0

0<x≤1 ω1 = 8
60
1<x≤2 ω1 + ω 2 = 25
60
2<x≤3 ω1 + ω 2 + ω 3 = 41
60 x
3<x≤4 ω1 + ω 2 + ω 3 + ω 4 = 51
60
Рис. 2.1. График выборочной функции распределения
4<x≤5 ω1 + ω 2 + ω 3 + ω 4 + ω 5 = 57
60 (пример 2.4)
5<x≤7 ω1 + ω 2 + ω 3 + ω 4 + ω 5 + ω 6 = 59
60 Возникает вопрос: зачем нужна такая характеристика, меняю-
x>7 ω1 + ω 2 + ω 3 + ω 4 + ω 5 + ω 6 + ω 7 = 60
=1 щаяся от выборки к выборке? Ответ получаем на основе следую-
60 щих рассуждений.
* * По теореме Бернулли относительная частота появления собы-
Из графика F60 ( x ) (рис. 2.1) видно, что F60 ( x ) удовлетворя- тия A в n независимых опытах сходится по вероятности к вероят-
ет свойствам (2.5). ☻ ности P( X < x ) этого события при увеличении n . Следовательно,
Задача 2.1. Построить выборочную функцию распределения при больших объемах выборки выборочная функция распределе-
по наблюдаемым данным, приведенным в примере 2.3. ния Fn* ( x ) близка к теоретической функции F ( x ) . Точнее, имеет
Напомним, что Fn* ( x ) равна относительной частоте появле- место следующая теорема.
ния события A = { X < x} и, следовательно, при любом значении Теорема В.И. Гливенко. Для любого действительного числа
x и любого ε > 0
x величина Fn* ( x ) является случайной. Тогда конкретной выбор-
lim P( Fn* ( x ) − F ( x ) > ε ) = 0 .
ке ( x1 , x2 ,..., xn ) объема n соответствует функция распределения n→∞
Таким образом, по функции Fn* ( x ) мы можем получить при-
Fn* ( x ) , которая в силу своей случайности будет отличаться от
ближенно функцию F (x ) , т.е. функция Fn* ( x ) является оценкой
F ( x) .
21 22
В качестве оценки плотности распределения вероятности не- где ui – некоторое число из промежутка [ zi , zi −1 ) . Так как
прерывной случайной величины используют гистограмму отно-
сительных частот.
ω i = ( zi +1 − zi ) yi , то значения yi и p(u i ) близки друг к другу.
Гистограммой относительных частот называется система пря- Практически это означает, что график плотности распределения
моугольников, каждый из которых основанием имеет i-й интервал генеральной совокупности X проходит вблизи верхних границ
интервального вариационного ряда; площадь, равную относитель- прямоугольников, образующих гистограмму. Поэтому при боль-
ной частоте ω i , а высота yi определяется по формуле ших объемах выборок и удачном выборе длины частичных интер-
валов гистограмма напоминает график плотности распределения
ωi p( x ) .
yi = , i = 1, 2,..., m ,
hi
♦Пример 2.5. Построим гистограмму относительных частот
где hi = zi +1 − zi – длина i-го частичного интервала. Если выборочной совокупности из примера 2.3.
длина частичных интервалов одинакова, то hi = h (см. (2.2), (2.3)).
Решение. Используя интервальный вариационный ряд (см.
Очевидно, что сумма площадей всех прямоугольников равна 1 табл. 2.2), находим высоты yi по формуле yi = ω i / 2 . График по-
(докажите это свойство).
строенной гистограммы приведен на рис. 2.2. Здесь же штриховой
Площадь прямоугольника ω i равна относительной частоте
линией отмечен предполагаемый график неизвестной плотности
попадания элементов выборочной совокупности объема n на i-й p(x ) . ☻
интервал, т.е.
ω i = ω n* ( zi ≤ X < zi +1 ) . уi
С другой стороны, если y = p (x ) – плотность вероятности
случайной величины X , то вероятность
0.10
pi = P( zi ≤ X < zi +1 )
по теореме Бернулли близка при большом значении n к отно-
0.05
сительной частоте.
Поэтому значение ω i близко к
z i +1
х
pi = P( zi ≤ X < zi +1 ) = ∫ p( x )dx . (2.7)
zi
Пусть yi – высота i-го прямоугольника. По теореме о среднем Рис. 2.2. График гистограммы частностей (пример 2.5)
интеграл, выражающий вероятность в формуле (2.7), можно запи-
сать в виде 2.5. Выборочное среднее и выборочная дисперсия
zi +1
Рассмотренная выборочная функция распределения и гисто-
pi = ∫
zi
p( x)dx = ( zi +1 − zi ) ⋅ p(ui ) , (2.8)
грамма позволяют делать выводы о закономерностях исследуемого
массового явления. Однако они неудобны для описания группиро-
23 24
вания и рассеивания наблюдаемых данных. Для этого используют- ( zi + zi +1 )
ся так называемые числовые характеристики выборочной совокуп- zi* = , i = 1, 2,..., m.
2
ности, из которых рассмотрим выборочное среднее и выборочную
дисперсию. Сравним математическое ожидание дискретной случайной ве-
Выборочным средним X в называется случайная величина, оп- личины Х, вычисляемое по формуле
ределенная формулой m
X 1 + X 2 + ... + X n M ( X ) = ∑ xi pi , (2.13)
Xв = . (2.9) i =1
n
и значение выборочного среднего, определяемое (2.11). Прежде
Так как конкретная выборка x1 ,..., xn является реализацией
всего, очевидна их внешняя схожесть. Однако в формуле (2.13)
значений случайных величин X 1 ,..., X n , то среднее значение вы- xi – возможные значения случайной величины, а pi – вероятно-
борки
сти. В формуле (2.11) x (i ) – варианты случайной величины, полу-
x + x2 + ... + xn
xв = 1 (2.10) ченные в результате наблюдений, ω i – их относительная частота.
n
Далее, математическое ожидание не является случайной величи-
является одной из реализаций случайной величины X в . Другими ной, а выборочное среднее – случайная величина, значение кото-
словами, xв есть одно из значений случайной величины X в . рой меняется от выборки к выборке. Несмотря на это, как будет
Если данные представлены в виде вариационного ряда, то для показано ниже, выборочное среднее при определенных условиях
вычисления выборочного среднего целесообразно применить одно выступает как "хорошая" оценка математического ожидания.
из следующих соотношений: ♦ Пример 2.6. Вычислим значение выборочного среднего по
выборке примера 2.1.
• для дискретного вариационного ряда Решение. Используя дискретный вариационный ряд (см.
m
∑ x ( i ) ni табл. 2.1) и соотношение (2.1), имеем
m
xв = i =1
m
= ∑ x ( i )ω i ; (2.11) 8 + 1 ⋅ 17 + 2 ⋅ 16 + 3 ⋅ 10 + 4 ⋅ 6 + 5 ⋅ 2 + 7 ⋅ 1 = 2.0 . ☻
xв = 0 ⋅ 60
∑ ni i =1 60 60 60 60 60 60
i =1
Так как значение выборочного среднего есть выборочный ана-
• для интервального вариационного ряда лог математического ожидания, то имеет смысл ввести характери-
стику, которая бы оценивала величину рассеивания значений
m
∑ z i* ni m x1 , x2 ,..., xn относительно xв , а именно
xв = i =1
m
= ∑ ω i zi* , (2.12)
∑ ni i =1 n ( x i − xв ) 2
i =1 dв = ∑ . (2.14)
i =1 n
где ω i – частность (относительная частота), соответствующая i-й
Число d в является значением случайной величины
варианте или i-му частичному интервалу; zi* – середина i-го час-
тичного интервала, т.е.
25 26
n
( X i − X в )2 квадрата математического ожидания, т.е. σ 2 << ( M ( x )) 2 , то из-за
Dв = ∑ , (2.15)
i =1 n ошибок округления при машинном счете по этим формулам воз-
которую мы будем называть выборочной дисперсией. можна ситуация d в < 0 . Тогда следует положить d в = 0 .
Если данные представлены в виде вариационного ряда, то целе- Сравним формулу (2.16) с формулой дисперсии дискретной
сообразно для вычислений d в вместо (2.14) использовать сле- случайной величины
дующие соотношения: m
• для дискретного вариационного ряда
D( X ) = ∑ ( xi − M ( X )) 2 pi . (2.21)
i =1
m Различие между этими формулами состоит в том, что: а) вели-
∑ (x (i )
− xв ) 2 ni m чина D( X ) не случайна, d в – значение случайной величины, ко-
dв = i =1
= ∑ ( x ( i ) − xв ) 2 ωi ; (2.16)
торое может меняться от выборки к выборке; б) в формуле (2.21)
n i =1
xi – возможные значения случайной величины X , pi – их вероят-
• для интервального вариационного ряда
ности, M ( X ) – математическое ожидание. В формуле (2.16) x (i ) –
m
* 2
∑ ( z i − x в ) ni m
варианты случайной величины, ω i – их относительные частоты, а
i =1
dв = = ∑ ( zi* 2
− xв ) ω i , (2.17) xв – значения выборочного среднего. Несмотря на различия, меж-
n i =1
ду этими двумя формулами много общего. Во-первых, обе они яв-
где ω i , zi* –
те же, что и в формулах (2.11), (2.12). ляются мерой рассеивания. Во-вторых, кроме внешнего сходства
Можно показать справедливость следующих выражений, яв- формул, соответствующие дисперсии обладают схожими свойст-
ляющихся аналогами (2.14), (2.16), (2.17) соответственно: вами. В-третьих, как будет показано ниже, выборочная дисперсия
при определенных условиях является хорошей оценкой для гене-
1 n (i) 2 ральной дисперсии D( X ) .
dв = ∑ ( x ) − ( xв )2 ;
n i =1
(2.18)
♦ Пример 2.7. Необходимо вычислить значение выборочной
дисперсии по выборке примера 2.1.
m Решение. Воспользуемся формулой (2.19). Первоначально, ис-
d в = ∑ ( x ( i ) ) 2 ω i − ( xв ) 2 ; (2.19) пользуя дискретный вариационный ряд (см. табл. 2.1), вычислим
i =1
7
m ∑(x(i) )2ωi = 0⋅ 608 +1⋅ 1760 + 4⋅ 1660 +9⋅ 1060 +16⋅ 606 + 25⋅ 602 + 49⋅ 601 = 6.09 . (2.22)
d в = ∑ ( zi* ) 2 ω i − ( xв ) 2 . (2.20) i=1
i =1 Так как значение xв было вычислено в примере 2.6 ( xв = 2.0 ),
Приведенные соотношения (2.18)–(2.20) оказываются более то
удобными для программной реализации вычислений значения d в . 7
d в = ∑ ( x ( i ) ) 2 ω i − ( xв ) 2 = 6.09 − 4.0 = 2.09 . ☻
Однако если генеральная дисперсия σ 2 существенно меньше i =1

27 28
2.6. Вычисление выборочных характеристик в Excel ♦ Пример 2.8. По выборке примера 2.3 вычислить частоты и
частности для семи заданных интервалов [10,12); [12,14); [14,16);
Вычисление частот. Для вычисления частот ni можно исполь-
[16,18); [18,20); [20,22); [22,24), используя функцию ЧАСТОТА.
зовать функцию ЧАСТОТА, обращение к которой имеет вид:
Решение. Первоначально, начиная с ячейки А3 (рис. 2.2), вве-
=ЧАСТОТА(массив_данных;массив_границ), дем в столбец А 55 элементов выборки примера 2.3 (диапазон
где массив_данных – адреса ячеек, для которых вычисляется час- А3:А57). Затем, начиная с ячейки В3, введем границы заданных
тота ni ; массив_границ – адреса ячеек, в которых размещаются интервалов (см. рис. 2.2).
упорядоченные по возрастанию значения z j , j = 1, 2,..., m + 1 , где После подготовки этих данных выделяем ячейки С3:С11, вво-
дим выражение
m – число интервалов.
=ЧАСТОТА(А3:А57;В3:В10)
При использовании этой функции необходимо помнить:
1. Функция ЧАСТОТА вводится как формула массива, т.е. и нажимаем одновременно клавиши [Ctrl] + [Shift] + [Enter]. В
предварительно выделяется интервал ячеек, в который будут по- ячейках С3:С11 появляется результат выполнения функции (см.
мещены вычисленные частоты (число ячеек должно быть на 1 рис. 2.2).
больше числа границ), затем вводится функция ЧАСТОТА с соот- Для вычисления относительных частот ω j (частностей) необ-
ветствующими аргументами, потом одновременно нажимаются ходимо частоты поделить на число элементов выборки. Эти вы-
клавиши [Ctrl] + [Shift] + [Enter]. числения реализованы в ячейках D3:D11 (см. рис. 2.2). Для кон-
2. Функция ЧАСТОТА игнорирует пустые ячейки и текстовые троля правильности вычисления частот и частностей в ячейках
данные. С12, D12 определены суммы (см. рис. 2.2):
3. Если массив_границ не содержит возрастающих значений m +1= 9 m +1= 9
границ и интервалов, то осуществляется автоматическое вычисле- ∑n j = 55 , ∑ω j =1. ☻
ние границ интервалов равной ширины, причем число интервалов j =0 j =0

равно корню квадратному из числа элементов массива_данных. Для подсчета количества элементов выборки (т.е. объема вы-
Результатом работы является массив значений, определяе- борки) использовалась функция СЧЁТ, обращение к которой име-
мый по следующему правилу: первый элемент равен числу n0 эле- ет вид:
ментов массива_данных меньше z1 ; последний элемент равен чис- СЧЁТ(массив_данных),
лу nm +1 элементов массива_данных больше zm +1 ; остальные эле- где массив_данных – адреса ячеек или числовые константы.
менты определяются как числа nj элементов xi массива_данных, Результатом работы является количество числовых величин
удовлетворяющих условию в массиве_данных. При этом игнорируются пустые ячейки, логиче-
ские значения, тексты и значения ошибок.
z j < xi ≤ z j +1 , j = 1, 2,..., m .
Другими словами, кроме m значений частот nj, j = 1, 2,..., m ,
соответствующих m интервалам, вычисляются частоты n0 (число
значений xi , лежащих левее z1 ) и nm +1 (число значений xi , лежа-
щих правее zm +1 ).

29 30
данных выбрать режим Гистограмма и щелкнуть на кнопке ОК.
Появится окно гистограммы, показанное на рис. 2.3. В окне зада-
ются следующие параметры:

Рис. 2.2. Фрагмент вычисления частот и частностей


Рис. 2.3. Диалоговое окно режима Гистограмма
Вычисление ненормированной гистограммы относитель-
ных частот. Иногда в статистической (особенно зарубежной) ли- Входной интервал: – адреса ячеек, содержащие выборочные
тературе под гистограммой понимают систему прямоугольников, данные.
каждый из которых основанием имеет j-й интервал, а высота равна Интервал карманов: (необязательный параметр) – адреса яче-
ω j . Очевидно, что сумма высот всех прямоугольников равна 1. ек, содержащие границы интервалов (кармана). Эти значения
Заметим, что у ранее определенной гистограммы относитель- должны быть введены в возрастающем порядке.
ных частот сумма площадей прямоугольников равна 1, а высота Метки – флажок, включаемый, если первая строка во входных
данных содержит заголовки. Если заголовки отсутствуют, то фла-
прямоугольников равна y j = ω j h j , где h j – длина j-го интервала
жок следует выключить.
(т.е. выполнено нормирование). Поэтому первую гистограмму бу- Выходной интервал: / Новый рабочий лист: / Новая рабочая
дем называть ненормированной гистограммой относительных час- книга. Включенный переключатель Выходной интервал требует
тот. ввода адреса верхней ячейки, начиная с которой будут размещать-
Для построения ненормированной гистограммы необходимо ся вычисленные относительные частоты ω j . В положении пере-
обратиться к пункту Сервис строки меню Excel, а затем щелкнуть
на команде Анализ данных, в появившемся окне диалога Анализ ключателя Новый рабочий лист: открывается новый лист, в кото-

31 32
ром начиная с ячейки А1 размещаются частности ω j . В положении щелкнем на кнопке ОК. В ячейках D4:D11 выводятся вычисленные
переключателя Новая рабочая книга открывается новая книга, на значения ω j , а в ячейках Е4:Е11 – значения интегрального процен-
первом листе которой начиная с ячейки А1 размещаются частно- та. В этом же листе строится диаграмма, на которой отображаются
сти ω j . вычисленные характеристики. ☻
Парето (отсортированная гистограмма) – устанавливается в Замечание 2.1. Как правило, гистограммы изображаются в ви-
де смежных прямоугольных областей. Поэтому столбики гисто-
активное состояние, чтобы представить ω j в порядке их убывания.
граммы на рис. 2.4 целесообразно расширить до соприкосновения
Если параметр выключен, то ω j приводятся в порядке следования друг с другом. Для этого необходимо щелкнуть мышью на диа-
интервалов. грамме, далее на панель инструментов Диаграмма, раскрыть спи-
Интегральный процент – устанавливается в активное состоя- сок инструментов и выбрать элемент Ряд ‘Частота’, после чего
ние для расчета выраженных в процентах накопленных относи- щелкнуть на кнопке Формат ряда. В появившемся одноименном
тельных частот (процентный аналог значений выборочной функ- диалоговом окне необходимо активизировать закладку Парамет-
ции распределения (2.6) при xi = z j , j = 1, 2,..., m + 1 ). ры и в поле Ширина зазора установить значение 0.
Вывод графика – устанавливается в активное состояние для ав-
томатического создания встроенной диаграммы на листе, содер-
жащем относительные частоты ω j .
При использовании режима Гистограмма модуля Анализ дан-
ных необходимо помнить:
1. Относительные частоты ω j вычисляются как количество
элементов xi выборки, удовлетворяющих условию
z j < xi ≤ z j +1 .
2. Если границы интервалов не заданы, то автоматически бу-
дет создан набор интервалов с одинаковой длиной
x − xmin
h = max ,
[k ] − 1
где [k ] – целая часть величины k = 1 + 3.322 ⋅ lg n , n – объем вы-
борки.
♦ Пример 2.9. По выборке примера 2.3 построить ненормиро-
ванную гистограмму относительных частот, используя режим Гис-
тограмма модуля Анализ данных.
Решение. Первоначально, начиная с ячейки А3 (рис. 2.4), вве-
дем в столбец А 55 элементов выборки (диапазон А3:А57). Затем
обратимся к пункту Сервис, команде Анализ данных, режиму Гис-
тограмма. В появившемся диалоговом окне Гистограмма устано- Рис. 2.4. Фрагмент построения гистограммы
вим значения параметров, показанные на рис. 2.3, и после этого
33 34
На рис. 2.5 показана гистограмма, полученная из гистограммы ты прямоугольников (ячейки Е3:Е9) и середины интервалов (ячей-
(см. рис. 2.4) путем действий, описанных в замечании 2.1. ♦ ки B3:B9). Для проверки правильности вычислений в ячейках D10,
Замечание 2.2. Ненормированная гистограмма относительных E10 определим суммы ∑ ω j , ∑ y j . Очевидно, что 2 ⋅ ∑ y j = 1 .
частот не может служить оценкой для плотности распределения
В заключение по данным столбцов B, E строим гистограмму
случайной величины, из значений которой была сформирована вы-
борка (особенно в случае неравных длин интервалов), из–за того, (рис. 2.6). ☻
что сумма площадей прямоугольников ≠ 1 . В качестве такой оцен-
ки может рассматриваться гистограмма относительных частот. ♦

Рис. 2.5. График построенной гистограммы

Вычисление гистограммы относительных частот. Для вы-


числения такой гистограммы достаточно первоначально вычислить
относительные частоты (частности), а затем полученные значения
поделить на длину h j соответствующего интервала, т.е. получить
высоту соответствующего прямоугольника y j = ω j h j . Для полу-
чения соприкасающихся прямоугольников выполнить операции,
описанные в замечании 2.1 для соответствующего элемента.
♦ Пример 2.10. По выборке примера 2.3 построить гистограм- Рис. 2.6. Построение гистограммы относительных частот
му относительных частот.
Решение. Как и в примере 2.8, введем выборочные значения и, Вычисление выборочных среднего и дисперсии. Для вычис-
используя функцию ЧАСТОТА, вычислим частоты и частности. ления выборочного среднего (2.10) используется функция
Затем, используя формулу y j = ω j h j , где h j = 2 , вычислим высо- СРЗНАЧ, обращение к которой имеет вид:

35 36
=СРЗНАЧ(арг1; арг2; …; арг30), КВАДРОТКЛ, аргументами, указанными на рис. 2.7. Затем вычис-
где арг1; арг2; …; арг30 – числа или адреса ячеек, содержащих чи- лим характеристики (2.10), (2.14) с использованием статистических
словые данные. Если ячейка содержит текстовые, логические зна- функций СРЗНАЧ, ДИСПР (см. рис. 2.7). Как и следовало ожидать,
чения или ячейка пуста, то такие ячейки игнорируются при под- результаты вычислений двумя способами совпали. ☻
счете среднего значения по формуле
n

∑x i
xb = . i =1

n
Здесь и в дальнейшем запись арг1; арг2; …; арг30 означает нали-
чие от 1 до 30 аргументов функции Excel.
Для вычисления выборочной дисперсии (2.14) используется
функция ДИСПР, обращение к которой имеет вид:
=ДИСПР(арг1; арг2; …; арг30),
где арг1; арг2; …; арг30 – числа или адреса ячеек, содержащих чи-
словые данные. Ячейки, содержащие текстовые, логические дан-
ные или пустые, при вычислении выборочной дисперсии игнори-
руются.
Для вычисления суммы квадратов отклонений
n

∑ (x
i =1
i − xb ) 2

используется функция КВАДРОТКЛ, обращение к которой имеет


вид:
=КВАДРОТКЛ(арг1; арг2; …; арг30),

где арг1, арг2, …, арг30 – числа или адреса ячеек, содержащих чи- Рис. 2.7. Вычисление выборочных среднего и дисперсии
словые данные.
♦ Пример 2.11. По выборке примера 2.3 вычислить выбороч- Задание 2.1. По выборочным данным ( n = 60 ) примера 2.1 по-
ное среднее xb и выборочную дисперсию db двумя способами: строить гистограмму относительных частот. Длину интервала оп-
Способ 1. Программируя в ячейках Excel необходимые вычис- ределить по формуле
ления. xmax − xmin
h= .
Способ 2. Используя функции Excel СРЗНАЧ, ДИСПР. (1 + 3.322 ⋅ lg n )
Решение. Первоначально, начиная с ячейки А3, введем в
столбец А 55 элементов выборки (диапазон А3:А57). Запрограм- Рекомендация. При выполнении задания использовать пример
мируем выражения (2.10), (2.14), используя функции СУММ, 2.10. ♥
37 38
Задание 2.2. По выборочным данным ( n = 60 ) примера 2.1 по- 3. ТОЧЕЧНЫЕ ОЦЕНКИ НЕИЗВЕСТНЫХ ПАРАМЕТРОВ
строить ненормированную гистограмму относительных частот, ис- 3.1. Определение и свойства точечной оценки
пользуя режим Гистограмма.
Большинство случайных величин, рассмотренных в курсе тео-
Рекомендация. При выполнении задания использовать пример
2.9. ♥ рии вероятностей, имели распределения, зависящие от одного или
нескольких параметров. Так, биномиальное распределение зависит
Задание 2.3. По выборочным данным ( n = 60 ) примера 2.1 вы-
от параметров p и n , нормальное – от параметров a и σ , рас-
числить выборочные среднее и дисперсию, используя стандартные
функции Excel. пределение Пуассона – от параметра λ и т.п. Одной из основных
Рекомендация. При выполнении задания использовать пример задач математической статистики (см. главу 1) является оценива-
2.11. ♥ ние этих параметров по наблюдаемым данным, т.е. по выборочной
Кроме приведенных функций при вычислении выборочных совокупности. В главе 2 были рассмотрены выборочные среднее и
характеристик могут быть полезными следующие функции: дисперсия, которые интерпретировались как приближенные значе-
Функция МАКС вычисляет максимальное значение из задан- ния неизвестных значений математического ожидания и дисперсии
ных аргументов. Обращение к ней имеет вид: изучаемой случайной величины X , т.е. являлись оценками этих
неизвестных характеристик.
=МАКС(арг1; арг2; …; арг30),
Выборочная характеристика, используемая в качестве при-
где арг1; арг2; …; арг30 – числовые константы или адреса ячеек, ближенного значения неизвестного параметра генеральной сово-
содержащих числовые величины. купности, называется точечной оценкой этого параметра. В этом
Функция МИН вычисляет минимальное значение из заданных определении слово "точечная" означает, что значение оценки пред-
аргументов. Обращение к ней имеет вид: ставляет собой число или точку на числовой оси.
=МИН(арг1; арг2; …; арг30), Обозначим через θ некоторый неизвестный параметр гене-
где арг1; арг2; …; арг30 – числовые константы или адреса ячеек, ральной совокупности, а через θ n* – точечную оценку этого пара-
содержащих числовые величины.
метра. Оценка θ n* есть функция ϕ ( X1, X 2 ,..., X n ) от n независи-
мых экземпляров X1, X 2 ,..., X n генеральной совокупности, где
n – объем выборки (см. п. 2.1). Поэтому оценка θ n* , как функция
случайных величин, также является случайной, и свойства θ n*
можно исследовать с использованием понятий теории вероятно-
стей.
В общем случае точечная оценка θ n* не связана с оцениваемым
параметром θ . Поэтому естественно потребовать, чтобы θ n* была
близка к θ . Это требование формулируется в терминах несмещен-
ности, состоятельности и эффективности.
39 40
Оценка θ n* параметра θ называется несмещенной, если для θ n*(1) = ϕ1 ( x1,..., xn ); θ n*(2) = ϕ 2 ( x1,..., xn ) (3.3)
любого фиксированного объема выборки n математическое ожи-
дание оценки равно оцениваемому параметру, т.е. одного и того же параметра θ . Как из двух этих оценок выбрать
лучшую? Каждая из них является случайной величиной, и мы не
M (θ n* ) = θ . (3.1) можем предсказать индивидуальное значение оценки в каждом ча-
стном случае. Однако, рассматривая в качестве меры концентра-
Поясним смысл этого равенства следующим примером. Имеют-
ции распределения оценки θ n* около значения параметра θ вели-
ся два алгоритма вычисления оценок для параметра θ . Значения
оценок, построенных первым алгоритмом по различным выборкам чину M (θ n* − θ ) 2 , мы можем теперь точно охарактеризовать срав-
объема n генеральной совокупности, приведены на рис. 3.1,а, а с
использованием второго алгоритма – на рис. 3.1,б. Видим, что нительную эффективность оценок θ n*(1) и θ n*( 2 ) . В качестве меры
среднее значение оценок на рис. 3.1,а совпадает с θ , и, естествен- эффективности принимается отношение
но, такие оценки предпочтительнее по сравнению с оценками на M (θ n*(1) − θ ) 2
рис. 3.1,б, которые концентрируются слева от значения θ и для e= . (3.4)
M (θ n*( 2 ) − θ ) 2
которых M (θ n* ) < θ , т.е. эти оценки являются смещенными.
Если e > 1 , то оценка θ n*( 2 ) более эффективна, чем θ n*(1) . В случае
Оценка θ n* называется состоятельной, если
несмещенных оценок M (θ n*(1) ) = θ , M (θ *(2) ) = θ , и поэтому
p
θ n* ⎯⎯→ θ,
D (θ n*(1) )
e= , (3.5)
т.е. для любого ε > 0 при n → ∞ D (θ n*( 2 ) )

(
P θ n* − θ < ε → 1 .) (3.2) где D (θ n* ) – дисперсия оценки θ n* .

Поясним смысл этого предельного соотношения. Пусть ε – a


очень малое положительное число. Тогда (3.2) означает, что чем
больше число наблюдений n , тем больше уверенность (вероят-
θ *
n
ность) в незначительном отклонении θ n* от неизвестного парамет-
ра θ . Очевидно, что "хорошая" оценка должна быть состоятель-
б θ
ной, иначе она не имеет практического смысла, так как увеличение
объема исходной информации не будет приближать нас к "истин- θ *
n
ному" значению θ . θ
Предположим, что имеются две состоятельные и несмещенные
оценки Рис. 3.1. К определению несмещенной оценки

41 42
a σ2
D( a * ) ≥ , (3.6)
n
б θ *
n где n – объем выборки, по которой производится оценивание. Если
θ в качестве a * принять X в , то дисперсия этой оценки, как будет
θ *
n показано ниже, равна
σ2
, т.е. X в – эффективная оценка парамет-
θ n
ра а, так как для нее достигается нижняя грань в неравенстве (3.6).
Рассмотрим на примере понятие эффективной в данном классе
Рис. 3.2. К определению эффективной оценки
оценки. Предположим, что один и тот же предмет, истинная вели-
чина которого равна l , измеряется n раз различными приборами,
Таким образом, несмещенная оценка θ n* параметра θ называ- имеющими различную точность. Пусть X i – результаты i-го изме-
ется несмещенной эффективной, если она среди всех других не- рения. Тогда
смещенных оценок того же параметра обладает наименьшей дис-
персией. M ( X i ) = l, D( X i ) = σ 2 ,
Приведенная на рис. 3.2,а оценка θ n* является более эффектив-
если считать, что измерения проводятся без систематических оши-
ной по сравнению с оценкой, значения которой нанесены на
рис. 3.2,б (почему?). бок. Дисперсия σ i2 характеризует точность измерений. Для оценки
Как же выяснить, является ли несмещенная оценка эффектив- истинного значения параметра l рассмотрим класс линейных оце-
ной? Очевидно, для этого необходимо сравнить дисперсию этой нок, т.е. оценок вида
оценки с минимальной дисперсией.
Для широкого класса оценок неравенство Рао–Крамера указы- l * = c1 X 1 + ... + cn X n ,
вает точную нижнюю границу для дисперсий различных оценок
одного и того же параметра. Если существует оценка, дисперсия где c1 ,..., cn – некоторые неизвестные константы. Из всех несме-
которой в точности равна этой нижней границе, то она называется щенных оценок данного класса нужно выбрать ту, которая имеет
эффективной оценкой. Оценка, имеющая наименьшую дисперсию наименьшую дисперсию.
среди оценок данного класса, называется эффективной в данном Из несмещенности оценок получим
классе оценок. Поясним понятие эффективной оценки несколькими n n n
примерами. M (l * ) = M ( ∑ ci X i ) = ∑ ci M ( X i ) = l ∑ ci .
Предположим, что генеральная совокупность распределена по i =1 i =1 i =1
нормальному закону с параметрами a и σ , причем a – математи- Значит,
n
ческое ожидание, подлежащее оценке, а σ 2 – известная дисперсия. ∑ ci = 1. (3.7)
* i =1
Оказывается, что для любой несмещенной регулярной оценки a
имеет место неравенство Пользуясь свойствами дисперсии и независимостью проведен-
ных измерений, получим
43 44
n xг = M ( X ) .
D(l * ) = ∑ ci2σ i2 .
i =1
Теорема 3.1. Выборочное среднее X в есть состоятельная и
Числа c1 ,..., cn должны удовлетворять условию (3.7) и обеспе-
несмещенная оценка генеральной средней x г .
чивать минимум функции
n Доказательство. Вначале покажем, что X в есть состоятель-
F (c1 ,..., cn ) = ∑ ci2σ i2 .
i =1 ная оценка для x г , т.е.
Мы получим задачу на условный экстремум, которую можно
X 1 + X 2 + ... + X n p
решить с помощью функции Лагранжа: ⎯⎯ → xг .
n n
L(c1 ,..., cn ) = F (c1 ,..., cn ) − λ (∑ ci − 1) .
i =1
По следствию из теоремы Чебышева для одинаково распреде-
Найдем критические точки функции Лагранжа: ленных случайных величин имеем
X 1 + X 2 + ... + X n p
∂L ⎯⎯ → M (X ) .
= 2ciσ i2 − λ = 0, i = 1,..., n ; n
∂ci Так как М ( X ) = x г , то, используя свойства математического
n ожидания, получим
∑ ci − 1 = 0 . ⎛ X + ... + X n ⎞ M ( X 1 ) + ... + M ( X n )
i =1 M (Xв ) = M ⎜ 1 ⎟= =
Отсюда находим значение ⎝ n ⎠ n
nM ( X )
1
σ i2 = = xг .
ci = n
, i = 1,..., n. (3.8) n
∑σ
i =1
1
2
i
Теорема доказана.

Теорема 3.2. Пусть случайная величина X имеет нормальное


Полученный результат имеет простой физический смысл: чем
меньше точность данного прибора, тем с меньшим значением ко- распределение N (a, σ ) , где a – математическое ожидание, σ 2 –
эффициента его результат должен входить в оценку. дисперсия случайной величины X . Тогда выборочное среднее X в
Заметим, что если все приборы имеют одинаковую точность,
является эффективной несмещенной оценкой для x г .
т.е. σ 11 = ... = σ n2 , то ci = 1 / n и в качестве оценки получим
Доказательство. Необходимо показать, что дисперсия
l* = X в . D ( X в ) совпадает с минимальной дисперсией, равной в случае
3.2. Точечная оценка математического ожидания нормального распределения σ 2 / n , а ее математическое ожидание
Математическое ожидание M ( X ) генеральной совокупности M ( X в ) равно x г .
X назовем генеральной средней x г , т.е. Найдем дисперсию D ( X в ) :

45 46
n n nD( X ) σ2 n n
D ( X в ) = D( n1 ∑ X i ) = 1

n 2 i =1
D( X i ) =
n2
=
n
. (3.9) ∑(Xi − Xв )2 = ∑(Xi2 − 2Xв Xi + Xв2 ) =
i =1 i=1 i=1
Мы проверили при доказательстве теоремы 3.1, что n n

M ( X в ) = xг . Так как дисперсия D( X в ) равна минимальному зна- = ∑Xi2 − 2nXв2 + nXв2 =∑Xi2 − nXв2.
i=1 i=1
чению, то выборочное среднее X в является эффективной несме- Тогда из определения дисперсии следует
n n
2 2 2
щенной оценкой. ∑ X i − nX в ∑ Xi
Теорема доказана. i =1 i =1
Dв = = − X в2 .
Таким образом, показано, что выборочное среднее X в имеет n n
Воспользовавшись теперь следствием из теоремы Чебышева
все три свойства "хорошей" оценки. Этим и объясняется ее широ-
кое использование в качестве оценки математического ожидания для одинаково распределенных случайных величин X i2 и свойст-
генеральной совокупности. вами предела по вероятности, получаем
Напомним, что по конкретной выборке x1 , ..., xn вычисляется n
2
∑ Xi
(см. (2.10)–(2.12)) "конкретное" значение xв , являющееся одним из i =1 p
⎯⎯→ M ( X i2 ) = M ( X 2 );
множества возможных значений случайной величины X в . n
p
X в ⎯⎯→ M ( X )
3.3. Точечные оценки дисперсии и, значит,
p
Дисперсию D( X ) генеральной совокупности X будем назы- Dв ⎯⎯→ M ( X 2 ) − M 2 ( X ) = D ( X ) = Dг .
вать генеральной дисперсией Dг , т.е. Следовательно, выборочная дисперсия Dв является состоя-
Dг = D ( X ) . (3.10) тельной оценкой для генеральной дисперсии. Вычислим математи-
ческое ожидание Dв и убедимся, что M ( Dв ) ≠ Dг . Имеем
Теорема 3.3. Выборочная дисперсия Dв является состоятель-
⎛ n ⎞ ⎛ n 2 ⎞
ной, но смещенной оценкой генеральной дисперсии Dг . ⎜ ∑ Xi ⎜ ∑ Xi ⎟
2

Доказательство. Получим сначала формулу для вычисления M ( D в ) = M ⎜ i =1 − X в2 ⎟ = M ⎜ i =1 ⎟ − M ( X в2 ) =
⎜ n ⎟ ⎜ n ⎟
Dв . Согласно определению ⎜ ⎟ ⎜ ⎟
⎝ ⎠ ⎝ ⎠
n

∑(X i − X в )2 ⎛ n 2⎞
⎜ ∑ Xi ⎟
⎛ X 1 + ... + X n ⎞
2
Dв = i =1
. =M ⎜ i =1 ⎟ −M⎜ ⎟ =
n ⎜ n ⎟ ⎝ n ⎠
С другой стороны, ⎜ ⎟
⎝ ⎠
⎛ X 12 + X 22 + ... + X n2 + ∑ X i X j ⎞
⎜ i≠ j ⎟,
= M (X 2) − M ⎜ 2 ⎟
⎜ n ⎟
⎝ ⎠
47 48
где ∑X X
i≠ j
i j означает сумму произведений величин X i и X j для Теорема 3.4. Исправленная дисперсия S 2 является состоя-
тельной и несмещенной оценкой для генеральной дисперсии Dг .
всех значений i и j от 1 до n , но не равных между собой. Так как
X i и X j независимы при i ≠ j , то n
Заметим, что для выборок большого объема множитель
M ( X i X j ) = M ( X i )M ( X j ) . n −1
близок к 1, поэтому случайные величины S 2 и Dв мало отлича-
Поэтому, продолжая вычисления M ( Dв ) , получаем
ются друг от друга. Однако для выборок малого объема это отли-
M ( X 12 ) + ... + M ( X n2 ) + ∑ M ( X i ) M ( X j )
i≠ j
чие может быть существенным.
M ( Dв ) = M ( X ) −
2
=
n 2
Возникает вопрос: будет ли несмещенная оценка S 2 эффек-
nM ( X 2 ) + n( n − 1) M 2 ( X ) тивной?
= M (X 2) − = Предположим, что случайная величина X подчиняется нор-
n2
n −1 n −1 мальному распределению N (a, σ ) , а величины X 1 , X 2 ,..., X n , как
= ⎡⎣ M ( X 2 ) − M 2 ( X ) ⎤⎦ = Dг .
n n обычно, – n независимых экземпляров независимой величины Х.
Множитель n( n − 1) объясняется тем, что по правилу произведе- Тогда минимальная дисперсия несмещенной оценки для дисперсий
ния количество различных пар ( i, j ) при 1 ≤ i ≠ j ≤ n равно равна
n( n − 1) . Итак, мы получили, что 2σ 4
Dmin = . (3.13)
n −1 n
M ( Dв ) = Dг , 3.11)
n В п. 4.1 будет показано, что величина S 2 представима в виде
следовательно, Dв – смещенная оценка для генеральной дисперсии.
σ2
Теорема доказана. S2 = χ n2−1 , (3.14)
Полученная формула (3.11) для вычисления математического n −1
ожидания выборочной дисперсии позволяет указать состоятельную где χ n2−1 – случайная величина, имеющая χ -распределение с
2
и несмещенную оценку для генеральной дисперсии. Для этого рас-
смотрим случайную величину n − 1 степенями свободы. Поэтому
n σ4 2σ 4
2
S = Dв , (3.12) D( S 2 ) = D( χ n2−1 ) = , (3.15)
n −1 (n − 1) 2 n −1
называемую исправленной дисперсией. Понятно, что из этого следует
2 p
S ⎯⎯→ Dг , n
D( S 2 ) = Dmin . (3.16)
n n −1
так как → 1 при n → ∞ . С другой стороны,
n −1 Следовательно, S 2 , будучи несмещенной оценкой дисперсии
⎛ n ⎞ n n n −1 D( X ) , не является эффективной оценкой. Однако при достаточно
M( S 2 ) = M⎜ Dв ⎟ = M ( Dв ) = ⋅ Dг = Dг .
⎝ n −1 ⎠ n −1 n −1 n больших n увеличение D ( S 2 ) по сравнению с Dmin пренебре-
Тем самым доказана
жимо мало.
49 50
Заметим, что несмещенная эффективная оценка дисперсии имеет биномиальный закон распределения с характеристиками
D( X ) нормально распределенной величины X = N (a, σ ) имеет М(т) = пр, D(m) = пр(1 – р). Имеем
вид: ⎛m⎞ 1 1
n
M ⎜ ⎟ = M (m) = np = p ( A) .
1 ⎝n⎠ n n
S 02 = ∑
n i =1
( X i − a)2 .
Следовательно, p * = m / n является несмещенной оценкой
Однако в эту формулу входит математическое ожидание a , вероятности р(А).
которое, как правило, заранее неизвестно. Для доказательства эффективности укажем, что минимум сре-
ди дисперсий различных несмещенных оценок вероятности р(А)
3.4. Точечная оценка вероятности события равен
Обозначим через p( A) неизвестную вероятность события A p(1 − p)
Dmin = . (3.19)
в одном испытании. Для оценивания p ( A) проведем n независи- n
мых испытаний, в которых событие A произошло m раз. Тогда Определим дисперсию оценки p* :
случайная величина
⎛m⎞ 1 np(1 − p) p(1 − p)
m D ( p * ) = D ⎜ ⎟ = 2 D ( m) = = .
p* = (3.17) ⎝n⎠ n n2 n
n
является частностью (относительной частотой) события A . Свой- Так как D(p*) совпадает с минимальной дисперсией Dmin , то
ства этой точечной оценки определяет частность р*, будучи несмещенной оценкой, является также и эф-
фективной.
Теорема 3.5. Относительная частота p * = m / n появления
Теорема доказана.
события A в n испытаниях есть состоятельная, несмещенная и
эффективная оценка вероятности p( A) . 3.5. Метод максимального правдоподобия
В предыдущих пунктах были рассмотрены различные точеч-
Доказательство. Состоятельность оценки p * вытекает из
ные оценки, являющиеся некоторыми функциями от результатов
теоремы Бернулли, согласно которой для любого ε > 0 выполня- наблюдения. Однако осталось неясным, почему были взяты имен-
ется неравенство но эти функции. Рассмотрим один из методов, позволяющих их
⎛m ⎞ получить. Для понимания его сущности обратимся к следующему
lim P ⎜ − P( A) < ε ⎟ = 1 , (3.18) примеру.
n →∞
⎝ n ⎠ Предположим, что график плотности распределения генераль-
или в других обозначениях: ной совокупности Х имеет вид равнобедренного треугольника
m p АВС, длина основания и высота которого зафиксированы, а неиз-
⎯⎯→ p ( A) .
n вестным параметром θ является абсцисса точки D – середины от-
Для доказательства несмещенности этой оценки зафиксируем резка АВ. Пусть x1 , x 2 , ..., x n – выборка из генеральной совокуп-
число испытаний n . Найдем математическое ожидание частности
ности X. Зададимся вопросом: в какую точку оси абсцисс необхо-
m/n, имея в виду, что в условиях испытаний Бернулли величина т димо поместить точку D, если в результате опыта получена именно
выборка x1 , x 2 , ..., x n ? Конечно, никаких ограничений для ее рас-
51 52
положения на оси х нет. Но если мы сдвинем треугольник далеко m
влево или вправо от элементов выборки, то вероятность получения ∑nj = n .
j =1
выборки, попавшей в промежуток [ L, M ] , которому принадлежит
точка D, будет равна нулю, так как Учитывая независимость случайных величин X 1 , ..., X n , ве-
роятность получения выборки x1 , x 2 , ..., x n можно представить как
P ( X ∈ [ L, M ]) = ∫ p( x)dx = ∫ 0 ⋅ dx = 0 .
[ L,M ] [ L,M ] P ( X 1 = x1 ; ...; X n = xn ) = P( X 1 = x1 ) K P( X n = xn ) .
Поэтому точка D должна лежать в "гуще" выборки, т.е. таким Эта вероятность есть функция от x1 , x 2 , ..., x n , которая назы-
образом, чтобы значения ординат p ( xi ,θ ) были в совокупности вается функцией максимального правдоподобия и обозначается
как можно больше. Тогда становится правдоподобным получение L(x1, x2 ,K, xn ,θ) = P( X1 = x1) K P(Xn = xn ) .
именно выборки x1 , x 2 , ..., x n . Данный метод называется методом Учитывая, что значение yi встречается в выборке nj раз, по-
максимального правдоподобия. Итак, параметр θ , согласно этому лучаем
методу, нужно выбирать так, чтобы вероятность получения набора
значений x1 , x 2 , ..., x n случайной величины Х при этом значении L( x1 ,..., xn ,θ ) = p1n1 (θ ) ... pmnm (θ ) .
θ была наибольшей. Конечно, о вероятности получения данного Как уже было сказано, суть метода максимального правдопо-
набора значений мы строго можем говорить лишь в том случае, ко- добия состоит в том, что в качестве параметра θ берется такое
гда рассматриваемая генеральная совокупность распределена дис- значение, которое максимизирует функцию L( x1 ,..., xn , θ ) . Полу-
кретно. Напомним, что для непрерывных случайных величин лю-
бые конкретные значения появляются с нулевой вероятностью. ченное значение, если оно существует, является функцией
*
Поэтому метод максимального правдоподобия имеет некоторые от x1 , x 2 , ..., x n , т.е. θ = θ МП ( x1 , x 2 , ..., x n ) . Заменяя элементы
различия в случае дискретных и непрерывных генеральных сово- x1 , x2 ,..., xn случайными величинами X 1 ,..., X n , получаем оценку
купностей.
максимального правдоподобия θ МП
*
( X 1 , X 2 ,..., X n ) .
Дискретная генеральная совокупность. Пусть Х – дискрет-
ная генеральная совокупность, распределение которой зависит от Точка максимума функции L( x1 ,..., xn , θ ) удовлетворяет не-
некоторого параметра θ , т.е. линейному (в общем случае) уравнению
P ( X = y i ) = p j (θ ) , ∂L( x1 ,..., x n ,θ )
= 0, (3.20)
где j = 1,..., m; y1,…, ym – все различные значения, которые может ∂θ
принимать случайная величина X, а вероятности, с которыми эти *
и поэтому конкретное значение оценки θ МП ( x1 , x 2 , ..., x n ) опре-
значения появляются, зависят от параметра θ . Предположим, что
x1 , x 2 , ..., x n – выборка из генеральной совокупности X, причем деляют как корень уравнения (3.20).
Функции L( x1 ,..., xn , θ ) и ln L( x1 ,..., xn , θ ) достигают макси-
значение yj встречается в выборке nj раз, т.е. nj – частота значения
yj, и поэтому имеет место равенство мума при одном и том же значении θ . Поэтому вместо отыскания
максимума функции L( x1 ,..., xn , θ ) находят максимум функции

53 54
ln L( x1 ,..., xn , θ ) . Эта функция получила название логарифмиче- события А в одном опыте. По выборке x1 , ..., x n из генеральной со-
ской функции правдоподобия. вокупности Х необходимо оценить параметр р.
Построение оценки максимального правдоподобия можно Решение. Выборка x1 , ..., x n состоит из нулей и единиц, при-
разбить на следующие этапы:
Э т а п 1 . Определяют производную логарифмической функ- чем xi = 1 , если в i-м опыте событие А произошло, и xi = 0 , если
ции правдоподобия по параметру θ . событие не произошло. Предположим, что т – частота появления
Э т а п 2. Приравнивая производную к нулю, находят крити- события А в п опытах. Тогда выборка x1 , ..., x n содержит m еди-
ческую точку θ кр – корень уравнения правдоподобия ниц и (n − m) нулей. Так как P ( X = 1) = p, P ( X = 0) = 1 − p , то
∂L( x1 ,..., x n ,θ ) L( x1 , ..., xn , θ ) = p m (1 − p) n − m .
= 0.
∂θ Найдем точку максимума логарифмической функции макси-
2 мального правдоподобия
∂ ln L
Э т а п 3. Находят вторую производную и ее значение ln L( x1 ,..., xn ,θ ) = m ln p + (n − m) ln(1 − p) .
∂θ 2
Определим из уравнения
в точке θ кр . Если вторая производная в точке θ кр меньше нуля, то
∂ ln L
в точке θ кр функция L( x1 ,..., xn , θ ) достигает максимума.
=0
∂p
Найденная таким образом θ МП *
является функцией случайных критическую точку. Имеем
∂ ln L m n − m
величин X 1 , X 2 ,..., X n и, следовательно, сама является случайной = − .
*
∂p p 1− p
величиной. Конкретное значение оценки θ МП получается при Решая уравнение
подстановке в *
θ МП ( X 1 , ..., X n ) вместо X 1 , X 2 ,..., X n значений m n−m
− =0,
выборки x1 , x 2 , ..., x n . p 1− p
Непрерывная генеральная совокупность. Рассмотрим слу- находим p кр = m
n
. Убедимся, что при данном значении параметра
чай, когда генеральная совокупность имеет непрерывный ряд рас-
pкр функция ln L достигает максимума. Для этого нужно прове-
пределения. Функцию максимального правдоподобия определим
по правилу рить, что
L( x1 , ..., xn ,θ ) = p( x1 ,θ )L p( xn , θ ) , ∂ 2 ln L m n−m
= 2− < 0.
где p( x,θ ) – плотность распределения генеральной совокупности. ∂p p (1 − p ) 2
2

Все остальное, изложенное для дискретного случая, переносится Подставляя в это неравенство вместо p значение p кр , убеждаемся
на непрерывный.
♦ Пример 3.1. Проводится п независимых опытов, в каждом в его справедливости. Значит, p кр = mn – оценка максимального
из которых событие А повторяется с неизвестной вероятностью р.
Рассмотрим генеральную совокупность Х – количество появлений правдоподобия, т.е. p*МП = m
n
. Заметим, что полученная оценка –

55 56
относительная частота – является состоятельной и несмещенной при λ = λкр , то найденная критическая точка есть точка максиму-
оценкой для параметра p . ☻
ма. Поэтому оценка максимального правдоподобия для параметра
♦ Пример 3.2. Найти оценку максимального правдоподобия λ является случайной величиной
для параметра λ распределения Пуассона.
Решение. Напомним, что распределение Пуассона имеет вид X 1 + ... + X n
λ*МП = ,
λm n
P( X = m) = e−λ ,
m! т.е. X в . ☻
где m принимает любые целые неотрицательные значения. Пусть ♦ Пример 3.3. Найти оценку максимального правдоподобия
x1 , ..., xn – выборка из генеральной совокупности X . Тогда для параметра α показательного распределения
n
λx i ⎧α e −α x , x > 0;
L( x1 ,..., xn , λ ) = ∏ e−λ . p( x ) = ⎨ (3.21)
i =1 xi ! ⎩ 0, x ≤ 0.
Преобразовав произведение, получим Решение. По выборке x1 , ..., xn , состоящей из положительных
λ x +...+ x
1 n чисел, находим
L( x1 ,..., xn , λ ) = e − nλ . n
x1 !⋅ x2 !⋅ ... ⋅ xn L( x1 ,..., xn , α ) = ∏ α e −α xi = α n e−α ( x1 +...+ xn ) .
i =1
Поэтому логарифмическая функция максимального правдоподобия
имеет вид: Поэтому
ln L = n ln α − α ( x1 + ... + xn ) .
ln L = −nλ + ( x1 + ... + xn ) ln λ − ln( x1!... xn ! ) .
Решая уравнение
Находим критическую точку, решая уравнение ∂ ln L
= 0,
∂ ln L ∂α
= 0.
∂λ n
находим α = . Так как условие
Получим x1 + ... + xn
x1 + K + xn ∂ 2 ln L n
−n + =0. =− <0
λ ∂α 2 α2
x 1 + ...+ x n при λ = λкр выполняется, то оценкой максимального правдоподо-
Отсюда λкр = . Так как
n бия для параметра α является
∂ 2 ln L x + K + xn
= − 1 <0 α МП
*
= 1 .☻
∂λ 2
λ2 Хв

57 58
♦ Пример 3.4. Найти оценки максимального правдоподобия ∂ 2 ln L ∂ 2 ln L
для параметров а и σ нормально распределенной генеральной со- 2
∂ ln L ∂a 2 ∂a∂σ
вокупности. < 0 , > 0.
Решение. Учитывая, что плотность распределения в данном
∂a 2 ∂ 2 ln L ∂ 2 ln L
∂a∂σ ∂a 2
случае
( x − a )2
Вычислим вторые производные:
1 −
p ( x, а , σ ) = e 2σ 2
, ∂ 2 ln L n
2πσ 2
=−< 0;
∂a σ2
получим по выборке x1 , ..., xn
∂ 2 ln L ∂ 2 ln L n x −a
n ( xi − a ) 2 − ∑
n
( xi − a ) 2 = = −2 ∑ i 3 ;
1 − 1 ∂a∂σ ∂σ∂a i =1 σ
L( x1 , ..., xn , a,σ ) = ∏ = 2σ 2
2

e e i =1
.
2πσ ( )σ
n
i =1 2π n
∂ ln L
2
n n 3 n
4 ∑
= = − ( xi − a ) 2 . (3.24)
Отсюда ∂σ 2
∂σ 2
σ σ i =1
2

( xi − a ) 2 n
Подставляя значения для a кр и σ кр2
из (3.22) и (3.23), получа-
ln L = − n2 ln 2π − n ln σ − ∑ .
i =1 2σ 2 ем:
Находим критические точки этой функции, решая систему уравне-
∂ 2 ln L 2 ⎛ n n

ний = − 3 ⎜ ∑ xi − ∑ xi ⎟ = 0;
∂ ln L ∂ ln L ∂σ∂a σ ⎝ i =1 i =1 ⎠
= 0; =0.
∂a ∂σ ∂ ln L n
2
3 2n
Вычисляя частные производные, получим 2 = − 2 nd в = − , (3.25)
∂ ln L n ( xi − a )
∂σ dв dв dв
=∑ = 0,
∂a i =1 σ2
где d в – значения выборочной дисперсии.
∂ ln L n 1 n
= − + 3 ∑ ( xi − a ) 2 = 0 . Вычисляя определитель в критической точке, получим
∂σ σ σ i =1
∂ 2 ln L ∂ 2 ln L n
Отсюда ∂a∂σ − 0 2n 2
∂a 2 =

= > 0.
x1 + K + xn ∂ 2 ln L ∂ 2 ln L 2n
акр = ; (3.22) 0 − dв d в2
n ∂a∂σ ∂σ 2
n
2
Поэтому при значениях a кр и σ кр
∑ (x − a
i кр )2 , определенных по формулам
2
σ кр = i =1
. (3.23) (3.22) и (3.23), функция ln L принимает максимальное значение.
n Следовательно, оценками максимального правдоподобия будут
Проверим, что при найденных значениях a кр и σ кр функ- a*МП = X в ; σ *МП = Dв . ☻
ция ln L принимает максимальное значение. Для этого нужно про-
верить выполнение неравенств

59 60
♦ Пример 3.5. Генеральная совокупность распределена рав- Для вычисления выборочного значения этой оценки можно
номерно на интервале ( a, b) . По выборке x1 , ..., xn оценить пара- использовать статистическую функцию Excel ДИСП, обращение к
которой имеет вид:
метры a и b .
Решение. Найдем оценки максимального правдоподобия для =ДИСП(арг1; арг2; …; арг30),
параметров a и b . Плотность генеральной совокупности имеет где арг1; арг2; …; арг30 – числа или адреса ячеек, содержащих чи-
вид: словые величины.
⎧⎪ 1 , x ∈ ( a, b) ♦ Пример 3.6. По выборке примера 2.3 вычислить оценку
p ( x , a , b) = ⎨ b − a . (3.26) (3.28).
⎪⎩0, x ∉ ( a, b) Решение. Первоначально, начиная с ячейки А3, введем в стол-
Поэтому функция максимального правдоподобия бец А 55 элементов выборки (рис. 3.3). Затем, используя функции
n КВАДРОТКЛ, ДИСП (как показано на рис. 3.3), вычислим оценку
L( x1 ,..., xn , a, b) = ∏ p( xi , a, b) (3.28). Видно ожидаемое совпадение двух вычисленных значений.
i =1 ☻
равна нулю, если хотя бы один сомножитель произведения равен
нулю, и больше нуля, если все значения x1 , ..., xn лежат на интер-
вале ( a , b) , т.е.
a ≤ min( x1 ,..., xn ), b ≥ max( x1 ,..., xn ) . (3.27)
Тогда L( x1 ,..., xn , a , b) = 1 . Значение этой функции будет
(b − a ) n
максимальным, если величина (b − a ) минимальна. Учитывая
(3.27), получим
aкр = min( x1 ,..., xn ), bкр = max( x1 ,..., xn ) ,
т.е. a МП = min( X 1 ,..., X n ), b*МП = max( X 1 ,..., X n ) . ☻
*

3.6. Вычисление точечных оценок в Excel


Вычисление исправленной дисперсии. В п. 3.3 показано, что
оценка Рис. 3.3. Фрагмент вычисления исправленной дисперсии

1 n Вычисление оценок максимального правдоподобия. В


S2 = ∑ ( X i − X в )2
n − 1 i =1
(3.28)
п. 3.5 были рассмотрены оценки, вычисляемые из условия макси-
мума функционала правдоподобия. В приведенных примерах из
является несмещенной точечной оценкой для дисперсии случайной
условий максимума были получены алгебраические уравнения,
величины, и такую оценку часто называют исправленной дисперсией.
решения которых определялись достаточно просто.
В общем случае не удается получить таких простых соотно-
шений и оценки вычисляются непосредственным определением
61 62
точек максимума функционала правдоподобия, т.е. необходимо • включить опцию Равной: максимальному значению (ищутся
решить оптимизационную задачу. значения, при которых функционал достигает максимального зна-
Для решения такой задачи в Excel есть команда Поиск реше- чения);
ния пункта меню Сервис. Эта команда позволяет решать не только • в поле Изменяя ячейки: ввести адреса ячеек, в которых нахо-
задачи безусловной оптимизации, но и задачи условной оптимиза- дятся значения искомых оценок (в нашем примере это ячейки
ции, т.е. когда ищется максимум функционала с учетом дополни- С8:D8);
тельных ограничений на значения искомых оценок. Например, • щелкнув мышью на кнопке Добавить, сформировать ограни-
значение дисперсии σ 2 не может быть отрицательным. чения на значения искомых оценок (в нашем примере это требова-
Применение команды Поиск решения для вычисления оценок ние σ ≥ 0.0000001 , чтобы ln(σ ) не был равен –∞).
максимального правдоподобия покажем на следующем примере.
♦ Пример 3.7. По выборке примера 2.3 вычислить оценки
максимального правдоподобия для математического ожидания a и
дисперсии σ 2 из условия максимума функционала правдоподобия
вида:
n n
( x − a)2
− ln(2π ) − n ln(σ ) − ∑ i 2 , (3.29)
2 i =1 2σ
предполагая при этом, что выборка порождена случайной величи-
ной, подчиняющейся нормальному распределению.
Решение. Первоначально, начиная с ячейки А3, введем в стол-
бец А 55 элементов выборки (диапазон А3:А57). Затем в ячейку С8
занесем произвольное значение a (например, 10), в ячейку D8 –
значение σ (например, значение 4 > 0), в ячейке Е8 вычислим σ 2 .
В ячейках В3:В57 запрограммируем вычисление разностей xi − a
(рис. 3.4). В ячейке С5 запрограммируем вычисление величины
функционала (3.29). В верхней части документа на рис. 3.4 показа-
на запрограммированная формула.
После этих подготовительных операций можно перейти к вы-
полнению команды Поиск решения. Для этого необходимо обра-
титься к пункту основного меню Сервис и в появившемся меню
щелкнуть мышью на команде Поиск решения. Затем в появившем-
ся диалоговом окне выполнить следующие действия (см. рис. 3.4):
• в поле ввода Установить целевую ячейку: ввести адрес ячей-
ки, в которой вычисляется значение минимизируемого функциона-
ла (в нашем примере С5);

Рис. 3.4. Задание параметров команды Поиск решения


63 64
выборочными оценками примера 2.11 (см. рис. 2.7), видим их пол-
После выполнения этих операций щелкнуть на кнопке Выпол- ное совпадение. ☻
нить. Начинается поиск решения введенной оптимизационной за-
дачи. Спустя некоторое время на экране появится новое диалого- Задание 3.1. Предполагая, что выборка примера 2.1 порожде-
вое окно Результаты поиска решения (рис. 3.5). Для сохранения на случайной величиной, имеющей показательное распределение
найденных значений оценок в соответствующих ячейках необхо- (3.21), вычислить оценку максимального правдоподобия для пара-
димо включить опцию Сохранить найденное решение и щелкнуть метра α , используя команду Поиск решения.
на кнопке ОК. Рекомендация. Оценку максимального правдоподобия осуще-
ствлять из условия максимума функционала
n
n ln(α ) − α ∑ xi
i =1

при ограничении α > 0 . При вызове команды Поиск решения ис-


пользовать пример 3.7. ♥

Функции Excel для вычисления других точечных оценок.


Для вычисления среднеквадратичных отклонений можно ис-
пользовать следующие функции Excel.
Функция СТАНДОТКЛОН вычисляет
1 n
∑ ( xi − xв )2 .
n i =1
Обращение к ней имеет вид:
=СТАНДОТКЛОН(арг1; арг2; …; арг30),
где арг1; арг2; …; арг30 – числовые константы или адреса ячеек,
содержащих числовые данные.
Функция СТАНДОТКЛОНП вычисляет
1 n

n − 1 i =1
( xi − xв ) 2 .
Рис. 3.5. Результаты выполнения команды Поиск решения
Обращение к ней имеет вид:
Из рис. 3.5 видно, что вычисленные значения оценок находят-
=СТАНДОТКЛОНП(арг1; арг2; …; арг30),
ся в ячейках С8, D8 и равны а = 17.907, σ = 2.933. Ячейка С5 со-
держит значение максимизируемого функционала, равное –137.22. где арг1; арг2; …; арг30 – числовые константы или адреса ячеек,
Сравнивая вычисленные значения оценок a = 17.907 и σ 2 = 8.601 с содержащих числовые данные.

65 66
Функция ЭКСЦЕСС вычисляет оценку μ3
2 для характеристики асимметрии , которая для симметричной
n( n + 1) n
⎛ xi − xв ⎞ 3( n − 1)
2
σ3
∑ ⎜ ⎟ −
( n − 1)( n − 2)( n − 3) i =1 ⎝ d в ⎠ ( n − 2)( n − 3) плотности распределения равна 0.
μ4 Обращение к функции имеет вид:
для характеристики эксцесс − 3 , которая определяет островер-
σ4 =СКОС(арг1; арг2; …; арг30),
шинность или плосковершинность плотности распределения.
где арг1; арг2; …; арг30 – числовые константы или адреса ячеек,
Обращение к функции имеет вид: содержащих числовые данные.
=ЭКСЦЕСС(арг1; арг2; …; арг30),
где арг1; арг2; …; арг30 – числовые константы или адреса ячеек, Вычисление описательных статистик. Описательные стати-
содержащих числовые данные. стики можно разделить на следующие группы:
• характеристики положения описывают положение данных
Функция МОДА вычисляет наиболее часто встречающееся на числовой оси (среднее, минимальное и максимальное значения,
значение в заданных аргументах функции, т.е. значение, встре- медиана и др.);
чающееся в выборке с максимальной частотой.
• характеристики разброса описывают степень разброса
Обращение к функции имеет вид: данных относительно своего центра (дисперсия, размах выборки,
=МОДА(арг1; арг2; …; арг30), эксцесс, среднеквадратическое отклонение и др.);
• характеристики асимметрии определяют симметрию рас-
где арг1; арг2; …; арг30 – числовые константы или адреса ячеек,
пределения данных относительно своего центра (коэффициент
содержащих числовые данные.
асимметрии, положение медианы относительно среднего и др.);
Если в заданных значениях аргументов нет повторяющихся • характеристики, описывающие закон распределения (час-
значений, то функция возвращает признак ошибки #Н/Д.
тоты, относительные частоты, гистограммы и др.).
Функция МЕДИАНА вычисляет значение выборки, приходя- Основные характеристики положения, разброса и асимметрии
щееся на середину упорядоченной выборочной совокупности. Если можно вычислить, используя режим Описательная статистика
выборка имеет четное число элементов, то значение функции бу- команды Пакет анализа.
дет равно среднему двух значений, находящихся по середине упо- Для вызова режима Описательная статистика необходимо
рядоченной выборочной совокупности. Например, медиана выбор- обратиться к пункту Сервис, команде Пакет анализа, выбрать в
ки (200, 236, 250, 305, 337, 220) будет равна (236 + 250) / 2 = 243. списке режимов Описательная статистика и щелкнуть на кноп-
Обращение к функции имеет вид: ке ОК. В появившемся диалоговом окне Описательная статистика
=МЕДИАНА(арг1; арг2; …; арг30), задать следующие параметры (рис. 3.6):
Входной интервал: – адреса ячеек, содержащих элементы вы-
где арг1; арг2; …; арг30 – числовые константы или адреса ячеек,
борки.
содержащих числовые данные.
Группирование: – задает способ расположения (по столбцам
Функция СКОС вычисляет оценку или по строкам) элементов выборки.
n n
( xi − xв )
3 Метки в первой строке – включается, если первая строка

( n − 1)( n − 2) i =1 d в3 / 2
(столбец) во входном интервале содержит заголовки.

67 68
Уровень надежности: – включается, если необходимо вычис-
лить доверительный интервал для математического ожидания с за-
даваемым ( в % ) уровнем надежности γ .
К-й наименьший: – включается, если необходимо вычислить
к-й наименьший (начиная с xmin ) элемент выборки. При к = 1 вы-
числяется наименьшее значение.
К-й наибольший: – включается, если необходимо вычислить к-й
наибольший (начиная с xmax ) элемент выборки. При к = 1 вычисля-
ется наибольшее значение.
Пример задания параметров приведен на рис. 3.6.

Результаты работы режима Описательная статистика вы-


водятся в виде таблицы, в левом столбце которой приводится на-
звание вычисленной характеристики (рис. 3.7), позволяющее одно-
значно трактовать характеристику. Тем не менее, поясним сле-
дующие названия характеристик:
• Интервал – определяет размах выборки xmax − xmin ;
• Сумма – определяет сумму всех элементов выборки;
• Счет – определяет число обработанных элементов выборки;
• Уровень надежности – определяет величину Δ x , от кото-
рой зависит доверительный интервал для математического ожида-
ния, имеющий вид
[ xв − Δ x , xв + Δ x ] ,
где xв – выборочное среднее (подробнее см. п. 4.3).

♦ Пример 3.8. По выборке примера 2.3 вычислить описатель-


Рис. 3.6. Параметры режима Описательная статистика ные статистики, используя режим Описательная статистика.
Решение. Первоначально, начиная с ячейки А3, введем в стол-
Выходной интервал: / Новый рабочий лист: / Новая рабочая бец А 55 элементов выборки. После этого обратимся к пункту
книга – определяет место вывода результатов вычислений. При Сервис, команде Пакет анализа. В списке режимов выберем Опи-
включении Выходной интервал: в поле вводится адрес ячейки, на- сательная статистика. В появившемся диалоговом окне вклю-
чиная с которой будут выводиться результаты. чим параметры, показанные на рис. 3.6, и щелкнем ОК. Вычислен-
Итоговая статистика: – включается, если необходимо вы- ные характеристики приведены на рис. 3.7. ☻
вести по одному полю для каждой из вычисленных характеристик.

69 70
4. ИНТЕРВАЛЬНЫЕ ОЦЕНКИ
НЕИЗВЕСТНЫХ ПАРАМЕТРОВ

4.1. Некоторые распределения выборочных характеристик


Генеральные совокупности часто имеют нормальный закон
распределения. В этом случае многие выборочные характеристики,
в том числе X в , Dв , S 2 , выражаются через небольшое число рас-
пределений. Как правило, в математической статистике использу-
ются не плотности этих распределений, а некоторые характеристи-
ки, представленные таблицами. Чаще всего в качестве такой харак-
теристики выступает квантиль распределения.
Квантилем уровня p (0 < p < 1) или р-квантилем случайной
величины Х называется такое число dp, что вероятность
P( X < d p ) равна заданной величине р.
Из определения следует, что если непрерывная случайная ве-
личина Х имеет плотность распределения p (x ) , то квантиль d p
определяется равенством
dp
∫ p( x )dx = p . (4.1)
−∞

Это означает, что площадь фигуры, ограниченной осью абс-


Рис. 3.7. Результаты работы Описательная статистика
цисс, кривой f ( x ) и прямой x = d p , равна величине р. На
Задание 3.2. Сравните значения характеристик (см. рис. 3.7) рис. 4.1,а показан квантиль d 0.1 , а на рис. 4.1,б – квантиль d 0.9 .
со значениями аналогичных характеристик, вычисленных в преды- Площади заштрихованных фигур равны 0.1 и 0.9 соответственно.
дущих примерах. ♥ Рассмотрим несколько распределений, которым подчиняются
выборочные характеристики и которые используются для построе-
ния интервальных оценок.
Распределение χ (распределение К. Пирсона). Пусть
2

N1 ,..., N n – независимые нормально распределенные случайные


величины с параметрами (0,1). Распределение случайной величины

χ n2 = N12 + N 22 + N 32 + ... + N n2 (4.2)

71 72
называется распределением χ с п степенями свободы, а сама ве-
2
личины χ n2 . Так как случайные величины N12 ,..., N n2 независимы, то
личина χ 2 – случайной величиной χ с п степенями свободы.
2
D( χ n ) = nD( N1 ) = n ⎡⎣ M ( N1 ) − M ( N1 ) ⎤⎦ .
2 2 4 2
(4.3)
Заметим, что количество степеней свободы п является единст-
венным параметром χ -распределения и значения χ 2 неотрица-
2 Плотность распределения случайной величины N1 равна
2
− x2
тельны, т.е. P ( χ n2 < 0) = 0 .
p( x) = 1

e , значит,

а p(x) ∞ ∞
1 2

M ( N ) = ∫ x p( x)dx = ∫x e
− x2
1
4 4 4
= 3.
−∞ 2π −∞
Последний интеграл вычисляется методом интегрирования по
частям. Далее, так как M ( N12 ) = 1 , то D( χ n2 ) = n(3 − 1) = 2n . Та-
ким образом, χ -распределение с п степенями свободы имеет сле-
2

дующие числовые характеристики:


d0.1 x M [ χ n2 ] = n; D[ χ n2 ] = 2n .
(4.4)
p(x) Согласно центральной предельной теореме, если случайные
б величины N12 , N 22 ,..., N n2 независимы, одинаково распределены и
имеют конечные дисперсии, то последовательность
χ n2 = N12 + ... + N n2 асимптотически нормальна. Другими словами,
при больших значениях п распределение случайной величины χ n2
близко к нормальному распределению с параметрами
d0.9 x a = n, σ 2 = 2n . Однако при малых значениях п функция плотно-
Рис. 4.1. К определению квантилей случайной величины сти случайной величины χ n2 значительно отличается от кривой
Гаусса.
Определим математическое ожидание величины χ 2 . По опре- На рис. 4.2 показаны плотности распределения р(x) случайной
делению (4.2) имеем величины χ n2 при n = 2, n = 6 и n = 20 . Видно, что при увеличе-
нии n плотность р(x) "приближается" к плотности нормального рас-
⎛ n ⎞ n
[
n
]
M ( χ n2 ) = M ⎜ ∑ N i2 ⎟ = ∑ M ( N i2 ) = ∑ D( N i ) + M 2 ( N i ) , пределения.
⎝ i =1 ⎠ i =1 i =1
так как D( X ) = M ( X ) − M ( X ) . Но D( N i ) = 1, M ( N i ) = 0 , а зна-
2 2

чит, M ( χ n2 ) = n . Нетрудно вычислить и дисперсию случайной ве-


73 74
р(x) свободы. Плотность вероятности случайной величины Tn имеет
− n2+1
⎛ x 2 ⎞⎟
вид pn = Bn ⎜1 + , где Bn – некоторая константа, удовле-
n=2 n = 20 ⎜ n ⎟⎠


n=6 творяющая условию нормирования ∫ pn ( x )dx = 1 . При больших
−∞
значениях п кривая pn (x ) близка к кривой нормального распреде-
ления N (0,1) . Поэтому в практических расчетах при п > 30 часто
x
считают, что
2
Рис. 4.2. Плотность распределения χ2 1 − x2
pn ( x ) = e .

Обратим внимание на одно замечательное свойство распреде-
ления χ n2 . Строго говоря, это свойство можно доказать, используя, Заметим, что функция плотности pn (x ) симметрична относитель-
например, производящие функции. Свойство состоит в том, что но оси ординат.

сумма независимых случайных величин χ n2 + χ m2


также распреде- Распределение Фишера (F-распределение). Пусть χ n2 и χ m
2

лена по закону χ с ( n + m ) степенями свободы. Объясняется это


2 – независимые случайные величины, имеющие χ2-распределение с
п и m степенями свободы соответственно. Распределение случай-
тем, что случайная величина χ n2 + χ m
2
представляется в виде сум- ной величины
мы ( n + m ) квадратов случайных величин, независимых и нор-
χ n2 n
мально распределенных с параметрами (0,1). Fn , m = (4.6)
χ m2 m
Распределение Стьюдента (t-распределение). Пусть N (0,1) называется F-распределением или распределением Фишера с п и m
– нормально распределенная случайная величина с параметрами степенями свободы, а сама величина (4.6) – Fn , m величиной. Так
a = 0, σ = 1 , а χ n2 – независимая от N (0,1) случайная величина,
как случайные величины χ n2 ≥ 0 и χ m
2
≥ 0, то Fn, m ≥ 0 .
подчиняющаяся распределению χ2 с n степенями свободы. Тогда
распределение случайной величины В дальнейшем мы часто будем ссылаться на следующую тео-
рему о распределении выборочных характеристик X в и Dв , дока-
N (0,1) n занную Р. Фишером.
Tn = (4.5)
χ n2 Теорема 4.1 (о распределении выборочных характеристик).
Если генеральная совокупность Х распределена по нормальному
называется t-распределением или распределением Стьюдента. Са- закону с параметрами a и σ , то:
ма случайная величина (4.5) называется t-величиной с п степенями
75 76
а) случайная величина X в распределена нормально с пара- ( X в − a) n − 1
метрами (a, σn ) ; Dв

б) nDв σ 2 имеет распределение χ n2−1 ; имеет распределение Стьюдента с ( n − 1 ) степенями свободы.


в) случайные величины X в и Dв независимы. Напомним, что исправленная дисперсия S 2 определяется как
Мы не будем полностью доказывать эту теорему, а ограни- n
чимся доказательством утверждения а). Очевидно, что X в есть S2 = Dв .
n −1
линейная комбинация Тогда получаем новое
1 1 1
Xв = n
X1 + n
X 2 + ... + n
Xn Следствие. Если условия теоремы о распределении выбороч-
ных характеристик выполнены, то случайная величина
независимых, нормально распределенных случайных величин. Как
отмечалось в курсе теории вероятностей, в этом случае случайная ( X в − a) n
величина X в распределена нормально. Легко получить, что S2

⎛ x + x2 + ... + xn ⎞ M ( x1 ) + ... + M ( xn ) na имеет распределение с ( n − 1 ) степенями свободы.


M (Xв) = M ⎜ 1 ⎟= = =a,
⎝ n ⎠ n n 4.2. Понятие интервальной оценки параметра
2 случайной величины
⎛ x + ... + xn ⎞ D ( x1 ) + ... + D( xn ) nσ σ2
D( X в ) = D⎜ 1 ⎟= = = . Вычисляя на основании результатов наблюдений точечную
⎝ n ⎠ n2 n2 n
Тем самым первое утверждение теоремы доказано. оценку θ * неизвестного параметра θ , мы понимаем, что величина
Как следует из в), используя случайные величины X в и Dв , θ * является (в силу своей случайности) лишь приближенным зна-
можно составить случайную величину Tn −1 . Действительно, про- чением параметра θ . При большом числе наблюдений точность
( X в − a) n приближения бывает достаточной для практических выводов в си-
нормировав X в , получим = N (0,1) . Так как X в и Dв лу несмещенности, состоятельности и эффективности "хороших"
σ
независимы, то по (4.5) оценок. Для выборок малого объема точечные оценки могут значи-
( X − a ) n n − 1 nDв ( X в − a ) n − 1 тельно отличаться от оцениваемого параметра и вопрос о точности
Tn −1 = в : = . получаемых оценок становится очень важным. В математической
σ σ2 Dв
статистике он решается введением интервальных оценок.
Итак, мы получили
Интервальной оценкой для параметра θ называется такой ин-
Следствие. Если условия теоремы о распределении выбороч-
тервал ⎛⎜ θ * ,θ ⎞⎟ со случайными границами, что
*
ных характеристик выполнены, то случайная величина
⎝ ⎠
* *
P (θ < θ < θ ) = γ . (4.7)
77 78
Вероятность γ называется надежностью интервальной оценки р(х)
* *
или доверительной вероятностью, случайные величины θ , θ –
*
доверительными границами, а сам интервал (θ * , θ ) иногда назы-
вают доверительным интервалом. Центром этого интервала явля-
ется значение точечной оценки θ * .
Надежность γ принято выбирать равной 0.95, 0.99. Тогда со-
*
бытие, состоящее в том, что интервал (θ * , θ ) покроет параметр х
− xγ xγ
θ , будет практически достоверным.
Общая теория построения интервальных оценок заключается в Рис. 4.3. К построению доверительных интервалов
определении случайной величины, зависящей от оцениваемого па-
раметра. Зная распределение этой случайной величины, находят Это значение легко находится с использованием интегральной
x t2
соответствующие доверительные границы и сам доверительный −

интервал с требуемой точностью. Посмотрим, как эта идея реали-


функции Лапласа Φ ( x) = 1
2π ∫e
0
2
dt . Действительно,

зуется для различных параметров.


P (− xγ < N (0,1) < xγ ) = Φ ( xγ ) − Φ (− xγ ) = 2Φ ( xγ ) = γ . (4.9)
4.3. Интервальные оценки математического ожидания
нормального распределения Значение xγ , удовлетворяющее нелинейному уравнению
Пусть генеральная совокупность Х распределена по нормаль- γ
Φ ( xγ ) = , (4.10)
ному закону N (a,σ ) , причем параметр σ известен, а параметр a 2
требуется оценить с надежностью γ . По теореме о распределении находится по табл. П1.
( X в − a) n Так как σ > 0, то события − xγ < (X в −a ) n
< xγ и
выборочных характеристик случайная величина рас- σ
σ xγ σ xγ σ
пределена по закону N (0,1) . На рис. 4.3 изображен график функ- Xв − <a< Xв + эквивалентны, а значит, их вероятно-
n n
ции плотности этой случайной величины, т.е. кривая
сти равны:
2
−x
y= 1 e 2 . Выберем число xγ так, что заштрихованная пло- ⎛ xγ σ xγ σ ⎞
2π P⎜⎜ X в − <a < Xв + ⎟⎟ = γ . (4.11)
щадь равна γ , т.е. ⎝ n n ⎠
Таким образом, для параметра a мы построили доверительный
P( − xγ <
(X в − a ) n
< xγ ) = γ . (4.8) интервал (интервальную оценку), левая граница которого
σ
79 80
xγ σ xγ σ xγ σ Поэтому только для интервала (4.12) со случайными границами
Xв − , правая – X в + , а точность – δ = . Центр можно утверждать, что
n n n
этого интервала находится в точке с координатой X в , а длина ин- P ( X в − 1.31 < a < X в + 1.31) = 0.95 . ☻
xγ σ Определим теперь интервальную оценку для неизвестной ге-
тервала 2 . Если объем выборки неограниченно возрастает, то
n неральной средней x г нормально распределенной генеральной со-
интервал стягивается в одну точку X в , которая является состоя- вокупности Х в том случае, когда генеральная дисперсия Dг неиз-
тельной и несмещенной оценкой для параметра a . вестна, т.е. построим доверительный интервал для параметра a ,
♦ Пример 4.1. По выборке объема п = 9 найдено среднее зна- если параметр σ неизвестен.
чение x в = 1.5 . Считая, что генеральная совокупность распреде- В отличие от предыдущего случая, вместо случайной величи-
лена по нормальному закону с σ = 2 , определить интервальную ( X в − a) n
ны , распределенной по закону N (0,1) , рассмотрим
оценку для математического ожидания с надежностью γ = 0.95 . σ
Решение. Используя табл. П1, находим, что ( X в − a) n − 1
случайную величину , которая согласно следствию

0.95
Φ ( xγ ) = = 0.475
из теоремы 4.1 распределена по закону Стьюдента Tn −1 . При за-
2
данном значении γ , пользуясь табл. П2, вычислим значение
при xγ = 1.96 . Тогда δ = 1.96 ⋅ 2 = 1.31 и доверительный интер-
9 t (γ , n) из условия
вал (4.11) имеет границы ( X в − 1.31, X в + 1.31) . Таким образом, с ⎛ ( X − a) n − 1 ⎞
вероятностью 0.95 можно быть уверенным в том, что интервал P⎜ − t (γ , n) < в < t (γ , n) ⎟ = γ , (4.13)
⎜ Dв ⎟
⎝ ⎠
( X в − 1.31, X в + 1.31) (4.12) где γ – надежность интервальной оценки. Заметим, что в табл. П2
накроет параметр a или, другими словами, с вероятностью 0.95 n означает не число степеней свободы, а объем выборки. Число
значение X в дает значение параметра а с точностью δ = 1.31. степеней свободы будет равно n − 1 .
Заметим, что эта трактовка неверна, если вместо случайной ( X в − a) n
Замена случайной величины на случайную вели-
σ
величины X в использовать вычисленное по конкретной выборке
( X в − a) n − 1
значение xв = 1.5. Тогда границы интервала (0.19, 2.81) будут не чину вызвана тем, что закон распределения послед-

случайными и возможны два случая:
• точка а лежит внутри этого интервала, тогда ней случайной величины известен и в ее запись не входит неиз-
вестный в данном случае параметр σ . Из условия (4.13) получаем
Р(0.19 < а < 2.81) = 1;
• точка а не лежит внутри (0.19, 2.81), тогда ⎛ t (γ , n) Dв t (γ , n) Dв ⎞
P⎜ X в − < a < Xв − ⎟=γ .
Р(0.19 < а < 2.81) = 0. ⎜ n −1 n −1 ⎟
⎝ ⎠
81 82
Таким образом, интервальная оценка надежности γ для неизвест- t (0.95,9) S 2.31
(см. (4.15)): δ = = S = 0.77 S , а интервальная оценка
ной генеральной средней а имеет границы n 3
⎛ ⎞ имеет границы ( X в − 0.77 ⋅ S , X в + 0.77 ⋅ S ) , которые зависят от двух
⎜ X − t (γ , n) Dв , X + t (γ , n) Dв ⎟.
⎜ в n −1
в
n −1 ⎟ случайных величин: X в и S. Подставляя вместо S ее вычисленное
⎝ ⎠
значение s = 2, получаем интервал
Выразим границы интервала через исправленную дисперсию S 2 .

(X в − 1.54, X в + 1.54 ) .
Так как S 2 = n Dв , то = S . Поэтому
n −1 n −1 n Сравнивая эту оценку с интервальной оценкой примера 4.1
(см. (4.12)), видим, что замена неизвестной величины σ вычис-
t (γ , n) Dв t (γ , n) S ляемой величиной s приводит к уменьшению точности интерваль-
= . ной оценки и увеличению длины доверительного интервала. Под-
n −1 n
ставив вместо случайной величины X в ее конкретное значение
Значит, границы доверительного интервала можно записать как
xв = 1.5 , получаем конкретное значение границ (0, 3). ☻
⎛ t (γ , n) S t (γ , n) S ⎞
⎜⎜ X в − , Xв + ⎟⎟ , (4.14) 4.4. Интервальные оценки дисперсии
⎝ n n ⎠
нормального распределения
а точность интервальной оценки определить соотношением Как и при построении интервальных оценок для математиче-
t (γ , n) ского ожидания, в данном случае также необходимо определить
δ = S. (4.15) случайную величину, распределение которой было известно и
n включало оцениваемый параметр σ. В соответствии с теоремой 4.1
Как и в предыдущем случае, центр интервала находится в точ- такой отправной точкой для построения доверительного интервала
t (γ , n) nDв
ке X в , но длина интервала 2 S является случайной величи- может быть случайная величина , распределенная по закону χ2
σ2
n
с (n − 1) степенями свободы. Заметим, что доверительные интер-
ной, принимающей тем меньшие значения, чем больше значение п.
Это объясняется тем, что наличие большей информации x1 ,..., x n о валы, построенные для параметра a , вообще говоря, можно было
выбрать несимметричными относительно X в и это не противоре-
генеральной совокупности Х позволяет сузить интервал.
♦ Пример 4.2. По выборке объема п = 9 из нормально распре- чило бы определению интервальной оценки. Но такой выбор ин-
деленной генеральной совокупности найдены значения xв = 1.5 и тервала, когда в его середине лежит состоятельная и несмещенная
оценка параметра, являлся предпочтительным. В данном случае
s = 2 . Построить интервальную оценку для математического ожи- 2 2
дания с надежностью γ = 0.95 . целесообразно выбрать два предела χ лев ,γ и χ пр ,γ так, что
Решение. Пользуясь табл. П2, находим величину
t (0.95,9) = 2.31 . Тогда точность δ определяется соотношением
(
P χ n2−1 < χ лев
2
) (2 2
,γ = P χ n −1 > χ пр ,γ = ) α
2
,

где α = 1 − γ , γ – надежность интервальной оценки.


83 84
2
Следовательно, χ лев 0.98. По табл. П3 квантилей χ2-распределения находим
,γ – квантиль χ n −1 -распределения уровня
2

2 2
2
α 2 , χ пр ,γ – уровня 1 − α 2 . Тогда имеет место равенство
χ лев ,γ = 8.6 ; χ пр ,γ = 33.7 .

⎛ 2 nDв 2 ⎞ Тогда интервальная оценка (4.16) принимает вид


P⎜ χ лев ,γ < 2
< χ пр ,γ ⎟ = γ , а интервал
⎝ σ ⎠ ( 0.59 Dв , 2.33 Dв ) .
⎛ nD nD ⎞ Подставляя вычисленное значение d в = 1.5 случайной величины
⎜ в
, 2 в ⎟ (4.16)
⎜ χ2 ⎟ Dв , получаем
⎝ пр,γ χ лев,γ ⎠
2 0.89 < σ 2 < 3.488. ☻
является интервальной оценкой для σ надежности γ .
2
Так как Dв = (n − 1) S n , то nDв = (n − 1) S 2 и интервал 4.5. Интервальная оценка вероятности события
В п. 3.4 было показано, что "хорошей" точечной оценкой ве-
⎛ n −1 ⎞
⎜ 2 n −1 2⎟ роятности р события является частность p * = m / n (см. (3.17)),
S , S (4.17)
⎜ χ2 2
χ лев ⎟ где п – общее число независимых испытаний, в каждом из которых
⎝ пр,γ ,γ ⎠