Открыть Электронные книги
Категории
Открыть Аудиокниги
Категории
Открыть Журналы
Категории
Открыть Документы
Категории
Ю.Е. ВОСКОБОЙНИКОВ
Е.И. ТИМОШЕНКО
УЧЕБНОЕ ПОСОБИЕ
3 4
УДК 519.2 ОГЛАВЛЕНИЕ
ББК 22.172
В650 ВВЕДЕНИЕ ........................................................................................... 5
Воскобойников Ю. Е. 1. МАТЕМАТИЧЕСКАЯ СТАТИСТИКА И ЕЕ ЗАДАЧИ............... 9
МАТЕМАТИЧЕСКАЯ СТАТИСТИКА (С ПРИМЕРАМИ В EXCEL) : учеб. пособие / 1.1. Задачи математической статистики ..........................................9
Ю. Е. Воскобойников, Е. И. Тимошенко ; Новосиб. гос. архитектур.- 1.2. Решение задач математической статистики в табличном
строит. ун-т (Сибстрин). – 2-е изд., перераб. и доп. – Новосибирск : НГА-
процессоре Excel .......................................................................11
СУ (Сибстрин), 2006. – 152 с.
2. ГЕНЕРАЛЬНАЯ И ВЫБОРОЧНАЯ СОВОКУПНОСТИ.
ISBN 5-7795-0292-7
ВЫБОРОЧНЫЕ ХАРАКТЕРИСТИКИ ............................................ 13
Данное учебное пособие содержит наиболее важные разделы ма- 2.1. Генеральная и выборочная совокупности ..............................13
тематической статистики: точечное и интервальное оценивание парамет-
ров распределений, проверку различных статистических гипотез. Приве- 2.2. Свойства выборочной совокупности ......................................14
дено большое количество примеров, которые позволят студентам лучше 2.3. Вариационные ряды..................................................................16
усвоить не только общетеоретические положения, но и возможные об- 2.4. Выборочная функция распределения. Гистограмма .............19
ласти приложения математической статистики. 2.5. Выборочное среднее и выборочная дисперсия ......................24
Учебное пособие написано в соответствии с программой курса 2.6. Вычисление выборочных характеристик в Excel ..................29
"Математическая статистика" для студентов специальности 080502 "Эко-
номика и управление на предприятии (в строительстве)". Также оно будет 3. ТОЧЕЧНЫЕ ОЦЕНКИ НЕИЗВЕСТНЫХ ПАРАМЕТРОВ ........ 40
полезно студентам других специальностей строительных вузов.
3.1. Определение и свойства точечной оценки .............................40
3.2. Точечная оценка математического ожидания ........................45
Печатается по решению издательско-библиотечного совета 3.3. Точечные оценки дисперсии....................................................47
НГАСУ (Сибстрин) 3.4. Точечная оценка вероятности события...................................51
Рецензенты:
3.5. Метод максимального правдоподобия....................................52
⎯ С.М. Зеркаль, д-р техн. наук, профессор, вед. науч. сотр. 3.6. Вычисление точечных оценок в Excel ....................................61
(Институт математики СО РАН);
4. ИНТЕРВАЛЬНЫЕ ОЦЕНКИ
⎯ А.В. Федоров, д-р физ.-мат. наук, профессор,
завлабораторией (Институт теоретической и прикладной НЕИЗВЕСТНЫХ ПАРАМЕТРОВ .................................................... 72
механики СО РАН) 4.1. Некоторые распределения выборочных характеристик........72
4.2. Понятие интервальной оценки параметра
ISBN 5-7795-0292-7 © Воскобойников Ю.Е., случайной величины .................................................................78
Тимошенко Е.И., 2006
© Новосибирский государственный 4.3. Интервальные оценки математического ожидания
архитектурно-строительный нормального распределения.....................................................79
университет (Сибстрин), 2006 4.4. Интервальные оценки дисперсии
нормального распределения.................................................... 84
5 6
4.5. Интервальная оценка вероятности события ...........................86 ВВЕДЕНИЕ
4.6. Вычисление границ доверительных интервалов в Excel.......89
Цель науки – описание, объяснение и предсказание явлений
5. ПРОВЕРКА СТАТИСТИЧЕСКИХ ГИПОТЕЗ ............................ 92 действительности на основе установленных законов, что позволя-
ет находить решения в типичных ситуациях. Многие явления ок-
5.1. Понятие статистической гипотезы. Основные этапы
ружающего мира взаимно связаны и влияют одно на другое. Про-
проверки гипотезы ....................................................................92 следить все связи и определить влияние каждой из них на явление
5.2. Проверка гипотезы о числовом значении математического не всегда представляется возможным. Поэтому ограничиваются
ожидания нормального распределения .................................100 изучением влияния лишь основных факторов, определяющих изу-
5.3. Проверка гипотезы о числовом значении дисперсии чаемое явление. В основе выявления этих связей лежит наблюде-
нормального распределения...................................................106 ние. При этом для обнаружения общих закономерностей, которым
5.4. Проверка гипотезы о числовом значении подчиняется явление, необходимо многократно его наблюдать в
вероятности события...............................................................109 одинаковых условиях, т.е. соблюдать во всех наблюдениях прак-
5.5. Проверка гипотезы о равенстве математических ожиданий тически одинаковые значения основных факторов. После накопле-
двух нормальных распределений ..........................................113 ния полученных таким образом данных возникает главный во-
прос: как обработать результаты наблюдений и сделать обоснован-
5.6. Проверка гипотезы о равенстве математических ожиданий
ные выводы об изучаемых закономерностях? Ответы на этот во-
двух произвольных распределений по выборкам большого прос и другие вопросы, связанные с обработкой данных, дает ма-
объема.......................................................................................116 тематическая статистика.
5.7. Проверка гипотезы о равенстве математических ожиданий Математическая статистика – наука, изучающая методы об-
двух нормальных распределений с неизвестными, работки результатов наблюдений массовых случайных явлений,
но равными дисперсиями .......................................................117 обладающих статистической устойчивостью, закономерностью, с
5.8. Проверка гипотезы о равенстве дисперсий двух нормальных целью выявления этой закономерности. Выводы о закономерно-
распределений .........................................................................121 стях, которым подчиняются явления, изучаемые методами матема-
5.9. Проверка гипотезы о законе распределения с применением тической статистики, всегда основываются на ограниченном числе
критерия согласия Пирсона....................................................125 наблюдений. Для вынесения обоснованного заключения о законо-
мерностях изучаемого явления математическая статистика опира-
5.10. Проверка гипотезы о независимости
ется на теорию вероятностей, которая имеет дело с математиче-
двух генеральных совокупностей с применением критерия скими моделями случайных явлений. Обработав результаты на-
χ2 ...............................................................................................133 блюдений, исследователь выдвигает ряд гипотез (предположений)
5.11. Проверка статистических гипотез в Excel ..........................136 о том, что рассматриваемое явление можно описать той или иной
вероятностной теоретической моделью. Далее, используя матема-
6. ВОПРОСЫ ДЛЯ САМОКОНТРОЛЯ ......................................... 146
тико-статистические методы, можно дать ответ на вопрос, какую
ЗАКЛЮЧЕНИЕ................................................................................. 145 из гипотез или моделей следует принять, которая и будет считаться
искомой закономерностью изучаемого явления. Правомерен такой
БИБЛИОГРАФИЧЕСКИЙ СПИСОК ............................................. 149 вывод или нет, покажет практика использования выбранной моде-
ли. Таково типичное содержание математико-статистического
ПРИЛОЖЕНИЕ ................................................................................ 150 исследования.
7 8
1. МАТЕМАТИЧЕСКАЯ СТАТИСТИКА И ЕЕ ЗАДАЧИ числа наблюдений, отражают данное массовое явление лишь при-
ближенно. Математическая статистика указывает, как наилучшим
1.1. Задачи математической статистики способом использовать имеющуюся информацию для получения
по возможности более точных характеристик массового явления.
Математическая статистика – наука, изучающая методы Конкретизируем задачи, решение которых будет рассмотрено
исследования закономерностей в массовых случайных явлениях и в данном пособии.
процессах по данным, полученным из конечного числа наблюдений 1. Оценка неизвестной функции распределения и функции плот-
за ними. ности. По результатам n независимых испытаний над случай-
Построенные на основании этих методов закономерности от-
ной величиной X получены ее значения
носятся не к отдельным испытаниям, из повторения которых скла-
x1 , x 2 , ..., xn .
дывается данное массовое явление, а представляют собой утвер-
ждения об общих вероятностных характеристиках данного процес- Требуется оценить, хотя бы приближенно, неизвестные функ-
са. Такими характеристиками могут быть вероятности, плотности ции распределения F (x ) и плотности p (x ) .
распределения вероятностей, математические ожидания, диспер- 2. Оценка неизвестных параметров распределения. Поясним за-
сии и т.п. дачу на примере нормального распределения генеральной со-
Найденные характеристики позволяют построить вероятно- вокупности, зависящей от двух параметров α и σ . Требуется
стную модель изучаемого явления. Применяя к этой модели мето- на основании имеющихся данных приближенно найти значе-
ды теории вероятностей, исследователь может решать технико– ние этих параметров. Для этого изучаются некоторые случай-
экономические задачи, например, определять вероятность безот- ные величины и на основе их свойств определяется точность
казной работы агрегата в течение заданного отрезка времени. Та- полученных оценок. Мы будем различать два случая: когда
ким образом, теория вероятностей по вероятностной модели про- имеется достаточно большое количество статистических дан-
цесса предсказывает его поведение, а математическая статистика ных и когда их набор ограничен. Во втором случае будем
по результатам наблюдений за процессом строит его вероятност- строить интервалы со случайными границами, на которые по-
ную модель. В этом состоит тесная взаимосвязь между данными падают неизвестные параметры распределения.
науками.
Очевидно, что для обнаружения закономерностей случайного 3. Проверка статистических гипотез. Предположим, например,
массового явления необходимо провести сбор статистических све- что игральная кость подбрасывается n раз, причем
дений, т.е. сведений, характеризующих отдельные единицы каких– ni (i = 1,...,6) означает количество появлений i очков. Если
либо массовых явлений. Пусть, например, мы располагаем мате- кость симметрична, то любое количество очков должно поя-
риалом о числе дефектных изделий в изготовленной в определен- виться практически одинаковое число раз (при условии, что n
ных условиях партии продукции. Проблемы возникают тогда, ко- достаточно велико). Это следует из известной теоремы Бер-
гда на основании этой информации мы захотим сделать выводы n
относительно качества производства продукции, выпускаемой нулли, утверждающей, что относительная частота ni близка к
предприятием. Нас может интересовать вероятность производства n
вероятности p = 16 . Однако между числами ni могут быть
дефектного изделия, средняя долговечность всех выпускаемых из-
делий и т.д. Собранный материал рассматривается лишь как неко- различия. Возникает вопрос: насколько эти различия согласо-
торая пробная группа, одна из многих возможных пробных групп. ваны с гипотезой о симметричности игральной кости? Разра-
Конечно, выводы, сделанные на основании этого ограниченного
9 10
ботаны методы, позволяющие дать ответы на подобные во- СРЗНАЧ( x1; x2 ; ...; xm ) ,
просы с заданной надежностью.
При обращении к понятиям теории вероятностей мы будем где x1 , x2 ,..., xm – формальные параметры, число которых не пре-
опираться на учебное пособие [1]. вышает 30 ( m ≤ 30 ). Для вычисления среднего значения величин,
находящихся в ячейках B3, B4, B5, B6, C3, C4, C5, C6, обращение
1.2. Решение задач математической статистики к функции в соответствующей ячейке имеет вид:
в табличном процессоре Excel
Решение задач математической статистики обусловливает су- =СРЗНАЧ(B3:B6;С3:C6),
щественный объем вычислений, связанный с численной реализа- т.е. в качестве фактических параметров используются два диапазо-
цией необходимого вычислительного алгоритма и графической ин- на ячеек. ♦
терпретацией результатов решения. Этому моменту в учебной ли- Замечание 1.2. Так как в запрограммированной ячейке выво-
тературе уделяется крайне мало внимания, что затрудняет исполь- дится результат вычислений и не видно самого запрограммирован-
зование методов математической статистики на практике. Поэтому ного выражения, то в некоторых случаях рядом с результатом при-
одной из основных целей данного пособия является изложение водится (в другой ячейке) запрограммированное выражение (свое-
численных методик решения задач математической статистики образный комментарий к выполняемым вычислениям). В случаях,
в вычислительной среде табличного процессора Excel 2003. Для когда не очевидно, к какой ячейке относится приводимое выраже-
каждой из рассматриваемых задач математической статистики ние, используется стрелка, указывающая на нужную ячейку. ♦
кроме теоретических положений даются фрагменты документов
Excel 2003, реализующих алгоритмы решения задачи. При этом ал-
горитм решения может быть реализован путем программирования
необходимых выражений в ячейках электронной таблицы или пу-
тем обращения к стандартным функциям или модулям Excel 2003.
В учебном пособии будут использоваться обе рассмотренные воз-
можности реализации требуемого вычислительного алгоритма.
Поэтому предполагается, что читатель имеет достаточные навыки
для реализации вычислений в Excel с использованием:
• программирования арифметических выражений в ячейках
электронной таблицы;
• функций Excel (в основном математических и статистиче-
ских).
Замечание 1.1. При описании той или иной функции в качест-
ве формальных параметров используются имена переменных, оп-
ределенные в тексте пособия. При обращении к функции в качест-
ве фактических параметров могут использоваться константы,
адреса ячеек, диапазоны адресов и арифметические выражения.
Например, описание функции для вычисления среднего арифмети-
ческого значения (выборочного среднего) имеет вид:
11 12
2. ГЕНЕРАЛЬНАЯ И ВЫБОРОЧНАЯ СОВОКУПНОСТИ. получить n значений случайной величины X – все равно что по-
ВЫБОРОЧНЫЕ ХАРАКТЕРИСТИКИ лучить одно значение n-мерной случайной величины
( X 1 , X 2 ,..., X n ). Поэтому каждую выборку x1 , x 2 ,..., xn объема n
2.1. Генеральная и выборочная совокупности
мы можем рассматривать как одно значение n-мерной случайной
Для обнаружения закономерностей, описывающих исследуе-
мое массовое явление, необходимо иметь опытные данные, полу- величины ( X 1 ,..., X n ).
ченные в результате обследования соответствующих объектов, Поясним сказанное на примере. Пусть X – дискретная слу-
отображающих изучаемое явление. Например, для определения чайная величина, принимающая значения 1, 2, 3, 4, 5, 6, каждое с
плотности распределения диаметра прошлифованного валика не- вероятностью p = 16 . Данную случайную величину, или в новой
обходимо располагать набором возможных значений его диаметра.
Зачастую реально существующую совокупность объектов (на- терминологии – генеральную совокупность, мы можем вообразить
пример, валики, изготовленные в течение января) можно мысленно как урну, содержащую одинаковое количество шаров с номерами
дополнить любым количеством таких же однородных объектов от 1 до 6. Производя выбор с возвращением трех шаров и записы-
(например, валики, изготовленные в тех же условиях в феврале, вая их номера, мы получим выборку объема 3 из генеральной со-
марте и т.д.). Такие совокупности объектов будем называть гене- вокупности Х. Вообразим себе три урны того же содержания, т.е.
ральными совокупностями. три копии Х1, Х1, Х3 урны Х. Выберем из каждой урны по одному
Каждой генеральной совокупности соответствует случайная шару. Получим выборку x1 , x 2 , x3 из генеральной совокупности Х.
величина, определяемая изучаемым признаком объекта. В нашем
примере – это диаметр валика. Так как понятия генеральной сово- 2.2. Свойства выборочной совокупности
купности и соответствующей случайной величины связаны с на- Для того чтобы по отобранным значениям некоторого количе-
блюдениями (измерениями) в неизменных условиях, то для ее обо- ственного показателя можно было достаточно уверенно судить обо
значения (по аналогии с курсом теории вероятностей) будем ис- всей совокупности, полученная выборка должна быть репрезента-
пользовать прописные буквы латинского алфавита (например, тивной (представительной), т.е. правильно отражать пропорции
X , Y ). генеральной совокупности. Предположим, например, что вся сово-
Часть отобранных объектов из генеральной совокупности на- купность состоит из равного большого количества белых и черных
зывается выборочной совокупностью, или выборкой. шаров, помещенных в ящик, на дне которого имеется отверстие.
Результаты измерений изучаемого признака n объектов выбо- Если черные шары сосредоточены в нижней части ящика, а белые
рочной совокупности порождают n значений x1 , x 2 ,..., xn случай- – в верхней, то, открывая некоторое небольшое количество раз за-
ной величины X . Число n называется объемом выборки. слонку в отверстии ящика, мы получим выборку только из черных
шаров. На основании такого способа отбора шаров мы не сможем
Наряду с генеральной совокупностью X будем рассматривать
сделать правильных выводов о содержании всей совокупности ша-
n независимых случайных величин, обозначаемых той же буквой,
ров, т.е. такая выборка не будет репрезентативной. Выборка будет
что и генеральная совокупность, и имеющих точно такое же рас-
представительной лишь тогда, когда все объекты генеральной со-
пределение, как генеральная совокупность. Итак, X 1 , X 2 ,..., X n – вокупности будут иметь одинаковую вероятность попасть в вы-
n независимых экземпляров X . Если F (x ) – функция распреде- борку. Для этого шары должны быть перемешаны. Другими слова-
ления генеральной совокупности X , то у каждой случайной вели- ми, репрезентативность выборки обеспечивается случайностью
чины X i функция распределения также равна F (x ) . Понятно, что отбора объектов в выборку.
13 14
Существует несколько способов отбора, обеспечивающих ре- 2.3. Вариационные ряды
презентативность выборки. После получения (тем или иным способом) выборочной сово-
Пусть небольшие по размеру объекты генеральной совокупно- купности все ее объекты обследуются по отношению к определен-
сти находятся, например, в ящике. Каждый раз после тщательного ной случайной величине, т.е. обследуемому признаку объекта. В
перемешивания (если оно не вызывает разрушения объектов) из результате этого получают наблюдаемые данные, которые пред-
ящиков наудачу берут один объект. Эту операцию повторяют до ставляют собой множество чисел, расположенных в беспорядке.
тех пор, пока не образуется выборка нужного объема. Очевидно, Анализ таких данных весьма затруднителен, и для изучения зако-
что такая техника отбора невозможна, если генеральная совокуп- номерностей полученные данные подвергаются определенной об-
ность состоит из больших (по размерам) или хрупких объектов, работке.
например из мощных электромоторов. В этих случаях поступают ♦Пример 2.1. На телефонной станции проводились наблюде-
следующим образом. Все объекты генеральной совокупности ну- ния над числом Х неправильных соединений в минуту. Наблюде-
меруют и каждый номер записывают на отдельную карточку. По- ния в течение часа дали следующие 60 значений:
сле этого карточки с номерами тщательно перемешивают и из пач- 3; 1; 3; 1; 4; ⎪ 1; 2; 4; 0; 3; ⎪ 0; 2; 2; 0; 1; ⎪1; 4; 3; 1; 1;
ки карточек выбирают одну. Объект, номер которого совпал с но- 4; 2; 2; 1; 1; ⎪ 2; 1; 0; 3; 4; ⎪ 1; 3; 2; 7; 2; ⎪0; 0; 1; 3; 3;
мером выбранной карточки, включают в выборку. Номера объек-
тов можно "отбирать" с помощью таблиц случайных чисел – это 1; 2; 1; 2; 0; ⎪ 2; 3; 1; 2; 5; ⎪ 1; 2; 4; 2; 0; ⎪ 2; 3; 1; 2; 5. ☻
целесообразно при большом объеме генеральной совокупности. Очевидно, что число X является дискретной случайной величи-
Принципиально, что при отборе объектов в выборочную сово- ной, а полученные данные есть значения этой случайной величи-
купность возможны два варианта: ны. Анализ исходных данных в таком виде весьма затруднителен.
1. Объект возвращается в генеральную совокупность. Выбо- Простейшая операция – ранжирование опытных данных, ре-
рочная совокупность, полученная таким образом, называет- зультатом которого являются значения, расположенные в порядке
ся случайной выборкой с возвратом (или повторной выбор- неубывания. Если среди элементов встречаются одинаковые, то
кой). они объединяются в одну группу. Значение случайной величины,
2. Объект, включенный в выборку, не возвращается в гене- соответствующее отдельной группе сгруппированного ряда на-
ральную совокупность. Образованная выборка называется блюдаемых данных, называется вариантом, а изменение этого
случайной выборкой без возврата (или бесповторной вы- значения – варьированием. Варианты будем обозначать строчными
боркой). буквами с соответствующими порядковому номеру группы индек-
Очевидно, что в повторной выборке возможна ситуация, когда сами x (1) , x ( 2 ) , ..., x ( m ) , где m – число групп. При этом
один и тот же объект будет обследован несколько раз. Если объем (1) ( 2) (m)
генеральной совокупности велик, то различие между повторной и x <x .< ... < x
бесповторной выборками (которые составляют небольшую часть Численность отдельной группы сгруппированного ряда данных
генеральной совокупности) незначительно и это практически не называется частотой ni , где i – индекс варианта, а отношение
сказывается на окончательных результатах. В таких случаях, как частоты данного варианта к общей сумме частот называется част-
правило, используют выборку без возврата. Если генеральная со-
ностью (или относительной частотой) и обозначается ω i ,
вокупность имеет не очень большой объем, то различие между
указанными выборками будет существенным. i = 1, ..., m , т.е.
15 16
ni Если число возможных значений дискретной случайной вели-
ωi = m
, (2.1) чины достаточно велико или наблюдаемая случайная величина яв-
∑ ni ляется непрерывной, то строят интервальный вариационный ряд,
i =1 под которым понимают упорядоченную совокупность интервалов
m
варьирования значений случайной величины с соответствующими
при этом ∑n
i =1
i = n. частотами или частностями попаданий в каждый из них значений
случайной величины.
Дискретным вариационным рядом называется ранжированная
Как правило, частичные интервалы, на которые разбивается
совокупность вариантов x (i ) с соответствующими им частотами весь интервал варьирования, имеют одинаковую длину и предста-
ni или частностями ω i . вимы в виде
♦Пример 2.2. Для данных примера 2.1 были выполнены опера- [ zi , zi + h), i = 1, 2,..., m , (2.2)
ции ранжирования и группировки. В результате были получены где m − число интервалов.
семь значений случайной величины (варианты): 0; 1; 2; 3; 4; 5; 7. Длину h следует выбирать так, чтобы построенный ряд не
При этом значение 0 в этой группе встречается 8 раз, значение 1 – был громоздким, но в то же время позволял выявлять характерные
17 раз, значение 2 – 16 раз, значение 3 – 10 раз, значение 4 – 6 раз, изменения случайной величины.
значение 5 – 2 раза, значение 7 – 1 раз. Вычисленные значения час- Для вычисления h рекомендуется использовать следующую
тот и частностей приведены в табл. 2.1. формулу:
Таблица 2.1 x − x min
Индекс i 1, 2, 3, 4, 5, 6, 7 h = max ,
1 + 3.222 lg n
Вариант x(i ) 0, 1, 2, 3, 4, 5, 7
где x max , x min – наибольшее и наименьшее значения случайной
Частота ni 8, 17, 16, 10, 6, 2, 1
величины. Если окажется, что h – дробное число, то за длину ин-
Частность ωi 8
60
, 17 , 16 , 10 ,
60 60 60
6
60
, 2
60
, 1
60 тервала следует принять либо ближайшую простую дробь, либо
ближайшую целую величину. При этом необходимо выполнение
Таким образом, получен дискретный ряд: условий:
0(8);1(17); 2(16); 3(10); 4(6); 5(2); 7(1) , z1 ≤ x min ; z m + h ≥ x max . (2.3)
где в скобках указаны соответствующие частоты. В отличие от ис- После нахождения частных интервалов определяется, сколько
ходных данных (см. пример 2.1), этот ряд позволяет делать неко- значений случайной величины попало в каждый конкретный ин-
торые выводы о статистических закономерностях. ☻ тервал. При этом в интервал включают значения, большие или
равные нижней границе и меньшие верхней границы.
Если среди n наблюдаемых значений x i отсутствуют одина-
♦ Пример 2.3. При изменении диаметра валика после шли-
ковые значения, то m = n, ni = 1 , а дискретный вариационный ряд фовки была получена следующая выборка (объемом n = 55 ):
имеет вид
x (1) < x ( 2 ) < ... < x ( n −1) < x ( n ) .
17 18
20.3 15.4 17.2 19.2 23.3 18.1 21.9 где n x – количество элементов выборки, меньших чем x . Други-
15.3 16.8 13.2 20.4 16.5 19.7 20.5
14.3 20.1 16.8 14.7 20.8 19.5 15.3 ми словами, Fn* ( x ) есть относительная частота появления события
19.3 17.8 16.2 15.7 22.8 21.9 12.5 A = { X < x} в n независимых испытаниях. Главное различие ме-
10.1 21.1 18.3 14.7 14.5 18.1 18.4
13.9 19.8 18.5 20.2 23.8 16.7 20.4 жду F ( x ) и Fn* ( x ) состоит в том, что F ( x ) определяет вероят-
19.5 17.2 19.6 17.8 21.3 17.5 19.4 ность события A , а выборочная функция распределения Fn* ( x ) –
17.8 13.5 17.8 11.8 18.6 19.1
Необходимо построить интервальный вариационный ряд, со- относительную частоту этого события.
стоящий из семи интервалов. Из определения (2.4) имеем следующие свойства функции
Решение. Так как наибольшая варианта равна 23.8, а наимень-
Fn* ( x ) :
шая 10.1, то вся выборка попадает в интервал (10,24). Мы расши-
рили интервал (10.1,23.8) для удобства вычислений. Длина каждо- 1. 0 ≤ Fn* ( x) ≤ 1 . (2.5)
го частичного интервала равна 24 − 10 = 2 . Получаем следующие 2. Fn* ( x ) – неубывающая функция.
7
семь интервалов: 3. Fn* ( −∞ ) = 0; Fn* ( ∞) = 1.
[10,12);[12,14);[14,16);[16,18);[18, 20);[20, 22);[22;24), Напоминаем, что такими же свойствами обладает и функция
а соответствующий интервальный вариационный ряд представлен распределения F ( x ) (вспомните эти свойства и сравните).
в табл. 2.2. Функция Fn* ( x ) является "ступенчатой", имеются разрывы в
Таблица 2.2
Х 10–12 12–14 14–16 16–18 18–20 20–22 22–24 точках, которым соответствуют наблюдаемые значения вариантов.
Величина скачка равна относительной частоте варианта.
ωi 2 4 8 12 15 11 3
55 55 55 55 55 55 55 ☻ Аналитически Fn* ( x ) задается следующим соотношением:
⎧0 при x ≤ x (1) ;
2.4. Выборочная функция распределения. Гистограмма ⎪ i −1
⎪
В теории вероятностей для характеристики распределения Fn ( x) = ⎨∑ ω j при x ( i −1) < x ≤ x ( i ) , i = 1, 2,..., m;
*
(2.6)
случайной величины X служит функция распределения ⎪ j =1
⎪1 при x > x ( m ) ,
F ( x ) = P( X < x ) , ⎩
где ω i – соответствующие относительные частоты, определяемые
равная вероятности события { X < x} , где x – любое действитель-
ное число. выражением (2.1); x (i ) – элементы вариационного ряда (варианты).
Одной из основных характеристик выборки является выбороч- Замечание. В случае интервального вариационного ряда под
ная (эмпирическая) функция распределения x (i ) понимается середина i-го частичного интервала.
nx
Fn* ( x ) = , (2.4) Перед вычислением Fn* ( x ) полезно построить дискретный
n
или интервальный вариационный ряд.
19 20
♦Пример 2.4. Построить выборочную функцию распределе- Fn* ( x ) , построенной по другой выборке из той же генеральной со-
ния по наблюдаемым данным, приведенным в примере 2.1.
Решение. Используя соответствующий этим данным дискрет- вокупности.
ный вариационный ряд (см. табл. 2.1), вычислим значения Fn* ( x ) F60* (x)
по формуле (2.6) и занесем их в табл. 2.3.
Таблица 2.3
*
x F60 ( x)
x≤1 0
0<x≤1 ω1 = 8
60
1<x≤2 ω1 + ω 2 = 25
60
2<x≤3 ω1 + ω 2 + ω 3 = 41
60 x
3<x≤4 ω1 + ω 2 + ω 3 + ω 4 = 51
60
Рис. 2.1. График выборочной функции распределения
4<x≤5 ω1 + ω 2 + ω 3 + ω 4 + ω 5 = 57
60 (пример 2.4)
5<x≤7 ω1 + ω 2 + ω 3 + ω 4 + ω 5 + ω 6 = 59
60 Возникает вопрос: зачем нужна такая характеристика, меняю-
x>7 ω1 + ω 2 + ω 3 + ω 4 + ω 5 + ω 6 + ω 7 = 60
=1 щаяся от выборки к выборке? Ответ получаем на основе следую-
60 щих рассуждений.
* * По теореме Бернулли относительная частота появления собы-
Из графика F60 ( x ) (рис. 2.1) видно, что F60 ( x ) удовлетворя- тия A в n независимых опытах сходится по вероятности к вероят-
ет свойствам (2.5). ☻ ности P( X < x ) этого события при увеличении n . Следовательно,
Задача 2.1. Построить выборочную функцию распределения при больших объемах выборки выборочная функция распределе-
по наблюдаемым данным, приведенным в примере 2.3. ния Fn* ( x ) близка к теоретической функции F ( x ) . Точнее, имеет
Напомним, что Fn* ( x ) равна относительной частоте появле- место следующая теорема.
ния события A = { X < x} и, следовательно, при любом значении Теорема В.И. Гливенко. Для любого действительного числа
x и любого ε > 0
x величина Fn* ( x ) является случайной. Тогда конкретной выбор-
lim P( Fn* ( x ) − F ( x ) > ε ) = 0 .
ке ( x1 , x2 ,..., xn ) объема n соответствует функция распределения n→∞
Таким образом, по функции Fn* ( x ) мы можем получить при-
Fn* ( x ) , которая в силу своей случайности будет отличаться от
ближенно функцию F (x ) , т.е. функция Fn* ( x ) является оценкой
F ( x) .
21 22
В качестве оценки плотности распределения вероятности не- где ui – некоторое число из промежутка [ zi , zi −1 ) . Так как
прерывной случайной величины используют гистограмму отно-
сительных частот.
ω i = ( zi +1 − zi ) yi , то значения yi и p(u i ) близки друг к другу.
Гистограммой относительных частот называется система пря- Практически это означает, что график плотности распределения
моугольников, каждый из которых основанием имеет i-й интервал генеральной совокупности X проходит вблизи верхних границ
интервального вариационного ряда; площадь, равную относитель- прямоугольников, образующих гистограмму. Поэтому при боль-
ной частоте ω i , а высота yi определяется по формуле ших объемах выборок и удачном выборе длины частичных интер-
валов гистограмма напоминает график плотности распределения
ωi p( x ) .
yi = , i = 1, 2,..., m ,
hi
♦Пример 2.5. Построим гистограмму относительных частот
где hi = zi +1 − zi – длина i-го частичного интервала. Если выборочной совокупности из примера 2.3.
длина частичных интервалов одинакова, то hi = h (см. (2.2), (2.3)).
Решение. Используя интервальный вариационный ряд (см.
Очевидно, что сумма площадей всех прямоугольников равна 1 табл. 2.2), находим высоты yi по формуле yi = ω i / 2 . График по-
(докажите это свойство).
строенной гистограммы приведен на рис. 2.2. Здесь же штриховой
Площадь прямоугольника ω i равна относительной частоте
линией отмечен предполагаемый график неизвестной плотности
попадания элементов выборочной совокупности объема n на i-й p(x ) . ☻
интервал, т.е.
ω i = ω n* ( zi ≤ X < zi +1 ) . уi
С другой стороны, если y = p (x ) – плотность вероятности
случайной величины X , то вероятность
0.10
pi = P( zi ≤ X < zi +1 )
по теореме Бернулли близка при большом значении n к отно-
0.05
сительной частоте.
Поэтому значение ω i близко к
z i +1
х
pi = P( zi ≤ X < zi +1 ) = ∫ p( x )dx . (2.7)
zi
Пусть yi – высота i-го прямоугольника. По теореме о среднем Рис. 2.2. График гистограммы частностей (пример 2.5)
интеграл, выражающий вероятность в формуле (2.7), можно запи-
сать в виде 2.5. Выборочное среднее и выборочная дисперсия
zi +1
Рассмотренная выборочная функция распределения и гисто-
pi = ∫
zi
p( x)dx = ( zi +1 − zi ) ⋅ p(ui ) , (2.8)
грамма позволяют делать выводы о закономерностях исследуемого
массового явления. Однако они неудобны для описания группиро-
23 24
вания и рассеивания наблюдаемых данных. Для этого используют- ( zi + zi +1 )
ся так называемые числовые характеристики выборочной совокуп- zi* = , i = 1, 2,..., m.
2
ности, из которых рассмотрим выборочное среднее и выборочную
дисперсию. Сравним математическое ожидание дискретной случайной ве-
Выборочным средним X в называется случайная величина, оп- личины Х, вычисляемое по формуле
ределенная формулой m
X 1 + X 2 + ... + X n M ( X ) = ∑ xi pi , (2.13)
Xв = . (2.9) i =1
n
и значение выборочного среднего, определяемое (2.11). Прежде
Так как конкретная выборка x1 ,..., xn является реализацией
всего, очевидна их внешняя схожесть. Однако в формуле (2.13)
значений случайных величин X 1 ,..., X n , то среднее значение вы- xi – возможные значения случайной величины, а pi – вероятно-
борки
сти. В формуле (2.11) x (i ) – варианты случайной величины, полу-
x + x2 + ... + xn
xв = 1 (2.10) ченные в результате наблюдений, ω i – их относительная частота.
n
Далее, математическое ожидание не является случайной величи-
является одной из реализаций случайной величины X в . Другими ной, а выборочное среднее – случайная величина, значение кото-
словами, xв есть одно из значений случайной величины X в . рой меняется от выборки к выборке. Несмотря на это, как будет
Если данные представлены в виде вариационного ряда, то для показано ниже, выборочное среднее при определенных условиях
вычисления выборочного среднего целесообразно применить одно выступает как "хорошая" оценка математического ожидания.
из следующих соотношений: ♦ Пример 2.6. Вычислим значение выборочного среднего по
выборке примера 2.1.
• для дискретного вариационного ряда Решение. Используя дискретный вариационный ряд (см.
m
∑ x ( i ) ni табл. 2.1) и соотношение (2.1), имеем
m
xв = i =1
m
= ∑ x ( i )ω i ; (2.11) 8 + 1 ⋅ 17 + 2 ⋅ 16 + 3 ⋅ 10 + 4 ⋅ 6 + 5 ⋅ 2 + 7 ⋅ 1 = 2.0 . ☻
xв = 0 ⋅ 60
∑ ni i =1 60 60 60 60 60 60
i =1
Так как значение выборочного среднего есть выборочный ана-
• для интервального вариационного ряда лог математического ожидания, то имеет смысл ввести характери-
стику, которая бы оценивала величину рассеивания значений
m
∑ z i* ni m x1 , x2 ,..., xn относительно xв , а именно
xв = i =1
m
= ∑ ω i zi* , (2.12)
∑ ni i =1 n ( x i − xв ) 2
i =1 dв = ∑ . (2.14)
i =1 n
где ω i – частность (относительная частота), соответствующая i-й
Число d в является значением случайной величины
варианте или i-му частичному интервалу; zi* – середина i-го час-
тичного интервала, т.е.
25 26
n
( X i − X в )2 квадрата математического ожидания, т.е. σ 2 << ( M ( x )) 2 , то из-за
Dв = ∑ , (2.15)
i =1 n ошибок округления при машинном счете по этим формулам воз-
которую мы будем называть выборочной дисперсией. можна ситуация d в < 0 . Тогда следует положить d в = 0 .
Если данные представлены в виде вариационного ряда, то целе- Сравним формулу (2.16) с формулой дисперсии дискретной
сообразно для вычислений d в вместо (2.14) использовать сле- случайной величины
дующие соотношения: m
• для дискретного вариационного ряда
D( X ) = ∑ ( xi − M ( X )) 2 pi . (2.21)
i =1
m Различие между этими формулами состоит в том, что: а) вели-
∑ (x (i )
− xв ) 2 ni m чина D( X ) не случайна, d в – значение случайной величины, ко-
dв = i =1
= ∑ ( x ( i ) − xв ) 2 ωi ; (2.16)
торое может меняться от выборки к выборке; б) в формуле (2.21)
n i =1
xi – возможные значения случайной величины X , pi – их вероят-
• для интервального вариационного ряда
ности, M ( X ) – математическое ожидание. В формуле (2.16) x (i ) –
m
* 2
∑ ( z i − x в ) ni m
варианты случайной величины, ω i – их относительные частоты, а
i =1
dв = = ∑ ( zi* 2
− xв ) ω i , (2.17) xв – значения выборочного среднего. Несмотря на различия, меж-
n i =1
ду этими двумя формулами много общего. Во-первых, обе они яв-
где ω i , zi* –
те же, что и в формулах (2.11), (2.12). ляются мерой рассеивания. Во-вторых, кроме внешнего сходства
Можно показать справедливость следующих выражений, яв- формул, соответствующие дисперсии обладают схожими свойст-
ляющихся аналогами (2.14), (2.16), (2.17) соответственно: вами. В-третьих, как будет показано ниже, выборочная дисперсия
при определенных условиях является хорошей оценкой для гене-
1 n (i) 2 ральной дисперсии D( X ) .
dв = ∑ ( x ) − ( xв )2 ;
n i =1
(2.18)
♦ Пример 2.7. Необходимо вычислить значение выборочной
дисперсии по выборке примера 2.1.
m Решение. Воспользуемся формулой (2.19). Первоначально, ис-
d в = ∑ ( x ( i ) ) 2 ω i − ( xв ) 2 ; (2.19) пользуя дискретный вариационный ряд (см. табл. 2.1), вычислим
i =1
7
m ∑(x(i) )2ωi = 0⋅ 608 +1⋅ 1760 + 4⋅ 1660 +9⋅ 1060 +16⋅ 606 + 25⋅ 602 + 49⋅ 601 = 6.09 . (2.22)
d в = ∑ ( zi* ) 2 ω i − ( xв ) 2 . (2.20) i=1
i =1 Так как значение xв было вычислено в примере 2.6 ( xв = 2.0 ),
Приведенные соотношения (2.18)–(2.20) оказываются более то
удобными для программной реализации вычислений значения d в . 7
d в = ∑ ( x ( i ) ) 2 ω i − ( xв ) 2 = 6.09 − 4.0 = 2.09 . ☻
Однако если генеральная дисперсия σ 2 существенно меньше i =1
27 28
2.6. Вычисление выборочных характеристик в Excel ♦ Пример 2.8. По выборке примера 2.3 вычислить частоты и
частности для семи заданных интервалов [10,12); [12,14); [14,16);
Вычисление частот. Для вычисления частот ni можно исполь-
[16,18); [18,20); [20,22); [22,24), используя функцию ЧАСТОТА.
зовать функцию ЧАСТОТА, обращение к которой имеет вид:
Решение. Первоначально, начиная с ячейки А3 (рис. 2.2), вве-
=ЧАСТОТА(массив_данных;массив_границ), дем в столбец А 55 элементов выборки примера 2.3 (диапазон
где массив_данных – адреса ячеек, для которых вычисляется час- А3:А57). Затем, начиная с ячейки В3, введем границы заданных
тота ni ; массив_границ – адреса ячеек, в которых размещаются интервалов (см. рис. 2.2).
упорядоченные по возрастанию значения z j , j = 1, 2,..., m + 1 , где После подготовки этих данных выделяем ячейки С3:С11, вво-
дим выражение
m – число интервалов.
=ЧАСТОТА(А3:А57;В3:В10)
При использовании этой функции необходимо помнить:
1. Функция ЧАСТОТА вводится как формула массива, т.е. и нажимаем одновременно клавиши [Ctrl] + [Shift] + [Enter]. В
предварительно выделяется интервал ячеек, в который будут по- ячейках С3:С11 появляется результат выполнения функции (см.
мещены вычисленные частоты (число ячеек должно быть на 1 рис. 2.2).
больше числа границ), затем вводится функция ЧАСТОТА с соот- Для вычисления относительных частот ω j (частностей) необ-
ветствующими аргументами, потом одновременно нажимаются ходимо частоты поделить на число элементов выборки. Эти вы-
клавиши [Ctrl] + [Shift] + [Enter]. числения реализованы в ячейках D3:D11 (см. рис. 2.2). Для кон-
2. Функция ЧАСТОТА игнорирует пустые ячейки и текстовые троля правильности вычисления частот и частностей в ячейках
данные. С12, D12 определены суммы (см. рис. 2.2):
3. Если массив_границ не содержит возрастающих значений m +1= 9 m +1= 9
границ и интервалов, то осуществляется автоматическое вычисле- ∑n j = 55 , ∑ω j =1. ☻
ние границ интервалов равной ширины, причем число интервалов j =0 j =0
равно корню квадратному из числа элементов массива_данных. Для подсчета количества элементов выборки (т.е. объема вы-
Результатом работы является массив значений, определяе- борки) использовалась функция СЧЁТ, обращение к которой име-
мый по следующему правилу: первый элемент равен числу n0 эле- ет вид:
ментов массива_данных меньше z1 ; последний элемент равен чис- СЧЁТ(массив_данных),
лу nm +1 элементов массива_данных больше zm +1 ; остальные эле- где массив_данных – адреса ячеек или числовые константы.
менты определяются как числа nj элементов xi массива_данных, Результатом работы является количество числовых величин
удовлетворяющих условию в массиве_данных. При этом игнорируются пустые ячейки, логиче-
ские значения, тексты и значения ошибок.
z j < xi ≤ z j +1 , j = 1, 2,..., m .
Другими словами, кроме m значений частот nj, j = 1, 2,..., m ,
соответствующих m интервалам, вычисляются частоты n0 (число
значений xi , лежащих левее z1 ) и nm +1 (число значений xi , лежа-
щих правее zm +1 ).
29 30
данных выбрать режим Гистограмма и щелкнуть на кнопке ОК.
Появится окно гистограммы, показанное на рис. 2.3. В окне зада-
ются следующие параметры:
31 32
ром начиная с ячейки А1 размещаются частности ω j . В положении щелкнем на кнопке ОК. В ячейках D4:D11 выводятся вычисленные
переключателя Новая рабочая книга открывается новая книга, на значения ω j , а в ячейках Е4:Е11 – значения интегрального процен-
первом листе которой начиная с ячейки А1 размещаются частно- та. В этом же листе строится диаграмма, на которой отображаются
сти ω j . вычисленные характеристики. ☻
Парето (отсортированная гистограмма) – устанавливается в Замечание 2.1. Как правило, гистограммы изображаются в ви-
де смежных прямоугольных областей. Поэтому столбики гисто-
активное состояние, чтобы представить ω j в порядке их убывания.
граммы на рис. 2.4 целесообразно расширить до соприкосновения
Если параметр выключен, то ω j приводятся в порядке следования друг с другом. Для этого необходимо щелкнуть мышью на диа-
интервалов. грамме, далее на панель инструментов Диаграмма, раскрыть спи-
Интегральный процент – устанавливается в активное состоя- сок инструментов и выбрать элемент Ряд ‘Частота’, после чего
ние для расчета выраженных в процентах накопленных относи- щелкнуть на кнопке Формат ряда. В появившемся одноименном
тельных частот (процентный аналог значений выборочной функ- диалоговом окне необходимо активизировать закладку Парамет-
ции распределения (2.6) при xi = z j , j = 1, 2,..., m + 1 ). ры и в поле Ширина зазора установить значение 0.
Вывод графика – устанавливается в активное состояние для ав-
томатического создания встроенной диаграммы на листе, содер-
жащем относительные частоты ω j .
При использовании режима Гистограмма модуля Анализ дан-
ных необходимо помнить:
1. Относительные частоты ω j вычисляются как количество
элементов xi выборки, удовлетворяющих условию
z j < xi ≤ z j +1 .
2. Если границы интервалов не заданы, то автоматически бу-
дет создан набор интервалов с одинаковой длиной
x − xmin
h = max ,
[k ] − 1
где [k ] – целая часть величины k = 1 + 3.322 ⋅ lg n , n – объем вы-
борки.
♦ Пример 2.9. По выборке примера 2.3 построить ненормиро-
ванную гистограмму относительных частот, используя режим Гис-
тограмма модуля Анализ данных.
Решение. Первоначально, начиная с ячейки А3 (рис. 2.4), вве-
дем в столбец А 55 элементов выборки (диапазон А3:А57). Затем
обратимся к пункту Сервис, команде Анализ данных, режиму Гис-
тограмма. В появившемся диалоговом окне Гистограмма устано- Рис. 2.4. Фрагмент построения гистограммы
вим значения параметров, показанные на рис. 2.3, и после этого
33 34
На рис. 2.5 показана гистограмма, полученная из гистограммы ты прямоугольников (ячейки Е3:Е9) и середины интервалов (ячей-
(см. рис. 2.4) путем действий, описанных в замечании 2.1. ♦ ки B3:B9). Для проверки правильности вычислений в ячейках D10,
Замечание 2.2. Ненормированная гистограмма относительных E10 определим суммы ∑ ω j , ∑ y j . Очевидно, что 2 ⋅ ∑ y j = 1 .
частот не может служить оценкой для плотности распределения
В заключение по данным столбцов B, E строим гистограмму
случайной величины, из значений которой была сформирована вы-
борка (особенно в случае неравных длин интервалов), из–за того, (рис. 2.6). ☻
что сумма площадей прямоугольников ≠ 1 . В качестве такой оцен-
ки может рассматриваться гистограмма относительных частот. ♦
35 36
=СРЗНАЧ(арг1; арг2; …; арг30), КВАДРОТКЛ, аргументами, указанными на рис. 2.7. Затем вычис-
где арг1; арг2; …; арг30 – числа или адреса ячеек, содержащих чи- лим характеристики (2.10), (2.14) с использованием статистических
словые данные. Если ячейка содержит текстовые, логические зна- функций СРЗНАЧ, ДИСПР (см. рис. 2.7). Как и следовало ожидать,
чения или ячейка пуста, то такие ячейки игнорируются при под- результаты вычислений двумя способами совпали. ☻
счете среднего значения по формуле
n
∑x i
xb = . i =1
n
Здесь и в дальнейшем запись арг1; арг2; …; арг30 означает нали-
чие от 1 до 30 аргументов функции Excel.
Для вычисления выборочной дисперсии (2.14) используется
функция ДИСПР, обращение к которой имеет вид:
=ДИСПР(арг1; арг2; …; арг30),
где арг1; арг2; …; арг30 – числа или адреса ячеек, содержащих чи-
словые данные. Ячейки, содержащие текстовые, логические дан-
ные или пустые, при вычислении выборочной дисперсии игнори-
руются.
Для вычисления суммы квадратов отклонений
n
∑ (x
i =1
i − xb ) 2
где арг1, арг2, …, арг30 – числа или адреса ячеек, содержащих чи- Рис. 2.7. Вычисление выборочных среднего и дисперсии
словые данные.
♦ Пример 2.11. По выборке примера 2.3 вычислить выбороч- Задание 2.1. По выборочным данным ( n = 60 ) примера 2.1 по-
ное среднее xb и выборочную дисперсию db двумя способами: строить гистограмму относительных частот. Длину интервала оп-
Способ 1. Программируя в ячейках Excel необходимые вычис- ределить по формуле
ления. xmax − xmin
h= .
Способ 2. Используя функции Excel СРЗНАЧ, ДИСПР. (1 + 3.322 ⋅ lg n )
Решение. Первоначально, начиная с ячейки А3, введем в
столбец А 55 элементов выборки (диапазон А3:А57). Запрограм- Рекомендация. При выполнении задания использовать пример
мируем выражения (2.10), (2.14), используя функции СУММ, 2.10. ♥
37 38
Задание 2.2. По выборочным данным ( n = 60 ) примера 2.1 по- 3. ТОЧЕЧНЫЕ ОЦЕНКИ НЕИЗВЕСТНЫХ ПАРАМЕТРОВ
строить ненормированную гистограмму относительных частот, ис- 3.1. Определение и свойства точечной оценки
пользуя режим Гистограмма.
Большинство случайных величин, рассмотренных в курсе тео-
Рекомендация. При выполнении задания использовать пример
2.9. ♥ рии вероятностей, имели распределения, зависящие от одного или
нескольких параметров. Так, биномиальное распределение зависит
Задание 2.3. По выборочным данным ( n = 60 ) примера 2.1 вы-
от параметров p и n , нормальное – от параметров a и σ , рас-
числить выборочные среднее и дисперсию, используя стандартные
функции Excel. пределение Пуассона – от параметра λ и т.п. Одной из основных
Рекомендация. При выполнении задания использовать пример задач математической статистики (см. главу 1) является оценива-
2.11. ♥ ние этих параметров по наблюдаемым данным, т.е. по выборочной
Кроме приведенных функций при вычислении выборочных совокупности. В главе 2 были рассмотрены выборочные среднее и
характеристик могут быть полезными следующие функции: дисперсия, которые интерпретировались как приближенные значе-
Функция МАКС вычисляет максимальное значение из задан- ния неизвестных значений математического ожидания и дисперсии
ных аргументов. Обращение к ней имеет вид: изучаемой случайной величины X , т.е. являлись оценками этих
неизвестных характеристик.
=МАКС(арг1; арг2; …; арг30),
Выборочная характеристика, используемая в качестве при-
где арг1; арг2; …; арг30 – числовые константы или адреса ячеек, ближенного значения неизвестного параметра генеральной сово-
содержащих числовые величины. купности, называется точечной оценкой этого параметра. В этом
Функция МИН вычисляет минимальное значение из заданных определении слово "точечная" означает, что значение оценки пред-
аргументов. Обращение к ней имеет вид: ставляет собой число или точку на числовой оси.
=МИН(арг1; арг2; …; арг30), Обозначим через θ некоторый неизвестный параметр гене-
где арг1; арг2; …; арг30 – числовые константы или адреса ячеек, ральной совокупности, а через θ n* – точечную оценку этого пара-
содержащих числовые величины.
метра. Оценка θ n* есть функция ϕ ( X1, X 2 ,..., X n ) от n независи-
мых экземпляров X1, X 2 ,..., X n генеральной совокупности, где
n – объем выборки (см. п. 2.1). Поэтому оценка θ n* , как функция
случайных величин, также является случайной, и свойства θ n*
можно исследовать с использованием понятий теории вероятно-
стей.
В общем случае точечная оценка θ n* не связана с оцениваемым
параметром θ . Поэтому естественно потребовать, чтобы θ n* была
близка к θ . Это требование формулируется в терминах несмещен-
ности, состоятельности и эффективности.
39 40
Оценка θ n* параметра θ называется несмещенной, если для θ n*(1) = ϕ1 ( x1,..., xn ); θ n*(2) = ϕ 2 ( x1,..., xn ) (3.3)
любого фиксированного объема выборки n математическое ожи-
дание оценки равно оцениваемому параметру, т.е. одного и того же параметра θ . Как из двух этих оценок выбрать
лучшую? Каждая из них является случайной величиной, и мы не
M (θ n* ) = θ . (3.1) можем предсказать индивидуальное значение оценки в каждом ча-
стном случае. Однако, рассматривая в качестве меры концентра-
Поясним смысл этого равенства следующим примером. Имеют-
ции распределения оценки θ n* около значения параметра θ вели-
ся два алгоритма вычисления оценок для параметра θ . Значения
оценок, построенных первым алгоритмом по различным выборкам чину M (θ n* − θ ) 2 , мы можем теперь точно охарактеризовать срав-
объема n генеральной совокупности, приведены на рис. 3.1,а, а с
использованием второго алгоритма – на рис. 3.1,б. Видим, что нительную эффективность оценок θ n*(1) и θ n*( 2 ) . В качестве меры
среднее значение оценок на рис. 3.1,а совпадает с θ , и, естествен- эффективности принимается отношение
но, такие оценки предпочтительнее по сравнению с оценками на M (θ n*(1) − θ ) 2
рис. 3.1,б, которые концентрируются слева от значения θ и для e= . (3.4)
M (θ n*( 2 ) − θ ) 2
которых M (θ n* ) < θ , т.е. эти оценки являются смещенными.
Если e > 1 , то оценка θ n*( 2 ) более эффективна, чем θ n*(1) . В случае
Оценка θ n* называется состоятельной, если
несмещенных оценок M (θ n*(1) ) = θ , M (θ *(2) ) = θ , и поэтому
p
θ n* ⎯⎯→ θ,
D (θ n*(1) )
e= , (3.5)
т.е. для любого ε > 0 при n → ∞ D (θ n*( 2 ) )
(
P θ n* − θ < ε → 1 .) (3.2) где D (θ n* ) – дисперсия оценки θ n* .
41 42
a σ2
D( a * ) ≥ , (3.6)
n
б θ *
n где n – объем выборки, по которой производится оценивание. Если
θ в качестве a * принять X в , то дисперсия этой оценки, как будет
θ *
n показано ниже, равна
σ2
, т.е. X в – эффективная оценка парамет-
θ n
ра а, так как для нее достигается нижняя грань в неравенстве (3.6).
Рассмотрим на примере понятие эффективной в данном классе
Рис. 3.2. К определению эффективной оценки
оценки. Предположим, что один и тот же предмет, истинная вели-
чина которого равна l , измеряется n раз различными приборами,
Таким образом, несмещенная оценка θ n* параметра θ называ- имеющими различную точность. Пусть X i – результаты i-го изме-
ется несмещенной эффективной, если она среди всех других не- рения. Тогда
смещенных оценок того же параметра обладает наименьшей дис-
персией. M ( X i ) = l, D( X i ) = σ 2 ,
Приведенная на рис. 3.2,а оценка θ n* является более эффектив-
если считать, что измерения проводятся без систематических оши-
ной по сравнению с оценкой, значения которой нанесены на
рис. 3.2,б (почему?). бок. Дисперсия σ i2 характеризует точность измерений. Для оценки
Как же выяснить, является ли несмещенная оценка эффектив- истинного значения параметра l рассмотрим класс линейных оце-
ной? Очевидно, для этого необходимо сравнить дисперсию этой нок, т.е. оценок вида
оценки с минимальной дисперсией.
Для широкого класса оценок неравенство Рао–Крамера указы- l * = c1 X 1 + ... + cn X n ,
вает точную нижнюю границу для дисперсий различных оценок
одного и того же параметра. Если существует оценка, дисперсия где c1 ,..., cn – некоторые неизвестные константы. Из всех несме-
которой в точности равна этой нижней границе, то она называется щенных оценок данного класса нужно выбрать ту, которая имеет
эффективной оценкой. Оценка, имеющая наименьшую дисперсию наименьшую дисперсию.
среди оценок данного класса, называется эффективной в данном Из несмещенности оценок получим
классе оценок. Поясним понятие эффективной оценки несколькими n n n
примерами. M (l * ) = M ( ∑ ci X i ) = ∑ ci M ( X i ) = l ∑ ci .
Предположим, что генеральная совокупность распределена по i =1 i =1 i =1
нормальному закону с параметрами a и σ , причем a – математи- Значит,
n
ческое ожидание, подлежащее оценке, а σ 2 – известная дисперсия. ∑ ci = 1. (3.7)
* i =1
Оказывается, что для любой несмещенной регулярной оценки a
имеет место неравенство Пользуясь свойствами дисперсии и независимостью проведен-
ных измерений, получим
43 44
n xг = M ( X ) .
D(l * ) = ∑ ci2σ i2 .
i =1
Теорема 3.1. Выборочное среднее X в есть состоятельная и
Числа c1 ,..., cn должны удовлетворять условию (3.7) и обеспе-
несмещенная оценка генеральной средней x г .
чивать минимум функции
n Доказательство. Вначале покажем, что X в есть состоятель-
F (c1 ,..., cn ) = ∑ ci2σ i2 .
i =1 ная оценка для x г , т.е.
Мы получим задачу на условный экстремум, которую можно
X 1 + X 2 + ... + X n p
решить с помощью функции Лагранжа: ⎯⎯ → xг .
n n
L(c1 ,..., cn ) = F (c1 ,..., cn ) − λ (∑ ci − 1) .
i =1
По следствию из теоремы Чебышева для одинаково распреде-
Найдем критические точки функции Лагранжа: ленных случайных величин имеем
X 1 + X 2 + ... + X n p
∂L ⎯⎯ → M (X ) .
= 2ciσ i2 − λ = 0, i = 1,..., n ; n
∂ci Так как М ( X ) = x г , то, используя свойства математического
n ожидания, получим
∑ ci − 1 = 0 . ⎛ X + ... + X n ⎞ M ( X 1 ) + ... + M ( X n )
i =1 M (Xв ) = M ⎜ 1 ⎟= =
Отсюда находим значение ⎝ n ⎠ n
nM ( X )
1
σ i2 = = xг .
ci = n
, i = 1,..., n. (3.8) n
∑σ
i =1
1
2
i
Теорема доказана.
45 46
n n nD( X ) σ2 n n
D ( X в ) = D( n1 ∑ X i ) = 1
∑
n 2 i =1
D( X i ) =
n2
=
n
. (3.9) ∑(Xi − Xв )2 = ∑(Xi2 − 2Xв Xi + Xв2 ) =
i =1 i=1 i=1
Мы проверили при доказательстве теоремы 3.1, что n n
M ( X в ) = xг . Так как дисперсия D( X в ) равна минимальному зна- = ∑Xi2 − 2nXв2 + nXв2 =∑Xi2 − nXв2.
i=1 i=1
чению, то выборочное среднее X в является эффективной несме- Тогда из определения дисперсии следует
n n
2 2 2
щенной оценкой. ∑ X i − nX в ∑ Xi
Теорема доказана. i =1 i =1
Dв = = − X в2 .
Таким образом, показано, что выборочное среднее X в имеет n n
Воспользовавшись теперь следствием из теоремы Чебышева
все три свойства "хорошей" оценки. Этим и объясняется ее широ-
кое использование в качестве оценки математического ожидания для одинаково распределенных случайных величин X i2 и свойст-
генеральной совокупности. вами предела по вероятности, получаем
Напомним, что по конкретной выборке x1 , ..., xn вычисляется n
2
∑ Xi
(см. (2.10)–(2.12)) "конкретное" значение xв , являющееся одним из i =1 p
⎯⎯→ M ( X i2 ) = M ( X 2 );
множества возможных значений случайной величины X в . n
p
X в ⎯⎯→ M ( X )
3.3. Точечные оценки дисперсии и, значит,
p
Дисперсию D( X ) генеральной совокупности X будем назы- Dв ⎯⎯→ M ( X 2 ) − M 2 ( X ) = D ( X ) = Dг .
вать генеральной дисперсией Dг , т.е. Следовательно, выборочная дисперсия Dв является состоя-
Dг = D ( X ) . (3.10) тельной оценкой для генеральной дисперсии. Вычислим математи-
ческое ожидание Dв и убедимся, что M ( Dв ) ≠ Dг . Имеем
Теорема 3.3. Выборочная дисперсия Dв является состоятель-
⎛ n ⎞ ⎛ n 2 ⎞
ной, но смещенной оценкой генеральной дисперсии Dг . ⎜ ∑ Xi ⎜ ∑ Xi ⎟
2
⎟
Доказательство. Получим сначала формулу для вычисления M ( D в ) = M ⎜ i =1 − X в2 ⎟ = M ⎜ i =1 ⎟ − M ( X в2 ) =
⎜ n ⎟ ⎜ n ⎟
Dв . Согласно определению ⎜ ⎟ ⎜ ⎟
⎝ ⎠ ⎝ ⎠
n
∑(X i − X в )2 ⎛ n 2⎞
⎜ ∑ Xi ⎟
⎛ X 1 + ... + X n ⎞
2
Dв = i =1
. =M ⎜ i =1 ⎟ −M⎜ ⎟ =
n ⎜ n ⎟ ⎝ n ⎠
С другой стороны, ⎜ ⎟
⎝ ⎠
⎛ X 12 + X 22 + ... + X n2 + ∑ X i X j ⎞
⎜ i≠ j ⎟,
= M (X 2) − M ⎜ 2 ⎟
⎜ n ⎟
⎝ ⎠
47 48
где ∑X X
i≠ j
i j означает сумму произведений величин X i и X j для Теорема 3.4. Исправленная дисперсия S 2 является состоя-
тельной и несмещенной оценкой для генеральной дисперсии Dг .
всех значений i и j от 1 до n , но не равных между собой. Так как
X i и X j независимы при i ≠ j , то n
Заметим, что для выборок большого объема множитель
M ( X i X j ) = M ( X i )M ( X j ) . n −1
близок к 1, поэтому случайные величины S 2 и Dв мало отлича-
Поэтому, продолжая вычисления M ( Dв ) , получаем
ются друг от друга. Однако для выборок малого объема это отли-
M ( X 12 ) + ... + M ( X n2 ) + ∑ M ( X i ) M ( X j )
i≠ j
чие может быть существенным.
M ( Dв ) = M ( X ) −
2
=
n 2
Возникает вопрос: будет ли несмещенная оценка S 2 эффек-
nM ( X 2 ) + n( n − 1) M 2 ( X ) тивной?
= M (X 2) − = Предположим, что случайная величина X подчиняется нор-
n2
n −1 n −1 мальному распределению N (a, σ ) , а величины X 1 , X 2 ,..., X n , как
= ⎡⎣ M ( X 2 ) − M 2 ( X ) ⎤⎦ = Dг .
n n обычно, – n независимых экземпляров независимой величины Х.
Множитель n( n − 1) объясняется тем, что по правилу произведе- Тогда минимальная дисперсия несмещенной оценки для дисперсий
ния количество различных пар ( i, j ) при 1 ≤ i ≠ j ≤ n равно равна
n( n − 1) . Итак, мы получили, что 2σ 4
Dmin = . (3.13)
n −1 n
M ( Dв ) = Dг , 3.11)
n В п. 4.1 будет показано, что величина S 2 представима в виде
следовательно, Dв – смещенная оценка для генеральной дисперсии.
σ2
Теорема доказана. S2 = χ n2−1 , (3.14)
Полученная формула (3.11) для вычисления математического n −1
ожидания выборочной дисперсии позволяет указать состоятельную где χ n2−1 – случайная величина, имеющая χ -распределение с
2
и несмещенную оценку для генеральной дисперсии. Для этого рас-
смотрим случайную величину n − 1 степенями свободы. Поэтому
n σ4 2σ 4
2
S = Dв , (3.12) D( S 2 ) = D( χ n2−1 ) = , (3.15)
n −1 (n − 1) 2 n −1
называемую исправленной дисперсией. Понятно, что из этого следует
2 p
S ⎯⎯→ Dг , n
D( S 2 ) = Dmin . (3.16)
n n −1
так как → 1 при n → ∞ . С другой стороны,
n −1 Следовательно, S 2 , будучи несмещенной оценкой дисперсии
⎛ n ⎞ n n n −1 D( X ) , не является эффективной оценкой. Однако при достаточно
M( S 2 ) = M⎜ Dв ⎟ = M ( Dв ) = ⋅ Dг = Dг .
⎝ n −1 ⎠ n −1 n −1 n больших n увеличение D ( S 2 ) по сравнению с Dmin пренебре-
Тем самым доказана
жимо мало.
49 50
Заметим, что несмещенная эффективная оценка дисперсии имеет биномиальный закон распределения с характеристиками
D( X ) нормально распределенной величины X = N (a, σ ) имеет М(т) = пр, D(m) = пр(1 – р). Имеем
вид: ⎛m⎞ 1 1
n
M ⎜ ⎟ = M (m) = np = p ( A) .
1 ⎝n⎠ n n
S 02 = ∑
n i =1
( X i − a)2 .
Следовательно, p * = m / n является несмещенной оценкой
Однако в эту формулу входит математическое ожидание a , вероятности р(А).
которое, как правило, заранее неизвестно. Для доказательства эффективности укажем, что минимум сре-
ди дисперсий различных несмещенных оценок вероятности р(А)
3.4. Точечная оценка вероятности события равен
Обозначим через p( A) неизвестную вероятность события A p(1 − p)
Dmin = . (3.19)
в одном испытании. Для оценивания p ( A) проведем n независи- n
мых испытаний, в которых событие A произошло m раз. Тогда Определим дисперсию оценки p* :
случайная величина
⎛m⎞ 1 np(1 − p) p(1 − p)
m D ( p * ) = D ⎜ ⎟ = 2 D ( m) = = .
p* = (3.17) ⎝n⎠ n n2 n
n
является частностью (относительной частотой) события A . Свой- Так как D(p*) совпадает с минимальной дисперсией Dmin , то
ства этой точечной оценки определяет частность р*, будучи несмещенной оценкой, является также и эф-
фективной.
Теорема 3.5. Относительная частота p * = m / n появления
Теорема доказана.
события A в n испытаниях есть состоятельная, несмещенная и
эффективная оценка вероятности p( A) . 3.5. Метод максимального правдоподобия
В предыдущих пунктах были рассмотрены различные точеч-
Доказательство. Состоятельность оценки p * вытекает из
ные оценки, являющиеся некоторыми функциями от результатов
теоремы Бернулли, согласно которой для любого ε > 0 выполня- наблюдения. Однако осталось неясным, почему были взяты имен-
ется неравенство но эти функции. Рассмотрим один из методов, позволяющих их
⎛m ⎞ получить. Для понимания его сущности обратимся к следующему
lim P ⎜ − P( A) < ε ⎟ = 1 , (3.18) примеру.
n →∞
⎝ n ⎠ Предположим, что график плотности распределения генераль-
или в других обозначениях: ной совокупности Х имеет вид равнобедренного треугольника
m p АВС, длина основания и высота которого зафиксированы, а неиз-
⎯⎯→ p ( A) .
n вестным параметром θ является абсцисса точки D – середины от-
Для доказательства несмещенности этой оценки зафиксируем резка АВ. Пусть x1 , x 2 , ..., x n – выборка из генеральной совокуп-
число испытаний n . Найдем математическое ожидание частности
ности X. Зададимся вопросом: в какую точку оси абсцисс необхо-
m/n, имея в виду, что в условиях испытаний Бернулли величина т димо поместить точку D, если в результате опыта получена именно
выборка x1 , x 2 , ..., x n ? Конечно, никаких ограничений для ее рас-
51 52
положения на оси х нет. Но если мы сдвинем треугольник далеко m
влево или вправо от элементов выборки, то вероятность получения ∑nj = n .
j =1
выборки, попавшей в промежуток [ L, M ] , которому принадлежит
точка D, будет равна нулю, так как Учитывая независимость случайных величин X 1 , ..., X n , ве-
роятность получения выборки x1 , x 2 , ..., x n можно представить как
P ( X ∈ [ L, M ]) = ∫ p( x)dx = ∫ 0 ⋅ dx = 0 .
[ L,M ] [ L,M ] P ( X 1 = x1 ; ...; X n = xn ) = P( X 1 = x1 ) K P( X n = xn ) .
Поэтому точка D должна лежать в "гуще" выборки, т.е. таким Эта вероятность есть функция от x1 , x 2 , ..., x n , которая назы-
образом, чтобы значения ординат p ( xi ,θ ) были в совокупности вается функцией максимального правдоподобия и обозначается
как можно больше. Тогда становится правдоподобным получение L(x1, x2 ,K, xn ,θ) = P( X1 = x1) K P(Xn = xn ) .
именно выборки x1 , x 2 , ..., x n . Данный метод называется методом Учитывая, что значение yi встречается в выборке nj раз, по-
максимального правдоподобия. Итак, параметр θ , согласно этому лучаем
методу, нужно выбирать так, чтобы вероятность получения набора
значений x1 , x 2 , ..., x n случайной величины Х при этом значении L( x1 ,..., xn ,θ ) = p1n1 (θ ) ... pmnm (θ ) .
θ была наибольшей. Конечно, о вероятности получения данного Как уже было сказано, суть метода максимального правдопо-
набора значений мы строго можем говорить лишь в том случае, ко- добия состоит в том, что в качестве параметра θ берется такое
гда рассматриваемая генеральная совокупность распределена дис- значение, которое максимизирует функцию L( x1 ,..., xn , θ ) . Полу-
кретно. Напомним, что для непрерывных случайных величин лю-
бые конкретные значения появляются с нулевой вероятностью. ченное значение, если оно существует, является функцией
*
Поэтому метод максимального правдоподобия имеет некоторые от x1 , x 2 , ..., x n , т.е. θ = θ МП ( x1 , x 2 , ..., x n ) . Заменяя элементы
различия в случае дискретных и непрерывных генеральных сово- x1 , x2 ,..., xn случайными величинами X 1 ,..., X n , получаем оценку
купностей.
максимального правдоподобия θ МП
*
( X 1 , X 2 ,..., X n ) .
Дискретная генеральная совокупность. Пусть Х – дискрет-
ная генеральная совокупность, распределение которой зависит от Точка максимума функции L( x1 ,..., xn , θ ) удовлетворяет не-
некоторого параметра θ , т.е. линейному (в общем случае) уравнению
P ( X = y i ) = p j (θ ) , ∂L( x1 ,..., x n ,θ )
= 0, (3.20)
где j = 1,..., m; y1,…, ym – все различные значения, которые может ∂θ
принимать случайная величина X, а вероятности, с которыми эти *
и поэтому конкретное значение оценки θ МП ( x1 , x 2 , ..., x n ) опре-
значения появляются, зависят от параметра θ . Предположим, что
x1 , x 2 , ..., x n – выборка из генеральной совокупности X, причем деляют как корень уравнения (3.20).
Функции L( x1 ,..., xn , θ ) и ln L( x1 ,..., xn , θ ) достигают макси-
значение yj встречается в выборке nj раз, т.е. nj – частота значения
yj, и поэтому имеет место равенство мума при одном и том же значении θ . Поэтому вместо отыскания
максимума функции L( x1 ,..., xn , θ ) находят максимум функции
53 54
ln L( x1 ,..., xn , θ ) . Эта функция получила название логарифмиче- события А в одном опыте. По выборке x1 , ..., x n из генеральной со-
ской функции правдоподобия. вокупности Х необходимо оценить параметр р.
Построение оценки максимального правдоподобия можно Решение. Выборка x1 , ..., x n состоит из нулей и единиц, при-
разбить на следующие этапы:
Э т а п 1 . Определяют производную логарифмической функ- чем xi = 1 , если в i-м опыте событие А произошло, и xi = 0 , если
ции правдоподобия по параметру θ . событие не произошло. Предположим, что т – частота появления
Э т а п 2. Приравнивая производную к нулю, находят крити- события А в п опытах. Тогда выборка x1 , ..., x n содержит m еди-
ческую точку θ кр – корень уравнения правдоподобия ниц и (n − m) нулей. Так как P ( X = 1) = p, P ( X = 0) = 1 − p , то
∂L( x1 ,..., x n ,θ ) L( x1 , ..., xn , θ ) = p m (1 − p) n − m .
= 0.
∂θ Найдем точку максимума логарифмической функции макси-
2 мального правдоподобия
∂ ln L
Э т а п 3. Находят вторую производную и ее значение ln L( x1 ,..., xn ,θ ) = m ln p + (n − m) ln(1 − p) .
∂θ 2
Определим из уравнения
в точке θ кр . Если вторая производная в точке θ кр меньше нуля, то
∂ ln L
в точке θ кр функция L( x1 ,..., xn , θ ) достигает максимума.
=0
∂p
Найденная таким образом θ МП *
является функцией случайных критическую точку. Имеем
∂ ln L m n − m
величин X 1 , X 2 ,..., X n и, следовательно, сама является случайной = − .
*
∂p p 1− p
величиной. Конкретное значение оценки θ МП получается при Решая уравнение
подстановке в *
θ МП ( X 1 , ..., X n ) вместо X 1 , X 2 ,..., X n значений m n−m
− =0,
выборки x1 , x 2 , ..., x n . p 1− p
Непрерывная генеральная совокупность. Рассмотрим слу- находим p кр = m
n
. Убедимся, что при данном значении параметра
чай, когда генеральная совокупность имеет непрерывный ряд рас-
pкр функция ln L достигает максимума. Для этого нужно прове-
пределения. Функцию максимального правдоподобия определим
по правилу рить, что
L( x1 , ..., xn ,θ ) = p( x1 ,θ )L p( xn , θ ) , ∂ 2 ln L m n−m
= 2− < 0.
где p( x,θ ) – плотность распределения генеральной совокупности. ∂p p (1 − p ) 2
2
Все остальное, изложенное для дискретного случая, переносится Подставляя в это неравенство вместо p значение p кр , убеждаемся
на непрерывный.
♦ Пример 3.1. Проводится п независимых опытов, в каждом в его справедливости. Значит, p кр = mn – оценка максимального
из которых событие А повторяется с неизвестной вероятностью р.
Рассмотрим генеральную совокупность Х – количество появлений правдоподобия, т.е. p*МП = m
n
. Заметим, что полученная оценка –
55 56
относительная частота – является состоятельной и несмещенной при λ = λкр , то найденная критическая точка есть точка максиму-
оценкой для параметра p . ☻
ма. Поэтому оценка максимального правдоподобия для параметра
♦ Пример 3.2. Найти оценку максимального правдоподобия λ является случайной величиной
для параметра λ распределения Пуассона.
Решение. Напомним, что распределение Пуассона имеет вид X 1 + ... + X n
λ*МП = ,
λm n
P( X = m) = e−λ ,
m! т.е. X в . ☻
где m принимает любые целые неотрицательные значения. Пусть ♦ Пример 3.3. Найти оценку максимального правдоподобия
x1 , ..., xn – выборка из генеральной совокупности X . Тогда для параметра α показательного распределения
n
λx i ⎧α e −α x , x > 0;
L( x1 ,..., xn , λ ) = ∏ e−λ . p( x ) = ⎨ (3.21)
i =1 xi ! ⎩ 0, x ≤ 0.
Преобразовав произведение, получим Решение. По выборке x1 , ..., xn , состоящей из положительных
λ x +...+ x
1 n чисел, находим
L( x1 ,..., xn , λ ) = e − nλ . n
x1 !⋅ x2 !⋅ ... ⋅ xn L( x1 ,..., xn , α ) = ∏ α e −α xi = α n e−α ( x1 +...+ xn ) .
i =1
Поэтому логарифмическая функция максимального правдоподобия
имеет вид: Поэтому
ln L = n ln α − α ( x1 + ... + xn ) .
ln L = −nλ + ( x1 + ... + xn ) ln λ − ln( x1!... xn ! ) .
Решая уравнение
Находим критическую точку, решая уравнение ∂ ln L
= 0,
∂ ln L ∂α
= 0.
∂λ n
находим α = . Так как условие
Получим x1 + ... + xn
x1 + K + xn ∂ 2 ln L n
−n + =0. =− <0
λ ∂α 2 α2
x 1 + ...+ x n при λ = λкр выполняется, то оценкой максимального правдоподо-
Отсюда λкр = . Так как
n бия для параметра α является
∂ 2 ln L x + K + xn
= − 1 <0 α МП
*
= 1 .☻
∂λ 2
λ2 Хв
57 58
♦ Пример 3.4. Найти оценки максимального правдоподобия ∂ 2 ln L ∂ 2 ln L
для параметров а и σ нормально распределенной генеральной со- 2
∂ ln L ∂a 2 ∂a∂σ
вокупности. < 0 , > 0.
Решение. Учитывая, что плотность распределения в данном
∂a 2 ∂ 2 ln L ∂ 2 ln L
∂a∂σ ∂a 2
случае
( x − a )2
Вычислим вторые производные:
1 −
p ( x, а , σ ) = e 2σ 2
, ∂ 2 ln L n
2πσ 2
=−< 0;
∂a σ2
получим по выборке x1 , ..., xn
∂ 2 ln L ∂ 2 ln L n x −a
n ( xi − a ) 2 − ∑
n
( xi − a ) 2 = = −2 ∑ i 3 ;
1 − 1 ∂a∂σ ∂σ∂a i =1 σ
L( x1 , ..., xn , a,σ ) = ∏ = 2σ 2
2
2σ
e e i =1
.
2πσ ( )σ
n
i =1 2π n
∂ ln L
2
n n 3 n
4 ∑
= = − ( xi − a ) 2 . (3.24)
Отсюда ∂σ 2
∂σ 2
σ σ i =1
2
( xi − a ) 2 n
Подставляя значения для a кр и σ кр2
из (3.22) и (3.23), получа-
ln L = − n2 ln 2π − n ln σ − ∑ .
i =1 2σ 2 ем:
Находим критические точки этой функции, решая систему уравне-
∂ 2 ln L 2 ⎛ n n
⎞
ний = − 3 ⎜ ∑ xi − ∑ xi ⎟ = 0;
∂ ln L ∂ ln L ∂σ∂a σ ⎝ i =1 i =1 ⎠
= 0; =0.
∂a ∂σ ∂ ln L n
2
3 2n
Вычисляя частные производные, получим 2 = − 2 nd в = − , (3.25)
∂ ln L n ( xi − a )
∂σ dв dв dв
=∑ = 0,
∂a i =1 σ2
где d в – значения выборочной дисперсии.
∂ ln L n 1 n
= − + 3 ∑ ( xi − a ) 2 = 0 . Вычисляя определитель в критической точке, получим
∂σ σ σ i =1
∂ 2 ln L ∂ 2 ln L n
Отсюда ∂a∂σ − 0 2n 2
∂a 2 =
dв
= > 0.
x1 + K + xn ∂ 2 ln L ∂ 2 ln L 2n
акр = ; (3.22) 0 − dв d в2
n ∂a∂σ ∂σ 2
n
2
Поэтому при значениях a кр и σ кр
∑ (x − a
i кр )2 , определенных по формулам
2
σ кр = i =1
. (3.23) (3.22) и (3.23), функция ln L принимает максимальное значение.
n Следовательно, оценками максимального правдоподобия будут
Проверим, что при найденных значениях a кр и σ кр функ- a*МП = X в ; σ *МП = Dв . ☻
ция ln L принимает максимальное значение. Для этого нужно про-
верить выполнение неравенств
59 60
♦ Пример 3.5. Генеральная совокупность распределена рав- Для вычисления выборочного значения этой оценки можно
номерно на интервале ( a, b) . По выборке x1 , ..., xn оценить пара- использовать статистическую функцию Excel ДИСП, обращение к
которой имеет вид:
метры a и b .
Решение. Найдем оценки максимального правдоподобия для =ДИСП(арг1; арг2; …; арг30),
параметров a и b . Плотность генеральной совокупности имеет где арг1; арг2; …; арг30 – числа или адреса ячеек, содержащих чи-
вид: словые величины.
⎧⎪ 1 , x ∈ ( a, b) ♦ Пример 3.6. По выборке примера 2.3 вычислить оценку
p ( x , a , b) = ⎨ b − a . (3.26) (3.28).
⎪⎩0, x ∉ ( a, b) Решение. Первоначально, начиная с ячейки А3, введем в стол-
Поэтому функция максимального правдоподобия бец А 55 элементов выборки (рис. 3.3). Затем, используя функции
n КВАДРОТКЛ, ДИСП (как показано на рис. 3.3), вычислим оценку
L( x1 ,..., xn , a, b) = ∏ p( xi , a, b) (3.28). Видно ожидаемое совпадение двух вычисленных значений.
i =1 ☻
равна нулю, если хотя бы один сомножитель произведения равен
нулю, и больше нуля, если все значения x1 , ..., xn лежат на интер-
вале ( a , b) , т.е.
a ≤ min( x1 ,..., xn ), b ≥ max( x1 ,..., xn ) . (3.27)
Тогда L( x1 ,..., xn , a , b) = 1 . Значение этой функции будет
(b − a ) n
максимальным, если величина (b − a ) минимальна. Учитывая
(3.27), получим
aкр = min( x1 ,..., xn ), bкр = max( x1 ,..., xn ) ,
т.е. a МП = min( X 1 ,..., X n ), b*МП = max( X 1 ,..., X n ) . ☻
*
65 66
Функция ЭКСЦЕСС вычисляет оценку μ3
2 для характеристики асимметрии , которая для симметричной
n( n + 1) n
⎛ xi − xв ⎞ 3( n − 1)
2
σ3
∑ ⎜ ⎟ −
( n − 1)( n − 2)( n − 3) i =1 ⎝ d в ⎠ ( n − 2)( n − 3) плотности распределения равна 0.
μ4 Обращение к функции имеет вид:
для характеристики эксцесс − 3 , которая определяет островер-
σ4 =СКОС(арг1; арг2; …; арг30),
шинность или плосковершинность плотности распределения.
где арг1; арг2; …; арг30 – числовые константы или адреса ячеек,
Обращение к функции имеет вид: содержащих числовые данные.
=ЭКСЦЕСС(арг1; арг2; …; арг30),
где арг1; арг2; …; арг30 – числовые константы или адреса ячеек, Вычисление описательных статистик. Описательные стати-
содержащих числовые данные. стики можно разделить на следующие группы:
• характеристики положения описывают положение данных
Функция МОДА вычисляет наиболее часто встречающееся на числовой оси (среднее, минимальное и максимальное значения,
значение в заданных аргументах функции, т.е. значение, встре- медиана и др.);
чающееся в выборке с максимальной частотой.
• характеристики разброса описывают степень разброса
Обращение к функции имеет вид: данных относительно своего центра (дисперсия, размах выборки,
=МОДА(арг1; арг2; …; арг30), эксцесс, среднеквадратическое отклонение и др.);
• характеристики асимметрии определяют симметрию рас-
где арг1; арг2; …; арг30 – числовые константы или адреса ячеек,
пределения данных относительно своего центра (коэффициент
содержащих числовые данные.
асимметрии, положение медианы относительно среднего и др.);
Если в заданных значениях аргументов нет повторяющихся • характеристики, описывающие закон распределения (час-
значений, то функция возвращает признак ошибки #Н/Д.
тоты, относительные частоты, гистограммы и др.).
Функция МЕДИАНА вычисляет значение выборки, приходя- Основные характеристики положения, разброса и асимметрии
щееся на середину упорядоченной выборочной совокупности. Если можно вычислить, используя режим Описательная статистика
выборка имеет четное число элементов, то значение функции бу- команды Пакет анализа.
дет равно среднему двух значений, находящихся по середине упо- Для вызова режима Описательная статистика необходимо
рядоченной выборочной совокупности. Например, медиана выбор- обратиться к пункту Сервис, команде Пакет анализа, выбрать в
ки (200, 236, 250, 305, 337, 220) будет равна (236 + 250) / 2 = 243. списке режимов Описательная статистика и щелкнуть на кноп-
Обращение к функции имеет вид: ке ОК. В появившемся диалоговом окне Описательная статистика
=МЕДИАНА(арг1; арг2; …; арг30), задать следующие параметры (рис. 3.6):
Входной интервал: – адреса ячеек, содержащих элементы вы-
где арг1; арг2; …; арг30 – числовые константы или адреса ячеек,
борки.
содержащих числовые данные.
Группирование: – задает способ расположения (по столбцам
Функция СКОС вычисляет оценку или по строкам) элементов выборки.
n n
( xi − xв )
3 Метки в первой строке – включается, если первая строка
∑
( n − 1)( n − 2) i =1 d в3 / 2
(столбец) во входном интервале содержит заголовки.
67 68
Уровень надежности: – включается, если необходимо вычис-
лить доверительный интервал для математического ожидания с за-
даваемым ( в % ) уровнем надежности γ .
К-й наименьший: – включается, если необходимо вычислить
к-й наименьший (начиная с xmin ) элемент выборки. При к = 1 вы-
числяется наименьшее значение.
К-й наибольший: – включается, если необходимо вычислить к-й
наибольший (начиная с xmax ) элемент выборки. При к = 1 вычисля-
ется наибольшее значение.
Пример задания параметров приведен на рис. 3.6.
69 70
4. ИНТЕРВАЛЬНЫЕ ОЦЕНКИ
НЕИЗВЕСТНЫХ ПАРАМЕТРОВ
71 72
называется распределением χ с п степенями свободы, а сама ве-
2
личины χ n2 . Так как случайные величины N12 ,..., N n2 независимы, то
личина χ 2 – случайной величиной χ с п степенями свободы.
2
D( χ n ) = nD( N1 ) = n ⎡⎣ M ( N1 ) − M ( N1 ) ⎤⎦ .
2 2 4 2
(4.3)
Заметим, что количество степеней свободы п является единст-
венным параметром χ -распределения и значения χ 2 неотрица-
2 Плотность распределения случайной величины N1 равна
2
− x2
тельны, т.е. P ( χ n2 < 0) = 0 .
p( x) = 1
2π
e , значит,
а p(x) ∞ ∞
1 2
M ( N ) = ∫ x p( x)dx = ∫x e
− x2
1
4 4 4
= 3.
−∞ 2π −∞
Последний интеграл вычисляется методом интегрирования по
частям. Далее, так как M ( N12 ) = 1 , то D( χ n2 ) = n(3 − 1) = 2n . Та-
ким образом, χ -распределение с п степенями свободы имеет сле-
2
2 2
2
α 2 , χ пр ,γ – уровня 1 − α 2 . Тогда имеет место равенство
χ лев ,γ = 8.6 ; χ пр ,γ = 33.7 .