Вы находитесь на странице: 1из 162

МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ

КЫРГЫЗСКОЙ РЕСПУБЛИКИ
КЫРГЫЗСКО-РОССИЙСКИЙ СЛАВЯНСКИЙ УНИВЕРСИТЕТ
Кафедра Высшей математики

Гончарова И.В., Комарцов Н.М.,


Комарцова Е.А.

МАТЕМАТИЧЕСКАЯ СТАТИСТИКА

Учебно-методическое пособие

БИШКЕК - 2014

1
УДК 519.22

Рецензенты:
д-р физ.-мат. наук, профессор А.Б. Байзаков,
канд. физ.-мат. наук, доцент Ш.А. Эгемердиев
канд. физ.-мат. наук, доцент А.К. Курманбаева

Гончарова И.В., Комарцов Н.М., Комарцова Е.А.


МАТЕМАТИЧЕСКАЯ СТАТИСТИКА: учебно-методическое пособие.
– Бишкек: Изд-во КРСУ, 2014.- 162 с.

Данное учебно-методическое пособие содержит основной теоретический материал


по математической статистике. Наличие в пособии большого числа рассмотренных
типовых примеров позволит студентам лучше усвоить не только теоретический
материал, но и возможные области приложения математической статистики.
Изложенные в пособии численные методики решения задач математической
статистики в вычислительной среде табличного процессора Excel существенно повысят
эффективность использования методов математической статистики на практике.
Учебно-методическое пособие предназначено для студентов естественно-
технического факультета.

2
Оглавление

Введение…………………………………………………………………... 4

Глава I. Выборки и их характеристики……………………………… 7


§1.1. Генеральная совокупность и выборка…………………………….. 7
§1.2. Статистическое распределение выборки………………………….. 10
§1.3. Графическое представление экспериментальных данных………. 15
§1.4. Числовые характеристики выборки……………………………….. 21
§1.5. Моменты. Асимметрия и эксцесс………………………………….. 34
§1.6. Группировка данных и графическое представление
37
статистических рядов в Excel…………………………………….....
§1.7. Вычисление числовых характеристик в Excel……………………. 48

Глава II. Статистическое оценивание параметров распределения 54


§2.1. Понятие об оценке параметров……...…………………………….. 54
§2.2. Несмещенные, эффективные и состоятельные оценки…………... 56
§2.3. Точечные оценки математического ожидания и дисперсии…….. 58
§2.4. Методы нахождения точечных оценок……………………………. 61
§2.5. Понятие доверительного оценивания. Доверительная
74
вероятность…………………………………………………………...
§2.6. Точность и надежность оценивания математического ожидания
75
нормальной случайной величины…………………………………..
§2.7. Вычисление границ доверительных интервалов в Excel………… 82

Глава III. Проверка статистических гипотез………………………... 88


§3.1. Статистическая гипотеза и общая схема ее проверки……………. 88
§3.2. Проверка гипотез для одной выборки…………………………..…. 95
§3.3. Проверка гипотез для двух выборок……….. …………………….. 106
§3.4. Критерии согласия………………………………………………..… 120
§3.5. Проверка статистических гипотез в Excel…… ………………….. 136

Приложения…………………………………………………………….... 152

Литература………………………………………………………………... 162

3
ВВЕДЕНИЕ
Математическая статистика – это раздел математики, который изучает
методы сбора, систематизации, обработки и использования статистических
данных для получения научно обоснованных выводов и принятия решений.
Под статистическими данными понимается совокупность чисел,
которые представляют количественные характеристики интересующих нас
признаков изучаемых объектов. Статистические данные получаются в
результате наблюдения или специально поставленных опытов и зависят от
многих случайных факторов, поэтому математическая статистика тесно
связана с теорией вероятностей.
И теория вероятностей и математическая статистика изучают массовые
случайные явления. При этом теория вероятностей из математической
модели выводит свойства реального процесса, а математическая статистика
устанавливает свойства математической модели, исходя из статистических
данных.
Теория вероятностей устанавливает правила нахождения числовых
характеристик случайных величин по заданным законам распределения. На
практике редко встречаются случаи, когда законы распределения
рассматриваемых случайных величин были бы заранее известны. В таких
ситуациях используются статистические методы исследования, смысл
которых состоит в том, что сведения об изучаемом признаке всей
совокупности объектов получают, изучая более или менее обширную часть
должным образом отобранную из общей совокупности объектов.
Полученные сведения представляют собой статистические данные, которые
будучи обработаны методами математической статистики, позволяют
сделать выводы о качестве всей совокупности объектов.
Таким образом, предметом математической статистики является
изучение случайных величин по результатам наблюдений.
Задачи математической статистики:

4
- указать способы сбора и группировки статистических сведений,
полученных в результате наблюдений или в результате специально
поставленных экспериментов.
– дать оценку неизвестной вероятности события; оценку неизвестной
функции распределения; оценку параметров распределения, вид которого
известен;
- произвести проверку статистических гипотез о виде неизвестного
распределения или о величине параметров распределения, вид которого
известен.
Знание математической статистики совершенно необходимо для
успешной деятельности современного специалиста в любой отрасли науки и
практики. Результаты проводимых методами математической статистики
исследований применяются к принятию решений, в частности, при
планировании и организации производства, при анализе технологических
процессов, при контроле качества продукции, при выборе оптимального
времени настройки или замены действующей аппаратуры и т.д.
Решение задач математической статистики связано с существенным
объемом вычислений, связанных с численной реализацией необходимого
вычислительного алгоритма и графической интерпретацией результатов
решения. Появление во второй половине XX века ЭВМ и, в частности,
персональных компьютеров и разработанные для них статистические
программные пакеты способствовали широкому внедрению математико-
статистических методов исследования.
Для того чтобы отвечать требованиям современности специалист
должен не только хорошо знать математику, но и уметь реализовывать
математические методы на компьютере. Самостоятельное освоение
специализированных математических пакетов – достаточно трудоемкая
задача, а изучение электронной таблицы Excel включено в курс
информатики, именно поэтому в пособии изложены некоторые аспекты
применения пакета Excel.
5
Так как интерпретация результатов эксперимента должна опираться не
только на слой выводов, поставляемых компьютерными статистическими
программами, но и на понимание сущности проделываемых в «черном
ящике» статистического пакета операций и преобразований, то в пособии в
полной мере изложен теоретический материал и приведено большое
количество решенных примеров. Чем богаче у исследователя представление
о математической сути применяемых методов, тем яснее его понимание
собственных результатов.

6
ГЛАВА I. ВЫБОРКИ И ИХ ХАРАКТЕРИСТИКИ

§1.1. Генеральная совокупность и выборка


Пусть требуется изучить данную совокупность объектов относительно
некоторого признака.
Определение. Совокупность всех подлежащих изучению объектов или
возможных результатов наблюдений, производимых в неизменных условиях
над одним объектом, называется генеральной совокупностью.
Исследования, в которых участвуют все без исключения объекты,
составляющие генеральную совокупность, называются сплошными
исследованиями.
На практике, однако, сплошное обследование применяют сравнительно
редко. Например, если совокупность содержит очень большое число
объектов, то провести сплошное обследование физически невозможно. Если
обследование объекта связано с его уничтожением или требует больших
материальных затрат, то проводить сплошное обследование практически не
имеет смысла. В таких случаях используют так называемый выборочный
метод. Суть его в том, что для обследования привлекается лишь часть
генеральной совокупности (выборка), но по результатам этого обследования
судят о свойствах всей генеральной совокупности.
Определение. Часть объектов исследования, случайным образом
выбранная из генеральной совокупности, называется выборочной
совокупностью или выборкой.
Например, если задачей является обследование лиц, поступающих в
КРСУ в текущем году, то генеральная совокупность – все абитуриенты
КРСУ этого года. Если мы хотим получить подобные данные для всех
университетов Кыргызстана, то абитуриенты КРСУ – уже выборка из более
широкой генеральной совокупности – всех абитуриентов вузов этого года.
Для того чтобы по данным выборки можно было достаточно уверенно
судить об интересующем признаке генеральной совокупности, необходимо,
7
чтобы объекты выборки правильно его представляли. Другими словами,
выборка должна правильно представлять пропорции генеральной
совокупности. Это требование коротко формулируют так: выборка должна
быть репрезентативной (представительной).
В силу закона больших чисел можно утверждать, что выборка будет
репрезентативной, если ее осуществить случайно: каждый объект выборки
отобран случайно из генеральной совокупности, если все объекты имеют
одинаковую вероятность попасть в выборку.
Определение. Число объектов (наблюдений) в совокупности,
генеральной или выборочной, называется ее объемом. Обозначается
соответственно через N и n.
Например, если из 1000 деталей отобрано для обследования 100
деталей, то объем генеральной совокупности N  1000 , а объем выборки
n  100 .
При составлении выборки можно поступать двумя способами: после
того как объект отобран и над ним произведено наблюдение, он может быть
возвращен, либо не возвращен в генеральную совокупность. В соответствии
со сказанным, выборки подразделяют на повторные и бесповторные. На
практике обычно пользуются бесповторным случайным отбором.
Если объем генеральной совокупности достаточно велик, а выборка
составляет лишь незначительную часть этой совокупности, то различие
между повторной и бесповторной выборками стирается; в предельном
случае, когда рассматривается бесконечная генеральная совокупность, а
выборка имеет конечный объем, это различие исчезает.
В зависимости от конкретных условий для обеспечения
репрезентативности применяют различные способы отбора. Принципиально
эти способы можно подразделить на два вида:
1. Отбор, не требующий расчленения генеральной совокупности на
части. Сюда относятся: а) простой случайный бесповторный отбор;
б) простой случайный повторный отбор.
8
2. Отбор, при котором генеральная совокупность разбивается на части.
Сюда относятся: а) типический отбор; б) механический отбор; в) серийный
отбор.
Простым случайным называют такой отбор, при котором объекты
извлекают по одному из всей генеральной совокупности. Осуществить
простой отбор можно различными способами. Например, для извлечения n
объектов из генеральной совокупности объема N поступают так: выписывают
номера от 1 до N на карточках, которые тщательно перемешивают, и наугад
вынимают одну карточку; объект, имеющий одинаковый номер с
извлеченной карточкой, подвергают обследованию; затем карточку
возвращают в пачку и процесс повторяют, т.е. карточки перемешивают,
наугад вынимают одну из них и т.д. В итоге получают простую случайную
повторную выборку объема п. Если извлеченные карточки не возвращать в
пачку, то выборка является простой случайной бесповторной.
При большом объеме генеральной совокупности описанный процесс
оказывается очень трудоемким. В этом случае пользуются готовыми
таблицами «случайных чисел», в которых числа расположены в случайном
порядке. В выборку попадают те объекты, номера которых совпадают с
выписанными случайными числами. Если случайное число таблицы
превышает число Ν, то его пропускают. При осуществлении бесповторной
выборки случайные числа таблицы, уже встречавшиеся ранее, следует также
пропустить,
Типическим называют отбор, при котором объекты отбираются не из
всей генеральной совокупности, а из каждой ее «типической» части.
Например, если детали изготовляют на нескольких станках, то отбор
производят не из всей совокупности деталей, произведенных всеми станками,
а из продукции каждого станка в отдельности. Типическим отбором
пользуются тогда, когда обследуемый признак заметно колеблется в
различных типических частях генеральной совокупности. Например, если

9
продукция изготовляется на нескольких машинах, среди которых есть более
и менее изношенные, то здесь типический отбор целесообразен.
Механическим называют отбор, при котором генеральную
совокупность «механически» делят на столько групп, сколько объектов
должно войти в выборку, а из каждой группы отбирают один объект.
Например, если нужно отобрать 20% изготовленных станком деталей, то
отбирают каждую пятую деталь; если требуется отобрать 5% деталей, то
отбирают каждую двадцатую деталь, и т.д. Следует указать, что иногда
механический отбор может не обеспечить репрезентативности выборки.
Например, если отбирают каждый двадцатый обтачиваемый валик, причем
сразу же после отбора производят замену резца, то отобранными окажутся
все валики, обточенные затупленными резцами. В таком случае следует
устранить совпадение ритма отбора с ритмом замены резца.
Серийным называют отбор, при котором объекты отбирают из
генеральной совокупности не по одному, а «сериями», которые подвергаются
сплошному обследованию. Например, если изделия изготовляются большой
группой станков-автоматов, то подвергают сплошному обследованию
продукцию только нескольких станков. Серийным отбором пользуются
тогда, когда обследуемый признак колеблется в различных сериях
незначительно.
Подчеркнем, что на практике часто применяется комбинированный
отбор, при котором сочетаются указанные выше способы. Например, иногда
разбивают генеральную совокупность на серии одинакового объема, затем
простым случайным отбором выбирают несколько серий и, наконец, из
каждой серии простым случайным отбором извлекают отдельные объекты.

§1.2. Статистическое распределение выборки


Как правило, необработанные (первичные) экспериментальные данные
представлены в виде неупорядоченного набора чисел, записанных
исследователем в порядке их поступления. Анализ таких данных весьма
10
затруднителен, и для изучения закономерностей полученные данные
подвергаются определенной обработке.
Обработка всегда начинается с группировки. Группировка
представляет собой процесс систематизации, или упорядочения, первичных
данных с целью извлечения содержащейся в данной выборке информации.
Операция расположения значений случайной величины по
неубыванию называется ранжированием статистических данных.
Полученная таким образом последовательность x1 , x2 , ..., xn называется
вариационным рядом.
Наблюдаемые значения xi изучаемого признака называют
вариантами, а числа, показывающие, сколько раз каждая варианта
встречается в выборке, называют частотами и обозначают ni .
k
Объемом выборки называют сумму частот, т.е. n   ni .
i 1

Иногда вместо частот ni рассматривают частости. Частостью


(относительной частотой) называется отношение частоты к объему
ni
выборки, т.е. i  . Сумма всех частостей всегда равна 1.
n
Статистическим распределением выборки называют перечень
вариант xi выборки, расположенных в порядке возрастания, и их
соответствующих частот, т.е.
xi x1 x2 x3 ... xk (*)
ni n1 n2 n3 ... nk

Статистическое распределение выборки можно задать также в виде


последовательности интервалов и соответствующих им частот –
интервальный статистический ряд.
интервалы x ; x 
1 2
x ; x 
2 3
x ; x 
3 4 ... x ; xk 
k 1
(**)
ni n1 n2 n3 … nk

11
Если изучаемый признак варьирует дискретно, то его статистическое
распределение в выборке задают рядом (*), а если непрерывно – то рядом
(**).
Для построения статистического ряда, который варьирует дискретно,
различные значения признака (варианты x i ) располагаем в порядке их
возрастания (ранжируем) и просматривая протокол наблюдений (выборку),
подсчитываем соответствующие частоты.
Пример 1. В супермаркете проводились наблюдения над числом
покупок совершенных покупателями. Наблюдения в течение часа дали
следующие результаты: 3, 3, 1, 4, 2, 4, 8, 3, 2, 6, 7, 2, 4, 3, 3, 1, 4, 2, 4, 1, 1, 5, 5,
6, 7, 5, 4, 1, 6, 5. Составить: 1) вариационный ряд; 2) статистический ряд.
Решение. 1) Здесь, очевидно, изучаемый признак варьирует дискретно.
Всего исследованы покупки 30 покупателей, т.е. объем выборки равен 30.
Проранжируем данные, т.е. расположим их в порядке возрастания, получим
вариационный ряд: 1, 1, 1, 1, 1, 2, 2, 2, 2, 3, 3, 3, 3, 3, 4, 4, 4, 4, 4, 4, 5, 5, 5, 5,
6, 6, 6, 7, 7, 8.
2) Видно, что варианта x1  1 встречается 5 раз – частота n1  5 ,
варианта x2  2 встречается 4 раза – частота n2  4 и т.д. Статистическое
распределение выборки представлено в таблице:
xi 1 2 3 4 5 6 7 8
ni 5 4 5 6 4 3 2 1

Если же объем выборки велик и значения вариант в ней разнообразны,


или признак варьирует непрерывно, то выборочные данные следует
подвергнуть группировке и построить интервальный статистический ряд.
Первая задача, которую, необходимо решить при группировке, состоит
в том, чтобы разбить весь диапазон варьирования признака в выборке (между
минимальной и максимальной вариантами выборки) на интервалы
группировки. Эта задача требует определения числа интервалов группировки

12
и ширины каждого из них. Обычно предпочтительны интервалы одинаковой
ширины, а при выборе числа интервалов исходят из следующих
соображений.
При увеличении числа интервалов группировки и, следовательно, при
сужении каждого из них, уменьшается число экспериментальных данных,
попадающих в каждый интервал. Поскольку выборочные значения случайны,
они случайным образом распределяются по интервалам группировки,
поэтому картина эмпирического распределения будет содержать много
случайных деталей, что мешает установить общие закономерности
варьирования признака. И, наоборот, при чрезмерно широких интервалах
группировки нельзя получить детальной картины распределения, поэтому
возникает опасность упустить важные закономерные подробности формы
распределения.
Поэтому вопрос о выборе числа и ширины интервалов группировки
приходится решать в каждом конкретном случае исходя из целей
исследования, объема выборки и степени варьирования признака в выборке.
Однако приближенно число интервалов k можно оценить исходя только из
объема выборки n . Делается это одним из следующих способов:
1) по формуле Стерджеса: k  1 3,32 lg n .
2) с помощью таблицы: Объем выборки, n Число интервалов, k
25-40 5-6
40-60 6-8
60-100 7-10
100-200 8-12
Больше 200 10-15

Для построения интервального статистического ряда можно использовать


следующий алгоритм:
1) определить объем выборки;
2) определить число интервалов;
13
3) в выборке найти наибольшую xmax и наименьшую xmin варианты и
определить их разность R  xmax  xmin – диапазон или размах варьирования;
R xmax  xmin
4) рассчитать ширину интервала h   (обычно, R не делится
k k
нацело на k , в этом случае производят округление в сторону увеличения);

5) за начало первого интервала чаще всего берут xmin  h или xmin . Это
2
делается для того, чтобы варианты не совпадали с границами интервалов.
Чтобы получить конец первого интервала, к его началу прибавляют
ширину h. Конец первого интервала служит началом второго и т.д. до тех
пор, пока не будет получен интервал, содержащий xmax ;
6) подсчитывают частоты всех интервалов, причем в интервал включают
значения, большие или равные нижней границе интервала.
Пример 2. Измерена максимальная емкость 100 подстроечных
конденсаторов (в пикофарадах). Результаты представлены в таблице.
Построить интервальный статистический ряд.
5,56 5,45 5,48 5,45 5,39 5,37 5,46 5,59 5,61 5,31
5,46 5,61 5,11 5,41 5,31 5,57 5,33 5,11 5,54 5,43
5,34 5,53 5,46 5,41 5,48 5,39 5,11 5,42 5,48 5,49
5,36 5,4 5,45 5,49 5,68 5,51 5,5 5,68 5,21 5,38
5,58 5,47 5,46 5,19 5,6 5,63 5,48 5,27 5,22 5,37
5,33 5,498 5,5 5,54 5,4 5,58 5,42 5,29 5,05 5,79
5,79 5,65 5,7 5,71 5,79 5,44 5,47 5,48 5,47 5,55
5,67 5,71 5,73 5,06 5,35 5,72 5,49 5,61 5,57 5,69
5,54 5,39 5,32 5,21 5,73 5,59 5,38 5,25 5,26 5,80
5,27 5,64 5,2 5,23 5,33 5,37 5,24 5,55 5,6 5,51

Решение. Используем описанный выше алгоритм:


1. Объем выборки равен n  100 .
2. Определим число интервалов по формуле Стерджеса k  1  3,32 lg 100  8.
14
3. Определим по выборке наибольшую и наименьшую варианту xmin  5,05 и
xmax  5,8 определим размах варьирования R  xmax  xmin  5,8  5,05  0,75 .
R 0,75
4. Рассчитаем ширину интервала h    0,09375  0,1 .
k 8

5. За начало первого интервала возьмем xmin  h  5,05  0,1  5 .


2 2
6. Подсчитаем частоты всех интервалов. Так в первый интервал 5,0-5,1
попадают два значения 5,05 и 5,06, поэтому n1  2 , во второй интервал 5,1-5,2
попадают значения 5,11 (которое встречается 3 раза) и 5,19, поэтому n2  4 , в
третий интервал 5,2-5,3 попадают значения 5,2; 5,21 (встречается 2 раза);
5,22; 5,23; 5,24; 5,25; 5,26; 5,27 (встречается 2 раза); 5,29 – всего 11
наблюдений, поэтому n3  11 ; и т.д.
В результате получим интервальный статистический ряд,
представленный в таблице.
интер 5,0-5,1 5,1-5,2 5,2-5,3 5,3-5,4 5,4-5,5 5,5-5,6 5,6-5,7 5,7-5,8
-валы
ni 2 4 11 16 28 17 12 10

§1.3. Графическое представление экспериментальных данных

Для повышения наглядности эмпирических распределений


используется их графическое представление. Наиболее распространенными
способами графического представления являются полигон, гистограмма,
эмпирическая функция распределения.
Определение. Полигоном частот называют ломаную, отрезки
которой соединяют точки x ; n  , x ; n  ,
1 1 2 2
..., x ; n  ,
k k
где xi – варианты
выборки и ni - соответствующие им частоты.
Определение. Полигоном относительных частот называют
ломаную, отрезки которой соединяют точки x1 ; 1  , x2 ; 2  , ..., xk ; k  , где
xi – варианты выборки, а  i – соответствующие им относительные частоты.

15
Пример 3. Используя условие и результаты примера 1 построить
полигон частот и полигон относительных частот.
ni
Решение. Рассчитаем относительные частоты по формуле i  .
n
5 1 4 2
Объем выборки n  5  4  5  6  4  3  2  1  30 , 1   , 2   ,
30 6 30 15
5 1 6 1 4 2 3 1 2 1 1
3   , 4   , 5   , 6   , 7   , 8  .
30 6 30 5 30 15 30 10 30 15 30

xi 1 2 3 4 5 6 7 8
ni 5 4 5 6 4 3 2 1
i 1/6 2/15 1/6 1/5 2/15 1/10 1/15 1/30

7
полигон частот 0,25
полигон относительных
частот
относительные частоты

6
0,2
5
частоты

4 0,15

3 0,1
2
0,05
1
0 0
1 2 3 4 5 6 7 8 1 2 3 4 5 6 7 8
варианты варианты

Гистограмма используется для графического представления


распределений непрерывно варьирующих признаков.
Определение. Гистограммой частот (частостей) называют
ступенчатую фигуру, состоящую из прямоугольников, основаниями которых
ni
служат частичные интервалы длины hi , а высоты равны отношению –
hi
ni
плотность частоты ( – плотность частости).
nhi
Площадь гистограммы частот равна объему выборки, а площадь
гистограммы частостей равна единице.
16
Гистограмма частот является статистическим аналогом
дифференциальной функции распределения (плотности) f (x) случайной
величины X .
Замечание 1. В тех случаях, когда ширина всех интервалов
группировки одинакова, вид гистограммы не изменится, если по оси ординат
ni
откладывать не величины , а частоты интервалов ni .
hi
Замечание 2. Если на гистограмме соединить середины верхних
оснований прямоугольников отрезками прямых, то можно получить полигон
того же распределения, т.о. полигон используется для представления
распределений как непрерывных, так и дискретных признаков.
Пример 4. Используя условие и результаты примера 2 построить
гистограмму частот.
Решение. Найдем высоты прямоугольников по формуле
ni
hi*  . Получим h1*  2  20, h2*  4  40, и т.д.
hi 0,1 0,1

интервалы 5,0-5,1 5,1-5,2 5,2-5,3 5,3-5,4 5,4-5,5 5,5-5,6 5,6-5,7 5,7-5,8


ni 2 4 11 16 28 17 12 10
ni h 20 40 110 160 280 170 120 100
гистограмма частот
300
плотность частоты

250

200

150

100

50

0
5 5,1 5,2 5,3 5,4 5,5 5,6 5,7
интервалы

Весьма важным является понятие эмпирической функции


распределения.
17
Определение. Эмпирической функцией распределения (функцией
распределения выборки) называют функцию F * ( x) , определяющую для
каждого значения х относительную частоту события X  x :
nx
F * ( x)  ,
n
где n x – накопленная частота; n – объем выборки.
Накопленная частота n x – количество элементов выборки, меньших x .
Эмпирическая функция обладает следующими свойствами.
С в о й с т в о 1. Значения эмпирической функции принадлежат отрезку [0; 1].
С в о й с т в о 2. F * ( x) – неубывающая функция.
С в о й с т в о 3. Если x1 – наименьшая варианта, а xk – наибольшая, то
F * ( x)  0 при x  x1 и F * ( x)  1 при x  xk .

С в о й с т в о 4. Эмпирическая функция F * ( x) непрерывна слева.


Пример 5. Построить эмпирическую функцию распределения по
данным таблицы.
xi 1 4 6 10
ni 5 10 25 10
Решение. Объем выборки равен n  5  10  25  10  50 . Наименьшая
варианта равна 1, поэтому частота события X  x при x  1 составит 0, а
nx 0
значит F * ( x)    0.
n 50
Частота события X  x при 1  x  4 равна 5, т.к. событию X  x в
этом случае благоприятствует лишь x1  1 , которое повторяется 5 раз.
5
Следовательно, F * ( x)   0,1 .
50
Частота события X  x при 4  x  6 равна 5+10, т.к. событию X  x
благоприятствуют исходы x1  1 и x2  4 , а их частоты соответственно равны
15
5 и 10. Значит F * ( x)   0,3 .
50

18
5  10  25
Аналогично, при 6  x  10 F * ( x)   0,8 .
50
Так как x4  10 наибольшая варианта, то при x  10
5  10  25  10
F * ( x)   1.
50
Запишем искомую функцию и построим ее график:
1,2
F*(x)
 0 при x 1 1
 0,1 при 1 x  4

 0,8
F * ( x)   0,3 при 4 x6
0,8 при 6  x  10 0,6


 1 при x  10 0,4

0,2
x
0
-4 1 6 11

Резкие «скачки» графика функции F * ( x) , придающие ей ступенчатый


вид, имеют место в тех точках, которым соответствуют наблюдаемые
значения вариант, при этом величина скачка равна частости варианты.
В рассмотренном примере функция F * ( x) построена по дискретному
ряду. Если результаты наблюдений представлены в виде интервального
вариационного ряда, то выборочную функцию распределения строят иначе.
Рассмотрим на примере построение функции F * ( x) для интервального
вариационного ряда.
Пример 6. Построить эмпирическую функцию распределения для
интервального статистического ряда, представленного таблицей.
Интер- 6,67-6,69 6,69-6,71 6,71-6,73 6,73-6,75 6,75-6,77 6,77-6,79 6,79-6,81 6,81-6,83 6,83-6,85
валы
ni 2 15 17 44 52 44 14 11 1

nx 2 17 34 78 130 174 188 199 200

Решение. Очевидно, что для всех x   ; 6,67 функция


распределения равна нулю. Пусть теперь x   6,67; 6,69. В этом случае
19
nx
число не определено, так как неизвестно, сколько выборочных значений
n
случайной величины, принадлежащих этому интервалу, меньше x . Если
nx 2
x  6,69 , то nx  2 , F * ( x)    0,01 . Рассуждая аналогично,
n 200
убеждаемся, что точками, в которых значение функции F * ( x) можно
определить, являются правые концы интервалов и все точки интервала
x  6,85;  . Определим значения функции F * ( x) в указанных точках

0 при x  6,67
0,01 при x  6,69

0,085 при x  6,71

0,17 при x  6,73
0,39 при x  6,75
F * ( x)  
0,65 при x  6,77
0,87 при x  6,79

0,94 при x  6,81
0,995 при x  6,83

1 при x  6,85
Так как эта формула определяет функцию не полностью (не для всех
значений x известны ее значения), то при графическом изображении данной
функции целесообразно ее доопределить, соединив точки графика,
соответствующие концам интервалов, отрезками прямой. В результате
график функции F * ( x) будет представлять собой непрерывную линию.
1,2
F*(x)
1

0,8

0,6

0,4

0,2
x
0
6,6 6,65 6,7 6,75 6,8 6,85

20
§1.4. Числовые характеристики выборки
Вариационные ряды и графики эмпирических распределений дают
наглядное представление о том, как варьирует признак в выборочной
совокупности. Но они недостаточны для полной характеристики выборки,
поскольку содержат много деталей, охватить которые невозможно без
применения обобщающих числовых характеристик.
Числовые характеристики выборки дают количественное
представление об эмпирических данных и позволяют сравнивать их между
собой. Наибольшее практическое значение имеют характеристики
положения, рассеяния и асимметрии эмпирических распределений.
Характеристики положения
Характеристики положения определяют положение центра
эмпирического распределения. Чаще всего употребляются такие
характеристики положения, как выборочная средняя, медиана и мода.
Определение. Выборочной средней xв называют среднее
арифметическое значение признака выборочной совокупности.
Если выборка задана вариантами x1, x2 , ..., xn , каждая из которых
повторяется один раз, то
n
 xi
xв  i 1
. (1.1)
n
Если выборка представлена статистическим рядом
xi x1 x2 x3 … xk
ni n1 n2 n3 … nk
то выборочная средняя вычисляется по формуле
k
 xi ni
xв  i 1
. (1.2)
n

21
Выборочная средняя вычисленная по формуле (1.2), называется также
средневзвешенной, т.к. xi суммируются с коэффициентами (весами),
равными частотам ni .
Замечание. В случае интервального статистического ряда в равенстве
(1.2) в качестве xi берут середины его интервалов.
Пример 7. Найти среднюю цену пачки сливочного масла в г. Бишкек,
если розничные цены двухсотграммовой пачки масла в десяти наудачу
выбранных магазинах города оказались следующими 83, 62, 57, 65, 67, 66, 80,
79, 60, 69 сом.
Решение. Выборка задана вариантами, каждая из которых
повторяется один раз, поэтому выборочная средняя равна
83  62  57  65  67  66  80  79  60  69
xв   68,8 сом.
10
Пример 8. Найти выборочную среднюю распределения, заданного
таблицей:
xi -3 -1 0 2 4 5
ni 2 4 6 5 2 1

Решение. Выборка представлена дискретным статистическим рядом,


поэтому выборочная средняя вычисляется по формуле (1.2):
 3  2  (1)  4  0  6  2  5  4  2  5 1
xв   0,65 .
20
Пример 9. Обследование качества пряжи на крепость дало следующие
результаты:
Крепость
нити (г) 120-140 140-160 160-180 180-200 200-220 220-240
xi
Число
случаев 7 25 28 30 8 2
ni

Найти выборочную среднюю.


22
Решение. Перейдем от интервального ряда к дискретному, в качестве
120  140
xi возьмем середины интервалов, например, x1   130 . Составим
2
вспомогательную расчетную таблицу:
интервалы ni xi xi  ni
120-140 7 130 910
140-160 25 150 3750
160-180 28 170 4760
180-200 30 190 5700
200-220 8 210 1680
220-240 2 230 460
 100 17260

Для расчета выборочной средней используем формулу (1.2), имеем

xв 
x i  ni

17260
 172,6.
n 100
Для тех случаев, когда эмпирическое распределение оказывается
сильно асимметричным, выборочная средняя теряет свою практическую
ценность, поскольку при этом значительно большая часть значений признака
оказывается выше или ниже выборочной средней. В этой ситуации лучшей
характеристикой центра распределения является медиана.
Пример 10. Рассмотрим среднюю месячную зарплату работников
фирмы «Лектос», в которой работают 20 человек. Зарплата 19 работников
составляет 10000 сом, а зарплата руководителя – 1000000 сом. Тогда средняя
19 10000  1000000
заработная плата одного работника этой фирмы  59500
20
сом. Выборочная средняя в этом случае плохо характеризует зарплату одного
работника: она слишком велика для большинства работников, и слишком
мала для высокооплачиваемого руководителя.

23
Определение. Медианой (Ме) называется значение признака,
приходящееся на середину ранжированного ряда наблюдений.
Широкое использование этой характеристики на практике объясняется
простотой ее вычисления и независимостью от формы распределения
эмпирических данных.
Пусть проведено нечетное число наблюдений, т.е. n  2k  1,
результаты наблюдений проранжированы и выписаны в следующий ряд:
x1 , x2 , ..., xk , ..., xn . Здесь через xi обозначено значение признака, занявшего i-е
порядковое место в ранжированном ряду. На середину ряда приходится
значение xk . Следовательно, медиана равна Me  xk .
Если проведено четное число наблюдений, т.е. n  2k , то на середину
ранжированного ряда x1 , x2 , ..., xk , xk 1 ,..., xn приходятся значения xk и xk 1 . В
этом случае за медиану принимают среднее арифметическое значений xk и
xk  xk 1
xk 1 , т.е. Me  .
2
Например, для ряда 2 3 5 6 7 медиана равна Me  5 . А для ряда 2 3
56
5 6 7 9 медиана равна Me   5,5 .
2
Если необходимо найти медиану для сгруппированных данных, то
поступают следующим образом. Объем выборки делят пополам и среди
накопленных частот находят эту половину, варианта ей соответствующая и

будет медианой. А если число n среди накопленных частот не содержится,


2
то берут первую накопленную частоту, большую числа n , варианта ей
2
соответствующая и будет медианой.
Если выборка представлена интервальным рядом, то медиану
вычисляют по следующей приближенной формуле:
n
  nx Me1
Me  xMe  x  2 , (1.3)
nMe

24
где xMe – начало медианного интервала, который находится также как
медиана дискретного распределения; x – длина медианного интервала;
n – объем выборки;  nx Me1 – накопленная частота интервала стоящего перед

медианным; nMe – частота медианного интервала.


Пример 11. В примере 10 рассмотрен пример с зарплатой работников
фирмы «Лектос», в которой работают 19 человек с зарплатой 10000 сом и
руководитель с зарплатой 1000000 сом. Средняя зарплата одного работника
равна 59500 сом. Медиана данной совокупности равна 10000 сом. Она лучше
характеризует совокупность, состоящую из размеров зарплат работников
фирмы.
Т.о., если при упорядоченном размещении некоторого признака
«крайние» значения сомнительные и к тому же резко отличаются от
основной массы данных, то в качестве центра распределения целесообразно
использовать медиану, поскольку на ее величину эти «крайние» значения
никакого влияния не оказывают, и в то же время они могут существенно
повлиять на значение выборочной средней.

Определение. Мода (Мо) – это наиболее часто встречающаяся в


выборке варианта. Если ряд дискретный, то мода находится непосредственно
из определения.
Пример 12. Фермерское хозяйство засеяло пшеницу на 9 полях.
Урожайность составила 21, 24; 18; 28; 18; 24,4; 21; 21; 19 центнеров с
гектара. Тогда мода равна Mо  21.
Если все значения в вариационном ряде встречаются одинаково часто,
то считают, что этот ряд не имеет моды.
Иногда в выборке встречается более чем одна мода, в этом случае
можно сказать, что выборка мультимодальна.
Мода как средняя величина употребляется так же и для данных,
имеющих нечисловую природу. Например, среди перечисленных цветов

25
автомобилей – белый, черный, синий, белый, зеленый, белый – мода будет
равна белому цвету. При экспертной оценке с еѐ помощью определяют
наиболее популярные типы продукта, что учитывается при прогнозе продаж
или планировании их производства.
Если ряд интервальный, мода вычисляется по следующей
приближенной формуле:
nMo  nMo1
Mo  xMo  x  , (1.4)
 nMo  nMo1    nMo  nMo1 
где xMo – начало модального интервала, т.е. интервала с наибольшей
частотой; x – длина модального интервала; nMo – частота модального
интервала; nMo1 – частота интервала, стоящего перед модальным; nMo1 –
частота интервала стоящего после модального.
Выборочная средняя, медиана и мода совпадают только в случае, если
распределение унимодальное (с одним максимумом) и симметричное. Чем
больше распределение отличается от симметричного, тем сильнее различие
между этими характеристиками.
Пример 13. Найти моду и медиану распределения, заданного таблицей:
xi -3 -1 0 2 4 5
ni 2 4 6 5 2 1

Решение. Составим вспомогательную расчетную таблицу.


xi -3 -1 0 2 4 5
ni 2 4 6 5 2 1
nx 2 6 12 17 19 20
Мода – это варианта, имеющая наибольшую частоту. Наибольшая
частота равна 6. Ей соответствует варианта 0. Следовательно, Mo  0.
Для определения медианы в расчетной таблице приведена третья
строка накопленные частоты n x .

26
Объем заданного распределения составляет n  20 . Разделив объем
выборки пополам, получим число 10. Среди накопленных частот найдем
число 10 или первое большее 10 число. Это число 12. Варианта,
соответствующая числу 12, и будет медианой, т.о. Mе  0.
Пример 14. Обследование некоторой физической величины дало
следующие результаты:
xi 120-140 140-160 160-180 180-200 200-220 220-240
ni 7 25 28 30 8 2

Найти моду и медиану этого распределения.


Решение. Составим вспомогательную расчетную таблицу:
xi 120-140 140-160 160-180 180-200 200-220 220-240
ni 7 25 28 30 8 2
nx . 7 32 60 90 98 100

Распределение задано интервальным рядом. Наибольшая частота


n4  30 отвечает интервалу 180-200, то этот интервал является модальным.
Поэтому по формуле (1.4), в которой xMo  180 – начало модального
интервала; nMo  30 – частота модального интервала; nMo1  28 – частота
интервала, стоящего перед модальным; nMo1  8 – частота интервала,
стоящего после модального, получим
30  28
Mo  180  20  181,67 .
(30  28)  (30  8)
Для нахождения медианы по формуле (1.3) нужно определить
медианный интервал, для этого найдем накопленные частоты nx . Объем ряда
n   ni  7  25  28  30  8  2  100 , тогда n 2  50 .
Среди накопленных частот находим число 50. Такого числа нет,
поэтому берем первое, большее 50 значение. Это будет 60. Интервал 160-180,
ему соответствующий, и будет медианным. Следовательно, xMе  160 –

27
начало медианного интервала; nMe  28 – частота медианного интервала;
n 
x Mе1
 32 – накопленная частота интервала, стоящего перед медианным.

Подставим найденные значения в формулу (1.3), получим


100 / 2  32
Me  160  20  172,86.
28

Характеристики рассеяния
Средние значения не дают полной информации о варьирующем
признаке. Нетрудно представить себе два эмпирических распределения, у
которых средние одинаковы, но при этом у одного из них значения признака
рассеяны в узком диапазоне вокруг среднего, а у другого – в широком.
Поэтому, наряду со средними значениями вычисляют и характеристики
рассеяния выборки: размах вариации, выборочная дисперсия, выборочное
среднее квадратическое отклонение и коэффициент вариации.
Простейшей характеристикой рассеяния является размах вариации.
Определение. Размахом вариации называют разность между
максимальной ( xmax ) и минимальной ( xmin ) вариантами выборки:
R  xmax  xmin . (1.5)
Например, для ряда 5 6 8 9 11 23 45 56 размах равен R=56-5=51.
Широко используемой характеристикой рассеивания является
выборочная дисперсия.
Определение. Выборочной дисперсией Dв называется среднее
арифметическое квадратов отклонения значений выборки от выборочной
средней x в , т.е.
k
 ( x i  x в ) 2  ni
Dв  i 1
. (1.6)
n
Для несгруппированных данных дисперсия вычисляется по формуле:

28
k
 ( xi  x в ) 2
Dв  i 1
. (1.7)
n
Можно показать, что Dв может быть подсчитана также по более
удобной формуле:

Dв 
x i
2
 ni
 (xв )2 . (1.8)
n
Выборочная дисперсия характеризует разброс, рассеивание,
отклонение вариант выборочной совокупности относительно их выборочной
средней.
Дисперсия статистической совокупности может быть использована для
сравнения двух совокупностей, для оценивания параметров, для
предварительной проверки статистических гипотез. Если выборочные
средние у двух совокупностей окажутся одинаковыми, то в некоторых
случаях вопрос о том, какой совокупности отдать предпочтение, может быть
решен с помощью дисперсии.
Пример15. Два стрелка сделали по 100 выстрелов. Первый выбил 8
очков 40 раз, 9 очков – 10 раз и 10 очков – 50 раз. Второй выбил 8, 9 и 10
очков соответственно – 10, 70 и 20 раз. Какой из стрелков стреляет лучше?
Решение. Первоначально можно прийти к выводу, что для ответа на
вопрос достаточно вычислить средние числа очков, выбиваемых каждым из
стрелков при 100 выстрелах. Но оказалось, что x в  y в  9,1 . Выборочные
средние не позволили отдать предпочтения одному из стрелков. Вычислим
меру разброса данных – дисперсию статистической совокупности: ведь при
равенстве средних естественно отдать предпочтение тому из стрелков, у
которого попадания группируются кучнее вокруг среднего, т.е. тому, для
которого дисперсия имеет меньшее значение. Вычисления приведены в
таблице 1 для первого стрелка и таблице 2 – для второго.

29
Таблица 1.
xi ni xi  ni ( xi  x в ) 2  ni
8 40 320 48,4
9 10 90 0,1
10 50 500 40,5
 100 910 89

xв 
x i  ni

910
 9,1 ; Dв 
 ( xi  x в ) 2  ni 89
  0,89
n 100 n 100

Таблица 2.
yi ni yi  ni ( yi  y в ) 2  ni
8 10 80 12,1
9 70 630 0,7
10 20 200 16,2
 100 910 29

yв 
y i  ni

910
 9,1 Dв 
 ( yi  y в ) 2  ni 29
  0,29
n 100 n 100
При равенстве выборочных средних дисперсия статистической
совокупности у второго стрелка оказалась меньшей. Поэтому второго
стрелка можно считать лучшим.

Дисперсия имеет размерность, равную квадрату размерности элементов


совокупности. Чтобы иметь показатель вариации с той же размерностью, что
и размерность элементов данной совокупности, рассматривают также так
называемое среднее квадратическое отклонение или стандартное отклонение.
Выборочное среднее квадратическое отклонение выборки определяется
формулой
 в  Dв . (1.9)

30
Стандартное отклонение описывает типичное расстояние от среднего
значения для отдельных значений набора данных.
Пример 16. В группе проведено тестирование по математике. Балл
студента Иванова оказался равным 17. Результаты тестирования студентов
группы следующие: 17, 19, 23, 24, 20, 13, 15, 21, 12, 14. Требуется
определить, типичен ли результат студента Иванова для всей группы.
Решение. Средний балл в группе по формуле (1.1) равен
17  19  23  24  20  13  15  21  12  14
xв   17,8 .
10
Дисперсию результатов тестирования вычислим по формуле (1.8):
17 2  19 2  232  24 2  20 2  132  15 2  212  12 2  14 2
Dв   17,8 2  16,16.
10
Стандартное отклонение  в  Dв  16,16  4,02 .
Разность между результатом студента Иванова и средним баллом
значительно меньше стандартного отклонения.
Т.о., результат студента Иванова, несмотря на то, что он меньше
среднего, является типичным для данной группы студентов.

При решении практических задач используется и величина

sв2 
1 n
 
n  1 i 1

2
xi  x в ni ,

которую называют исправленной выборочной дисперсией.

Величина sв  sв называется исправленным выборочным средним


2

квадратическим отклонением.
Определение. Коэффициентом вариации V называют выраженное в
процентах отношение выборочного среднего квадратического отклонения к
выборочной средней:
в
V  100% . (1.10)

31
Коэффициент вариации служит для сравнения величины рассеяния по
отношению к выборочной средней двух вариационных рядов: тот из рядов
имеет большее рассеяние по отношению к выборочной средней, у которого
коэффициент вариации больше.
Коэффициент вариации – безразмерная величина, поэтому он пригоден
для сравнения рассеяния вариационных рядов, варианты которых имеют
различную размерность, например, если варианты одного ряда выражены в
метрах, а другого в граммах.
Коэффициент вариации используется и как показатель однородности
выборочных наблюдений. Считается, что если V  10% , то выборку можно
считать однородной, т.е. полученной из одной генеральной совокупности.
Замечание. Если x в  0 , то получим бесконечный коэффициент
вариации.
Пример 17. Найти размах вариации, выборочную дисперсию,
выборочное среднее квадратическое отклонение, коэффициент вариации
распределения, заданного таблицей:
xi -3 -1 0 2 4 5
ni 2 4 6 5 2 1
Решение. Размах вариации R  xmax  xmin  5  (3)  8 . Для расчета
остальных характеристик рассеяния, составим вспомогательную расчетную
таблицу.
xi ni xi  ni ( xi  x в ) 2  ni
-3 2 -6 26,645
-1 4 -4 10,89
0 6 0 2,535
2 5 10 9,1125
4 2 8 22,445
5 1 5 18,9225

 20 13 90,55

32
Вычислим выборочную среднюю

xв 
 x i  ni 
13
 0,65.
n 20
Для вычисления дисперсии воспользуемся формулой (1.6), для этого в
таблицу добавлен четвертый столбец – ( xi  x в ) 2  ni .

Dв 
(x i
 x в ) 2  ni 90,55
  4,53 .
n 20
Выборочное среднее квадратическое отклонение  в  Dв  2,13 .
в 2,13
Коэффициент вариации V   100%   100%  327% .
xв 0,65
Пример 18. По данным примера 9, найти выборочную дисперсию,
выборочное среднее квадратическое отклонение, коэффициент вариации
этого распределения.
Решение. Составим вспомогательную расчетную таблицу:
интервалы ni xi xi  ni
2

120-140 7 130 118300


140-160 25 150 562500
160-180 28 170 809200
180-200 30 190 1083000
200-220 8 210 352800
220-240 2 230 105800
 100 3031600

Выборочная средняя x в  172,6 найдена в примере 9.


Выборочную дисперсию найдем по формуле (1.8):
Dв 
 xi2  ni
 (xв )2 
3031600
 (172,6) 2  525,24.
n 100
Выборочное среднее квадратическое отклонение  в  Dв  525,24  22,92 .

в 22,92
Коэффициент вариации V   100%   100%  13,28% .
xв 172,6

33
§1.5. Моменты. Асимметрия и эксцесс
Выборочная средняя x в и выборочная дисперсия Dв представляют
собой частные случаи общих числовых характеристик выборки, называемых
моментами. Моменты служат для характеристики распределения признака
относительно некоторой величины.
Определение. Моментом порядка s вариационного ряда
относительно некоторого числа A называют величину:
k
 xi  A  ni
s

Ms  i 1
. (1.11)
n
Если A  0 (начало отсчета), момент называется начальным:
k

x i
s
 ni
s  i 1
. (1.12)
n
Из (1.12) при s  1 следует
k

x i  ni
1  i 1
 xв ,
n
т.е. выборочная средняя есть начальный момент первого порядка.
Если A  x в (центр распределения), момент называется центральным:

 xi  x в 
k s
 ni
s  i 1
. (1.13)
n
Из (1.13) при s  2 следует

 xi  x в 
k 2
 ni
2  i 1
 Dв ,
n
т.е. дисперсия есть центральный момент второго порядка.
Центральные моменты удобно вычислять через начальные по формулам:
 2   2  12 ,
3   3  3 21  213 ,

34
 4   4  4 31  6 212  314 .
Доказывается, что если распределение симметричное, то все
центральные нечетные моменты равны нулю: 1  0 , 3  0 , 5  0 и т.д.
Центральный момент первого порядка любого распределения равен
нулю - 1  0 .
На практике часто используют также центральные моменты третьего и
четвертого порядков, позволяющие судить о симметричности и остроте
вершины распределения.
Симметричность графика распределения признака можно измерить
численно. Мерой симметричности служит коэффициент асимметрии:
3
As  .
 в3
При As  0 распределение имеет симметричную форму.
При As  0 , длинная часть кривой распределения расположена слева от
x (левосторонняя асимметрия).

f (x)
As<0

При As  0 , длинная часть кривой распределения расположена справа


от x (правосторонняя асимметрия).

f (x)
As>0

x

Показателем степени крутости кривой распределения признака по


сравнению с крутостью нормального распределения служит эксцесс:
35
4
Ех   3.
 в4
Для нормального распределения Е х  0 . Если Е х  0 , то кривая
распределения имеет более острую вершину, чем нормальная, если Е х  0 -
то более плоскую.

Пример 19. Вычислить начальные и центральные моменты от первого


до четвертого порядка включительно, рассчитать асимметрию и эксцесс
распределения, заданного таблицей:
xi -2 -1 0 1 2 3
ni 2 4 6 5 2 1
Решение. Для расчета коэффициента асимметрии и эксцесса найдем
начальные моменты от первого до четвертого порядков по формуле (1.12).
Составим вспомогательную расчетную таблицу.
xi ni xi  ni xi2  ni xi3  ni xi4  ni

-2 2 -4 8 -16 32
-1 4 -4 4 -4 4
0 6 0 0 0 0
1 5 5 5 5 5
2 2 4 8 16 32
3 1 3 9 27 81
 20 4 34 28 154

36
k k

x i  ni
4 x i
2
 ni
34
1  i 1
  0,2 ;  2  i 1
  1,7 ;
n 20 n 20
k k

x 3
i  ni
28 x i
4
 ni
154
3  i 1
  1,4 ;  4  i 1
  7,7 .
n 20 n 20
Теперь рассчитаем второй, третий и четвертый центральные моменты:
 2   2  12  1,7  0,2 2  1,66,
3   3  3 21  213  1,4  3  1,7  0,2  2  0,23  0,396 ,
 4   4  4 31  6 212  314  7,7  4  1,4  0,2  6  1,7  0,22  3  0,24  6,9832 .
Найдем дисперсию и среднее квадратическое отклонение
Dв   2  1,66 ,  в  Dв  1,66  1,29 .
Теперь вычислим коэффициент асимметрии и эксцесс:
 3 0,396  6,9832
As    0,19 ; Е х  44  3   3  0,47 .
 в 1,29
3 3
в 1,29 4
Значения коэффициентов асимметрии и эксцесса малы. Это дает основания
сделать вывод, что заданное распределение близко к нормальному.

§1.6. Группировка данных и графическое представление статистических


рядов в Excel
MS Excel – мощный и достаточно универсальный электронный
процессор, имеющий сотни различных функций и возможностей их
реализаций. Пакет Excel оснащен средствами статистической обработки
данных. И хотя Excel существенно уступает специализированным
статистическим пакетам обработки данных, тем не менее, этот раздел
математики представлен в нем наиболее полно. В него включены основные,
наиболее часто используемые статистические процедуры: средства
описательной статистики, критерии различия и другие методы, позволяющие
проводить необходимый статистический анализ различных типов данных.

37
Многофункциональность Excel не позволяет даже кратко остановиться
на всех основных свойствах системы и ее возможностях. Рассмотрим лишь
некоторые возможности, связанные с вводом и статистической обработкой
числовых данных.
Алгоритм решения задачи может быть реализован путем
программирования необходимых выражений в ячейках электронной таблицы
или обращением к стандартным встроенным функциям и модулям.
Для ввода формулы необходимо набрать в пустой ячейке «=», а затем с
помощью операций (+, -,*, /, ^ и др.) связать исходные данные в ячейках,
результат расчета с которыми мы хотим получить. Порядок операций может
быть изменен с помощью круглых скобок. При вводе формул удобно
использовать встроенные функции, используя диалоговые окна,
предписывающие последовательность ввода данных и уменьшающие
возможность допущения ошибки.
Необходимо помнить, что ячейки в Excel могут иметь абсолютную
($A$11) и относительные адресации ($A11: столбец А – абсолютная ссылка,
строка 11 – относительная; A$11: столбец А – относительная ссылка, строка
11 – абсолютная; А11: столбец А – относительная ссылка, строка 11 –
относительная ссылка). При копировании формул в другие ячейки
абсолютные ссылки сохраняются, а относительные изменяются, эти свойства,
в частности, значительно упрощают обработку массивов, табулирование
функций и т.д.
Для копирования формул удобно использовать маркер заполнения.
Маркер заполнения – небольшой черный квадрат в углу выделенного
диапазона. Попав на маркер заполнения указатель принимает вид черного
креста. Чтобы скопировать содержимое выделенного диапазона в соседние
ячейки или заполнить их подобными данными требуется нажать левую
кнопку мыши и перемещать мышь в нужном направлении.
При проведении сложного статистического или инженерного анализа можно
использовать надстройку "Пакет анализа". Набора его средств достаточно
38
для реализации большинства инженерных запросов. Чтобы выполнить анализ
с помощью этого пакета, следует указать входные данные и выбрать
параметры. Расчет будет выполнен с использованием подходящей
статистической или инженерной макрофункции, а результат будет помещен в
выходной диапазон. Некоторые инструменты позволяют представить
результаты анализа в графическом виде.
Нужно отметить, что в списке доступных надстроек по умолчанию пакет
анализа данных отсутствует. Поэтому сначала его следует установить.
Загрузка и активация Пакета Анализа осуществляется следующим образом:
1. Откройте вкладку Файл, нажмите кнопку Параметры и выберите
категорию Надстройки.
2. В раскрывающемся списке Управление выберите пункт Надстройки
Excel и нажмите кнопку Перейти.
3. В окне Надстройки установите флажок Пакет анализа, а затем
нажмите кнопку ОК.
• Если Пакет анализа отсутствует в списке поля Доступные
надстройки, нажмите кнопку Обзор, чтобы выполнить поиск.

• Если выводится сообщение о том, что пакет анализа не установлен на


компьютере, нажмите кнопку Да, чтобы установить его.

В Excel для построения выборочных функций распределения


используются процедура пакета анализа данных Гистогамма и специальная
функция Частота.

 Вычисление частот и построение гистограмм частот с использованием


команды Анализ данных.

Рекомендуемый алгоритм:

1. Ввести анализируемые данные.


2. В диалоговом окне Анализ данных во вкладке Данные, выбрать
режим Гистограмма.
39
3. В открывшемсядиалоговом окне Гистограмма задать следующие
параметры: входной интервал: – адреса ячеек, содержащие
анализируемые данные; интервал карманов: – адреса ячеек,
содержащие границы интервалов; метки – выбирается только в том
случае, если первая строка во входных данных содержит заголовки.
4. Выбрать Параметры вывода. Это может быть текущий лист, новый
рабочий лист или же новая книга. В дальнейшем, для наглядности,
расчеты будут проводиться на текущем рабочем листе, в этом случае,
требуется включить переключатель Выходной интервал и указать адрес
ячейки, начиная с которой будут размещаться результаты анализа
данных.
5. Для автоматического создания внедренной гистограммы частот на
листе, содержащем выходной диапазон следует отметить параметр
Вывод графика.
Пример 20. Дана статистическая совокупность чисел: 38, 60, 41, 51, 33,
42, 45, 21, 53, 60, 52, 60, 46, 47, 49, 49, 14, 57, 54, 59, 30, 40, 50, 59, 30, 61, 58,
56, 42, 54, 44, 42, 32, 45, 60, 43, 41, 58, 48, 72, 48, 39, 47, 28, 47, 35, 65, 67, 61,
77. Составить интервальный статистический ряд, приняв число интервалов
равным семи и постоить гистограмму частот.
Решение проводится в следующей последовательности:
1. В ячейку А1 вводим название Выборочные данные, далее, начиная с
ячейки А2 данные из условия задачи. По условию, совокупность
значений делится на 7 интервалов. Чтобы определить ширину интервалов
xmax  xmin
h , нужно определить наименьшую и наибольшую варианты.
k
С этой целью можно использовать специальные статистические функции:
МАКС – вычисляет максимальное значение из заданных аргументов,
МИН – вычисляет минимальное значение из заданных аргументов. А
можно использовать встроенную функцию Сортировка и фильтр (см.
вкладку Главная), которая применена в данном примере. Отсортировав
40
данные по возрастанию, получим, что наименьшее значение аргумента –
77  14
14, а наибольшее значение – 77, следовательно h   9.
7
2. В ячейку В1 вводится название «Границы интервалов». Ячейки В2 – В8
заполнены значениями: 23 (так как xmin  h  14  9  23 ), 32, 41, 50, 59,
68, 77.
3. На вкладке Данные выбирается команда Анализ данных, далее режим
Гистограмма и в открывшемся диалоговом окне задаются параметры:

После выполнения данной операции в ячейках Е2 – Е8 даются частоты


интервалов и на этом же листе строится гистограмма. Результаты,
перечисленных выше действий, представлены на рисунке:

41
Замечание 1. На данном рисунке гистограмма, представляет собой
смежные прямоугольники, в действительности, гистограмма при описанном
алгоритме строится в виде:

Гистограмма
18
16
14
12
Частота

10
8
6
4
2
0
23 32 41 50 59 68 77 Еще

Столбики диаграммы легко расширить до соприкосновения друг с


другом следующим образом: щелкнуть мышью по диаграмме, нажать правую
кнопку и в открывшемся меню выбрать Формат ряда данных, далее
Параметры ряда и установить боковой зазор – 0%.
Замечание 2. При построении гистограммы по оси ординат
откладывается не плотность частоты, а сама частота.

42
Замечание 3. При заполнении параметра интервал карманов следует
учесть:
 значения, соответствующие концам интервалов, должны быть
введены в возрастающем порядке;
 параметр интервал карманов не является обязательным, так как если
диапазон карманов не был введен, то набор отрезков, равномерно
распределенных между минимальным и максимальным значениями
данных, будет создан автоматически.
 в Microsoft Office Excel вычисляется число попаданий данных в
диапазон между текущим началом отрезка и соседним большим по
порядку, если такой существует. При этом включаются значения на
нижней границе отрезка и не включаются значения на верхней
границе.
Для подсчета процентных значений распределения в правых
границах интервалов F * ( x)100% следует активизировать (установить
флажок) «Интегральный процент».

Результат работы программы в данном случае представлен на


рисунке

43
 Группировка данных и построение графиков с помощью
встроенных функций.

Произвести группировку данных также можно с помощью функции


ЧАСТОТА. Данная функция расположена в группе «Статистические
функции». Она позволяет вычислить частоту появлений значений в
интервале значений и возвращает массив цифр.
При использовании этой функции необходимо помнить:

1. Функция ЧАСТОТА вводится как формула массива, т.е. предварительно


выделяется интервал ячеек, в который будут помещены вычисленные
частоты (число ячеек должно быть на одну больше числа границ), затем
вводится функция ЧАСТОТА, обращение к которой имеет вид:
=ЧАСТОТА(массив _ данных; массив_ границ),
где массив_ данных содержит адреса ячеек с анализируемыми данными, а
массив_ границ – адреса ячеек, в которых размещаются по возрастанию

44
значения границ интервалов. Потом одновременно нажимаются клавиши
[Ctrl], [Shift], [Enter].
2. Если массив границ не содержит значений, то группировка осуществляется
автоматически.
3. Если границы интервалов задаются с шагом единица, то получается
дискретный ряд.

Пример 21. Построить гистограмму относительных частот, используя


данные примера 20.
Решение. В ячейку А1 введем название «Выборочные данные», в
ячейки А2 – А51 введем исходные данные. Число интервалов и их ширина
определяется аналогично примеру 20. Далее в ячейки В2 – В8 вводим
значения концов интервала (23, 32, 41, 50, 59, 68, 77). В ячейку С1 вносим
название графы Частота, выделим диапазон ячеек С2:С8 равный числу
интервалов, далее щелкнув на панели Стандартная на кнопку Вставка
функции f x вызываем окно мастера функций. В появившемся окне выбираем
категорию «Статистические» и в ней функцию Частота.

В появившемся окне указываем аргументы функции

45
и одновременно нажимаем клавиши [Ctrl], [Shift], [Enter]. В ячейках С2:С8
появится результат выполнения функции.

Для вычисления относительных частот, согласно определению, делим


частоты на объем выборки.
Для определения объема выборки может быть применена
статистическая функция СЧЁТ, обращение к которой имеет вид:
=СЧЁТ(массив_ данных), где массив_ данных – адреса ячеек,
или математическая функция CУММ, обращение к которой
=СУММ(число1; число2;…)

46
Гистограмму относительных частот построим, используя,
содержащиеся во вкладке Вставка, возможности построения гистограмм.
1. Выделим диапазон ячеек D2:D8.
2. Выбираем во вкладке Вставка, на ленте в группе Диаграммы меню
Гистограмма. В данном меню выбираем вид гистограммы, например,
Гистограмма с группировкой. Каждую диаграмму легко обработать
используя макет и стиль диаграммы.
3. При щелчке правой кнопкой мыши по диаграмме в появившемся
диалоговом окне в пункте Формат ряда данных можно устанавливать
желаемый боковой зазор (в рассматриваемом примере он составляет
0%), изменять заливку, цвет и стили границ гистограмм.

47
Гистограмма относительных частот
0,35

0,3

0,25

0,2

0,15

0,1

0,05

0
23 32 41 50 59 68 77

§ 1.7. Вычисление числовых характеристик в Excel


Основные характеристики положения, разброса и асимметрии можно
вычислить двумя способами:

1. Используя режим Описательная статистика команды Анализ


данных.
2. Применяя встроенные статистические функции Excel.

Для вызова режима Описательная статистика необходимо во


вкладке Данные выбрать команду Анализ данных и в появившемся списке
выбрать требуемый режим. В диалоговом окне режима Описательная
статистика задаются следующие параметры:
1. Входной интервал: – адреса ячеек, содержащих элементы выборки.
2. Группирование: – задает способ расположения (по столбцам или по
строкам) элементов выборки.
3. Метки в первой строке – включается, если первая строка (столбец) во
входном интервале содержит заголовки.
4. Выходной интервал / Новый рабочий лист / Новая рабочая книга–
определяет место вывода результатов вычислений.
5. Итоговая статистика – устанавливается в активное состояние, если
в выходном диапазоне необходимо получить по одному полю для каждого из
48
следующих показателей описательной статистики: средняя арифметическая
выборки ( x ), средняя ошибка выборки (  ~x ), медиана (Ме), мода (Мо), оценка
стандартного отклонения по выборке ( s ), оценка дисперсии по выборке
(исправленная дисперсия S в2 ), оценка эксцесса по выборке ( E x ), оценка
коэффициента асимметрии по выборке ( As ), размах вариации выборки (R),
минимальный и максимальный элементы выборки, сумма элементов
выборки, количество элементов в выборке, k-ый наибольший и k-ый
наименьший элементы выборки, предельная ошибка выборки (  x ).

6. Уровень надежности – устанавливается в активное состояние, если в


выходную таблицу необходимо включить строку для предельной ошибки
выборки (x ) при установленном уровне надежности. В поле,

расположенном напротив флажка, введите требуемое значение уровня


надежности (например, значение уровня надежности 95 % равносильно
доверительной вероятности   0,95 или уровню значимости   0,05 ).
7. К-ый наибольший – устанавливается в активное состояние, если в
выходную таблицу необходимо включить строку для k-го наибольшего
(начиная с максимума x max ) значения элемента выборки. В поле,
расположенном напротив флажка, введите число k. Если k  1 , то строка
будет содержать максимальное значение элемента выборки.
8. К-ый наименьший – установливается в активное состояние, если в
выходную таблицу необходимо включить строку для k-го наименьшего
(начиная с минимума x min ) значения элемента выборки. В поле,
расположенном напротив флажка, введите число k. Если k  1 , то строка
будет содержать минимальное значение элемента выборки.
Пример 22. Вычислить числовые характеристики, используя режим
Описательная статистика, пользуясь данными выборки: 32, 17, 22, 15, 22,
17, 20, 26, 27, 32, 17, 32, 17, 22, 15, 26, 17, 22, 15, 20, 26, 32, 22, 32, 37, 22, 15,

49
20, 27, 26, 32, 37, 22, 20, 27, 32, 37, 22, 32, 37, 26, 32, 17, 32, 22, 15, 20, 26, 22,
32.
Решение. Для вычисления числовых характеристик в столбец А,
начиная с ячейки А1 вводятся данные задачи. Обратившись к режиму
Описательная статистика, в диалоговом окне следует включить
параметры, указанные на рисунке, и щелкнуть ОК.

Начиная с указанной ячейки В2 появится таблица, содержащая


вычисленные характеристики:

50
В Excel содержатся стандартные статистические функции,
позволяющие вычислять числовые характеристики диапазона данных.
Рассмотрим основные из них:
Название Описание Синтаксис
функции
(обозначение)
ДИСП ( S в2 ) Оценивает дисперсию по =ДИСП(число1; число2; …)
выборке
ДИСПР ( Dв ) Вычисляет дисперсию для =ДИСПР(число1; число2; …)
генеральной совокупности
МЕДИАНА (Ме) Возвращает медиану =МЕДИАНА(число1; число2;
заданных чисел …)
МОДА (Мо) Возвращает наиболее =МОДА(число1; число2; …)
часто встречающееся или
повторяющееся значение в
массиве или интервале
данных

51
СКОС ( As ) Возвращает асимметрию =СКОС(число1; число2; …)
распределения
СРЗНАЧ ( x в ) Возвращает среднее =СРЗНАЧ(число1;число2; …)
арифметическое
аргументов
СТАНДОТКЛОН Оценивает стандартное =СТАНДОТКЛОН(число1;
(s) отклонении по выборке число2; …)
СТАНДОТКЛОНП Вычисляет стандартное =СТАНДОТКЛОНП (число1;
( ) отклонение по число2; …)
генеральной совокупности
ЭКСЦЕСС ( E x ) Возвращает эксцесс =ЭКСЦЕСС (число1; число2;
множества данных …)
Пример 23. Вычислить числовые характеристики по данным примера
22, используя встроенные функции Excel.
Решение. В столбец А вводим данные примера 22. Выбрав ячейку С3
на панели Стандартная, вызываем мастер функций f x , выбираем категорию
Статистические и в ней одну из перечисленных выше функций. Используя
диалоговые окна функции в качестве диапазона данных указываем адреса
ячеек А2:А51 и щелкаем ОК. Результаты приведены на рисунке:

52
Если данные представлены в виде сгруппированного статистического
ряда, то вычисление числовых характеристик может быть произведено
только путем программирования арифметических действий в ячейках Excel.
Пример 24. Вычислить выборочную среднюю и дисперсию пользуясь
выборочными данными (см. пример 2, Глава 1)
интервалы 5,0-5,1 5,1-5,2 5,2-5,3 5,3-5,4 5,4-5,5 5,5-5,6 5,6-5,7 5,7-5,8
ni 2 4 11 16 28 17 12 10

Решение. Введем в ячейки А2-А9 начало интервалов, в ячейки B2-B9 –


концы интервалов, в ячейки С2-С9 частоту. Далее используя математические
функции СУММ, ПРОИЗВЕД, и операции деления и возведения в степень,
произведем необходимые вычисления, которые подробно расписаны на
рисунке:

53
Глава II. СТАТИСТИЧЕСКОЕ ОЦЕНИВАНИЕ ПАРАМЕТРОВ
РАСПРЕДЕЛЕНИЯ

§ 2.1. Понятие об оценке параметров


Раздел «Статистическое оценивание параметров» входит в
математическую статистику как ее составная часть. В самом общем смысле
содержание этой главы можно сформулировать как совокупность методов,
позволяющих делать научно обоснованные выводы о числовых параметрах
распределения генеральной совокупности по случайной выборке из нее.
Если, например, нас интересует математическое ожидание генеральной
совокупности, то задача статистической оценки параметров заключается в
том, чтобы найти такую выборочную характеристику, которая позволила бы
получить более точное и надежное представление об этом, интересующем
нас параметре. Состав выборки случаен, поэтому выводы о параметрах
генеральной совокупности, сделанные по выборочным данным, могут быть
ложными. С возрастанием числа элементов выборки вероятность
правильного вывода увеличивается. Поэтому всякому решению,
принимаемому при статистической оценке параметров, стараются поставить

54
в соответствие вероятность, характеризующую степень достоверности
принимаемого решения.
Задача оценки параметров в общем виде: пусть распределение
признака X – генеральной совокупности – задается функцией вероятностей
 ( xi , )  P( X  xi ) (для дискретной случайной величины X) или плотностью
вероятности  ( x, ) (для непрерывной случайной величины X), которая
содержит неизвестный параметр  . Например, это параметр  в законе
Пуассона или параметры a и  для нормального закона и т.д.
Для вычисления параметра  исследовать все элементы генеральной
совокупности не представляется возможным. Поэтому о параметре 
пытаются судить по выборке, состоящей из значений (вариант) x1 , x2 ,...,xn .
Эти значения можно рассматривать как частные значения (реализации) n
независимых случайных величин X 1 , X 2 ,...,X n , каждая из которых имеет тот
же закон распределения, что и сама случайная величина X.
~ ~
Определение. Статистической оценкой  n (или просто – оценкой  )
параметра  теоретического распределения называют его приближенное
значение, зависящее от данных выбора.
~
Очевидно, что оценкой  n называют всякую функцию результатов
наблюдений над случайной величиной X (иначе – статистику), с помощью
которой судят о значении параметра  :
~ ~
 n   n ( X 1 , X 2 ,...,X n ) .
~
Поскольку X 1 , X 2 ,...,X n – случайные величины, то и оценка  n
является случайной величиной, зависящей от закона распределения
случайной величины X и числа n.
Выбор оценки, позволяющий получить хорошее приближение
оцениваемого параметра, – основная задача теории оценивания.

55
§ 2.2. Несмещенные, эффективные и состоятельные оценки
Для того чтобы статистические оценки давали «хорошие»
приближения оцениваемых параметров, они должны удовлетворять
следующим требованиям:
1. Состоятельность оценок
~
Определение. Оценка  n параметра  называется состоятельной,
если при неограниченном увеличении объема выборки ( n   ) она
стремится к истинному значению параметра  . Это означает, что для любого
  0 выполняется соотношение 
~

lim P  n      1 .
n

В случае использования состоятельных оценок оправдывается


увеличение объема выборки, так как при этом становятся маловероятными
значительные ошибки при оценивании. Поэтому практический смысл имеют
только состоятельные оценки.
m
Пример 1. Относительная частота события P * ( A)  является
n
состоятельной оценкой вероятности этого события P(A) , что следует из
предельной теоремы Бернулли.
2. Несмещенность оценок
~
Определение. Оценка  n параметра  называется несмещенной, если
ее математическое ожидание равно оцениваемому параметру, т.е
~
M ( n )   .
В противном случае оценка называется смещенной.
~ ~
Разность M ( n )   называется смещением оценки. Если M ( n )   , то
~
оценка  n , полученная по разным выборкам, будет в среднем завышать
~
значение  , если M ( n )   , то занижать.
Другими словами, оценка называется несмещенной, если она не
содержит систематической ошибки, т.е. среднее значение оценки,
определенное по многократно повторенной выборке объема n из одной и той
56
же генеральной совокупности, стремиться к истинному значению
соответствующего генерального параметра.
Пример 2. Эмпирическая функция распределения выборки F * ( x)
является несмещенной состоятельной оценкой функции распределения F (x)
случайной величины X.
3. Эффективность оценок
~
Определение. Оценка  n параметра  называется эффективной, если
она принимает наименьшую дисперсию среди всех возможных несмещенных
оценок параметра  , вычисленных по выборкам одного и того же объема n.
Пример 3. В качестве оценки генеральной средней можно
использовать выборочную среднюю или медиану выборки. Эффективность
оценки вычисленной по выборочной средней выше, чем у оценки,
вычисленной по медиане.
Вывод: В качестве статистических оценок параметров генеральной
совокупности желательно использовать оценки, удовлетворяющие
одновременно требованиям несмещенности, состоятельности и
эффективности. Однако достичь этого удается не всегда. Может оказаться,
что для простоты расчетов целесообразно использовать незначительно
смещенные оценки или оценки, обладающие большей дисперсией по
сравнению с эффективными оценками и т.п.
С практической точки зрения свойство состоятельности очень важно –
его наличие позволяет надеяться, что с увеличением объема выборки
точность оценивания будет расти. Несмещенность играет менее важную
роль, данное свойство важно в случае малых выборок, когда оценки могут
быть далеки от оцениваемого параметра и наличие систематической
погрешности оценивания только ухудшает точность оценивания. В случае
больших выборок смещенные оценки (при наличии состоятельности!) на
точность оценивания существенного влияния не оказывают.

57
§2.3. Точечные оценки математического ожидания и дисперсии
Статистика, используемая в качестве приближенного значения
неизвестного параметра генеральной совокупности, называется ее точечной
оценкой. То есть точечная оценка характеристики генеральной совокупности
– это число, определяемое по выборке.
Наиболее важными числовыми характеристиками случайной величины
являются математическое ожидание и дисперсия.
Выясним, какие выборочные характеристики лучше всего в смысле
несмещенности, эффективности и состоятельности оценивают
математическое ожидание и дисперсию.
Пусть изучается случайная величина X с математическим ожиданием
a  M (X ) и дисперсией D(X ) ; оба параметра неизвестны, а x1 , x2 ,...,xn –
выборка, полученная в результате проведения n независимых наблюдений за
случайной величиной X. Чтобы подчеркнуть случайный характер величин
x1 , x2 ,...,xn перепишем их в виде X 1 , X 2 ,...,X n , т.е. под X i будем понимать
значение СВ X в i-м опыте. Поскольку эти величины одинаково
распределены, то они имеют одинаковые числовые характеристики.
Поэтому M ( X 1 )  M ( X 2 )  ...  M ( X n )  M ( X )  a , D( X 1 )  D( X 2 )  ...  D( X n )  D( X ) .
Теорема. Пусть X 1 , X 2 ,...,X n – выборка из генеральной совокупности

и M ( X i )  M ( X )  a , D( X i )  D( X n )  D( X ) i  1, n. Тогда выборочное


1 n
среднее X в   X i – несмещенная и состоятельная оценка математического
n i 1

ожидания M (X ) .

Доказательство. Найдем математическое ожидание оценки X в :

M X   M   X
1 n
 1  n  1 n
M   X i    M  X i   na  a.
1
в i  
n  i 1  n  i 1  n i 1 n

Отсюда по определению получаем, что X в – несмещенная оценка M (X ) .


Согласно теореме Чебышева, для любого   0 имеет место равенство

58
1 n 1 n 
lim P   X i   M  X i      1 ,
n
 n i 1 n i 1 
которое, согласно условию теоремы, можно переписать в виде:

lim P X в  M ( X )    1
n

 
или, что то же самое, lim P       1 . Согласно определению получаем,
n

что X в – состоятельная оценка M (X ) . Что и требовалось доказать.


Если в качестве оценки генеральной дисперсии принять выборочную
дисперсию, то эта оценка будет приводить к систематической ошибке, давая
заниженное значение генеральной дисперсии, так как доказывается, что
n 1
M ( Dв )  D( X ) .
n
Таким образом, выборочная дисперсия является смещенной оценкой
дисперсии. Поэтому выборочную дисперсию исправляют, умножив ее на
n
(поправка Бесселя), получая исправленную дисперсию, вычисляемую
n 1
по формуле
n
sв2  Dв
n 1
или

sв2 
1 n

n  1 i 1
 2
xi  x в ni .

Теорема. Пусть X 1 , X 2 ,...,X n – выборка из генеральной совокупности

и M ( X i )  M ( X )  a , D( X i )  D( X n )  D( X ) i  1, n. Тогда исправленная

выборочная дисперсия sв2 


1 n
 X i  X 2  n Dв – несмещенная и
n  1 i 1 n 1
состоятельная оценка дисперсии D(X ) .
Доказательство. Докажем несмещенность оценки.
Имеем

59
n n 1
M sв2   M 
 n  n
Dв   M Dв    D X   D X  .
 n 1  n 1 n 1 n

Следовательно, по определению получаем, что s в2 – несмещенная оценка


D(X ) .

Состоятельность оценки s в2 примем без доказательства.


Замечание. Поправка Бесселя при малых значениях n довольно
значительно отличается от единицы, с увеличением объема выборки она
быстро стремится к единице. При n  50 практически нет разницы между
оценками s в2 и Dв .
Пример 4. С помощью измерительного прибора, не имеющего
систематической ошибки, было сделано 8 независимых измерений некоторой
величины:
Номер измерения 1 2 3 4 5 6 7 8
xi 2504 2486 2525 2495 2515 2528 2492 2494
Найти несмещенные оценки математического ожидания и дисперсии.
Решение. Несмещенной оценкой математического ожидания является
выборочная средняя
2504  2486  2525  2495  2515  2528  2492  2494
xв   2504,875 .
8
Несмещенной оценкой дисперсии генеральной совокупности является
исправленная выборочная дисперсия:
8
 xi  2504,8752
s в2  i 1
7

1
7
2504  2504,8752  2486  2504,8752  2525  2504,8752 

 2495  2504,8752  2515  2504,8752  2528  2504,8752  2492  2504,8752 


 2494  2504,875  254,41 .
2

Пример 5. По выборке объема n  51 найдена смещенная оценка


Dв  5 генеральной дисперсии. Найти несмещенную оценку дисперсии
генеральной совокупности.

60
Решение. Несмещенная оценка равна исправленной дисперсии
n 51
s в2  Dв   5  5,1.
n 1 50

§2.4. Методы нахождения точечных оценок


В математической статистике разработано большое число методов
оценивания неизвестных параметров по данным случайной выборки, из
которых в приложениях наиболее часто используются:
 метод моментов;
 метод максимального правдоподобия;
 метод наименьших квадратов.

Метод моментов
Метод моментов был предложен английским статистом Карлом
Пирсоном в 1894 году и является одним из первых общих методов
оценивания.
Метод моментов заключается в приравнивании определенного числа
выборочных (эмпирических) моментов к соответствующим теоретическим
моментам распределения.
Формулы для вычисления теоретических и эмпирических моментов
приведены в таблице:
Момент Теоретический Эмпирический
n m
 k   xik pi (для ДСВ)  xik ni
i 1
~k  i 1
Начальный 
n
 k   x  ( x)dx (для НСВ)
k



n m
 k   xi  a  pi  xi  x 
k k
(для ДСВ) ni
i 1
~k  i 1
Центральный 
n
k   x  a   ( x)dx (для НСВ)
k



61
Замечание. В приложениях обычно используются моменты первого и
второго порядков. Очевидно, что теоретический начальный момент первого
порядка – математическое ожидание, а центральный момент второго порядка
– дисперсия. Эмпирический начальный момент первого порядка –
выборочное среднее, эмпирический центральный момент второго порядка –
выборочная дисперсия.
В прикладных задачах наибольшее приложение имеют распределения,
описываемые одним или двумя параметрами.
Если распределение определяется одним параметром, то для
построения оценки один теоретический момент приравнивается к
одному эмпирическому моменту того же порядка (обычно первого), т.е
надо решить одно уравнение: 1  ~1 или M ( X )  x в .
Если распределение зависит от двух параметров, то для получения
оценок следует решить систему из двух уравнений, которая получается
если приравнять два теоретических момента к двум соответствующим
эмпирическим моментам тех же порядков (обычно первых двух). В общем
 1  ~1 , M ( X )  x в ,
случае система уравнений имеет вид:  ~ 
 2   2 ,  D( X )  Dв .

К достоинствам метода относится простая вычислительная реализация,


а также то, что оценки являются функциями выборочных моментов.
Отметим, что оценки, полученные методом моментов, часто
оказываются смещенными и, вообще говоря, мало эффективны, поэтому их
обычно принимают в качестве первого приближения, по которому другими
методами можно построить оценки более высокого качества.

Пример 6. Проведено исследование посещаемости популярного


интернет-сайта. Регистрируется число посетителей, зашедших на сайт.
Результаты исследования представлены в таблице.

62
Число Количество Число Количество
посетителей ( xi ) часов ( ni ) посетителей ( xi ) часов ( ni )
0 57 7 139
1 203 8 45
2 383 9 27
3 525 10 10
4 532 11 4
5 408 12 1
6 273 14 1
В предположении, что случайное число посетителей описывается
распределением Пуассона, оценить параметр  методом моментов. Оценить
вероятность того, что в течение часа на сайте не будет ни одного посетителя.
Решение. Распределение Пуассона определяется одним параметром.
Для получения оценки составляем уравнение:
M ( X )  xв .

Математическое ожидание распределения Пуассона известно:


14

x n i i
10096
M (X )   , а xв  i 1
  3,87 .
n 2608
Следовательно, *  3,87 . Для оценки вероятности используем

формулу Пуассона PX  k  


k e 
, получим: PX  0 
3,87  e 3,87
0
 0,02 .
k! 0!

Пример 7. ОТК были измерены диаметры 300 валиков из партии,


изготовленной одним станком - автоматом. Отклонения измеренных
диаметров от номинала (в мм) даны в таблице. Требуется оценить долю
изделий, для которых отклонение не превосходит 15 мм по абсолютной
величине, с применением метода моментов (используя нормальное
приближение) и непосредственно по таблице.

63
Границы Середина Число Границы Середина Число
отклонений интервала валиков отклонений интервала валиков
-30…-25 -27,5 3 0–5 2,5 55
-25…-20 -22,5 8 5 –10 7,5 30
-20…-15 -17,5 15 10 – 15 12,5 25
-15…-10 -12,5 35 15 – 20 17,5 14
-10…-5 -7,5 40 20 –25 22,5 8
-5…0 -2,5 60 25 –30 27,5 7

Решение. Для нахождения двух неизвестных параметров необходимо


два уравнения. Первое получаем, приравнивая начальный теоретический
момент первого порядка к начальному эмпирическому моменту первого
порядка, а второе – приравнивая центральный теоретический момент второго
порядка к центральному эмпирическому моменту второго порядка. Получаем

M ( X )  xв ,

 D( X )  Dв .

Учитывая, что случайная величина – отклонение диаметров валиков от


номинала, подчиняется нормальному закону распределения, имеем M ( X )  a ,
D( X )   2 . Тогда система примет вид:

a  x в ,
 2
  Dв .

Итак, искомые оценки параметров нормального распределения: a*  xв ,

 *  Dв .

Находим величины xв и Dв по данным выборки. Для расчетов


составим таблицу:

64
Середина Число
xi ni xi  x в xi  xв 
2
 x i  x в 2 ni
интервала xi валиков ni
-27,5 3 -82,5 -27,1 734,41 2203,23
-22,5 8 -180 -22,1 488,41 3907,28
-17,5 15 -262,5 -17,1 292,41 4386,15
-12,5 35 -437,5 -12,1 146,1 5124,35
-7,5 40 -300 -7,1 50,41 2016,4
-2,5 60 -150 -2,1 4,41 264,6
2,5 55 137,5 2,9 8,41 462,55
7,5 30 225 7,9 62,41 1872,3
12,5 25 312,5 12,9 166,41 4160,25
17,5 14 245 17,9 320,41 4485,74
22,5 8 180 22,9 524,41 4195,28
27,5 7 192,5 27,9 778,41 5448,87
 300 -120 38 527

Таким образом, имеем:


12

 120  ( x i  x в ) 2 ni
38527
xв   0,4 , Dв  i 1   128,42 .
300 n 300

Таким образом, a*  0,4 (мм);  *  128,42  11,33 (мм).

Оценим долю изделий с отклонением, не превосходящим 15 мм по


модулю. Из курса теории вероятностей для нормально распределенной
 
случайной величины справедлива формула P X  а     2 .
 

Подставляя в данную формулу значения a  0,4 ,   15,   11,33 получим:

 15 
P X  0,4  15  2   21,32  2 * 0,4066  0,8132  81% .
 11,33 

Для вычисления значения функции x  используем таблицу (приложение 2)


65
Непосредственно по таблице оценка этой доли составляет:

35  40  60  55  30  25 245
  0,817  82% .
300 300

Метод максимального правдоподобия


Является основным методом получения оценок параметров
генеральной совокупности по данным выборки. Метод получил
распространение после появления в 1921 году статьи английского статистика
Р. Фишера, где было доказано, что получаемые этим методом оценки
являются асимптотически наиболее точными.
Пусть x1 , x2 ,...,xn – выборка, полученная в результате проведения n
независимых наблюдений за случайной величиной X. И пусть вид закона
распределения величины X, например, вид плотности, известен, но
неизвестен параметр  , которым определяется этот закон. Требуется по
выборке оценить параметр  .
В основе метода лежит функция правдоподобия.
Определение. Функцией правдоподобия, построенной по выборке
x1 , x2 ,...,xn , называется функция аргумента  вида
n
Lx1 , x 2 ,..., x n ,     f ( xi ,  )  f ( x1 ,  )  f ( x 2 ,  )    f ( x n ,  ) ,
i 1

где f x,  - плотность распределения непрерывной случайной величины X.


Замечание. Если наблюдаемая величина дискретная, то функция
правдоподобия имеет вид:
n
Lx1 , x2 ,...,xn ,    p( xi , ) ,
i 1

где p( xi , )  PX  xi , .
Согласно методу максимального правдоподобия в качестве оценки
~
неизвестного параметра  принимается такое значение  , которое
максимизирует функцию правдоподобия.

66
Эта оценка, называемая оценкой максимального правдоподобия,
является решением уравнения
dL x, 
 0.
d  ~
Заметим, что нахождение оценки упрощается, если максимизировать не
саму функцию Lx, , а ln Lx,  поскольку максимум обеих функций
достигается при одном и том же значении  . Величину ln Lx,  иногда
называют логарифмической функцией правдоподобия.
Алгоритм нахождения оценки максимального правдоподобия:
1. решить уравнение правдоподобия, получаемое приравниванием
d ln Lx, 
производной по параметру  к нулю, т.е.  0;
d
2. отобрать то решение, которое обращает функцию ln Lx,  в максимум

d ln Lx, 
2

(удобно использовать вторую производную: если  0, то


d 2 ~
 
~
   – точка максимума).
Замечание. Если оценке подлежат несколько параметров 1 , 2 ,..., n
~ ~ ~
распределения, то оценки 1 , 2 ,..., n определяются решением системы

  ln L 
   0,
 1
уравнений правдоподобия: ...,
  ln L 
  0.
  n

Важность метода максимального правдоподобия связана с его


оптимальными свойствами. Так, если для параметра  существует
~
эффективная оценка  nэ , то оценка максимального правдоподобия
~
единственна и равна  nэ . Кроме того, при достаточно общих условиях оценки
максимального правдоподобия являются состоятельными, асимптотически
эффективными и имеют асимптотически нормальное распределение.
67
Основной недостаток метода – трудность вычисления оценок,
связанных с решением уравнений и систем правдоподобия. Для наиболее
важных видов распределения уравнение правдоподобия имеет единственное
решение, но бывают случаи, когда функция правдоподобия имеет несколько
максимумов, и приходиться искать наибольший среди них. Во многих
случаях, решение системы, являющейся, как правило, нелинейной
приходится искать численными методами.
Следует отметить, что бывают случаи, когда изложенный алгоритм
нахождениям оценки не действует, поскольку функция правдоподобия
достигает максимума не во внутренней точке, а на границе некоторой
области, либо когда она просто не дифференцируема в точке максимума.
Такие случаи называются нерегулярными.
Метод максимального правдоподобия иногда дает те же оценки, что и
метод моментов, а иногда – другие. Бывает, что ни один из этих методов не
дает хороших оценок, и приходиться использовать другие методы, тем более
что для построения оценок данными методами (методом моментов и
максимального правдоподобия) необходимо точное знание типа
анализируемого распределения, что во многих случаях оказывается
практически нереальным.
Пример 8. Случайная величина X (время работы изделия) имеет
показательное распределение f ( x)  e x , где x  0 . В таблице приведены
сгруппированные данные по времени работы (в часах) для 1000 изделий.
xi 5 15 25 35 45 55 65
ni 365 245 150 100 70 45 25
Найти методом максимального правдоподобия точечную оценку
неизвестного параметра  показательного распределения. Какова
вероятность того, что изделие может прослужить более 60 часов?
Решение. Составим функцию правдоподобия

68
n
  xi
Lx1 , x2 ,...,xn ,    e x1  e x2  ...  e xn  n e i 1
.
Логарифмируя, получим:
   xi 
n
  n
ln L  ln  n e i 1   n ln     xi
  i 1
 
и
d ln L n n
   xi .
d  i 1
Уравнение правдоподобия имеет вид:
n n
  xi  0 .
 i 1

Отсюда находим
~ n 1
 n
 .
 xi xв
i 1

~ 1
Докажем, что в критической точке   функция правдоподобия

d 2 ln L n d 2 ln L n
достигает максимума. Находим   2 , а так как   2  0 , то
d 2
 d 2

~ 1
оценка   является оценкой максимального правдоподобия.

n
 xi ni
i 1
По выборочным данным находим: xв   20 .
n
~ 1 1
Итак, получаем     0,05 .
xв 20

PX  60   0,05e 0,05x dx   lim e 0,05x 60  e
b 3
 0,05 .
b
60

Пример 9. Случайная величина X (число появлений события А в m


независимых испытаниях) подчинена биномиальному закону распределения

69
с неизвестным параметром p. В таблице приведено эмпирическое
распределение числа появлений события А в 1000 испытаниях (в первой
строке указано число xi появлений события в одном опыте из m  10
испытаний, во второй строке приведена частота ni – число опытов, в которых
наблюдалось xi появлений события А):
xi 0 1 2 3 4 5 6 7
ni 2 3 10 22 26 20 12 5
Найти методом максимального правдоподобия точечную оценку
неизвестного параметра   p биномиального распределения.
Решение. В рассматриваемом случае функция правдоподобия имеет
вид

L  Cmx1 p x1 1  p 
m x1
 C x2
m p x2 1  p 
m x2
   C xn
m p xn 1  p 
m xn
,
или
 
L  Cmx1 Cmx2    Cmxn p x1 x2  xn 1  p 
nm x1 x2  xn 
.
Прологарифмировав функцию правдоподобия, получим:

 
   
ln L  ln Cmx1 Cmx2    Cmxn    xi  ln p   nm   xi  ln 1  p .
 i   i 
Первая производная по оцениваемому параметру p равна:
 x nm   xi
d ln L i i
  i
.
dp p 1 p
Уравнение правдоподобия имеет вид:
 xi nm   xi
i
 i
 0.
p 1 p
Решением которого является критическая точка
 xi
p i
.
nm
Вторая производная по p:

70
d 2 ln L  xi nm   xi
 i 2  i
.
dp 2
p 1  p 2
 xi d 2 ln L n3m3
При p i
вторая производная   0,
nm dp 2  
 xi  mn   xi 
i  i 
следовательно, эта точка является точкой максимума и ее надо принять в
качестве оценки максимального правдоподобия неизвестной вероятности p
биномиального распределения. Учитывая, что xi появлений события
наблюдалось в ni опытах, получим искомую оценку

 xi ni
p 
* i
.
nm
Подставляя в найденную оценку заданные значения, получим
400
p*   0,4 .
1000
Пример 10. Найти методом максимального правдоподобия по выборке
x1 , x2 ,...,xn точечные оценки параметров a и  нормального распределения,
плотность которого
 x a 2

1
f ( x)  e 2 2 .
 2
Решение. Выпишем функцию правдоподобия в виде
1 n

1    xi a 2
L( x1 , x2 ,...,a, )  2 i 1
2
e
  n
.
2
Логарифмическая функция правдоподобия имеет вид
1
 xi  a  .
n
ln L  n ln   n ln 2 
2

2 2
i 1

Система уравнений правдоподобия имеет вид:

71
  ln L 1 n  n  x  a   0, 
 a    x  a   0, 
i 1  a* 
1 n
 xi ,
 2 i 1
i i
n i 1
  
 n 1
   3   xi  a   0,   3   xi  a  ,  *2    xi  x  .
 ln L n 1 n 2
n 2 1 n 2
    i 1   i 1  n i 1

Проверим, является ли точка a*, *2   точкой максимума функции


правдоподобия:
  2 ln L n
 A  a 2    2 ,

  2 ln L 2 n
B    3   xi  a ,
 a  i 1
  2 ln L n 3 n
     xi  a  .
2
C
   i 1

2 2 4

Как известно из математического анализа, для того чтобы функция


f x1 , x2 ,...,xn  достигала максимума в некоторой точке, достаточно чтобы
n
  AC  B 2  0 , и A    0.
2
Рассмотрим
2
n  n 2  2 n  n 2 3n 2 2n 2
   2  2  4  xi  a      3  xi  a    4  6  2  0  4  0.
3 n
   i 1    i 1    
 
Следовательно, точка a*, *2 – действительно точка максимума, и
полученные оценки являются оценками максимального правдоподобия.

Метод наименьших квадратов


Является одним из наиболее простых приемов получения оценок. Суть
его заключается в том, что оценка определяется из условия минимизации
суммы квадратов отклонений выборочных данных от определяемой
оценки.
Другими словами, в методе наименьших квадратов требуется найти
~
такое значение  , которое минимизировало бы сумму
n
F ( )    X i     min .
2

i 1

72
~
Пример 11. Найти оценку метода наименьших квадратов  n для
генеральной средней   x0 .
~
Решение. Согласно методу наименьших квадратов найдем оценку  n
из условия минимизации суммы:
n
F    xi     min .
2

i 1

Используя необходимое условие экстремума, приравняем нулю


производную
n

dF n n x
 2 xi     0 , откуда
i

d
 xi  n  0 ,  кр  i 1

n
 xв . А так как
i 1 i 1

d 2F n x i
 2  1  2n  0 при любом значении  , то  кр  i 1
 xв – точка
d 2 i 1 n
n

~ x i
минимума функции F ( ) . Таким образом,  n  i 1
 xв , т.е. оценка метода
n
наименьших квадратов генеральной средней x0 есть выборочная средняя xв .
Метод наименьших квадратов получил самое широкое
распространение в практике статистических исследований, так как, во-
первых, не требует знания закона распределения выборочных данных; во-
вторых, достаточно хорошо разработан в плане вычислительной реализации.
Метод применяется в задачах корреляционного и регрессионного
анализа.
Замечание. Даже имея очень большой объем экспериментальных
данных, невозможно указать точного значения оцениваемого параметра.
Более того, как уже неоднократно отмечалось, получаемые оценки близки к
истинным значениям оцениваемых параметров только «в среднем» или «в
большинстве случаев». Поэтому важной статистической задачей является
задача определения точности и достоверности проводимого оценивания.

73
§2.5. Понятие доверительного оценивания. Доверительная вероятность

Недостаток точечных оценок в том, что неизвестно с какой точностью


они дают оцениваемый параметр. Для выборок небольшого объема вопрос о
~
точности оценок очень существенен, так как между  и  n может быть
большое расхождение. Кроме того, при решении практических задач часто
требуется определить и надежность этих оценок. Тогда возникает задача о
приближении параметра  не одним числом, а целым интервалом 1 , 2 
~ ~

Определение. Оценка неизвестного параметра называется


интервальной, если она определяется двумя числами – концами интервала.
Задача интервального оценивания: по данным выборки построить
числовой интервал ~1 ,~2 , относительно которого с заранее выбранной
вероятностью γ можно сказать, что внутри этого интервала находиться
точное значение оцениваемого параметра
θ

~ ~
1 2

Определение. Интервал ~1 ,~2 , содержащий в себе или покрывающий с


вероятностью γ истинное значение параметра  , называется доверительным
интервалом. Вероятность γ называют доверительной вероятностью,
уровнем доверия или надежностью оценки.
Часто вместо доверительной вероятности γ рассматривается
вероятность  1   , называемая уровнем значимости.
Очень часто (но не всегда) доверительный интервал выбирается
~
симметричным относительно несмещенной точечной оценки  n , т. е
~
 ~

выбирается интервал вида  n   , n   такой, что

  ~ ~
  ~

P    n   , n    P    n     .
~
Число   0 характеризует точность оценки: чем меньше разность    n ,

тем точнее оценка.


74
~
Наибольшее отклонение несмещенной оценки  n от оцениваемого
параметра  , в частности, выборочной средней от генеральной средней,
которое возможно с заданной доверительной вероятностью γ, называется
предельной ошибкой выборки.
Доверительная вероятность γ задается априорно. Чем ближе γ к
единице, тем точнее оценка. Для практических целей обычно выбирают
  0,9 ; 0,95; 0,99 или 0,999. Отметим, что выбор доверительной вероятности
не является математической задачей, а определяется конкретно решаемой
проблемой. Например, пусть на двух предприятиях вероятность выпуска
годных изделий   0,99 , т.е вероятность выпуска бракованных изделий –
0,01. Можно ли в рамках математической теории, т.е. не интересуясь
характером выпускаемых изделий, решить вопрос о том, мала или велика
вероятность брака  1   ? Пусть одно предприятие выпускает
электролампы, а другое – парашюты. Если на сто ламп встретиться одна
бракованная, то с этим можно мириться при условии, что выбросить один
процент ламп дешевле, чем перестроить технологический процесс. Если же
на сто парашютов встретится один бракованный, это может повлечь за собой
серьезные последствия и мириться с таким положением никак нельзя.
Следовательно, в первом случае вероятность брака приемлема, а во втором –
нет, поэтому выбор доверительной вероятности  1   следует
производить, исходя из конкретных условий задачи.

§2.6. Точность и надежность оценивания математического


ожидания нормальной случайной величины
Пусть изучаемый признак X имеет нормальное распределение с
параметрами a и  , xв - эмпирическая оценка параметра a  M (X ) .
Построим по выборке x1 , x2 ,...,xn  доверительный интервал для оценки
математического ожидания a при заданной надежности γ. Существенным

75
для дальнейшего построения интервала является вопрос о том, известна или
нет дисперсия.

Доверительные интервалы для оценки математического ожидания


нормального распределения при известном 
В силу нормальности X выборочная средняя xв , найденная по
независимым наблюдениям, также распределена нормально с параметрами
D( X )  2 
M  x в   a ; D x в    ,   xв   .
n n n
Потребуем, чтобы выполнялось соотношение


P xв  a     . 
Пользуясь формулой
 
P X  a     2  ,
 

заменив X через xв и  через  x в    , получим
n
 n 
  P xв  a     2   2t  ,

  
 n
где t  . Из последнего равенства находим

t
 ,
n
 t  
Поэтому   P xв  a    2t  или
 n 
   
P x в  t  a  xв  t   2t    .
 n n
Смысл полученного соотношения таков: с надежностью γ можно утверждать,
что доверительный интервал
 
xв  t  a  xв  t (2.1)
n n
76
покрывает неизвестный параметр а.
Точность оценки определяется формулой

 t (2.2)
n
Число t определяется из равенства 2t    ; по таблице функции
Лапласа (см. приложение 2) находят значение аргумента t, которому

соответствует значение функции Лапласа, равное .
2

Замечание. Оценку xв  a  t называют классической. Из формулы
n
(2.2), определяющей точность классической оценки, можно сделать
следующие выводы:
- при возрастании объема выборки n число  убывает и, следовательно,
точность оценки увеличивается;
- увеличение надежности оценки   2t  приводит к увеличению t, а
следовательно, и к возрастанию  ; другими словами, увеличение
надежности классической оценки влечет за собой уменьшение ее
точности.
Отметим, что соотношение (2.1) – точное, т.е. справедливо для любых
объемов экспериментальных данных, в том числе и для малых выборок.
Пример 12. Постоянная величина измерена 25 раз с помощью прибора,
систематическая ошибка которого равна нулю, а случайные ошибки
измерения распределены по нормальному закону со средним квадратичным
отклонением   10 м. Определить значения границ доверительного
интервала для измеряемой величины с надежностью 0,99, если xв  100 м.
Решение. Найдем значение t. Из соотношения 2t   0,99 получим
t   0,495 . По таблице приложения 2 находим t  2,57 .

77
 10
По формуле (2.2) точность оценки  t  2,57   5,14 .
n 25
Доверительный интервал строим по формуле (2.1): 100-5,14<a<100+5,14, т.е.
99,86<a<105,14.
Пример 13. Средняя квадратичная ошибка высотомера   15 м.
Сколько надо иметь таких приборов на самолете, чтобы с вероятностью 0,99
ошибка измерения средней высоты x в была меньше 30м? При этом
случайные ошибки распределены по нормальному закону, а систематические
ошибки отсутствуют.
Решение. Из соотношения 2t   0,99 получим t   0,495 . По
таблице приложения 2, находим t  2,57 . Используем формулу для

определения ошибки измерения (2.2)   t . Подставляя значения,
n
15
получим 2,57   30 , откуда n  1,285 . Число высотомеров n – целое,
n
поэтому берем ближайшее целое число, следовательно, n  2 , т.е. на
самолете должно быть не менее двух высотомеров.
Пример 14. Для среднего значения нормально распределенного
признака X генеральной совокупности был построен доверительный интервал
(255,3; 263,5). Какова доверительная вероятность γ построенного интервала,
если размер выборки был равен 49, а   22,42 .
Решение. Находим величину середины интервала, которая является
выборочным средним значением xв  259,4 , ошибка измерения

  263,5  x в  263,5  259,4  4,1. По формуле (2.2)   t ,
n
 n 4,1  49
следовательно t    1,28 . По таблице функции Лапласа
 22,42
(приложение 2), находим   21,28  0,7994 .

78
Доверительные интервалы для оценки математического ожидания
нормального распределения при неизвестном 
Для построения доверительного интервала введем случайную величину
X a
T ,
S
n

где s  S 2 –исправленное среднее квадратическое отклонение случайной


величины X.
Случайная величина T имеет распределение Стьюдента с n  1
степенями свободы. Необходимо определить доверительный интервал, в
котором с доверительной вероятностью   1 находится истинное
значение оцениваемого параметра а. Вывод формулы приведен в [2].
Доверительный интервал имеет вид:
s s
xв  t   a  xв  t  , (2.3)
n n
где точность оценки задается формулой
s
  t , (2.4)
n

t  t  , n  - коэффициент доверия определяется по таблице (приложение 3) в


зависимости от n и γ.
Замечание. Значение t в зависимости от доверительной вероятности γ и

числа степеней свободы n  1 ( t – квантиль уровня 1   ) можно определять

с помощью таблицы критических точек распределения Стьюдента


(приложение 5).
Пример 15. Среднее время сборки изделия составляло 90 минут.
Инженер изобрел новый метод сборки этого изделия, и продолжительность
сборки 10 изделий новым способом составила: 79; 74; 112; 95; 83; 96; 77; 84;
70; 90 (мин.). Построить доверительный интервал для нового среднего
времени сборки с надежностью 95%.

79
Решение. Находим выборочное среднее xв  86 и «исправленное»
среднее квадратическое отклонение s  12,54 . Для уровня значимости
  0,95 и объема выборки n  10 находим по таблице (приложения 3)
значение t  2,26 . Определим границы доверительного интервала,

используя формулу (2.3):


s 12,54
xв  t   86  2,26  77,04 ;
n 10
s 12,54
xв  t   86  2,26  94,96 .
n 10
Следовательно, доверительный интервал имеет вид: 77,04  a  94,96 .
Пример 16. Провели 5 независимых равноточных измерений для
определения заряда электрона; получили следующие результаты (в
абсолютных электростатических единицах): 4,781  10 10 , 4,792  10 10 ,

4,795 10 10 , 4,779  10 10 , 4,769  10 10 . Определить значение оценки величины
заряда электрона и найти доверительный интервал при коэффициенте
доверия 99%, считая, что ошибки распределены по нормальному закону и
измерения не имеют систематической ошибки.
Решение. По результатам опыта xв  4,783  10 10 , s  0,01. Пользуясь
таблицей приложения 3 при   0,99 и n  5 , находим t  4,6 . Тогда

доверительные границы:
s 0,01
xв  t   4,783  10 10  4,6  4,762  10 10 ;
n 5
s 0,01
xв  t   4,783  10 10  4,6  4,805  10 10 .
n 5
Итак, с надежностью 0,99 величина заряда электрона заключена в
доверительном интервале 4,762  1010  a  4,805  10 10 .

80
Доверительный интервал для среднего квадратического отклонения
нормального распределения
Пусть количественный признак X генеральной совокупности
распределен нормально. Требуется оценить неизвестное генеральное среднее
квадратическое отклонение  по «исправленному» выборочному среднему
квадратическому отклонению s. Построим доверительный интервал для
среднего квадратического отклонения  с заданной надежностью  .
Потребуем, чтобы выполнялось соотношение
P   s      ,
или
Ps      s      .
Преобразуем двойное неравенство s      s   в равносильное
неравенство
   
s1      s1   .
 s  s

Введем обозначение  q и получим доверительный интервал для оценки
s
среднего квадратического отклонения
s1  q     s(1  q) ,

где параметр q  q , n зависит от объема выборки n и заданной надежности


 . Значения q  q , n приведены в таблице приложения 4.

Замечание. Если q  1 , то получим доверительный интервал в виде


0    s(1  q) .
Пример 17. Произведено 12 измерений одним прибором (без
систематической ошибки) некоторой физической величины, причем
исправленное среднее квадратическое отклонение s случайных ошибок
измерений оказалось равным 0,6. Найти точность прибора с надежностью
0,95. Предполагается, что результаты измерений распределены нормально.

81
Решение. В теории ошибок точность измерений (точность прибора)
принято характеризовать при помощи среднего квадратического отклонения
 случайных ошибок измерений. Для оценки  используют исправленное
среднее квадратическое отклонение s.
Доверительный интервал вычислим по формуле s1  q     s(1  q) .
По таблице (приложение 4) при   0,95 и n  12 найдем q  0,55 . Тогда,
искомый интервал таков:
0,61  0,55    0,61  0,55 ,
или
0,27    0,93 .

§ 2.7. Вычисление границ доверительных интервалов в Excel

Границы доверительных интервалов зависят от некоторой величины,


которая зависит от распределения точечной оценки и доверительной
вероятности. В Excel определены функции, позволяющие вычислять эти
величины, входящие в интервальные оценки для различных числовых
характеристик случайной величины.
Доверительные интервалы для оценки математического ожидания
а) при известном 
доверительный интервал находится по формуле
 
x t  a  x t
n n , (см. …)

Искомая величина Алгоритм нахождения


Параметр t Мастер функций – Статистические – НОРМСТОБР –
  1
t  НОРМСТОБР    , где γ – надежность
 2 

точность оценки Мастер функций – Статистические – ДОВЕРИТ:


   t

 ДОВЕРИТ  ; ; n  , где  1   .
  t n
n

82
б) при неизвестном 
s s
x  t  a  x  t
n n
Искомая величина Алгоритм нахождения

Параметр t Мастер функций – Статистические – СТЬЮДРАСПОБР,


обращение к которой имеет вид
t  , n  СТЬЮДРАСПОБР ; n ,

где  1   , n – число степеней свободы


Точность оценки Сервис – Анализ данных – Описательная статистика. В

    t
s появившемся диалоговом окне задать параметр Уровень
x n
надежности, который определяет величину  , от
x
которого зависит доверительный интервал

Доверительный интервал для среднего квадратического отклонения


нормального распределения
Доверительный интервал для дисперсии имеет вид:
 (n  1) S 2 (n  1) S 2 
 x2   ; , а
  прав
2
 лев
2 

для среднего квадратического отклонения:


 n 1  S n  1  S 
x  ; .
  прав  лев 

Для вычисления параметров  прав


2
и  лев
2
используется функция ХИ2ОБР:

  
 лев
2
 ХИ2ОБР1 - ;n ,
 2 

 
 прав
2
 ХИ2ОБР ; n  ,
2 

где  1   , γ – надежность, n – число степеней свободы.


Пример 18. При помощи вольтметра, точность которого
характеризуется средним квадратическим отклонением 0,2 В, проведено 10
измерений напряжения батареи. Найти доверительный интервал для
83
истинного значения напряжения батареи с надежностью 0,95, если среднее
арифметическое результатов наблюдений x  50,2 B . Контролируемый
признак имеет нормальный закон распределения.
Решение. Способ 1. Вычислим точность оценки, используя встроенный
пакет функций. Выделим ячейку А2; набираем знак равенства и вызываем
Мастер функций ( f x ) – Статистические – ДОВЕРИТ. В появившемся
диалоговом окне заполняем все графы, исходя из условия задачи

Следовательно, точность оценки   0,124 . Границы интервалов вычислим в


ячейках А5 и А8

Доверительный интервал имеет вид (50,08; 50,32).


84
Способ 2. Вводим в ячейки D3, D5, D7, D9 исходные данные. Параметр
t вычислим в ячейке D 11 используя, функцию НОРМСТОБР. В диалоговое
 1
окно вводим значение параметра  0,975 . Запрограммируем вычисление
2
левой границы интервала, используя стандартные математические формулы,
в ячейках D13 и D15. Результаты расчетов приведены на рисунке.

Как и следовало ожидать, результат вычислений двумя способами совпадает.


Пример 19. По результатам 10 измерений емкости конденсатора
прибором, не имеющим систематической ошибки, получили следующие
отклонения от номинального значения (пФ):
5,4; -13,9; -11; 7,2; -15,6; 29,2; 1,4; -0,3; 6,6; -9,9.
Найти 90%-ные доверительные интервалы для средней емкости конденсатора
и среднего квадратичного отклонения, предполагая, что генеральная
совокупность имеет нормальное распределение.
Решение. Первоначально, введем в столбец элементы выборки,
начиная с ячейки А3.
При построении доверительного интервала для средней емкости
конденсатора используем режим Описательная статистика Анализа
данных. В появившемся диалоговом окне задаем параметры:
Входной интервал: – адреса ячеек, содержащих элементы выборки – А3:А12

85
Выходной интервал: определяет место вывода результатов вычислений D2
Включаем параметры – итоговая статистика и уровень надежности 95%

Результаты применения режима представлены на рисунке с


выделенными интересующими нас выборочными характеристиками

86
s s
Следовательно, доверительный интервал x  t  a  x  t примет
n n
вид: (-0,09-9,641; -0,09+9,641) или (-9,731; 9,555).
Доверительный интервал для среднего квадратичного имеет вид:
 n 1  S n  1  S 
x  ; . Используем встроенную функцию ХИ2ОБР,
  прав  лев 

учитывая, что число степеней свободы равно n-1, где n – объем выборки
    0,1 
 лев
2
 ХИ2ОБР1 - ; n   ХИ2ОБР1 - ;10  1  ХИ2ОБР0,95;9 ,
 2   2 

 лев
2
 3,325 .
Аналогично,

 
 прав
2
 ХИ2ОБР  ; n   ХИ2ОБР 0,05;9  16,919 .
2 
Получаем  лев  1.823 ,  прав  4,113

Следовательно, с вероятностью 0,9 доверительный интервал для среднего


квадратичного имеет вид:
 x  9,83;22,18 .

87
ГЛАВА III. ПРОВЕРКА СТАТИСТИЧЕСКИХ ГИПОТЕЗ

§ 3.1. Статистическая гипотеза и общая схема ее проверки

С теорией статистического оценивания параметров тесно связана


проверка статистических гипотез. В естествознании, технике, экономике и
других областях часто для выяснения того или иного случайного факта
прибегают к высказыванию гипотез, которые можно проверить
статистически, т.е. опираясь на результаты наблюдений в случайной
выборке. Например, статистические гипотезы используются в случае если
необходим обоснованный вывод о преимуществах того или иного способа
измерений, стрельбы, технологического процесса, об эффективности нового
метода обучения, управления, о пользе вносимого удобрения, лекарства, о
значимости математической модели и т.д.
Определение. Статистической гипотезой называется любое
предположение о виде неизвестного распределения случайной величины или
о параметрах известных распределений.
Различают простую и сложную статистические гипотезы. Простая
гипотеза, в отличие от сложной, полностью определяет теоретическую
функцию распределения случайной величины. Например, гипотезы
«вероятность появления события в схеме Бернулли равна 1/2», «закон
распределения случайной величины – нормальный с параметрами a  0 ,
  1» являются простыми, а гипотезы «вероятность появления события в
схеме Бернулли заключена между 0,3 и 0,6», «закон распределения не
является нормальным» – сложными.
Гипотезы о значениях параметров распределения или сравнительной
величине параметров двух распределений называются параметрическими
гипотезами.
Гипотезы о виде распределения называются непараметрическими
гипотезами.

88
В общем случае, не располагая сведениями обо всей генеральной
совокупности, высказанную гипотезу сопоставляют по определенным
правилам с выборочными данными и делают вывод о том, можно принять
гипотезу или нет. Эта процедура называется проверкой гипотезы.
Рассмотрим этапы проверки гипотезы и используемые при этом понятия.
ЭТАП 1. Располагая выборочными данными и руководствуясь
конкретными условиями рассматриваемой задачи, формулируют гипотезу
H 0 , которую называют нулевой (или основной), и противоположную ей
гипотезу H 1 , называемую альтернативной (или конкурирующей) гипотезой.
За основную гипотезу принимается то предположение, неверное
отклонение которого приводит к более опасным последствиям.
ЭТАП 2. Решение о том, можно ли считать высказывание H 0
справедливым для генеральной совокупности, принимается по выборочным
данным, т.е. по ограниченному объему информации. Следовательно, это
решение может быть ошибочным. При этом могут иметь место следующие
случаи:
– отклоняют гипотезу H 0 (принимают альтернативную H 1 ), тогда как
на самом деле гипотеза H 0 верна; это ошибка первого рода;
– принимают гипотезу H 0 , тогда как на самом деле гипотеза H 0
неверна (верной является гипотеза H 1 ); это ошибка второго рода.
Определение. Вероятность ошибки первого рода (обозначается через  )
называется уровнем значимости критерия.
Обычно пользуются стандартными значениями для  (0,1; 0,05; 0,025;
0,01; 0,005, 0,001). Например, величина   0,01 означает, что среднем в
одном случае из ста при использовании данного статистического критерия
будет ошибочно отвергаться справедливая основная гипотеза H 0 .
Вероятность допустить ошибку 2-го рода, т.е. принять гипотезу H 0 ,
когда она неверна, обычно обозначают  .

89
Определение. Вероятность 1    не допустить ошибку 2-го рода, т.е.
отвергнуть гипотезу H 0 , когда она неверна, называется мощностью
критерия.
Сказанное выше иллюстрирует таблица:
Статистическое Фактическая оценка нулевой гипотезы
решение Верна Неверна
Не отвергать нулевую Правильное решение, его Ошибка второго рода, ее
гипотезу вероятность 1   вероятность 
Отвергнуть нулевую Ошибка первого рода, ее Правильное решение, его
гипотезу вероятность  вероятность 1  
Таким образом, верные решения возникают в случае, если: гипотеза H 0
является верной, и она принимается; H 0 является ложной гипотезой, и она
отвергается.
Понять смысл ошибок первого и второго рода поможет рассмотрение
ситуации с вынесением судебного приговора. В соответствии с презумпцией
невиновности, подсудимый считается невиновным (нулевая гипотеза) до тех
пор, пока не будет доказано противное в результате показаний свидетелей,
экспертиз, вещественных доказательств и т. д. Если суд считает невиновного
человека преступником, то совершается ошибка первого рода (нулевая
гипотеза отвергается в то время, когда она верна). Если же суд признает
преступника невиновным, то совершается ошибка второго рода (нулевая
гипотеза не отвергается в то время, когда она неверна). Два других решения,
которые могут быть приняты судом, являются верными и, следовательно,
справедливыми.
В ряде прикладных исследований ошибка первого рода  означает
вероятность того, что предназначавшийся наблюдателю сигнал не будет им
принят, а ошибка второго рода  – вероятность того, что наблюдатель
примет ложный сигнал.

90
Очевидно, что  и  желательно сделать как угодно малыми. В
теории статистической проверки гипотез доказывается, что при
фиксированном объеме выборки можно сделать как угодно малой лишь одну
из величин –  или  , что сопряжено с неизбежным увеличением другой.
Лишь при увеличении объема выборки возможно одновременное
уменьшение вероятностей  и  . Выбор значений  и  определяется в
зависимости от конкретного содержания решаемой задачи. Чем весомее для
исследователя потери от ошибочного отвержения основной гипотезы, тем
меньше  .
Вероятности ошибок первого и второго рода однозначно определяются
выбором критической области.
Пример 1. Рассматривается вопрос о влиянии нового метода обучения на
среднюю успеваемость. Проведено выборочное исследование. Требуется:
1) Сформулировать нулевую и альтернативную гипотезы.
2) Охарактеризовать ошибки первого и второго рода.
Решение. 1) Нулевая гипотеза – средняя успеваемость остается
неизменной; альтернативная гипотеза – средняя успеваемость изменяется
(если есть уверенность в том, что после введения нового метода средняя
успеваемость может только увеличиваться, то альтернативная гипотеза
может быть сформулирована так: средняя успеваемость больше известной
величины)
2) Верные решения и типы ошибок при проверке данной статистической
гипотезы представим в таблице.

91
Принятое Истинное положение
решение Средняя успеваемость Средняя успеваемость
не изменилась изменилась
Успеваемость Правильное решение Ошибка второго рода
не Принято решение о
изменилась неэффективности нового метода
обучения – возможен возврат к
прежнему методу.
Средняя Ошибка первого рода Правильное решение
успеваемость Принято решение об
изменилась эффективности нового
метода обучения –
будет повсеместно
введен новый метод, но
он не оправдает
ожидания

ЭТАП 3. Для проверки нулевой гипотезы используют специально


подобранную случайную величину К такую, что а) ее значения зависят от
выборочных данных; б) величина К подчиняется при выполнении гипотезы
H 0 некоторому известному закону распределения (часто встречаемые законы

распределения – нормальный закон, закон Стьюдента, закон Фишера); в) ее


значения позволяют судить о расхождении гипотезы H 0 с выборочными
данными. Величину К называют критерием.
ЭТАП 4. После выбора определенного критерия, множество всех его
возможных значений разбивают на две непересекающиеся области: область
D – область отклонения основной гипотезы H 0 и D – область принятия
этой гипотезы.
Определение. Область D, при попадании в которую выборочной точки
отвергается основная гипотеза, называется критической.
Точки, которые отделяют критическую область от области принятия
гипотезы, называют критическими точками.
Значения критерия, попавшие в критическую область, свидетельствуют
о существенном расхождении выборки с гипотезой H 0 .

92
К критической области выдвигается следующее требование:
Вероятность принятия критерием К значения из критической
области D при справедливости гипотезы H 0 должна быть равна  , т.е.
P( K  D)   .

Однако критическая область определяется указанным равенством не


однозначно. Поэтому выдвигают еще одно требование: критическая область
D должна быть расположена так, чтобы при заданной вероятности  –
ошибки первого рода, вероятность  – ошибки второго рода была
минимальной.
Различают левостороннюю, правостороннюю и двустороннюю
критические области.
а)

O Kкр
б)

–Kкр O
в)

–Kкр O Kкр

а) правосторонняя, б) левосторонняя и в) двусторонняя критические области.


Правосторонней называется критическая область определяемая
неравенством
K  K кр , Kкр  0,

где К кр определяется из условия PK  K кр    и называется

правосторонней критической точкой, отвечающей уровню значимости  .


Левосторонней называется критическая область определяемая
неравенствами
K  K кр , Kкр  0 .

где К кр определяется из условия PK  K кр    и называется левосторонней

критической точкой, отвечающей уровню значимости  .

93
Односторонней называют правостороннюю или левостороннюю
критическую область.
Двусторонней называется критическая область, определяемая
неравенством
K  K' кр , K  K" кр .

 
где K' кр и K" кр определяются из условий PK  K "кр   и PK  K 'кр   и
2 2
называются двусторонними критическими точками, отвечающими уровню
значимости  .
В частности, если критические точки симметричны относительно нуля,
то говорят о двусторонней симметрической критической области
K  K кр , Kкр  0 .

В зависимости от вида нулевой и конкурирующей гипотез, формы и


распределения критерия К выбирают правостороннюю, левостороннюю или
двустороннюю критическую область.
Например, нулевая гипотеза H 0 : a  a0 . Если выдвигается
альтернативная гипотеза H1 : a  a1  a0 , то при построении наиболее мощного
критерия следует использовать правостороннюю критическую область. Если
H1 : a  a1  a0 , то – левостороннюю, а при гипотезе H 1 : a1  a0 -
двустороннюю.
ЭТАП 5. В формулу критерия К, который является функцией n
случайных величин X 1 , X 2 ,..., X n , подставляются выборочные значения
x1 , x2 ,..., xn и подсчитывается числовое значение критерия Кнабл..

Если Кнабл попадает в критическую область D, то гипотеза H 0


отвергается и принимается гипотеза H 1 . Если Кнабл не попадает в

критическую область, то нет оснований отвергнуть нулевую гипотезу H 0 .


Однако, принцип проверки статистической гипотезы не дает
логического доказательства ее верности или неверности. Принятие

94
гипотезы H 0 в сравнении с альтернативной H 1 не означает, что мы уверены в
абсолютной правильности H0 или что высказанное в гипотезе H0

утверждение является наилучшим, единственно подходящим; просто


гипотеза H 0 не противоречит имеющимся у нас выборочным данным, таким
же свойством наряду с H 0 могут обладать и другие гипотезы. Более того,
возможно, что при увеличении объема выборки n либо при испытании H 0
против другой альтернативной гипотезы H 2 , гипотеза H 0 будет отвергнута.
Так что принятие гипотезы H 0 следует расценивать не как раз и навсегда
установленный, абсолютно верный содержащийся в ней факт, а лишь как
достаточно правдоподобное, не противоречащее опыту утверждение.
По своему прикладному содержанию статистические гипотезы можно
разделить на несколько основных типов:
- о равенстве числовых характеристик генеральных совокупностей;
- о числовых значениях параметров;
- о законе распределения;
- об однородности выборок (т.е. принадлежности их одной и той же
генеральной совокупности).

§3.2. Проверка гипотез для одной выборки

Рассмотрим простые методы проверки параметрических гипотез в


случае нормального распределения, а также гипотезы о вероятности «успеха»
в испытаниях Бернулли. Описанные методы имеют широкое практическое
применение.
1. Сравнение выборочной средней с гипотетической генеральной
средней нормальной совокупности при известной дисперсии.
Пусть генеральная совокупность X распределена нормально, причем
генеральная средняя а хотя и неизвестна, но имеются основания
предполагать, что она равна гипотетическому (предполагаемому) значению

95
a0 . Например, если X– совокупность размеров xi партии деталей,
изготовляемых станком-автоматом, то можно предположить, что генеральная
средняя а этих размеров равна проектному размеру a0 . Чтобы проверить это

предположение, находят выборочную среднюю x в и устанавливают, значимо


или незначимо различаются x в и a0 . Если различие окажется незначимым, то
станок обеспечивает в среднем проектный размер; если различие значимое,
то станок требует подналадки.
Итак, пусть из нормальной генеральной совокупности извлечена
выборка объема n и по ней найдена выборочная средняя x в , причем
генеральная дисперсия  2 известна, например, из предшествующего опыта,
или найдена теоретически, или вычислена по выборке большого объема (по
большой выборке можно получить достаточно хорошую оценку дисперсии).
Требуется по выборочной средней при заданном уровне значимости
проверить нулевую гипотезу H 0 : a  a0 о равенстве генеральной средней а
гипотетическому значению a0 .
Учитывая, что выборочная средняя является несмещенной оценкой
генеральной средней, т.е. M X   a , нулевую гипотезу можно записать так:
 
M X  a0 .
Таким образом, требуется проверить, что математическое ожидание
выборочной средней равно гипотетической генеральной средней. Другими
словами, надо установить, значимо или незначимо различаются выборочная
и генеральная средние.
В качестве критерия проверки нулевой гипотезы используется
случайная величина

U
X  a 0 n

которая распределена нормально, причем при справедливости нулевой
гипотезы M (U )  0 ,  (U )  1 .

96
Обозначим значение критерия U, вычисленное по данным
наблюдений, через U набл и сформулируем правило проверки нулевой
гипотезы.
Правило. Для того чтобы при заданном уровне значимости проверить
нулевую гипотезу H 0 : a  a0 о равенстве генеральной средней а нормальной

совокупности с известной дисперсией  2 гипотетическому значению надо:


1. Вычислить наблюдаемое значение критерия

U набл 
x  a  0 n
.

2. По таблице функции Лапласа (приложение 2) найти критическую
область в зависимости от вида конкурирующей гипотезы (см.
нижеследующую таблицу) и сделать вывод о принятии или
отклонении основной гипотезы.

Область Область
Конкурирующая Критическая Критическая
принятия отклонения
гипотеза H1 область точка uкр
H0 H0
1  2α U набл  uкр U набл  uкр
H1 : a  a0 правосторонняя Φ(uкр ) 
2
1  2α U набл  uкр U набл  uкр
H1 : a  a0 левосторонняя Φ(uкр ) 
2
1 α
H1 : a  a0 двусторонняя Φ(uкр )  U набл  uкр U набл  uкр
2
Пример 2. В цехе завода выпускают валы электродвигателей. Из
продукции одного станка произвольно выбирают 50 изделий, измеряют их
диаметры и вычисляют значение выборочного среднего x в  42,972 мм. По
техническим условиям станок настраивается на номинальный размер 43 мм.
Можно ли, при уровне значимости 0,05, на основании полученных
результатов, сделать вывод о том, что станок обеспечивает заданный
номинальный размер, или полученные данные свидетельствуют о
97
неудовлетворительной наладке технологического оборудования.
Контролируемый признак имеет нормальное распределение,  2  0,01 мм2.
Решение. Для оценки правильности настройки оборудования
необходимо проверить гипотезу H 0 : a  a0  43 мм о математическом

ожидании нормально распределенной генеральной совокупности X (  2


известна) при альтернативной гипотезе H1 : a  43 мм, выбор которой
объясняется тем, что станок можно настроить на размер как выше, так и
ниже номинального.
Найдем наблюдаемое значение критерия

U набл 
x  a 
0 n

42,972  43 50
 1,98 .
 0,1
По виду конкурирующей гипотезы выбираем двустороннюю
критическую область. Критическую точку найдем по равенству
1  α 1  0,05
Φ(uкр )    0,475 .
2 2
По таблице функции Лапласа (приложение 2) находим uкр  1,96 .

Так как U набл  uкр – нулевую гипотезу отвергаем. Следовательно,

полученные данные свидетельствуют о неудовлетворительной наладке


технологического оборудования.
2. Сравнение выборочной средней с гипотетической генеральной
средней нормальной совокупности при неизвестной дисперсии
Если дисперсия генеральной совокупности неизвестна (например, в
случае малых выборок), то в качестве критерия проверки нулевой гипотезы
принимают случайную величину

T
X  a  0 n
,
s
где s — «исправленное» среднее квадратическое отклонение. Величина Т
имеет распределение Стьюдента с k  n  1 степенями свободы.
Правило проверки нулевой гипотезы:

98
Правило. Для того чтобы при заданном уровне значимости проверить
нулевую гипотезу H 0 : a  a0 о равенстве неизвестной генеральной средней а
(нормальной совокупности с неизвестной дисперсией) гипотетическому
значению a0 надо:
1. Вычислить наблюдаемое значение критерия:

Tнабл 
x  a  0 n
.
s
2. По таблице критических точек распределения Стьюдента
(приложение 5), по заданному уровню значимости  и числу
степеней свободы k  n  1 найти критическую область (в зависимости
от вида конкурирующей гипотезы) и сделать вывод о принятии или
отклонении основной гипотезы

Конкурирующая Критическая Критическая Область Область


гипотеза H1 область точка t крит.  ; k  принятия H 0 отклонения H 0

H1 : a  a0 правосторонняя tправост.кр.  ; k  Tнабл  tправост. кр Tнабл  tправост. кр

t левост.кр.  tправост.кр. Tнабл  tправост. кр Tнабл  tправост. кр


H1 : a  a0 левосторонняя
tправост.кр.  ; k 

H1 : a  a0 двусторонняя tдвуст.кр.  ; k  Tнабл  tдвуст. кр Tнабл  tдвуст. кр

Пример 3. Проектный контролируемый размер деталей,


изготавливаемых станком-автоматом, равен 25 мм. Измерения 20 случайно
отобранных деталей дали следующие результаты:

xi 24,7 24,9 25 25,1 25,2


ni 3 2 5 4 6

Требуется при уровне значимости   0,01 проверить нулевую


гипотезу H 0 : a  25 при конкурирующей гипотезе H1 : a  25 .

99
Решение. Для вычисления выборочной средней и исправленной
дисперсии составим расчетную таблицу:
xi ni xi ni xi  x в x  x  x
i в
2
i 2
 x в ni
24,7 3 74,1 -0,325 0,105625 0,316875
24,9 2 49,8 -0,125 0,015625 0,03125
25 5 125 -0,025 0,000625 0,003125
25,1 4 100,4 0,075 0,005625 0,0225
25,2 6 151,2 0,175 0,030625 0,18375
 20 500,5 -0,225 0,158125 0,5575
500,5 0,5575
Имеем: x в   25,025 , sв2   0,027875 , sв  0,17 .
20 19
Вычислим наблюдаемое значение критерия

Tнабл 
x  a  0 n

25,025  25 20
 0,658 .
s 0,17
По условию конкурирующая гипотеза H1 : a  25, поэтому критическая
область – двусторонняя.
По таблице критических точек распределения Стьюдента по уровню
значимости   0,01 и по числу степеней свободы k  20  1  19, находим
критическую точку tдв уст.кр. 0,01;19  2,86 .

Так как Tнабл  tдвуст.кр , то нет оснований отвергнуть нулевую гипотезу,

выборочная средняя незначимо отличается от гипотетической генеральной


средней.
3. Сравнение исправленной выборочной дисперсии с гипотетической
генеральной дисперсией нормальной совокупности
Пусть генеральная совокупность распределена нормально, причем
генеральная дисперсия хотя и неизвестна, но имеются основания
предполагать, что она равна гипотетическому (предполагаемому) значению

100
 02 . На практике  02 устанавливается на основании предшествующего опыта
или теоретически.
Пусть из генеральной совокупности извлечена выборка объема n и по
ней найдена исправленная выборочная дисперсия s 2 с k  n  1 степенями
свободы. Требуется проверить нулевую гипотезу H 0 : M ( s 2 )   02 , что
математическое ожидание исправленной дисперсии равно гипотетическому
значению генеральной дисперсии. Другими словами, требуется установить,
значимо или незначимо различаются исправленная выборочная и
гипотетическая генеральная дисперсии.
На практике рассматриваемая гипотеза проверяется, если нужно
проверить точность приборов, инструментов, станков, методов исследования
и устойчивость технологических процессов. Например, если известна
допустимая характеристика рассеяния контролируемого размера деталей,
изготавливаемых станком-автоматом, равная  02 , а найденная по выборке

исправленная дисперсия окажется значимо больше  02 , то станок требует


подналадки.
Критерием проверки нулевой гипотезы служит величина
(n  1) s 2
2  .
 02
Правило проверки нулевой гипотезы:
Правило. Для того чтобы при заданном уровне значимости  проверить
нулевую гипотезу H 0 :  2   02 о равенстве неизвестной генеральной
дисперсии нормальной совокупности гипотетическому значению надо:
(n  1) sв2
1. Вычислить наблюдаемое значение критерия  2
 ;
набл
 02
2. По таблице критических точек распределения  2 , по заданному
уровню значимости  и числу степеней свободы k  n 1 в
зависимости от вида конкурирующей гипотезы найти критическую

101
область и сделать вывод о принятии или отклонении основной
гипотезы
Конкури- Критическая Область
Критическая Область
рующая точка отклонения
область принятия H 0
гипотеза H1  крит
2
( , k ) H0

H 0 :  2   02 правосторон.  крит
2
( , k )  набл
2
  кр2  набл
2
  кр2

H 1 :  2   02 левосторон.  кр2 (1   ; k )  набл


2
  кр2  набл
2
  кр2

  набл
2
.   лев .кр
2

 левая
2
кр (1  ;k) или
2  лев
2
.кр   набл.   прав .кр
2 2
H1 :   
2 2
двусторонняя
0
  набл
 правая .   прав.кр
2 2 2
кр ( ;k)
2

Пример 4. Из нормальной генеральной совокупности извлечены


выборка объема n  17 , и по ней найдена исправленная выборочная
дисперсия sв2  0,24 . Требуется при уровне значимости 0,05 проверить

нулевую гипотезу H 0 :  2   02  0,18 , приняв в качестве конкурирующей

гипотезы H1 :  2  0,18 .
Решение. Найдем наблюдаемое значение критерия
(n-1 )sв2 (17  1)0,24
 2
набл    21,33 .
σ 02 0,18

По условию конкурирующая гипотеза имеет вид H1 :  2  0,18 ,


поэтому критическая область правосторонняя.
По таблице (приложение 6), по уровню значимости 0,05 и числу
степеней свободы k  n  1  17  1  16 , находим критическую точку
 кр
2
0,05; 16  26,3 .
Так как  набл
2
  кр
2
– нет оснований отвергнуть нулевую гипотезу.

Следовательно, различие между исправленной выборочной дисперсией и


гипотетической генеральной дисперсией незначимое.

102
Пример 5. В результате длительного хронометража времени сборки
узла различными сборщиками установлено, что дисперсия этого времени
 02  2 мин2. Результаты 20 наблюдений за работой новичка таковы ( xi –
время сборки одного узла в минутах, середины интервалов; ni – частота):

xi 56 58 60 62 64
ni 1 4 10 3 2
Можно ли при уровне значимости 0,05 считать, что дисперсия
затрачиваемого новичком времени существенно не отличается от дисперсии
времени остальных сборщиков?
Решение. Для вычисления наблюдаемого значения критерия вычислим
исправленную выборочную дисперсию. Результаты вычислений приведем в
следующей таблице:
xi 56 58 60 62 64 Итого:

ni 1 4 10 3 2 20

xi  ni 56 232 600 186 128 1202

xi2  ni 3136 13456 36000 11532 8192 72316

1202 72316 20  3,79


xв   60,1 , Dв2   60,12  3,79 , sв2   3,99 .
20 20 19
(n-1 )sв2 (20  1)3,99
Таким образом,  2
набл    37,905 .
σ 02 2

Исходя из условия задачи H 0 :  2   02  2, а конкурирующая гипотеза

H1 :  2  2 . Таким образом, строим двустороннюю критическую область. По


таблице (приложение 6) находим критические точки:
    
 л2ев ост.кр 1  , k    кр
2
0,975,19  8,91 ,  правост
2
. кр  , k    кр2 0,025,19  32,9.
 2  2 

103
Так как  набл
2
  прав
2
ост. кр , то нулевая гипотеза отвергается.

Следовательно, исправленная выборочная дисперсия значимо отличается от


гипотетической генеральной дисперсии.
Значит, при уровне значимости 0,05 можно считать, что дисперсия
затрачиваемого новичком времени существенно отличается от дисперсии
времени остальных сборщиков.
4. Сравнение наблюдаемой относительной частоты с гипотетической
вероятностью появления события
Пусть по достаточно большому числу n независимых испытаний, в
каждом из которых вероятность p появления события постоянна, но
m
неизвестна, найдена относительная частота . Пусть имеются основания
n
предполагать, что неизвестная вероятность равна гипотетическому значению
p0 . Требуется при заданном уровне значимости  проверить нулевую
гипотезу H 0 : p  p0 , состоящую в том, что неизвестная вероятность p равна
гипотетической вероятности p0 .
Правило. Для того чтобы при заданном уровне значимости 
проверить нулевую гипотезу H 0 : p  p0 надо:
1. Вычислить
(w  p0 ) n
U набл  .
p0( 1  p0 )

2. По таблице функции Лапласа (приложение 2) найти критическую


точку в зависимости от вида конкурирующей гипотезы и сделать
вывод о принятии или отклонении основной гипотезы
Область Область
Конкурирующая Критическая Критическая
принятия отклонения
гипотеза H1 область точка u кр
H0 H0
1  2
H 0 : p  p0 , правосторонняя u кр   U набл  uкр U набл  uкр
2
104
1  2
H 0 : p  p0 левосторонняя u кр   U набл  uкр U набл  uкр
2
1
H 0 : p  p0 , двусторонняя uкр   U набл  uкр U набл  uкр
2

Пример 6. Партия изделий принимается, если вероятность того, что


изделие окажется бракованным, не превышает 0,03. Среди случайно
отобранных 400 изделий оказалось 18 бракованных. Можно ли принять
партию при уровне значимости 0,05?
Решение. В данном случае нулевая гипотеза H 0 : p  p0  0,03 , а
конкурирующая гипотеза H1 : p  0,03 .
Относительная частота брака составляет
18
w  0,045 .
400
Найдем значение статистики критерия
(w  p0 ) n 0,045  0,03 400
U набл    1,76 .
p0( 1  p0 ) 0,03  0,97

По виду конкурирующей гипотезы выбираем правостороннюю

критическую область. Следовательно, u кр  


1
   0,45 и по таблице
2
(приложение 2) определяем критическую точку uкр  1,65 .

Так как U набл  uкр , то нулевая гипотеза отвергается. Таким образом,

партию изделий принять нельзя.


Пример 7. Статистику необходимо проверить экспертную оценку о
том, что 75% отечественных предприятий уклоняются (частично) от уплаты
налогов. По результатам неофициального опроса руководителей предприятий
140 из 200 случайно отобранных директоров подтвердили, что используют
различные схемы для ухода от уплаты налогов. Можно ли при уровне
значимости 0,05 согласиться с приведенной экспертной оценкой?

105
Решение. В данном случае нулевая гипотеза H 0 : p  p0  0,75 , а
конкурирующая гипотеза H1 : p  0,75 .
Найдем значение статистики критерия, учитывая, что относительная
140
частота в данной задаче равна w   0,7 :
200
(w  p0 ) n 0,7  0,75 200
U набл    1,63 .
p0( 1  p0 ) 0,75  0,25

Так как H1 : p  0,75 , то строим левостороннюю критическую область.

Критическую точку находим из соотношения u кр  


1
   0,45, по
2
таблице (приложение 2) uкр  1,65. Так как U набл  uкр , то нет оснований

отвергнуть нулевую гипотезу.


Таким образом, при уровне значимости 0,05 можно согласиться с
приведенной экспертной оценкой.
Описанные выше критерии проверки гипотез представлены в таблице
(приложение 8).

§ 3.3. Проверка гипотез для двух выборок


I. Зависимые выборки: парные наблюдения
Сравнение двух средних нормальных генеральных совокупностей с
неизвестными дисперсиями (зависимые выборки)
Рассмотрим выборки одинакового объема, варианты которых попарно
зависимы. Под случаем «зависимых выборок» обычно имеется в виду
ситуация, когда речь идет об одном и том же наборе объектов до и после
какого-либо воздействия на них. Предполагается, что воздействие может
повлиять на признаки, сдвинув их средние значения в большую или
меньшую сторону, и это необходимо проверить.
Вначале признаки объектов принимают значения xi , после воздействия
y i . Такие наблюдения называются парными.

106
Другой ситуацией получения попарно зависимых выборок является
следующая ситуация: пусть xi – результаты измерений деталей первым
прибором, а y i – результаты измерений этих же деталей, произведенные в
том же порядке вторым прибором, тогда xi и y i попарно зависимы и в этом
смысле сами выборки зависимые. Поскольку, как правило, xi  yi то
возникает необходимость установить, значимо или незначимо различаются
пары этих чисел.
Пусть генеральные совокупности Х и Y распределены нормально,
причем их дисперсии неизвестны. Из этих совокупностей извлечены
зависимые выборки одинакового объема n, варианты которых
соответственно равны xi и y i . Введем следующие обозначения:
n n
 di  d i2 2 n
d i  xi  yi , d  i 1
; Dd  i 1
 d , sd  Dd .
n n n 1
Правило. Для того чтобы при заданном уровне значимости 
проверить нулевую гипотезу H 0 : M ( X )  M (Y ) о равенстве двух средних
нормальных совокупностей с неизвестными дисперсиями (в случае
зависимых выборок одинакового объема) надо:
1. Вычислить наблюдаемое значение критерия

d n
Tнабл  .
sd
2. По таблице критических точек распределения Стьюдента, по
заданному уровню значимости  и по числу степеней свободы
k  n  1 найти критические точки t кр. ( , k ) (в зависимости от вида

конкурирующей гипотезы) и сделать вывод о принятии или


отклонении основной гипотезы.

107
Критичес- Область
Конкурирующая Критическая Область
кая отклонения
гипотеза H1 точка t кр. ( , k ) принятия H 0
область H0
Tнабл  tправост. кр Tнабл  tправост. кр
H 1 : M ( X )  M (Y ) правост. tправост.кр.  ; k 

t левост.кр.  tправост.крT. набл  tправост. крTнабл  tправост. кр


H 1 : M ( X )  M (Y ) левост.
tправост.кр.  ; k 

Tнабл  tдвуст. кр Tнабл  tдвуст. кр


H 1 : M ( X )  M (Y ) двустор. tдвуст.кр.  ; k 

Пример 8. На двух весах, в одном и том же порядке, проведено


взвешивание 10 проб вещества и получены следующие результаты
взвешиваний (в мг):

xi 25 30 28 50 20 40 32 36 42 38
yi 28 31 26 52 24 36 33 35 45 40

При уровне значимости 0,01 установить, существенно ли различаются


результаты (используя нормальное приближение).
Решение. Основная гипотеза H 0 : M ( X )  M (Y ), альтернативная

гипотеза H1 : M ( X )  M (Y ).

Вычислим значения d i  xi  yi и d i2  xi  yi 2 , результаты в таблице:


xi 25 30 28 50 20 40 32 36 42 38

yi 28 31 26 52 24 36 33 35 45 40
di -3 -1 2 -2 -4 4 -1 1 -3 -2 -9
d i2 9 1 4 4 16 16 1 1 9 4 65

Отсюда находим выборочное среднее и исправленное среднее


квадратическое отклонение:

108
10 n
 di  d i2 2 65
d i 1
 0,9 ; Dd  i 1
d   (0,9) 2  5,69 ,
10 n 10
n 10
sd  Dd   5,69  2,51.
n 1 9
Находим значение статистики критерия
d n  0,9 10
Tнабл    1,13 .
sd 2,51
Из таблицы распределения Стьюдента (приложение 5) для
двусторонней критической области по уровню значимости 0,01 и числу
степеней свободы k  n  1  10  1  9 определяем t кр 0,01; 9  3,25.

Поскольку Tнабл  t кр , то нет оснований отвергнуть нулевую гипотезу.

Таким образом, нельзя утверждать, что данные двух взвешиваний


существенно различаются.
Пример 9. В таблице представлены данные о производительности
труда группы сотрудников фирмы до и после обучения на курсах повышения
квалификации.

Сотрудник
1 2 3 4 5 6 7
До обучения 20 18 15 16 20 14 17
После обучения 26 27 20 23 19 22 28

Можно ли утверждать при уровне значимости 5%, что обучение


привело к существенному увеличению производительности труда?
Решение. Основная гипотеза H 0 : M ( X )  M (Y ), альтернативная

гипотеза H1 : M ( X )  M (Y ).
Для вычисления статистики критерия составим вспомогательную
расчетную таблицу:

109
Сотрудник 
1 2 3 4 5 6 7
До обучения 20 18 15 16 20 14 17
После обучения 26 27 20 23 19 22 28
d i  xi  yi -6 -9 -5 -7 1 -8 -11 -45
d i2 36 81 25 49 1 64 121 377

Выборочную среднюю и исправленное среднее квадратическое


отклонение находим по формулам:
n n
 di  45  d i2 2 377
d i 1
  6,43 ; Dd  i 1
d   (6,43) 2  12,5 ,
n 7 n 7
n 7
sd  Dd   12,5  3,82 .
n 1 6
Находим значение статистики критерия
d n  6,43 7
Tнабл    4,45 .
sd 3,82
Из таблицы распределения Стьюдента (приложение 5) для
односторонней критической области по уровню значимости 0,05 и числу
степеней свободы k  n 1 7 1 6 определяем t правост. кр 0,05;6  1,94 .

Поскольку критическая область левосторонняя и Tнабл  t правост.кр , то нулевая

гипотеза отвергается.
Таким образом, можно утверждать, что обучение привело к
существенному увеличению производительности труда.
II. Независимые выборки
Пусть имеются две независимые выборки x1 , x2 ,...,xn и x1 , y2 ,..., yn ,
имеющие нормальное распределение с параметрами M ( X ); D( X ) и
M (Y ); D(Y ) соответственно. Обычно ставится задача проверки их

110
однородности, т.е. равенства обоих параметров, либо следует проверить
равенство параметров по отдельности.

Проверка гипотез о равенстве дисперсий двух совокупностей


Гипотезы о дисперсиях возникают довольно часто, так как дисперсия
характеризует такие исключительно важные показатели, как точность машин,
приборов, технологических процессов, степень однородности совокупностей,
риск, связанный с отношением доходности активов от ожидаемого уровня.
Пусть совокупности X и Y распределены нормально. По независимым
выборкам объемов n1 и n2 , извлеченным из них, найдены исправленные

выборочные дисперсии s x2 и s y2 . Требуется по исправленным дисперсиям,

при заданном уровне значимости  , проверить нулевую гипотезу о том, что


генеральные дисперсии рассматриваемых совокупностей равны между собой,
т.е. H 0 : D( X )  D(Y ) .
Для проверки нулевой гипотезы H 0 используется критерий Фишера –
Снедекора. В качестве критерия принимается отношение большей
исправленной дисперсии к меньшей, т.е. величина
sб2
F 2.

При условии справедливости H 0 величина F имеет распределение Фишера –
Снедекора со степенями свободы k1  n1  1 , k 2  n2  1 где n1 - объем
выборки, по которой вычислена большая исправленная дисперсия.
Распределение Фишера – Снедекора зависит только от числа степеней
свободы. Критическая область строится в зависимости от вида
конкурирующей гипотезы.
Правило. Для того чтобы при заданном уровне значимости, проверить
нулевую гипотезу H 0 : D( X )  D(Y ) о равенстве генеральных дисперсий
надо:

111
sб2
1. Вычислить Fнабл  2.

2. В зависимости от вида альтернативной гипотезы, по таблице
критических точек распределения Фишера – Снедекора (приложение 7)
по заданному уровню значимости и числам степеней свободы k1 и k 2 (
k1 − число степеней свободы большей исправленной дисперсии), найти
критическую точку Fкр и сделать вывод о принятии или отклонении

нулевой гипотезы.
Область Область
Конкурирующая Критическая Критическая
принятия отклонения
гипотеза H1 область точка Fкр
H0 H0

  Fнабл  Fкр Fнабл  Fкр


H1 : D( X )  D(Y ) двусторон. Fкр  , k1 , k 2 
2 
H1 : D( X )  D(Y ) правостор. Fкр  , k1 , k 2  Fнабл  Fкр Fнабл  Fкр

Пример 10. Расход сырья на единицу продукции составил:

По старой технологии По новой технологии


xi 303 307 308 Итого yi 303 304 306 308 Итого
ni 1 4 4 9 ni 2 6 4 1 13

112
Выяснить, являются ли существенными различия между дисперсиями
расхода сырья на единицу продукции при использовании старой и новой
технологий при уровне значимости 0,05. В качестве альтернативной
гипотезы рассмотреть гипотезу H1 : D( X )  D(Y ) .
Решение. Находим исправленные выборочные дисперсии для каждой
выборки:
303  1  307  4  308  4
xв   307 ,
9

Dв 
303  307   1  (307  307) 2  4  308  307   4 20
2 2

 ,
9 9
9 20 20
s x2     2,5
8 9 8
Аналогично y в  304,77 , s y2  2,19 .

sб2 2,5
В соответствии с правилом вычислим Fнабл    1,14 .
s м2 2,19
По таблице (приложение 7), по уровню значимости 0,05 и числам степеней
свободы k1  n1  1  9  1  8 , k2  n2  1  13  1  12 находим критическую
точку Fкр  , k1 , k 2   Fкр 0,05,8,12  2,85 .

Так как Fнабл  Fкр – нет оснований отвергнуть нулевую гипотезу о

равенстве генеральных дисперсий. Следовательно, существенного различия


между дисперсиями при использовании старой и новой технологий нет.
Пример 11. Из нормальных генеральных совокупностей X и Y
извлечены две независимые выборки, объемы которых n1  9 и n2  6 . По
выборкам найдены выборочные дисперсии Dв ( X )  14,4 и Dв (Y )  20,5 . При
уровне значимости 0,1 проверить нулевую гипотезу H 0 : D( X )  D(Y ) о
равенстве генеральных дисперсий при конкурирующей гипотезе
H1 : D( X )  D(Y ) .
Решение. Исправленные дисперсии равны

113
n 9 n 6
s x2  Dв ( X )   14,4  16,2 и s y2  Dв (Y )   20,5  24,6 .
n 1 8 n 1 5
Отношение большей исправленной дисперсии к меньшей:
24,6
Fнабл   1,52 .
16,2
По условию конкурирующая гипотеза H1 : D( X )  D(Y ) , поэтому
критическая область – двусторонняя. Следуя правилу, при нахождении
критической точки следует брать уровень значимости, вдвое меньший
заданного. По таблице критических точек Фишера – Снедекора при уровне
 0,1
значимости   0,05 и числам степеней свободы k1  6  1  5 ,
2 2
k 2  9  1  8 находим критическую точку Fкр 0,05,5,8  3,69 .

Сравнивая критическое значение критерия с наблюдаемым, делаем


вывод, что Fнабл  Fкр , следовательно, нет оснований отвергнуть нулевую

гипотезу о равенстве генеральных дисперсий.

Сравнение двух средних нормальных генеральных совокупностей,


дисперсии которых известны
Сравнение двух средних нормальных генеральных совокупностей,
дисперсии которых известны, имеет важное практическое значение. Такая
задача встречается, например, тогда, когда средний результат одной серии
экспериментов отличается от среднего результата другой серии. При этом
возникает вопрос, можно ли объяснить расхождение средних значений
неизбежными случайными ошибками или оно вызвано некоторыми
закономерностями. В промышленности задача сравнения средних возникает
при выборочном контроле качества изделий, изготовленных на разных
установках или при различных технологических режимах, в финансовом
анализе – при сопоставлении уровня доходности различных активов и т.д.
Пусть X и Y – две независимые нормально распределенные
генеральные совокупности. Из них извлечены две выборки объемов n и m
114
( n  30, m  30 ), по которым рассчитаны выборочные средние x в и y в ,
причем известны дисперсии этих совокупностей. Требуется при уровне
значимости  проверить гипотезу о равенстве математических ожиданий:
H 0 : M ( X )  M (Y ) .

В качестве критерия проверки нулевой гипотезы принимается


случайная величина
x y
Z
D( X ) D(Y )

n m
имеющая, при выполнении гипотезы H0 , стандартное нормальное
распределение N (0;1) .
Правило. Для того чтобы при заданном уровне значимости 
проверить гипотезу H 0 : M ( X )  M (Y ) о равенстве математических
ожиданий двух нормальных генеральных совокупностей надо:
1. Вычислить наблюдаемое значение критерия
x y
Z набл  .
D( X ) D(Y )

n m
2. По таблице функции Лапласа (приложение 2), учитывая вид
альтернативной гипотезы, найти критическую точку z кр , сделать вывод о

принятии или отклонении основной гипотезы.


Область Область
Конкурирующая Критическая Критическая
принятия отклонения
гипотеза H1 область точка z кр
H0 H0
1  2α Z набл  z кр Z набл  z кр
M ( X )  M (Y ) правосторонняя Φ(zкр ) 
2
1  2α Z набл   z кр Z набл   z кр
M ( X )  M (Y ) левосторонняя Φ(zкр ) 
2

115
1 α
M ( X )  M (Y ) двусторонняя Φ(zкр )  Z набл  z кр Z набл  z кр
2

Замечание. Построение двусторонней критической области

α/2 1-α
α/2
-zкрит 0 zкрит
Учитывая, что
 
PZ  z кр.прав   PZ  z кр. лев  
1
, , P0  Z    
2 2 2
получим равенство

P0  Z  z кр.прав   PZ  z кр.прав  


1
2
или
 1
Фz кр    Фz кр  
1
 .
2 2 2
Замечание. Построение правосторонней критической области

α
0 zкрит

Учитывая, что PZ  zкр    ,


1
P0  Z     , получим равенство
2
1  2
P0  Z  z кр.прав   PZ  z кр.прав   или Фz кр      Фz кр  
1 1
.
2 2 2

Пример 12. По выборкам объемов n  14 и m  9 найдены средние


размеры деталей соответственно x в  182 , y в  185 мм, изготовленных на
первом и втором автоматах. Установлено, что размер детали, изготовленной
каждым автоматом, имеет нормальный закон распределения. Известны

116
 x2  5 и  y2  7 . При уровне значимости 0,05 выявить влияние автомата, на
котором изготовлена деталь, на ее средний размер. В качестве
альтернативной гипотезы принять H1 : M ( X )  M (Y ) .
Решение. Для проверки нулевой гипотезы H 0 : M ( X )  M (Y ) по
182  185
исходным данным вычисляем Z набл   2,82 . Для вычисления z кр ,
5 7

14 9
учитывая форму альтернативной гипотезы строим двустороннюю
1   1  0,05
критическую область. Получим Φ(zкр )    0,475. По таблице
2 2
приложения 2 находим z кр  1,96. Сравнивая z кр и Z набл , имеем Z набл  z кр ,

следовательно, нулевая гипотеза H 0 : M ( X )  M (Y ) отвергается и можно


сказать, что влияние автомата на средний размер детали существенен.
Пример 13. По условию примера 12, при уровне значимости 0,05
выявить влияние на средний размер детали автомата, на котором она
изготовлена. В качестве альтернативной гипотезы принять гипотезу
H1 : M ( X )  M (Y ) .
Решение. Для проверки нулевой гипотезы H 0 : M ( X )  M (Y ) по
182  185
исходным данным вычисляем Z набл   2,82 . Учитывая форму
5 7

14 9
альтернативной гипотезы, строим левостороннюю критическую область.
1  2α
Найдем критическую точку z кр . Используя формулу Φ(zкр )  и
2
1  2  0,05
таблицу (приложения 2), получим Φ(zкр )   0,45, следовательно,
2
z кр  1,64 . Так как Z набл   z кр , то нулевая гипотеза H 0 : M ( X )  M (Y )

отвергается, следовательно, на средний размер детали влияет автомат, на


котором она изготовлена.

117
Сравнение двух средних нормальных генеральных совокупностей,
дисперсии которых неизвестны, но равны
Пусть X и Y – две независимые нормально распределенные
генеральные совокупности. Причем, их генеральные дисперсии неизвестны,
но предполагаются равными. Из данных совокупностей извлечены две
независимые выборки малых объемов n  30, m  30 . По этим данным

рассчитаны выборочные средние x в и y в , а также исправленные выборочные

дисперсии s x2 и s y2 .

В качестве критерия проверки нулевой гипотезы примем статистику


x y nm(n  m  2)
T
(n  1) s x2  (m  1) s y2 nm ,

которая имеет t –распределение Стьюдента с k  n  m  2 степенями


свободы.
Правило. Для того чтобы при заданном уровне значимости 
проверить гипотезу H 0 : M ( X )  M (Y ) о равенстве математических
ожиданий надо:
1. Вычислить наблюдаемое значение критерия
x y nm(n  m  2)
Tнабл  .
(n  1) s x2  (m  1) s y2 nm

2. По таблице критических точек распределения Стьюдента


(приложение 5) в зависимости от вида альтернативной гипотезы найти
критическую точку и сделать вывод о принятии или отклонении
основной гипотезы.
Область
Конкурир. Критическая Критическая Область
отклонения
гипотеза H1 область точка t кр принятия H 0
H0
M ( X )  M (Y )
правосторон. tправост.кр.  ; k  Tнабл  tправост. кр Tнабл  tправост. кр

118
M ( X )  M (Y ) t левост.кр.  tправост.крT. набл  tправост. кр Tнабл  tправост. кр
левосторон.
tправост.кр.  ; k 

M ( X )  M (Y )
двусторон. tдвуст.кр.  ; k  Tнабл  tдвуст. кр Tнабл  tдвуст. кр

Пример 14. По двум независимым малым выборкам, объемы которых


n  8, m  10 , извлеченным из нормальных генеральных совокупностей X и
Y, найдены выборочные средние x в  145,3 , y в  142 и исправленные

выборочные дисперсии, равные s x2  3,2 и s y2  2,7 . При уровне значимости

  0,1 проверить нулевую гипотезу H 0 : M ( X )  M (Y ) при


конкурирующей гипотезе H1 : M ( X )  M (Y ) .
Решение. Исправленные дисперсии различны, поэтому проверим
предварительно гипотезу о равенстве генеральных дисперсий
H 0 : D( X )  D(Y ) , используя критерий Фишера – Снедекора.
Найдем отношение большей дисперсии к меньшей:
3,2
Fнабл   1,19.
2,7
В качестве конкурирующей выдвинем следующую гипотезу:
H1 : D( X )  D(Y ) . В этом случае критическую точку находим по формуле

 
Fкр  , k1 , k 2  , k1  n1  1 , k 2  n2  1, где n1 - объем выборки большей
2 
исправленной дисперсии, получаем Fкр 0,05,7,9  3,68.

Так как Fнабл  Fкр , то нет оснований отвергнуть нулевую гипотезу о

равенстве генеральных дисперсий. Предположение о равенстве генеральных


дисперсий выполняется, поэтому сравним средние.
Вычислим наблюдаемое значение критерия Стьюдента, получим
Tнабл  4,07 .

119
По условию, конкурирующая гипотеза H1 : M ( X )  M (Y ) , поэтому
критическая область – двусторонняя. По таблице критических точек
распределения Стьюдента (приложение 5) по числу степеней свободы
k  n  m  2  10  8  2  16 и по уровню значимости   0,1 (в верхней
строке таблицы) находим tдвуст. кр (0,1;16)  1,75 .

Так как Tнабл  tдвуст. кр , то нулевую гипотезу о равенстве средних

отвергаем. Или, другими словами, выборочные средние различаются


значимо.

§3.4. Критерии согласия

Статистические методы, рассмотренные ранее, опираются на


различные априорные допущения о виде исследуемой статистической
модели. Например, метод максимального правдоподобия применяют при
известном законе распределения генеральной совокупности. Основные
методы построения доверительных интервалов и проверки статистических
гипотез основаны на предположении о нормальном законе распределения
генеральной совокупности. Однако при решении практических задач закон
распределения в общем случае заранее неизвестен, поэтому возникает
необходимость выбора модели закона распределения, согласующейся с
результатами выборочных наблюдений. Многие предположения о виде
статистической модели можно сформулировать как статистические гипотезы
и проверить при помощи статистических критериев на основе
статистических данных.
Пусть x1 , x2 ,...,xn – выборка наблюдений случайной величины X.
Выдвинем предположение о том, что генеральная совокупность имеет
функцию распределения F (x) . Подобное предположение можно сделать на
основе предварительного анализа выборки: построения гистограммы или
полигона, частотного анализа и т.д. Если, к примеру, частота попадания в
центральные интервалы существенно выше, чем в крайние, и если частота
120
примерно монотонно убывает к краям, – тогда с достаточным основанием
можно высказать предположение о нормальности распределения. Если же
максимум частоты приходится на край, то неразумно предполагать
нормальность такого распределения. Таким образом, выдвигается гипотеза
H 0 : генеральная совокупность имеет функцию распределения F (x) против

альтернативы, что функция распределения не такова.


Критерии, с помощью которых проверяется нулевая гипотеза о
неизвестном распределении, называются критериями согласия. Критерии
согласия предназначены для обнаружения расхождений между
гипотетической статистической моделью и реальными данными, которые эта
модель призвана описать. Другими словами, они выясняют, насколько
предположения о распределении случайных величин соответствуют
экспериментальным данным, т.е. не вступает ли принятая статистическая
модель в противоречие с имеющимися данными.
Существуют различные критерии согласия: Пирсона, Колмогорова,
Смирнова и др.
Критерий согласия Пирсона – наиболее часто употребляемый критерий
для проверки гипотезы о законе распределения.

Критерий согласия Пирсона (хи - квадрат)


Критерий согласия  2 разработан лучше других и применяется к
различным законам распределения. Он основан на сравнении эмпирических
(наблюдаемых) частот с теоретическими (ожидаемыми) частотами
(вычисленными в предположении рассматриваемого закона распределения).
Обычно эмпирические и теоретические частоты различаются.
Возможно, что расхождение случайно (незначимо) и объясняется малым
числом наблюдений, либо способом их группировки, либо другими
причинами. Возможно, что расхождение частот неслучайно (значимо) и
объясняется тем, что теоретические частоты вычислены, исходя из неверной

121
гипотезы о виде распределения генеральной совокупности. В качестве
критерия, характеризующего степень расхождения между эмпирическими
частотами ( ni ) и теоретическими частотами ( ni ) К. Пирсон предложил
величину («критерий Пирсона»):
m ni  ni 2
 
2
.
i 1 ni

Согласно теореме Пирсона, при n   эта статистика имеет  2 -


распределение с k  m  r  1 степенями свободы, где m – число групп
(интервалов выборки), r – число параметров предполагаемого закона
распределения. В частности, если предполагаемое распределение –
нормальное, то оценивают два параметра (математическое ожидание и
среднее квадратическое отклонение) поэтому r  2 и число степеней
свободы k  m  3 .
Правило применения критерия  2 :
1. Формулируется нулевая гипотеза H 0 и выбирается уровень значимости α.
2. Вычисляются теоретические частоты.
3. Вычисляется  набл
2
– выборочное значение статистики критерия.

4. По таблице критических точек распределения  2 (приложение 6), по


заданному уровню значимости α и числу степеней свободы k  m  r  1
определяется  крит
2
( , k ) .

5. Если  набл
2
  крит
2
, то гипотеза H 0 не противоречит опытным данным;

если  набл
2
  крит
2
, то гипотеза H 0 отвергается.

Замечание. Необходимым условием применимости критерия Пирсона


является наличие в каждой из групп не менее 5 наблюдений.
Малочисленные группы следует объединять в одну, суммируя частоты. При
определении числа степеней свободы по формуле k  m  r  1, в качестве
числа групп m берем их число после объединения. Объем выборки должен
быть достаточно велик (не менее 50).
122
Пример 15. Используя критерий согласия Пирсона, при уровне
значимости   0,05 установить случайно или значимо расхождение между
эмпирическими частотами ni и теоретическими частотами ni , которые
вычислены исходя из гипотезы о нормальном распределении генеральной
совокупности.
ni 14 18 32 70 20 36 10
ni 10 24 34 80 18 22 12

Решение. Для ответа на поставленный вопрос, значимо ли


расхождение между эмпирическими и теоретическими частотами, вычислим
наблюдаемое значение критерия Пирсона. Для удобства составим таблицу:
№ ni ni ni  ni ni  ni 2 ni  ni 2 ni

1 14 10 4 16 1,6
2 18 24 -6 36 1,5
3 32 34 -2 4 0,1176
4 70 80 - 10 100 1,25
5 20 18 2 4 0,222
6 36 22 14 196 8,909
7 10 12 -2 4 0,333
 набл
2
 13,93
По таблице (приложение 6) критических точек распределения хи-
квадрат по уровню значимости   0,05 и числу степеней свободы

k  73  4 находим  крит


2
( , k )   крит
2
(0,05;4)  9,5 . Итак,  набл
2
  крит
2
,

следовательно, гипотеза о нормальном распределении генеральной


совокупности отвергается. Другими словами, расхождение между
теоретическими и эмпирическими частотами значимо.
Рассмотрим далее проверку гипотез о некоторых конкретных видах
распределений генеральной совокупности.

123
Проверка гипотезы о нормальном распределении генеральной
совокупности
I. Случайная величина X задана в виде дискретного статистического
ряда с равноотстоящими вариантами
Правило. Для того, чтобы при данном уровне значимости проверить
гипотезу о нормальном распределении генеральной совокупности
необходимо:
1. Вычислить x в и  в .
nh
2. Вычислить теоретические частоты ni   u i  , где n – объем
в
u2
xi  x в 1 2
выборки, h  xi 1  xi – шаг, ui  ,  u   e (функция
в 2
Гаусса, значения которой даны в таблице, приложение1).
m ni  ni 2
3. Вычислить значение  2
 .
ni
набл
i 1

4. По таблице критических точек распределения  2 (приложение 6) по


заданному уровню значимости α и числу степеней свободы k  m  3
найти  крит
2
( , k ) .

5. Сравнить  набл
2
и  крит
2
. Если  набл
2
  крит
2
– нет оснований отвергнуть

гипотезу о нормальном распределении генеральной совокупности.


Если  набл
2
  крит
2
, то гипотеза H 0 отвергается.

Пример 16. Построить теоретический закон распределения генеральной


совокупности случайной величины X , заданной в виде выборки объема
n=200 вариант при помощи вариационного ряда
xi 3 5 7 9 11 13 15 17 19 21 23

ni 6 9 26 25 30 26 21 24 20 8 5

Используя критерий Пирсона при уровне значимости   0,05 ,

установить, согласуется ли полученный закон с данной выборкой.


124
Решение. Вычислим x в и  в . С этой целью составим таблицу:

xi ni xi ni xi2 ni
3 6 18 54
5 9 45 225
7 26 182 1274
9 25 225 2025
11 30 330 3630
13 26 338 4394
15 21 315 4725
17 24 408 6936
19 20 380 7220
21 8 168 3528
23 5 115 2645
∑ 200 2524 36656
Итак
n n
 xi ni  xi2 ni
xв  i 1

n

2524
200
 12,62,  в  i 1

n
 
 xв
2

36656
200
 (12,62) 2  4,9 .

Построим эмпирический полигон частот


35
n
30

25

20

15

10

5
x
0
0 5 10 15 20 25
Эксперементальная кривая

Исходя из внешнего вида графика, выдвигаем нулевую гипотезу о


том, что генеральная совокупность распределена по нормальному закону с
параметрами a  12,62 ,   4,9 .

125
Для проверки этой гипотезы согласно правилу находим теоретические
частоты. Расчеты приведем в таблице:
xi ni ui  ui  ni

3 6 -1,96327 0,05844 5
5 9 -1,5551 0,12001 10
7 26 -1,14694 0,20594 17
9 25 -0,73878 0,30339 25
11 30 -0,33061 0,3778 31
13 26 0,077551 0,39767 33
15 21 0,485714 0,35381 29
17 24 0,893878 0,26848 22
19 20 1,302041 0,17137 14
21 8 1,710204 0,09246 8
23 5 2,118367 0,04217 4
На рисунке построены нормальная (теоретическая) кривая по
теоретическим (выравнивающим) частотам и полигон наблюдаемый частот.
35
n
30

25

20

15

10

5
x
0
0 5 10 15 20 25
Эксперементальная кривая теоретически нормальная кривая

Для характеристики степени расхождения между теоретическими и


эмпирическими частотами используем критерий согласия Пирсона. Составим
расчетную таблицу:

126
ni ni ni  ni ni  ni 2 ni  ni 2 ni
6 5 1 1 0,2
9 10 -1 1 0,1
26 17 9 81 4,76
25 25 0 0 0
30 31 -1 1 0,03
26 33 -7 49 1,48
21 29 -8 64 2,21
24 22 2 4 0,18
20 14 6 36 2,57
8 8 0 0 0
5 4 1 1 0,25

 набл
2
 11,78
Находим число степеней свободы: по выборке рассчитаны два
параметра, значит, r  2 . Количество интервалов m  11 . Следовательно,
k  11  2  1  8 . Зная, что   0,05 и k  8 , по таблице критических точек
распределения хи-квадрат (приложение 6) находим
 крит
2
( ; k )   крит
2
(0,05;8)  15,5 . Итак,  набл
2
  крит
2
, следовательно, нет

оснований отвергнуть гипотезу о нормальном распределении генеральной


совокупности.

II. Случайная величина X задана в виде интервального статистического


ряда с интервалами одинаковой длины
Пусть эмпирическое распределение задано в виде:
Интервалы x1 , x2  x2 , x3  … xs , xs 1 
Частота n1 n2 … ns

Требуется, используя критерий Пирсона, проверить гипотезу о том, что


генеральная совокупность X распределена нормально.
Правило. Для того, чтобы при данном уровне значимости  проверить
гипотезу о нормальном распределении генеральной совокупности, надо:

127
1. Вычислить x в и  в , причем в качестве вариант xi принять среднее

арифметическое концов интервалов: xi  xi  xi 1  2 .

2. Пронормировать X, т.е. перейти к случайной величине Z 


X  x  , и в

в

вычислить концы интервалов: zi 


x i  xв , zi 1 
x
i 1  xв , причем
в в
наименьшее значение Z (т.е. z1 ) принять равным   , а наибольшее
(т.е. z s 1 ) принять равным  .
3. Вычислить теоретические частоты ni  nPi , где n - объем выборки,
Pi  zi 1   zi  – вероятности попадания X в интервалы xi ; xi 1  ;

z  – функция Лапласа (приложение 2).


4. Сравнить теоретические и эмпирические частоты с помощью критерия
Пирсона. Сделать вывод.
Пример 17. Отделом технического контроля качества продукции
произведен выбор 200 деталей для измерения отклонений их
действительного диаметра от планируемого. Данные измерений приведены в
таблице:
Границы
уклоне- [-20;-15) [-15;-10) [-10;-5) [-5;0) [0;5) [5;10) [10;15) [15;20) [20;25) [25;30)
ний
Число
7 11 15 24 49 41 26 17 7 3
деталей

Проверить при уровне значимости   0,05 гипотезу H 0 о том, что


отклонение диаметра деталей от проектного размера подчиняются
нормальному закону распределения.
Решение.
1. Вычислим выборочную среднюю и выборочное среднее
квадратическое отклонение. Результаты расчетов приведены в таблице:

128
Границы Середина
Номер Частота
интервала интервала xini x  n
 2
i i
интервала ni
xi xi 1 xi

1 -20 -15 -17,5 7 -122,5 2143,75


2 -15 -10 -12,5 11 -137,5 1718,75
3 -10 -5 -7,5 15 -112,5 843,75
4 -5 0 -2,5 24 -60 150
5 0 5 2,5 49 122,5 306,25
6 5 10 7,5 41 307,5 2306,25
7 10 15 12,5 26 325 4062,5
8 15 20 17,5 17 297,5 5206,25
9 20 25 22,5 7 157,5 3543,75
10 25 30 27,5 3 82,5 2268,75
Сумма 200 860 22550
s
 xi ni 860
xв  i 1
  4,3 ,
n 200
2

   s  
s
 x n i i   x i ni
 2

Dв  i 1
  i 1   22550  4,3 2  94,26 ,  в  9,71.
n  n  200
 
 
Дальнейшие вычисления выполним по правилу применения критерия
согласия Пирсона и оформим их в виде таблицы:

129
Границы Эмпири- Границы
Теорет.
интервала ческая интервала
№ zi  zi 1  Pi частота
частота
xi xi 1 zi zi 1 ni  nPi
ni

1 -20 -15 7  -1,9879 -0,5 -0,4767 0,0233 4,66


2 -15 -10 11 -1,9879 -1,4729 -0,4767 -0,4292 0,0475 9,5
3 -10 -5 15 -1,4729 -0,9579 -0,4292 -0,3315 0,0977 19,54
4 -5 0 24 -0,9579 -0,4429 -0,3315 -0,17 0,1615 32,3
5 0 5 49 -0,4429 0,0721 -0,17 0,0279 0,1979 39,58
6 5 10 41 0,0721 0,5871 0,0279 0,2224 0,1945 38,9
7 10 15 26 0,5871 1,1021 0,2224 0,3643 0,1419 28,38
8 15 20 17 1,1021 1,6171 0,3643 0,4474 0,0831 16,62
9 20 25 7
  10 1,6171  0,4474 0,5 0,0526 10,52
10 25 30 3

Сумма 200 1 200

Построим графики эмпирической кривой и теоретически нормальной кривой

Как видно из графиков, представленных на рисунке, теоретические и


эмпирические кривые отличаются друг от друга. Для определения значимо
ли это расхождение вычислим наблюдаемое значение критерия Пирсона,
составим для этого расчетную таблицу:

130
ni  ni 2
№ ni ni ni  ni ni  ni 
2

ni
1 7 4,66 2,34 5,4756 1,175021
2 11 9,5 1,5 2,25 0,236842
3 15 19,54 -4,54 20,6116 1,054841
4 24 32,3 -8,3 68,89 2,132817
5 49 39,58 9,42 88,7364 2,24195
6 41 38,9 2,1 4,41 0,113368
7 26 28,38 -2,38 5,6644 0,199591
8 17 16,62 0,38 0,1444 0,008688
9 10 10,52 -0,52 0,2704 0,025703
Сумма 200 200  набл
2
 7,19

Находим число степеней свободы: по выборке рассчитаны два


параметра, значит, r  2 . Количество интервалов после объединения m  9 .
Следовательно, k  9  2  1  6 . Зная, что   0,05 и k  6 , по таблице
критических точек распределения хи-квадрат находим
 крит
2
( ; k )   крит
2
(0,05;6)  12,6 . Итак,  набл
2
  крит
2
, следовательно, нет

оснований отвергнуть гипотезу о нормальном распределении генеральной


совокупности.

Проверка гипотезы о распределении генеральной совокупности


по закону Пуассона
Пусть задано эмпирическое распределение дискретной случайной
величины X. Требуется, используя критерий Пирсона, проверить гипотезу о
распределении генеральной совокупности по закону Пуассона.
Правило. Для того чтобы при уровне значимости  проверить гипотезу
о том, что случайная величина X распределена по закону Пуассона, надо:
1. Найти по заданному эмпирическому распределению выборочную
среднюю x в .
131
2. Принять в качестве оценки параметра  распределения Пуассона
выборочную среднюю   x в .
3. Найти по формуле Пуассона (или по готовым таблицам) вероятности
Pi появления ровно i событий в n испытаниях ( i  0, 1, 2,...,l где l –
максимальное число наблюдавшихся событий; n – объем выборки).
4. Найти теоретические частоты по формуле ni  n  Pi .
5. Сравнить эмпирические и теоретические частоты с помощью
критерия Пирсона, учитывая, что число степеней свободы
k  m  r  1, r  1.
Пример 18. Через равные промежутки времени в тонком слое раствора
золота регистрировалось число частиц золота, попадавших в поле зрения
микроскопа. Результаты наблюдений приведены в таблице

Число частиц 0 1 2 3 4 5 6 7 Итого


Частота 112 168 130 68 32 5 1 1 517

Проверить, используя критерий хи-квадрат, согласие с законом


распределения Пуассона, приняв за уровень значимости   0,05 .
Решение. Найдем выборочную среднюю:
x в   xi ni n  0  112  1  168  2  130  3  68  4  32  5  5  6  1  7  1 / 517  1,54
В качестве оценки параметра  распределения Пуассона примем
выборочную среднюю:   1,54 . Следовательно, предполагаемый закон
Пуассона имеет вид
(1,54) i e 1,54
P517 (i)  .
i!
Заметим, что последние два значения (6 и 7) встретились слишком мало раз,
поэтому их следует объединить с предыдущим значением, равным 5. Кроме
того, распределение Пуассона не ограничено справа, и следует учесть все
значения, большие 7 (которые не встретились ни разу).
Находим теоретические вероятности pi :

132
(1,54) 0 e 1,54 (1,54)1 e 1, 54
p0  P517 (0)   0,214 ; p1  P517 (1)   0,33 ;
0! 1!
(1,54) 2 e 1,54 (1,54) 3 e 1,54
p2  P517 (2)   0,254 ; p3  P517 (3)   0,13 ;
2! 3!
(1,54) 4 e 1,54
p4  P517 (4)   0,05 ;
4!
p5  P517 (i  5)  1  Pi  5  1  (0,214  0,33  0,254  0,13  0,05)  0,022 .
Найдем теоретические частоты по формуле ni '  n  pi и составим
следующую таблицу:
Число Частота (ni  ni ' ) 2
pi ni '  n  pi ni  ni ' (ni  ni ' ) 2

частиц ni ni '

0 112 0,214 110,64 1,36 1,8496 0,016717


1 168 0,33 170,61 -2,61 6,8121 0,039928
2 130 0,254 131,32 -1,32 1,7424 0,013268
3 68 0,13 67,21 0,79 0,6241 0,009286
4 32 0,05 25,85 6,15 37,8225 1,463153
5 7 0,022 11,37 -4,37 19,0969 1,679587

 517 1 517  набл


2
 3,22
Из расчетной таблицы находим наблюдаемое значение критерия
Пирсона  набл
2
 3,22 .
По таблице критических точек распределения хи-квадрат (см.
приложение 6), по уровню значимости   0,05 и числу степеней свободы
k  s  2  6  2  4 , s  6 – число групп выборки после объединения,
находим критическую точку:  крит
2
 9,5 .

Так как  набл


2
  крит
2
– нет оснований отвергнуть гипотезу о

распределении числа частиц золота по закону Пуассона.

133
Проверка гипотезы о показательном распределении генеральной
совокупности
Пусть задано эмпирическое распределение непрерывной случайной
величины X в виде последовательности интервалов и соответствующих
частот. Требуется, используя критерий Пирсона, проверить гипотезу о том,
что случайная величина X имеет показательное распределение.
Правило. Для того чтобы при заданном уровне значимости проверить
гипотезу о том, что случайная величина распределена по показательному
закону, надо:
1) Найти по заданному распределению выборочную среднюю x в .
2) Принять в качестве оценки параметра λ показательного распределения
1
величину, обратную выборочной средней:   .

3) Найти вероятность попадания случайной величины X в интервал
 x  x
( xi ; xi 1 ) по формуле pi  P( xi  X  xi1 )  F ( xi1 )  F ( xi )  e i  e i 1 .

4) Вычислить теоретические частоты n'i  npi .


5) Сравнить эмпирические и теоретические частоты с помощью критерия
Пирсона.
Пример 19. Требуется при заданном уровне значимости   0,01
подтвердить или опровергнуть гипотезу о том, что данное распределение
подчиняется показательному закону распределения:
Интервал 0-10 10-20 20-30 30-40 40-50 50-60 60-70
Частота 306 140 72 12 6 3 1
Решение. Для вычисления среднего значения в качестве конкретных
значений берем середины интервалов, получим:
5  306  15  140  25  72  35  12  45  6  55  3  65  1
xв   11,76 ,
540
1
тогда    0,085.
11,76

134
Дальнейшие расчеты сведем в таблицу:

 xi  xi 1 e xi  e xi 1 n'i  npi


xi xi 1 ni e  xi e  xi 1
0 10 306 0 -0,85 1 0,427
0,573 309,42
10 20 140 -0,85 -1,7 0,427 0,183
0,244 131,76
20 30 72 -1,7 -2,55 0,183 0,078
0,105 56,7
30 40 12 -2,55 -3,4 0,078 0,033
0,045 34,3
40 50 6 -3,4 -4,25 0,033 0,014
0,019 10,26
50 60 3 -4,25 -5,1 0,014 0,006
0,008 4,32
60  1 -5,1  0,006 0,0060 3,24
Итого: 540 1 540
Так как показательное распределение неограниченно справа, то
последнее значение, равное 70, продлено до бесконечности.
Сравним эмпирические и теоретические частоты с помощью критерия
Пирсона. Составляем таблицу, учитывая, что последние 3 интервала имеют
число наблюдений меньших 5, мы их объединяем в один интервал от 40 до ∞.
Получим
(ni  ni ' ) 2
xi xi 1 ni ni ' ni  ni ' (ni  ni ' ) 2

ni '
0 10 306 309 -3 9 0,029126
10 20 140 132 8 64 0,484848
20 30 72 57 15 225 3,947368
30 40 12 24 -12 144 6
40 ∞ 10 18 -8 64 3,555556
Итого 540 540  набл  14,0169
2

Из расчетной таблицы  набл


2
 14,0169 , по таблице приложения 6, находим

 крит
2
(0,01;3)  11,3 . Число степеней свободы k  5  1  1  3 , так как число

интервалов после объединения s  5 и для показательного закона r  1 .


Так как  набл
2
  крит
2
, то основная гипотеза о том, что распределение

подчиняется показательному закону отвергается.

135
§3.5. Проверка статистических гипотез в Excel

В табличном процессоре Excel определены несколько функций и


режимов работы пакета Анализа данных, которые можно использовать для
проверки статистических гипотез.
Проверка гипотезы о равенстве дисперсий двух нормальных
распределений
Для проверки этой гипотезы используется режим работы Двухвыборочный F-
тест для дисперсий. Для вызова этого режима необходимо во вкладке
Данные выбрать команду Анализ данных. Затем в появившемся списке
режимов выбрать данный режим и щелкнуть ОК. Появится диалоговое окно

Содержащее параметры:
Интервал переменной 1: – адреса ячеек, содержащих выборочные значения
случайной величины X.
Интервал переменной 2: – адреса ячеек, содержащих выборочные значения
случайной величины Y.
Метки – включается, если первая строка содержит заголовки столбцов.
Альфа: – задается уровень значимости.
Выходной интервал / Новый рабочий лист / Новая рабочая книга –
определяет место вывода результатов вычислений.

136
Пример 20. Спроектированы и изготовлены две одинаковые опытные
установки А и В для данного процесса. В таблице приведены первые 10
значений количеств X и Y продукта, полученного на каждой из установок,
величины X и Y распределены нормально.
№ опыта 1 2 3 4 5 6 7 8 9 10
установка
97,8 98,9 101,2 98,8 102,0 99,0 100,8 100,9 99,1 100,5
А
установка
97,2 100,5 98,2 98,3 97,5 99,9 97,9 96,8 97,4 97,2
В
Требуется проверить гипотезу о равенстве дисперсий при   0,05 .
Решение. Выборочные данные вводим в ячейки А2 – А11, В2 –В11.
Обращаемся к режиму Двухвыборочный F-тест для дисперсий. В
появившемся диалоговом окне вводим следующие параметры:

Результаты работы представлены в следующей таблице:

137
Двухвыборочный F-тест для дисперсии
Установка А Установка В
Среднее 99,9 98,09
Дисперсия 1,815555556 1,472111111
Наблюдения 10 10
Df 9 9
F 1,233300626
P(F<=f) одностороннее 0,379928027
F критическое одностороннее 3,178893105
Так как наблюдаемое значение статистики F=1,233 меньше критического,
равного 3,18, то нет оснований отвергнуть нулевую гипотезу о равенстве
дисперсий генеральных совокупностей.

Проверка гипотезы о равенстве математических ожиданий двух


нормальных распределений с известными дисперсиями
Для проверки этой гипотезы используется режим работы Двухвыборочный z-
тест для средних. Для вызова этого режима необходимо во вкладке Данные
выбрать команду Анализ данных. Затем в появившемся списке режимов
выбрать данный режим и щелкнуть ОК. Появится следующее диалоговое
окно

138
которое содержит следующие параметры:
Интервал переменной 1: – адреса ячеек, содержащих выборочные значения
случайной величины X.
Интервал переменной 2: – адреса ячеек, содержащих выборочные значения
случайной величины Y.
Гипотетическая средняя разность: – задает число, равное предполагаемой
разности математических ожиданий (при проверки гипотезы о равенстве
математических ожиданий задается 0).
Дисперсия переменной 1 (известная): – вводится известное значение  X2 .

Дисперсия переменной 2 (известная): – вводится известное значение  Y2 .


Метки – включается, если первая строка содержит заголовки столбцов.
Альфа: – задается уровень значимости.
Выходной интервал / Новый рабочий лист / Новая рабочая книга –
определяет место вывода результатов вычислений.
Пример 21. Выборочные данные о диаметре валиков (мм),
изготовленных автоматом 1 и автоматом 2, таковы:
Автомат 1: 182.3, 183, 181.8, 181.4, 181.8, 181.6, 183.2, 182.4, 182.5, 179.7,
179.9, 181.9, 182.8, 183.4.
Автомат 2: 185,3; 185,6; 184,8; 186,2; 185,8; 184; 185,2; 184,2; 184,2.
Известно, что размер валиков имеет нормальное распределение с
дисперсиями равными соответственно 5мм2 и 7мм2. Проверить нулевую
гипотезу о равенстве средних размеров диаметров валиков
H 0 : M ( X )  M (Y ) при конкурирующей гипотезе H 0 : M ( X )  M (Y )
Решение. Введем названия столбцов Автомат 1 и Автомат 2
соответственно в ячейки А1 и В1. Далее вводим исходные данные задачи .
Обратимся к режиму Двухвыборочный z-тест для средних. В открывшемся
диалоговом окне задаем параметры, указанные на рисунке.

139
После щелчка на ОК, в указанном диапазоне появляются результаты работы
данного режима в виде:

Величина z является расчетным значением критерия Z набл  2,867 . По виду


альтернативной гипотезы строим двустороннюю критическую область,
следовательно z кр  1,96 . Так как Z набл  z кр , то нулевая гипотеза при

уровне значимости 0,05 отвергается и принимается альтернативная.

140
Проверка гипотезы о равенстве математических ожиданий двух
нормальных распределений с неизвестными, но равными дисперсиями
Для проверки этой гипотезы используется режим работы Двухвыборочный t-
тест c одинаковыми дисперсиями. Для вызова этого режима необходимо во
вкладке Данные выбрать команду Анализ данных. Затем в появившемся
списке режимов выбрать данный режим и щелкнуть ОК. Появится
следующее диалоговое окно

которое содержит следующие параметры:


Интервал переменной 1: – адреса ячеек, содержащих выборочные значения
случайной величины X.
Интервал переменной 2: – адреса ячеек, содержащих выборочные значения
случайной величины Y.
Гипотетическая средняя разность: – задает число, равное предполагаемой
разности математических ожиданий (при проверки гипотезы о равенстве
математических ожиданий задается 0).
Метки – включается, если первая строка содержит заголовки столбцов.
Альфа: – задается уровень значимости.
Выходной интервал / Новый рабочий лист / Новая рабочая книга –
определяет место вывода результатов вычислений.
Пример 22. Спроектированы и изготовлены две одинаковые опытные
установки А и В для данного процесса. В таблице приведены первые 10
141
значений количеств X и Y продукта, полученного на каждой из установок,
величины X и Y распределены нормально.
№ опыта 1 2 3 4 5 6 7 8 9 10
установка
97,8 98,9 101,2 98,8 103,0 99,0 100,8 100,9 99,1 100,5
А
установка
97,2 100,5 98,2 98,3 97,5 99,9 97,9 96,8 97,4 97,2
В
Требуется проверить гипотезу о равенстве математических ожиданий при
  0,05 , в предположении, что дисперсии равны.
Решение. В столбцы А и В вводим соответствующие значения. В
режиме работы Двухвыборочный t-тест c одинаковыми дисперсиями
заполняем диалоговое окно следующим образом:

После нажатия кнопки ОК результат работы данного режима представлен на


рисунке

142
Так как t набл  t кр то гипотеза о равенстве математических ожиданий

отвергается.

Проверка соответствия теоретическому распределению


В большинстве случаев при решении реальных задач закон распределения и
его параметры не известны. В то же время применяемые статистические
методы в качестве предпосылок часто требуют определенного закона
распределения. Поэтому возникает задача оценки меры соответствия
полученных эмпирических данных и каких-либо теоретических
распределений. Наиболее часто проверяется предположение о нормальном
распределении генеральной совокупности. С этой целью обычно используют
графический метод, выборочные параметры формы распределения и
критерии согласия.
Пример 23. Используя критерий Пирсона, при уровне значимости 0,05
проверить, согласуется ли гипотеза о нормальном распределении
генеральной совокупности X с заданным эмпирическим распределением.
Границы интервала 6-16 16-26 26-36 36-46 46-56 56-66 66-76 76-86
Частота 8 7 16 35 15 8 6 5

143
Решение. Использование графического метода позволяет дать
ориентировочную оценку расхождения или совпадений распределений
40
35
30
25
20
15
10
5
0
11 21 31 41 51 61 71 81

Эмпирическое распределение Нормальное распределение

Из рисунка видно, что расхождение значимое.


При большом числе наблюдений неплохие результаты дает вычисление
выборочных параметров формы распределения: эксцесса и асимметрии (см.
Глава 1). Считается, что предположение о нормальности распределения не
противоречит имеющимся данным, если асимметрия близка к нулю, то есть
лежит в диапазоне от -0,2 до 0,2, а эксцесс – от 2 до 4. Для приведенного
примера As  0,28 , Es  5,16 , следовательно, предположение о нормальности
данного распределение отвергается.
Наиболее убедительные результаты дает использование критериев
согласия. Здесь нулевая гипотеза представляет собой утверждение о том, что
распределение генеральной совокупности не отличается от нормального.
Опишем применение критерия хи-квадрат.
1) Вводим исходные данные: в ячейки А5 – А12 начало интервалов, в ячейки
В5 – В12 концы интервалов, в D5 – D12 эмпирические частоты. 2) Для
вычисления среднего значения и дисперсии необходимо найти середины
интервалов. Для этого используем функцию =СРЗНАЧ(число 1; число 2;…).
Вводим в ячейку С5 функцию =СРЗНАЧ(A5:B5) и, используя
автозаполнение, копируем данную функцию до С12 включительно.

144
3) В ячейку Е5 вводим функцию =ПРОИЗВЕД(C5;D5); а в ячейку F5
=ПРОИЗВЕД(C5;Е5) и продолжаем, аналогично до ячеек Е12 и F12.
4) В ячейках D13, E13, F13 подсчитываем суммы, используя встроенную
функцию =СУММ(число 1; число 2;…).
5) В ячейке А15 вычислим выборочное среднее. С этой целью в А15 вводим
выражение =E13/D13. В ячейке D19 вводим выражение =(F13/D13)-A15^2,
которое рассчитывает дисперсию. В ячейке А16 вычислим среднее
квадратическое отклонение, используя функцию =КОРЕНЬ(D19).
6) Для вычисления значений функции распределения на концах интервалов
(столбцы G и H) используем встроенную статистическую функцию
=НОРМРАСП(x; среднее;стандартное_откл;интегральная),
которая возвращает нормальную функцию распределения, где
x — значение, для которого строится распределение.
Среднее — среднее арифметическое распределения.
Стандартное_откл — стандартное отклонение распределения.
Интегральная — логическое значение, определяющее форму функции. Если
аргумент «интегральная» имеет значение ИСТИНА, функция НОРМРАСП
возвращает интегральную функцию распределения; если этот аргумент имеет
значение ЛОЖЬ, возвращается функция плотности распределения
В нашем примере для ячейки H5 функция имеет вид
=НОРМРАСП(B5;$A$15;$A$16;ИСТИНА) и т.д.
7) При вычислении теоретических частот нормального распределения
учитываем, что левый конец первого интервала принимается равным –∞, а
правый конец последнего интервала ∞. Причем, по свойству функции
распределения F ()  0 , F ()  1 . Поэтому в ячейку G5 вводим значение 0,
а в ячейку H12 – значение 1. Вероятность попадания случайной величины X в
интервал ( xi ; xi 1 ) (столбец I) находим по формуле
pi  P( xi  X  xi 1 )  F ( xi1 )  F ( xi ) , а далее теоретические частоты n'i  npi .
Результаты вычислений представлены на рисунке.

145
146
Проверку гипотезы о согласовании теоретических и эмпирических частот
можно продолжить двумя способами:
1-й способ.
8) Для сравнения эмпирических частот с теоретическими частотами
заполнены столбики K, L, M, по формулам, указанным в заголовках
соответствующих столбцов. В итоговой строке, в ячейке M13 вычислено
наблюдаемое значение хи-квадрат:  кр2   набл
2
.

9) Для вычисления критического значения используем встроенную


статистическую функцию =ХИ2ОБР(α;k), где α – уровень значимости, k –
число степеней свободы. В нашем примере α=0,05, k=5, следовательно,
 кр2 (0,05;5)  11,0705 . Так как  кр2   набл
2
, то гипотеза о нормальном

распределении генеральной совокупности отвергается.


2-й способ.
В MS Excel критерий хи-квадрат реализован в функции ХИ2ТЕСТ. Функция
ХИ2ТЕСТ вычисляет вероятность совпадения наблюдаемых (фактических)
значений и теоретических (гипотетических) значений. Если вычисленная
вероятность ниже уровня значимости (0,05), то нулевая гипотеза отвергается
и утверждается, что наблюдаемые значения не соответствуют нормальному
распределению. Если вычисленная вероятность близка к единице, то можно
говорить о высокой степени соответствия экспериментальных данных
нормальному закону распределения. Функция имеет следующие параметры
=ХИ2ТЕСТ(фактический_интервал; ожидаемый_интервал)
Фактический_интервал — интервал данных, который содержит
результаты наблюдений, подлежащих сравнению с ожидаемыми значениями.
Ожидаемый_интервал — интервал данных, который содержит
теоретические (ожидаемые) значения для соответствующих наблюдаемых.
Результат применения функции =ХИ2ТЕСТ(D5:D12;J5:J12) отражен в ячейке
О5 и численно равен 0,04536702. Так как данное значение меньше уровня

147
значимости 0,05, то гипотеза о нормальном распределении генеральной
совокупности отвергается.
Пример 24. В итоге испытаний 1000 элементов на время безотказной
работы получено эмпирическое распределение, приведенное в таблице (в
первой строке указаны интервалы времени в часах; во второй – частота ni ,
т.е. количество отказавших элементов в i-м интервале).
xi  xi 1 0-10 10-20 20-30 30-40 40-50 50-60 60-70
ni 365 245 150 100 70 45 25
Требуется при уровне значимости 0,01 проверить гипотезу о том, что время
безотказной работы элементов распределено по показательному закону.
Решение.
Правило. Для того чтобы при данном уровне значимости проверить гипотезу
о том, что случайная величина распределена по показательному закону, надо:
1) Найти по заданному распределению выборочную среднюю x в .
2) Принять в качестве оценки параметра λ показательного распределения
1
величину, обратную выборочной средней:   .

3) Найти вероятность попадания случайной величины X в интервал
( xi ; xi 1 ) по формуле pi  P( xi  X  xi1 )  F ( xi1 )  F ( xi )  e xi  e xi 1 .

4) Вычислить теоретические частоты n'i  npi .


5) Сравнить эмпирические и теоретические частоты с помощью критерия
Пирсона.
Решаем данную задачу согласно правилу. В массив B5:D11 вводим
исходные данные: начало, конец интервалов и эмпирические частоты.
Середины интервалов вычисляем с помощью встроенной функции
=СРЗНАЧ(число1; число2,…).
Результаты вычислений приведены на рисунке:

148
Поясним вычисления, представленные на рисунке:
1. Выборочную среднюю находим в два этапа. Первоначально в ячейке
D14 используем функцию
=СУММПРОИЗВ(массив1; массив2; …),
а далее (ячейка С5) полученное значение разделим на объем выборки (ячейка
D12).
1
2. Параметр λ вычисляем по формуле   (ячейка D16).

3. Значения функции распределения вычисляем с помощью встроенной
функции
=ЭКСПРАСП(x; λ; интегральная),
которая вводится в ячейки F5: F11 и G5:G10. Например, для ячейки F5
обращение к функции имеет вид:
=ЭКСПРАСП(B5;$D$16;ИСТИНА) и т.д.
Учитывая, что показательное распределение неограниченно справа, конец
последнего интервала полагаем равным ∞. И, согласно свойства функции
распределения, вводим в ячейку G11 значение равное 1.
4. Вычисляем теоретические частоты n'i  npi .
149
5. Для проверки гипотезы используем встроенную функцию
=ХИ2ТЕСТ(фактический_интервал; ожидаемый_интервал). Результат
вычисления данной функции занесен в ячейку В18 (см. рисунок). Так как
данное значение (0,000163345) меньше уровня значимости, то нулевая
гипотеза отвергается, следовательно, время безотказной работы элементов не
подчиняется показательному закону распределения.

150
ПРИЛОЖЕНИЯ
Приложение 1
Значения функции Гаусса  x   1 e  x
2
2

2

151
Приложение 2
x
Значения интеграла Лапласа x  
1
e
t 2 2
dt
2 0

152
Приложение 3
Таблица значений t  t  , n

Приложение 4
Таблица значений q  q , n

153
Приложение 5
Критические точки распределения Стьюдента

154
Приложение 6
Критические точки распределения  2

155
Приложение 7
Критические точки распределения Фишера-Снедекора

156
продолжение Приложения 7

157
окончание Приложения 7

158
Приложение 8
Проверка гипотез для одной выборки

Предполо- Статистика
H0 H1 Область принятия H0
жения критерия
1
a  a0 U набл  uкр , Φ(uкр )  

2 U набл 
x  a  0 n
2
1
a  a0  a  a0 U набл  uкр , Φ(uкр )   
известно 2
1
a  a0 U набл  uкр , Φ(uкр ) 
2
Tнабл  t кр α,n-1 для
a  a0
односторонней области

a  a0  2 не Tнабл 
x  a 
0 n a  a0
Tнабл  t кр α,n-1 для
известно s односторонней области
Tнабл  t кр α,n-1 для
a  a0
двусторонней области
 
2 2
0  набл
2
  2  ; n  1
 2   02 а не (n-1 )S 2  2   02  набл
2
  2 1   ; n  1
 2

известно набл
σ 02     
 2 1  2
; k    набл   2 ;k 
 
2 2
0  2  2 
k  n 1
1
p  p0 U набл  uкр , Φ(uкр )  
n порядка 2
нескольких (w  p0 ) n 1
p  p0
десятков,
U набл  p  p0 U набл  uкр , Φ(uкр )   
p0( 1 p0 ) 2
(или сот),
1
p  p0 U набл  uкр , Φ(uкр ) 
2

159
Приложение 9
Проверка гипотез для двух выборок

Предполо
Статистика Область
H0 - H1
критерия принятия H0
жения
Z набл  z кр ,
M ( X )  M (Y ) 1
Φ(zкр )  
2
x y Z набл   z кр ,
M ( X )  M (Y )  x2и 2 Z набл 
y
D( X ) D(Y ) M ( X )  M (Y ) 1
известны  Φ(zкр )  
n m 2
Z набл  z кр ,
M ( X )  M (Y ) 1
Φ(zкр ) 
2
Tнабл  t кр α,n  m-2
M ( X )  M (Y ) для односторонней
области
M ( X )  M (Y )
 x2 и  y2 x  y  nm(n  m  2)
nm
Tнабл  t кр α,n  m  2
не Tнабл  M ( X )  M (Y ) для односторонней
известны, n  1sx2  m  1s 2y области
но равны
Tнабл  t кр α,n  m  2
M ( X )  M (Y ) для двусторонней
области
Fнабл  Fкр ( , k1 , k 2 )
k1 – число степеней
D X   DY  свободы большей
исправленной
M (X ) , дисперсии
sб2 
D X   DY  M (Y ) не Fнабл  Fнабл  Fкр ( , k1 , k 2 )
известны s 2м 2

D X   DY  k1 – число степеней


свободы большей
исправленной
дисперсии

160
ЛИТЕРАТУРА

1. Гмурман В.Е. Руководство к решению задач по теории вероятностей и


математической статистике: Учебное пособие. – 12-е изд., перераб. –
М.: Высшее образование, 2006. – 476 с.
2. Гмурман В.Е. Теория вероятностей и математическая статистика:
Учебное пособие. – 12-е изд., перераб. – М.: Высшее образование, 2006.
– 479 с.
3. Зайцев Е.П. Теория вероятностей и математическая статистика:
Учебно-методическое пособие. – 2-е изд. стереотип. – Кременчуг: Изд-
во Кременчуг, 2008. – 484 с.
4. Кремер Н.Ш. Теория вероятностей и математическая статистика:
учебник для студентов вузов, обучающихся по экономическим
специальностям / Н.Ш. Кремер. – 3-е изд., перераб. и доп. – М:
ЮНИТИ-ДАНА, 2010 . – 551с.
5. Д. И. Письменный. «Конспект лекций по теории вероятностей,
математической статистике и случайным процессам». – М.: Айрис
Пресс, 2008. – 287 с.
6. Макарова Н.В., Трофимец В.Я. Статистика в Excel: Учеб. пособие. –
М.: Финансы и статистика, 2002. – 368 с.
7. Бочаров П.П., Печенкин А.В.. Теория вероятностей и математическая
статистика. – 2-е изд. – М.: ФИЗМАТЛИТ, 2005.
8. Кобзарь А.И. Прикладная математическая статистика. Для инженеров и
научных работников. – М.: ФИЗМАТЛИТ, 2006.
9. Математическая статистика. Учеб. для вузов / В.Б. Горяинов и др.; Под.
ред. В.С. Зарубина, А.П. Крищенко. – М.: Изд-во МГТУ им.
И.Э. Баумана, 2001.
10.Фадеева Л.Н., Жуков Ю.В., Лебедев А.В. Математика для экономистов:
Теория вероятностей и математическая статистика. Задачи и
упражнения. – М.: Эксмо, 2006. – 336с.
161
11. Решение математических задач средствами Excel: Практикум /
В.Я. Гельман. – СПб.: Питер, 2003. – 240 с.
12.Калинина В.Н. Теория вероятностей и математическая статистика.
Компьютерно-ориентированный курс: учеб. пособие для вузов /
В.Н. Калинина. – М.: Дрофа, 2008. – 471 с.

162

Вам также может понравиться