Вы находитесь на странице: 1из 137

Математическая статистика.

Начало

Есть правда, есть большая правда, а есть статистика на mathprofi.ru!

На протяжении многих лет я всё думал, когда же доберусь до этой темы, и вот,
наконец-то свершилось! …как и во многих делах, самое трудное – первый шаг,
но я таки открыл вёрдовский файл (решался и обдумывал 2 недели) и с
радостью и даже какой-то торжественностью написал первый абзац.
И сразу второй. Что нужно для изучения математической
статистики? Ничего особенного. Нужно уметь складывать, умножать, делить,
извлекать корни и ещё много чего выполнять другие бесхитростные действия.
Да, вот так просто. Настоящий курс предназначен для начинающих
статистиков, и на предстоящих уроках научимся решать типовые задачи,
которые реально встречаются в ваших студенческих работах.
Из инструментальных средств потребуется Эксель (не умеете – научим!),
проверьте, есть ли он у вас, и калькулятор, лучше оффлайн калькулятор с
кнопочками, ибо на зачёте или экзамене гаджетами, как правило, пользоваться
нельзя.
Из литературы рекомендую те же две книги: задачник и учебное пособие В.Е.
Гмурмана под названием Теория вероятностей и математическая
статистика.
Математическая статистика следует «вторым эшелоном» за теорией
вероятностей, и это не случайность, а логическое продолжение. Отличие
состоит в том, что тервер даёт теоретическую оценку случайным событиям, а
статистика работает с практическими, или как
говорят, эмпирическими данными, которые берутся непосредственно «из
жизни». Поэтому для изучения темы желательно (но не критично обязательно)
знать азы теории вероятности, в частности, случайные величины – многие
понятия и формулы будут очень и очень схожи.
Что такое математическая статистика? Её часто называют то наукой, то
разделом математики. И это правда :) Математическая статистика, буду краток,
изучает методы сбора и обработки статистической информации для
получения научных и практических выводов. Статистическая – это та, которую
можно выразить числами. Эта информация появляется в результате
исследования массовых (обычно) явлений, которые носят случайный характер.
Причём, информация может носить как количественный характер (например,
размеры чего-либо), так и качественную природу – «оцифровать» можно, да
хоть пятьдесят оттенков серого.
Немедленный пример. Что главное орудие физика? Секундомер:
Пример 1
Студент Константин выполняет лабораторную работу по определению
коэффициента вязкости жидкости методом Стокса.
…тихо-тихо, тут будет всего несколько чисел :) 
Экспериментальная часть этой работы состоит в том, что в высокий
цилиндрический сосуд с жидкостью сбрасывается достаточно маленький и
тяжёлый шарик, после чего замеряется время его погружения.
Время погружения шарика зависит от множества случайных факторов: прямоты
рук экспериментатора, погрешности измерения времени, хаотичного движения
молекул жидкости и т.д., вплоть до влияния Луны. Поэтому эксперимент 
целесообразно провести 5-10 раз (как оно обычно и требуется).
Предположим, что в результате 5 опытов получены следующие результаты (в
секундах):

Что произошло? Студент Костя собрал первичные (ещё на


обработанные) статистические данные. Они эмпирические (взяты
непосредственно из опыта), носят случайный характер (см. выше). И массовый.
Ну а как нет? Все однокурсники только и занимаются тем, что бросают в сосуды
шарики, да и мало ли на планете похожих шариков, которые тонут в похожей
жидкости.
Ну а мы потихоньку погружаемся в терминологию:
- полученные экспериментальные значения называются вариантами, а их
совокупность – вариационным рядом. Почему так? Потому что полученные
значения варьируются под воздействием случайных факторов.
Справка: вариАнта (существительное женского рода) – в статистике
означает отдельно взятое эмпирическое значение.
Далее. Далее Константин должен обработать полученные данные. Во-первых,
посмотреть, а нет ли среди полученных значений варианты, которая сильно
отличается от всех остальных? Наличие такого значения сигнализирует о том,
что соответствующий опыт проведён неудачно и его следует исключить из
рассмотрения.
Нет, все значения достаточно близкИ друг к другу, и теперь напрашивается
вычислить  среднюю величину – разделить сумму значений на их   
количество:

 секунды.
Это значение называют простой средней или, как многие знают, средним
арифметическим. Его стандартно обозначают с чёрточкой наверху.

Справка на всякий случай: математический значок  означает


суммирование, а переменная   играет роль «счётчика»; в данном случае   
изменяется от 1 до 5.
Если грызут сомнения на счёт точности, то лучше не полениться и провести 10
опытов, что, кстати, удобнее в плане вычислений (на 10 делить проще). И,
разумеется, полученный результат будет надёжнее, чем в 1-м случае.
Всё. Статические данные обработаны, осталось сделать выводы. А именно, с
помощью значения   вычислить коэффициент вязкости жидкости и ещё там
вроде что-то, желающие могут найти эту лабу в Сети.
…возможно, у вас возник вопрос, почему я выбрал такой пример? Это
единственное, что мне запомнилось из институтского курса физики :)
Пример 2
Студенческая группа сдала коллоквиум по матанализу со следующими
результатами:

Требуется определить среднюю успеваемость группы


Сбором статистических данных здесь занимался преподаватель, и обратите
внимание на их характер: они эмпирические, массовые (громко, конечно,
сказано, но таки массовые) и отчасти случайные. Кому-то повезло с вопросом,
кому-то нет, кто-то что-то вспомнил / забыл, списал, прогулял и так далее…,
прямо какое-то броуновское движение студентов))

Как нетрудно понять, роль вариант   здесь играют полученные оценки, а   


 – это соответствующие частоты – количество студентов, которые получили
ту или иную оценку. Подсчитаем общую численность группы:

 человек и, привыкаем к терминам,


исследуемое множество называют статистической совокупностью, а
количество его элементов – объёмом совокупности.
Теперь обратим внимание на следующую вещь: двоечников и отличников у нас
мало, а нормальных студентов :) много. И возникает вопрос: как вычислить
«справедливую» среднюю оценку по всей совокупности? Решение
напрашивается – с помощью так называемой средневзвешенной средней:

 – средняя успеваемость по группе. И я обязательно


приму соответствующие меры!
…да, суровые у меня сегодня примеры :) Давайте проанализируем
их принципиальные отличия:
1) В первом примере проводится статическое
исследование количественной величины (времени), а во втором
«оцифровывается» и анализируется качественный признак (успеваемость).
2) В первом случае исследуемая величина непрерывна, и, строго говоря, все
полученные значения различны (отличаются хоть какими-то миллисекундами).
Во втором случае варианты дискретны, т.е. представляют собой отдельно
взятые изолированные значения. Следует заметить, что они не обязаны быть
целыми, так, например, можно ввести в рассмотрение оценки 2,5; 3,5 и 4,5. И у
дискретной величины, как правило, есть неоднократно встречающиеся
(одинаковые) варианты, так, например, «пятёрка» встретилась 3 раза.
3) В первом примере речь идёт о выборке значений. Что это значит? Это
значит, что шарик можно сбрасывать в воду гораздо бОльшее и теоретически
вообще бесконечное количество раз. Таким образом, проведённые 5 опытов
есть, по сути, выборка, которую называют выборочной совокупностью. При
этом соответствующее среднее значение принято называть выборочной
средней.
Второй пример отличен тем, что в нём исследуется ВСЯ совокупность, и
поэтому её называют генеральной совокупностью, а соответствующее
среднее значение – генеральной средней. Но такая ситуация редкость. Редко
когда удаётся исследовать всю совокупность.
И сейчас мы подошли к основному методу математической статистики:
Задача
Федор пошёл на базу исследовать помидоры. Требуется определить среднюю
массу помидора и среднюю долю первосортных помидоров.
Разбираемся в ситуации. Очевидно, что на базе находится очень и очень много
помидоров, обозначим их общее количество через  . Это генеральная
совокупность. Для того чтобы решить задачу, можно взвесить каждый
овощ:   (в граммах, например) и вычислить генеральную среднюю:

 – среднюю массу помидора.


Но это долго и трудно, даже если Феде будут помогать все его однокурсники.
Поэтому для оценки параметров генеральной совокупности целесообразно
использовать выборочный метод. Его суть состоит в том, что из генеральной
совокупности достаточно выбрать   объектов, которые хорошо характеризуют
всю совокупность. Это «хорошо» называют представительностью или, как
говорят, репрезентативностью выборки. Проговорим это модное слово
вслух: ре-пре-зен-та-тив-ность.
Что нужно для того, чтобы обеспечить репрезентативность?
Ну, во-первых, выборка должна быть достаточно велика, помидоров так 500-
1000 точно, что уже вполне по силам даже одному Феде.
Примечание: в дальнейшем мы сформулируем более строгие
статистические критерии на счёт оптимального размера выборки.
Во-вторых, отбор следует осуществлять равномерно – из каждого ящика.
В-третьих, отбор должен быть случайным. Для этого используются разные
приёмы, и самый простой здесь – это выбор «вслепую» из случайно
выбранного места ящика, обязательно с разной глубины (а то мало ли, что
поставщик там мог спрятать).
И, в-четвёртых (а может быть, и, в-первых), есть и другие факторы, которые
могут быть менее очевидны. В частности, важно знать, а однородна ли
генеральная совокупность? Так, если помидоры поступили от разных
поставщиков, то каждую партию полезно исследовать по отдельности (сделать
несколько выборок).
Итак, пусть Фёдор по всем правилам выбрал   помидоров, и теперь дело за
малым – взвесить каждый овощ:   (граммы) и
вычислить выборочную среднюю:

 – среднюю массу помидора в выборке.


При этом очевидно, что чем больше объем   выборочной совокупности,
тем  полученное значение будет точнее приближать генеральную среднюю  .
Но фишка состоит в том, что если начать увеличивать выборку в два, три и
бОльшее количество раз, то будут получаться выборочные средние, которые
мало отличаются от уже рассчитанного значения  . Вы спрОсите, как это
установлено? Эмпирически. В результате огромного количества реально
проведённых исследований.
Таким образом, нет никакого практического смысла тратить силы, время,
деньги, нервы на исследование бОльшей выборки и тем более, всей
генеральной совокупности.
Вот оно как – в статистике есть и прямая экономическая выгода!
И ещё один момент, чуть не забыл: обратите внимание на используемые
буквы – они стандартны. Другие варианты встречаются реже.
Вторая часть задачи. Определим вместе с Фёдором среднюю долю
высококачественных помидоров на базе (ну мы же не садисты заставлять его
одного заново перебирать 1000 штук :)).
В отличие от первого этапа, здесь мы исследуем уже качественный признак,
для которого, тем не менее, можно сформулировать чёткие критерии. Пусть
первосортный помидор – это чёрный, лысый красный, спелый, без видимых
дефектов, массой выше среднего.
Совершенно понятно, что генеральная совокупность содержит   таких
помидоров, и существует точное значение:

 – генеральная доля первосортных помидоров.


Но по причине трудозатратности и нецелесообразности полного исследования,
достаточно подсчитать количество   таких овощей в выборке и вычислить:

 – выборочную долю, которая будет весьма близка к истинному


значению  . Но это только, напомню, при условии грамотно организованной и
проведённой выборки.
Доля, как вы догадываетесь, может принимать значение от 0 до 1, и иногда её
домножают на 100, чтобы выразить этот показатель в процентах.
Готово.
Константин, Фёдор, спасибо за участие, а остальные, как в том анекдоте,
поедут на картошку :) Тем более, сейчас на дворе конец сентября, а осень, как
сказал прозаик, это клубни.
В качестве разминки предлагаю вам задачу с тремя пунктами различного
уровня сложности. Проверьте наличие инструментов под рукой и свои навыки
вычислений (Эксель вечной живой по-прежнему тут):
Пример 3
а) Урожайность картофеля по трём областям за **** год составила 147, 145, 155
ц/га (центнеров с га). Требуется вычислить среднюю урожайность.
Метрическая справка: 1 центнер =  100 кг, 1 тонна = 1000 кг;
1 гектар (га) = 10000 квадратных метров;
показатель ц/га обозначает, сколько центнеров собрано с 1 гектара.
Не забываем приписывать к итоговому результату размерность! (секунды,
граммы и т.д., а в данном случае – ц/га).
Вариация чуть сложнее:
б) Известны следующие данные по трём областям:

…это нарисовали чиновники для отчёта – привыкайте к настоящей


статистике!:)))
Требуется вычислить среднюю урожайность.
Обратите внимание, что здесь урожайность, скажем, по 3-й области велика, но
её посевная площадь мала. Поэтому урожайность уместно «взвесить» по
площадям.
и третий пункт, творческий:
в) вычислить среднюю урожайность по следующим данным:

«Валовой» – это значит, всего собрано по области.


ДУМАЕМ, ВНИКАЕМ и РАССУЖДАЕМ – принцип здесь точно такой же, как и
при решении задач по теории вероятностей. И, главное, не паримся – это
просто разминочные задачи!
Решения с пояснениями и ответы совсем близко.
И в заключение вводного урока систематизируем самое важное:
Математическая статистика – это наука, изучающая методы сбора и
обработки статистической информации для получения научных и практических
выводов.
Основным методом матстатистики является выборочный метод, его суть
состоит в исследовании представительной выборочной совокупности – для
достоверной характеристики совокупности генеральной. Данный метод
экономит временнЫе, трудовые и материальные затраты, поскольку
исследование всей совокупности зачастую затруднено или невозможно.
Для решения задач по математической статистике требуется калькулятор,
Эксель и голова. …Нет-нет-нет, голова, разумеется, ещё много где нужна :)
И я желаю вам успехов в дальнейшем освоении курса!
Вперёд без страха и сомнений:
2. Дискретный вариационный ряд
3. Интервальный вариационный ряд
4. Мода, медиана, генеральная и выборочная средняя
5. Показатели вариации. Генеральная и выборочная дисперсия
6. Формула дисперсии, стандартное отклонение, коэффициент вариации
7. Асимметрия и эксцесс эмпирического распределения
8. Статистические оценки параметров генеральной совокупности
9. Оценка вероятности биномиального распределения
10. Оценки по повторной и бесповторной выборке
Как ваша форма? Продолжаем!
11. Статистические гипотезы
12. Проверка статистических гипотез
13. Гипотеза о законе распределения генеральной совокупности

и продолжение следует!
Решения и ответы:
Пример 3:
а) Используем простую среднюю:

 ц/га – в среднем по трём областям.


б) Используем средневзвешенную (по площади) среднюю:

 ц/га в среднем по трём областям.


в) Здесь урожайность тоже следует переоценить через посевную площадь,
используя формулу Посевная площадь = Валовой сбор / Урожайность:

 ц/га в
среднем по трём областям. Такой вид средней иногда называют средней
гармонической.
И здесь часто задают вопрос по размерности, комментирую: за
размерностью можно проследить в бравом физико-математическом стиле.
В числителе у нас расположены сотни тонн (миллионы кг). В знаменателе
миллионы кг делим на центнеры с га, избавляемся от трёхэтажности и
сокращаем дробь на 100 кг:

 (общая посевная
площадь)
И, наконец, размерность всей дроби:

 или центнеры с га.

2. Дискретный вариационный ряд.


Полигон частот и эмпирическая функция распределения

На вводном уроке по математической статистике мы узнали, что такое


математическая статистика, и теперь обо всём подробнее. Далее для удобства
я буду нумеровать статьи и постараюсь делать их не слишком длинными.
Потому что всё действительно просто, и главное, здесь научиться
рациональной технике вычислений, на которую и будет сделан особый упор.
Интервальные и дискретные вариационные ряды почти сразу же встретились
в предыдущей статье, и мы начинаем с дискретного случая, когда
количественная эмпирическая величина   может принимать лишь отдельные
изолированные значения.
…что-то не понятно по терминам? Срочно изучать первый урок! (ссылка выше)
Дискретный вариационный ряд – это упорядоченное по возрастанию (как
правило) множество вариант   (значений величины  )и
соответствующих им частот либо относительных частот.

Частоты выборочной совокупности обозначают через  ,


частоты генеральной совокупности – через  . И сразу
разбираемся с новым термином. Относительные частоты рассчитываются
по формулам:

, где   – объем выборки,
при этом, сумма всех относительных частот:  .
Аналогично для совокупности генеральной:

, где   – её объем, и,
очевидно: 
И тут вспоминается Пример 2 об оценках по матанализу в группе из   
студентов:

– пожалуйста, пример дискретного вариационного ряда, где варианты   – это


оценки, а частоты   – количество студентов, получивших ту или иную
оценку.
Для разминки найдём относительные частоты:

и непременно проконтролируем, что:  .


Все вычисления обычно проводят на калькуляторе либо в Экселе, а результаты
заносят в таблицу, при этом, в статистике данные чаще располагают не в
строках, а в столбцах:

Такое расположение обусловлено тем, что количество вариант может быть


достаточно велико, и они просто не вместятся в строчку. Не редкость, когда их
10-20, а бывает, и 100-200, что тоже и неоднократно встречалось в моей
практике. И это не какие-то супер-пупер расчёты, а учебные задачи!
После сей позитивной новости продолжаем :)
Откуда берутся дискретные вариационные ряды? Такие ряды появляются в
результате учёта дискретной характеристики статистической совокупности,
причём, варианты ряда не отличаются большим разнообразием. Например,
оценки (коих не так много) в примере выше.
И сейчас мы примем непосредственное участие в этом процессе:
Пример 4
По результатам выборочного исследования рабочих цеха были установлены
их квалификационные разряды: 4, 5, 6, 4, 4, 2, 3, 5, 4, 4, 5, 2, 3, 3, 4, 5, 5, 2, 3, 6,
5, 4, 6, 4, 3. Требуется:
– составить вариационный ряд и построить полигон частот;
– найти относительные частоты и построить эмпирическую функцию
распределения.
Чего томиться? – вся тема урока в одной задаче!
Решение: в условии прямо сказано о том, что перед нами выборка из
генеральной совокупности (всех рабочих цеха), и первое, что логично сделать –
подсчитать её объем, т.е. количество рабочих. В данном случае это легко
сделать устно:  .
Квалификационные разряды – есть величина дискретная, и поэтому нам
предстоит составить дискретный вариационный ряд (обратите внимание, что
в условии ничего не сказано о характере ряда).
Как это сделать?
Если у вас под рукой нет вычислительных программ, то вручную (Эксель
разберём ниже). При этом оптимальным может быть следующий алгоритм:
сначала окидываем взглядом все числа и определяем среди них минимальное
(примерно) и максимальное (примерно). В данном случае ориентировочный
диапазон – от 1 до 7. Записываем их в столбец на черновике и обводим в
кружочки. Далее начинаем вычёркивать карандашом числа из исходного
списка:

и делать около соответствующих кружков засечки:

После того, как все числа будут вычеркнуты, подсчитываем количество засечек
в каждой строке:

И обязательно проверяем, получается ли у нас в сумме объём выборки  :


, отлично, искомый ряд составлен, заносим полученные
значения в таблицу на чистовик:
…ну что же, вполне и вполне логично – рабочих средней квалификации много,
а учеников и мастеров – мало. Полученные результаты позволяют достаточно
точно судить об уровне квалификации всего цеха (если, конечно,
выборка представительна)
Построенный вариационный ряд также называют статистическим
распределением выборки, причём, этот термин применИм не только для
дискретного, но и для интервального ряда, который мы рассмотрим на
следующем уроке.
Построим полигон частот. Это статистический аналог многоугольника
распределения дискретной случайной величины (кто изучал). Полигон
частот – это ломаная, соединяющая соседние точки  :

…эх, ностальгия. Но, пятилетку-другую, думается, так решать ещё будут.


Теперь современный способ:
Задание 1
Самостоятельно решить данную задачу в Экселе (прямо в открывшемся
файле).
Решаем! – исходные данные с пошаговой инструкцией прилагаются.
Вторая часть задачи. Найдём относительные частоты  , для этого каждую
частоту   делим на   и результат заносим в дополнительный столбец,
далее я перехожу к электронной версии:

– обязательно проверяем, что сумма относительных частот равна единице!


Иногда требуется построить полигон относительных частот. Как вы
правильно догадываетесь – это ломаная, соединяющая соседние точки  .
Но такое задание больше характерно для интервального вариационного
ряда.
А теперь посмотрим на относительные частоты и задумаемся, на что они
похожи? …Правильно, на вероятности. Так, например, можно сказать,
что   – есть примерная вероятность того, что наугад выбранный
рабочий цеха будет иметь 4 разряд. «Примерная» – по той причине, что перед
нами выборка.
А вот если учесть ВСЕХ рабочих цеха (всю генеральную совокупность), то
рассчитанные относительные частоты   – и есть в точности эти
вероятности.

Построим эмпирическую функцию распределения  . Это


статистический аналог функции распределения из тервера. Данная функция
определяется, как отношение:

, где   – количество вариант СТРОГО МЕНЬШИХ, чем  ,


при этом «икс» «пробегает» все значения от «минус» до «плюс» бесконечности.
И процесс пошёл:

Очевидно, что на интервале  , и, кроме того, функция равна


нулю ещё и в точке  . Почему? Потому, что значение   определяет
количество вариант, которые СТРОГО меньше двух, а это количество равно
нулю.

На промежутке   – и опять обратите внимание,


что значение   не учитывает рабочих 3-го разряда, т.к. речь идёт о
вариантах, которые СТРОГО меньше трёх.
На промежутке    и далее
процесс продолжается по принципу накопления частот:

– если  , то  ;

– если  , то  ;

– и, наконец, если  ,
то   – и в самом деле,
для ЛЮБОГО «икс» из интервала   ВСЕ частоты расположены СТРОГО
левее этого «икс».
Накопленные относительные частоты удобно записывать в отдельный столбец
таблицы, при этом алгоритм вычислений очень прост: сначала сносим слева 1-
е значение (красная стрелка), а каждое следующее получаем как сумму
предыдущего и относительной частоты из текущего левого столбца (зелёные
обозначения):

Вот, кстати, ещё один довод за вертикальную ориентацию данных – справа по


надобности можно приписывать дополнительные столбцы.
Саму функцию принято записывать в кусочном виде:
а её график представляет собой ступенчатую фигуру:

Эмпирическая функция распределения не убывает  и принимает значения из


промежутка  , и если у вас вдруг получится не так, то ищите ошибку.
И сейчас мы автоматизируем процесс; видео, к сожалению, не вписалось по
ширине, посему смотрим его на Ютубе:

  Как построить эмпирическую функцию распределения?

Эмпирическая функция распределения   строится по выборке и


приближает теоретическую функцию распределения  . Легко
догадаться, что последняя образуется на основании исследования всей
генеральной совокупности, но если рабочих в цехе ещё пересчитать можно, то
звёзды на небе – уже вряд ли. Вот поэтому и важнА именно эмпирическая
функция, и ещё важнее, чтобы выборка была репрезентативна, дабы
приближение было хорошим.
Миниатюрная задача для закрепления материала:
Пример 5
Дано статистическое распределение выборки

Составить эмпирическую функцию распределения, выполнить чертёж


Задание 2
Самостоятельно решить Пример 5 в Экселе, все числа и обозначения уже
там.
Свериться с образцом можно ниже. По поводу красоты чертежа сильно не
запаривайтесь, главное, чтобы было правильно – этого обычно достаточно для
зачёта.
И я жду вас на третьем уроке, где речь пойдёт об интервальном
вариационном ряде.
Решения и ответы:
Пример 5. Решение: заполним расчётную таблицу:

Составим эмпирическую функцию распределения:

Выполним чертёж:

3. Интервальный вариационный ряд.


Гистограмма относительных частот

На предыдущем уроке по математической статистике (Занятие 1) мы


разобрали дискретный вариационный ряд (Занятие 2), и сейчас на очереди
интервальный. Его понятие, графическое представление (гистограмма и
эмпирическая функция распределения), а также рациональные методы
вычислений, как ручные, так и программные. В том числе будут рассмотрены
задачи с достаточно большим количеством (100-200) вариант – что делать в
таких случаях, как обработать большой массив данных. 
Предпосылкой построения интервального вариационного ряда (ИВР)
является тот факт, что исследуемая величина принимает слишком много
различных значений. Зачастую ИВР появляется в результате
измерения непрерывной характеристики изучаемых объектов. Типично – это
время, масса, размеры и другие физические характеристики. Подходящие
примеры встретились в первой же статье по матстату, вспоминаем
Константина, который замерял время на лабораторной работе и Фёдора,
который взвешивал помидоры.
Для изучения интервального вариационного ряда затруднительно либо
невозможно применить тот же подход, что и для дискретного ряда. Это
связано с тем, что ВСЕ варианты многих ИВР различны. И даже если
встречаются совпадающие значения, например, 50 грамм и 50 грамм, то
связано это с округлением, ибо полученные значения всё равно отличаются
хоть какими-то микрограммами.
Поэтому для исследования ИВР используется другой подход, а именно,
определяется интервал, в пределах которого варьируются значения, затем
данный интервал делится на частичные интервалы, и по каждому
интервалу подсчитываются частоты – количество вариант, которые в него
попали.
Разберём всю кухню на конкретной задаче, и чтобы как-то разнообразить
физику, я приведу пример с экономическим содержанием, кои десятками
предлагают студентам экономических отделений. Деньги, строго говоря,
дискретны, но если надо, непрерывны :), и по причине слишком большого
разброса цен, для них целесообразно строить интервальный ряд:
Пример 6
По результатам исследования цены некоторого товара в различных торговых
точках города, получены следующие данные (в некоторых денежных единицах):

Требуется составить вариационный ряд распределения, построить гистограмму


и полигон относительных частот + бонус – эмпирическую функцию
распределения.
Такое обывательское исследование проводит каждый из нас, начиная с
анализа цены на пакет молока вот это дожил в нескольких магазинах, и
заканчивая ценами на недвижимость по гораздо бОльшей выборке. Что
называется, не какие-то там унылые сантиметры.
Поэтому представьте свой любимый товар / услугу и
наслаждайтесь решением:)

Очевидно, что перед нами выборочная совокупность объемом   


наблюдений (таблица 10*3), и вопрос номер один: какой ряд составлять
– дискретный или интервальный? Смотрим на таблицу: среди предложенных
цен есть одинаковые, но их разброс довольно велик, и поэтому здесь
целесообразно провести интервальное разбиение. К тому же цены могут быть
округлёнными.
Начнём с экстремальной ситуации, когда у вас под рукой нет Экселя или
другого подходящего программного обеспечения. Только ручка, карандаш,
тетрадь и калькулятор.
Тактика действий похожа на исследование дискретного вариационного ряда.
Сначала окидываем взглядом предложенные числа и определяем примерный
интервал, в который вписываются эти значения. «Навскидку» все значения
заключены в пределах от 5 до 11. Далее делим этот интервал на удобные
подынтервалы, в данном случае напрашиваются промежутки единичной длины.
Записываем их на черновик:

Теперь начинаем вычёркивать числа из исходного списка и записывать их в


соответствующие колонки нашей импровизированной таблицы:

После этого находим самое маленькое число в левой колонке и самое большое
значение – в правой. Тут даже ничего искать не пришлось, честное слово, не
нарочно получилось:)
  ден. ед. – хорошим тоном считается указывать
размерность.
Вычислим размах вариации:
 ден. ед. – длина общего интервала, в пределах
которого варьируется цена.
Теперь его нужно разбить на частичные интервалы. Сколько интервалов
рассмотреть? По умолчанию на этот счёт существует формула Стерджеса: 
, где   – десятичный логарифм* от объёма выборки и   –
оптимальное количество интервалов, при этом результат округляют до
ближайшего левого целого значения.
* есть на любом более или менее приличном калькуляторе
В нашем случае получаем:
 интервалов.
Следует отметить, что правило Стерджеса носит рекомендательный, но не
обязательный характер. Нередко в условии задачи прямо сказано, на какое
количество интервалов нужно проводить разбиение (на 4, 5, 6, 10 и т.д.), и
тогда следует придерживаться именно этого указания.
Длины частичных интервалов могут быть различны, но в большинстве
случаев использует равноинтервальную группировку:

 – длина частичного интервала. В принципе, здесь


можно было не округлять и использовать длину 0,96, но удобнее, ясен день, 1.
И коль скоро мы прибавили 0,04, то по 5 частичным интервалам у нас
получается «перебор»:  . Посему от самой малой варианты   
отмеряем влево 0,1 влево (половину «перебора») и к значению 5,7 начинаем
прибавлять по  , получая тем самым частичные интервалы. При этом сразу

рассчитываем их середины   (например,  ) – они требуются


почти во всех тематических задачах:

– убеждаемся в том, что самая большая варианта   вписалась в


последний частичный интервал и отстоит от его правого конца на 0,1.
Далее подсчитываем частоты по каждому интервалу. Для этого в черновой
«таблице» обводим значения, попавшие в тот или иной интервал,
подсчитываем их количество и вычёркиваем:
Так, значения из 1-го интервала я обвёл овалами (7 штук) и вычеркнул,
значения из 2-го интервала – прямоугольниками (11 штук) и вычеркнул и так
далее.
Правило: если варианта попадает на «стык» интервалов, то её следует
относить в правый интервал. У нас такая варианта встретилась одна:   
– и её нужно причислить к интервалу  .
В результате получаем интервальный вариационный ряд, при этом

обязательно убеждаемся в том, что ничего не потеряно:  , и, кроме

того, рассчитываем относительные частоты   по каждому интервалу,


которые уместно округлить до двух знаков после запятой:

Дело за чертежами. Для ИВР чаще всего требуется построить гистограмму.


Гистограмма относительных частот – это фигура, состоящая из
прямоугольников, ширина которых равна длинам частичных интервалов, а
высота – соответствующим относительным частотам:
При этом вполне допустимо использовать нестандартную шкалу по оси
абсцисс, в данном случае я начал нумерацию с четырёх.
Площадь гистограммы равна единице, и это статистический аналог функции
плотности распределения непрерывной случайной величины. Построенный
чертёж даёт наглядное и весьма точное представление о распределении цен
на ботинки по всей генеральной совокупности. Но это при условии, что
выборка представительна.
Вместе с гистограммой нередко требуют построить полигон. Без
проблем, полигон относительных частот – это ломаная, соединяющая
соседние точки  , где   – середины интервалов:

Большим достоинством приведённого решения является тот факт, что многие


вычисления здесь устные, а если вы помните, как делить «столбиком», то
можно обойтись даже без калькулятора. Вот она где притаилась, смерть
Терминатора :) ;)
Автоматизируем решение в Экселе:
  Как составить ИВР и представить его графически? (Ютуб)
И бонус – эмпирическая функция распределения. Она определяется точно так
же, как в дискретном случае:

, где   – количество вариант СТРОГО МЕНЬШИХ, чем «икс»,


который «пробегает» все значения от «минус» до «плюс» бесконечности.
Но вот построить её для интервального ряда намного проще.
Находим накопленные относительные частоты:

И строим кусочно-ломаную линию, с промежуточными точками  ,


где   – правые концы интервалов, а   – относительная частота, которая
успела накопиться на всех «пройденных» интервалах:

При этом   если   и   если  .


Напоминаю, что данная функция не убывает, принимает значения из
промежутка   и, кроме того, для ИВР она ещё и непрерывна.
Эмпирическая функция распределения является аналогом функции
распределения НСВ и приближает теоретическую функцию  , которую
теоретически, а иногда и практически можно построить по всей генеральной
совокупности.
Помимо перечисленных графиков, вариационные ряды также можно
представить с помощью кумуляты и огивы частот либо относительных
частот, но в классическом учебном курсе эта дичь редкая, и поэтому о ней
буквально пару абзацев:
Кумулята – это ломаная, соединяющая точки:

* либо   – для дискретного вариационного ряда;


 либо   – для интервального вариационного ряда.

*   – накопленные «обычные» частоты

В последнем случае кумулята относительных частот   представляет


собой «главный кусок» недавно построенной эмпирической функции
распределения.
Огива – это обратная функция по отношению к кумуляте – здесь варианты
откладываются по оси ординат, а накопленные частоты либо относительные
частоты – по оси абсцисс.
С построением данных линий, думаю, проблем быть не должно, чего не
скажешь о другой проблеме. Хорошо, если в вашей задаче всего лишь 20-30-
50 вариант, но что делать, если их 100-200 и больше? В моей практике
встречались десятки таких задач, и ручной подсчёт здесь уже не торт. Считаю
нужным снять небольшое видео:

  Как быстро составить ИВР при большом объёме выборки? (Ютуб)


Ну, теперь вы монстры 8-го уровня :)
Но не всё так сурово. В большинстве задач вам предложат готовый
вариационный ряд, и на счёт молока, то, конечно, была шутка:
Пример 7
Выборочная проверка партии чая, поступившего в торговую сеть, дала
следующие результаты:

Требуется построить гистограмму и полигон относительных частот,


эмпирическую функцию распределения
Задание 3
Проверяем свои навыки работы в Экселе! (исходные числа и краткая
инструкция прилагается) И на всякий случай краткое решение для сверки в
конце урока.
Что ещё важного по теме? Время от времени встречаются ИВР с открытыми
крайними интервалами, например:

В таких случаях, что убийственно логично, интервалы «закрывают». Обычно


поступают так: сначала смотрим на средние интервалы и выясняем
длину частичного интервала:   км. И для дальнейшего решения можно
считать, что крайние интервалы имеют такую же длину: от 140 до 160 и от 200
до 220 км. Тоже логично. Но уже не убийственно:)
Ну вот, пожалуй, и вся практически важная информация по ИВР.
На очереди числовые характеристики вариационных рядов и начнём мы с их
центральных характеристик, а именно – Моды, медианы и средней.
До скорых встреч!
Решения и ответы:
Пример 7. Решение: заполним расчётную таблицу

Построим гистограмму и полигон относительных частот:


Построим эмпирическую функцию распределения:

4. Мода. Медиана. Генеральная и выборочная средняя

Мода на экране, медиана в треугольнике, а средние – это температура по


больнице и в палате. Продолжаем наш практический курс занимательной
статистики (Занятие 1) изучением центральных
характеристик статистической совокупности, названия которых вы видите в
заголовке. И начнём мы с его конца, поскольку о средних величинах речь зашла
практически с первых же абзацев темы. Для подготовленных
читателей оглавление:

 Генеральная и выборочная средняя – вычисление по первичным данным и для


сформированного дискретного вариационного ряда; 
 Мода – определение и нахождение для дискретного случая;
 Медиана – общее определение, как найти медиану;
 Средняя, мода и медиана интервального вариационного ряда – вычисление
по первичным данным и по готовому ряду. Формулы моды и медианы,
 Квартили, децили, перцентили – коротко о главном.

ну а «чайникам» лучше ознакомиться с материалом по порядку:

Итак, пусть исследуется некоторая генеральная совокупность объёма  ,а


именно её числовая характеристика  , не
важно, дискретная или непрерывная (Занятия 2, 3).
Генеральной средней называется среднее арифметическое всех значений
этой совокупности:

Если среди чисел   есть одинаковые (что характерно для дискретного


ряда), то формулу можно записать в более компактном виде:
, где
варианта   повторяется   раз;
варианта   –   раз;
варианта   –   раз;

варианта   –   раз.
Живой пример вычисления генеральной средней встретился в Примере 2, но
чтобы не занудничать, я даже не буду напоминать его содержание.
Далее. Как мы помним, обработка всей генеральной совокупности часто
затруднена либо невозможна, и поэтому из неё
организуют представительную выборку объема  , и на основании
исследования этой выборки делают вывод обо всей совокупности.
Выборочной средней называется среднее арифметическое всех значений
выборки:

и при наличии одинаковых вариант формула запишется компактнее:

 – как сумма произведений вариант   на


соответствующие частоты  .

Выборочная средняя   позволяет достаточно точно оценить истинное


значение  , чего вполне достаточно для многих исследований. При этом, чем
больше выборка, тем точнее будет эта оценка.
Практику начнём, а точнее продолжим, с дискретного вариационного ряда и
знакомого условия:
Пример 8

По результатам выборочного исследования   рабочих цеха были


установлены их квалификационные разряды: 4, 5, 6, 4, 4, 2, 3, 5, 4, 4, 5, 2, 3, 3,
4, 5, 5, 2, 3, 6, 5, 4, 6, 4, 3.
Это числа из Примера 4 (см. по ссылке выше), но теперь нам требуется:
вычислить выборочную среднюю, и, не отходя от станка, найти моду и медиану.
Как решать задачу? Если нам даны первичные данные (исходные
необработанные значения), то их можно тупо просуммировать и разделить
результат на объём выборки:

 – среднестатистический
квалификационный разряд рабочих цеха.
Но во многих задачах требуется составить вариационный ряд (см. Пример 4):

– или же этот ряд предложен изначально (что бывает чаще). И тогда, мы,
конечно, используем «цивилизованную» формулу:

Далее. Мода и медиана. Эти понятия тоже вводятся как для генеральной, так и
для выборочной совокупности, и определения я сформулирую в общем виде.

Мода. Мода   дискретного вариационного ряда – это варианта с


максимальной частотой. В данном случае  . Моду легко отыскать по
таблице, и ещё легче на полигоне частот – это абсцисса самой высокой точки:

Иногда таковых значений несколько (с одинаковой максимальной частотой), и


тогда модой считают каждое из них.
Если все или почти все варианты различны (что характерно
для интервального ряда), то модальное значение определяется несколько
другим способом, о котором во 2-й части урока.

Медиана. Медиана   вариационного ряда* – это значение, которая делит его


на две равные части (по количеству вариант).
* не важно, дискретного или интервального, генеральной совокупности
или выборочной.
Медиану можно отыскать несколькими способами.
Если даны первичные данные, то сортируем их по возрастанию либо убыванию
(см. Задание 1) и находим середину ранжированного ряда:  . Почему
именно 13-е число? Потому что перед ним находится 12 чисел и после него
тоже 12 чисел, таким образом, значение   разделило ряд на две равные
части, а значит, является медианой. Этот номер можно найти аналитически:
– если совокупность содержит нечётное количество чисел (наш случай), то

делим её объём пополам:   и округляем полученное значение в


бОльшую сторону: 13 – получая тем самым срединный номер.
– если совокупность содержит чётное количество чисел, например, 20, то

делаем то же самое:  , и медианное значение здесь рассчитывается как

среднее арифметическое 10-го и следующего числа:  .


Напоминаю, что изложенная инструкция работает для упорядоченного (по
возрастанию либо убыванию) ряда. Но есть и более быстрый путь, где ничего
не нужно сортировать. Это использование стандартной функции Экселя:
– забиваем в любую свободную ячейку =МЕДИАНА(, выделяем мышью все
числа, закрываем скобку ) и жмём Enter. Попробуйте самостоятельно. Этот
способ удобен, когда вам дано много значений.
Следует отметить, что в Экселе существуют и отдельные функции для
вычисления средней (=СРЗНАЧ), моды (=МОДА) и ещё много чего, но я против
использования этих функций в учебном курсе, за исключением случаев, где это
действительно целесообразно. …Почему против? Потому что они не помогают
понять суть показателей и, более того, отупляют. Так, среднюю гораздо
вразумительнее рассчитывать следующим образом:
=СУММ(выделяем мышью диапазон) / объем совокупности. Вычисления
рекомендую опробовать лично (ссылка выше).
Ситуация вторая. Когда составлен либо изначально дан готовый дискретный
ряд. Тут можно поступить «по любительски» – начать отсчитывать примерно
равное количество чисел по краям ряда:

после чего мысленно либо на черновике их отбрасывать, в данном случае


отбросим по 8 штук сверху и снизу:
откуда становится ясно, что медианное значение: 
Второй способ более академичен, находим относительные накопленные
частоты:

и то значение «икса», у которого   «переваливает» за отметку 0,5 (50%


упорядоченной совокупности). Для 3-го разряда успело накопиться   
(32% совокупности), а вот для 4-го – уже   (64%). Таким образом,
отметка в 50% пройдена именно здесь, и, стало быть,  .

Запишем красивый ответ: 
Полученные значения близки друг к другу, и это говорит о симметрии
вариационного ряда относительно центра, что хорошо видно по полигону
частот (см. чертёж выше). И с высокой вероятностью можно утверждать, что
примерно так же распределена и вся генеральная совокупность (все рабочие
цеха).
И тут возникает следующий закономерный вопрос: а зачем вообще
нужна мода с медианой? – ведь есть средняя.
А дело в том, что в ряде случаев среднее значение неудовлетворительно
характеризует центральную тенденцию статистической совокупности:
Пример 9
Известны результаты продаж пиджаков в универмаге города:

где,   – количество пуговиц на пиджаке,   – число продаж, буква «эф» –


это тоже достаточно популярная буква для обозначения частот, и она не
должна вас смущать при встрече.
…ну, а если вам не нравятся пиджаки, то представьте какие-нибудь шляпки с
цветочками :)
Также обратим внимание, что в условии задачи ничего не сказано о том,
генеральная ли это совокупность или выборочная, и в подобной ситуации я
не рекомендую ничего додумывать – среднюю просто обозначаем через  ,
без подстрочного индекса.
Задание 4
Вычислить среднюю – в экселевском файле уже забиты исходные данные и
приведена краткая инструкция. Если под пальцами нет Экселя, то считаем на
калькуляторе. Не ленимся! – заданий я предлагаю немного (у вас своих
хватает :)), но прорешать их очень важно! Краткое решение для сверки в
конце урока.
…какие мысли на счёт полученного значения  ? С такой статистикой магазин
разорится.

И, конечно, важнейший показатель здесь мода:  . Потому что такая


мода :) Более того, в прикладных исследованиях рассматривают несколько
модальных значений (вроде даже в Экселе функция есть), в частности, ещё
одной модой можно считать варианту  . Но это уже попсовая статистика,
которую я не буду развивать в этом курсе.
Ещё хуже (в содержательном плане) ситуация с медианой – продолжаем
решать задачу в Экселе (ссылка выше) либо в тетради! Особо зоркие
читатели медиану углядят и устно, и в конце урока я привёл способ, который
просто бросился мне в глаза.
Теперь надеваем пиджаки / шляпы и возвращаемся на фабрику, где бухгалтер
Петрова вычислила генеральную среднюю заработную плату
рабочих:   денежных единиц. Здесь мы плавно перешли к
интервальному ряду, который целесообразно составлять для «денежных»
показателей.
Что будет, если к совокупности добавить руководящий персонал и директора
Петрова? Средняя зарплата немного увеличится:  , и это уже будет
несколько искажённая картина.
А вот если сюда добавить олигарха Петровского, то
полученная средняя   не только дезинформирует, но и вызовет
широкое возмущение общественности.
Поэтому, если в статистической совокупности если «аномальные» отклонения в
ту или иную сторону, то в качестве оценки центрального значения как нельзя
лучше подходит медиана, которая в нашем условном примере будет равна,
скажем,  . Ниже этой планки зарабатывает ровно половина
совокупности и выше – другая половина, включая Петрова и Петровского. …
Главное только, чтобы они наняли правильного статистика :)
Как вычислить моду, медиану и среднюю интервального ряда?
Начнём опять с ситуации, когда нам даны первичные статические данные:
Пример 10
По результатам выборочного исследования цен на ботинки в магазинах города
получены следующие данные (ден. ед.):
– это в точности числа из Примера 6 статьи об интервальном вариационном
ряде.
Но теперь нам нужно найти среднюю, моду и медиану.
Решение: чтобы найти среднюю по первичным данным, лучше всего
просуммировать все варианты и разделить полученный результат на объём
совокупности:

 ден. ед.
Эти подсчёты, кстати, займут не так много времени и при использовании
оффлайн калькулятора. Но если есть Эксель, то, конечно, забиваем в любую
свободную ячейку =СУММ(, выделяем мышкой все числа, закрываем скобку ),
ставим знак деления /, вводим число 30 и жмём Enter. Готово.
Что касается моды, то её оценка по исходным данным, становится непригодна.
Хоть мы и видим среди чисел одинаковые, но среди них запросто может
найтись пять так шесть-семь вариант с одинаковой максимальной частотой,
например, частотой 2. Кроме того, цены могут быть округлёнными. Поэтому
модальное значение рассчитывается по сформированному интервальному
ряду (о чём чуть позже).
Чего не скажешь о медиане: забиваем в Эксель  =МЕДИАНА(, выделяем
мышью все числа, закрываем скобку ) и жмём Enter:  . Причём, здесь
даже ничего не нужно сортировать.
Но в Примере 6 была проведена сортировка по возрастанию (вспоминаем и
сортируем – ссылка выше), и это хорошая возможность повторить
формальный алгоритм отыскания медианы. Делим объём выборки пополам:

, и поскольку она состоит из чётного количества вариант, то медиана


равна среднему арифметическому 15-й и 16-й варианты упорядоченного (!)
вариационного ряда:

 ден. ед.
Ситуация вторая. Когда дан готовый интервальный ряд (типичная учебная
задача).
Продолжаем анализировать тот же пример с ботинками, где по исходным
данным был составлен ИВР. Для вычисления средней потребуются
середины   интервалов:

– чтобы воспользоваться знакомой формулой дискретного случая:

 – отличный результат! Расхождение с


более точным значением ( ), вычисленным по первичным данным,
составляет всего 0,04.
По сути дела, здесь мы приблизили интервальный ряд дискретным, и это
приближение оказалось весьма эффективным. Впрочем, особой выгоды тут
нет, т.к. при современном программном обеспечении не составляет труда
вычислить точное значение даже по очень большому массиву первичных
данных. Но это при условии, что они нам известны :)
С другими центральными показателями всё занятнее.
Чтобы найти моду, нужно найти модальный интервал (с максимальной
частотой) – в данной задаче это интервал   с частотой 11, и
воспользоваться следующей страшненькой формулой:

, где:

 – нижняя граница модального интервала;


 – длина модального интервала;
 – частота модального интервала;
 – частота предыдущего интервала;
 – частота следующего интервала.
Таким образом:

 ден. ед. – как


видите, «модная» цена на ботинки заметно отличается от средней
арифметической  .
Не вдаваясь в геометрию формулы, просто приведу гистограмму
относительных частот и отмечу  :
откуда хорошо видно, что мода смещена относительно центра модального
интервала в сторону левого интервала с бОльшей частотой. Логично.
Справочно разберу редкие случаи:

– если модальный интервал крайний, то   либо  ;


– если обнаружатся 2 модальных интервала, которые находятся рядом,
например,   и  , то рассматриваем модальный
интервал  , при этом близлежащие интервалы (слева и справа) по
возможности тоже укрупняем в 2 раза.
– если между модальными интервалами есть расстояние, то применяем
формулу к каждому интервалу, получая тем самым 2 или бОльшее
количество мод.
Вот такой вот депеш мод :)
И медиана. Если дан готовый интервальный ряд, то медиана рассчитывается
чуть по менее страшной формуле, но сначала нудно (описка по Фрейду:))
найти медианный интервал – это интервал, содержащий варианту (либо 2
варианты), которая делит вариационный ряд на две равные части.
Выше я рассказал, как определить медиану, ориентируясь на относительные
накопленные частоты  ,  здесь же сподручнее рассчитать «обычные»
накопленные частоты  . Вычислительный алгоритм точно такой же – первое
значение сносим слева (красная стрелка), и каждое следующее получается как
сумма предыдущего с текущей частотой из левого столбца (зелёные
обозначения в качестве примера):
Всем понятен смысл чисел в правом столбце? – это количество вариант,
которые успели «накопиться» на всех «пройденных» интервалах, включая
текущий.
Поскольку у нас чётное количество вариант (30 штук), то медианным будет тот
интервал, который содержит 30/2 = 15-ю и 16-ю варианту. И ориентируясь по
накопленным частотам, легко прийти к выводу, что эти варианты содержатся в
интервале  .
Формула медианы:

, где:
 – объём статистической совокупности;
 – нижняя граница медианного интервала;
 – длина медианного интервала;
 – частота медианного интервала;
 – накопленная частота предыдущего интервала.
Таким образом:

 ден. ед. – заметим, что


медианное значение, наоборот, оказалось смещено правее, т.к. по правую руку
находится значительное количество вариант:

И справочно особые случаи:


– Если медианным является крайний левый интервал, то  ;
– Если вариационный ряд содержит чётное количество вариант и две
средние варианты попали в разные интервалы, то объединяем эти
интервалы, и по возможности удваиваем предыдущий интервал

Ответ:   ден. ед.


Здесь центральные показатели оказались заметно отличны друг от друга, и это
говорит об асимметрии распределения, которая хорошо видна по гистограмме.
И задача для тренировки:
Пример 11
Для изучения затрат времени на изготовление одной детали рабочими завода
проведена выборка, в результате которой получено следующее статистическое
распределение:

…да, тематичная у меня получилась статья :)


Найти среднюю, моду и медиану.
Это, кстати, уже каноничная «интервальная» задача, в которой исследуется
непрерывная величина – время.
Задание 5
Решаем эту задачу в Экселе – все числа и инструкции уже там. Если нет
Экселя, считаем на калькуляторе, что в данном случае может оказаться даже
удобнее. Образец решения, как обычно, в конце урока.
Несмотря на разнообразия рассмотренных показателей, их всё равно бывает
не достаточно. Существуют крайне неоднородные совокупности, у которых
варианты «кучкуются» во многих местах, и по этой причине средняя, мода и
медиана неудовлетворительно характеризуют центральную тенденцию.
В таких случаях вариационный ряд дробят с помощью квартилей, децилей, а
в упоротых специализированных исследованиях – и с помощью перцентилей.

Квартили упорядоченного вариационного ряда – это варианты  ,


которые делят его на 4 равные (по количеству вариант) части. Откуда
автоматически следует, что 2-я квартиль – есть в точности медиана:  .
В тяжёлых случаях проводится разбиение на 10 частей
– децилями   – это варианты, который делят упорядоченный
вариационный ряд на 10 равных (по количеству вариант) частей.
И в очень тяжелых случаях в ход пускается 99 перцентилей  .
И после разбиения вариационного ряда каждый участок исследуется по
отдельности – рассчитываются локальные средние показатели, локальные
показатели вариации и т.д.
В учебном курсе квартили, децили, перцентили встречаются редко, и посему я
оставляю этот материал (их нахождение) для самостоятельного изучения.
Ну а сейчас мы перейдём к рассмотрению другой группы статистических
показателей – как раз к показателям вариации.
Решения и ответы:
Пример 9. Решение: заполним расчётную таблицу:

Вычислим среднюю:

 – две с половиной пуговицы, Карл!


По правому столбцу определяем «иксовое» значение, которое делит
совокупность на 2 равные части:   (именно здесь накопленная частота
«перевалила» за 0,5).
Кроме того, медиану легко усмотреть и устно – поскольку половина

совокупности равна  , а сумма первых двух


частот  , то совершенно понятно, что 250-й и 251-й
пиджак – двухпуговичные.

Пример 11. Решение: поскольку длина внутренних интервалов равна  ,


то длины крайних интервалов полагаем такими же (см. конец
статьи Интервальный вариационный ряд). Заполним расчётную
таблицу:
Вычислим выборочную среднюю:

 мин.

Моду вычислим по формуле  , в данном


случае:
 – нижняя граница модального интервала;
 – длина модального интервала;
 – частота модального интервала;
 – частота предшествующего интервала;
 – частота следующего интервала.
Таким образом:

 мин.
Анализируя накопленные частоты, приходим к выводу, что медианным
является интервал   (именно он содержит 50-ю и 51-ю варианты,
которые делят ряд пополам).

Медиану вычислим по формуле  , в данном случае:


 – нижняя граница медианного интервала;
 – длина этого интервала;
 – объём статистической совокупности;
 – частота медианного интервала;
 – накопленная частота предыдущего интервала.
Таким образом:

 мин.
Ответ: среднее время изготовления детали характеризуется следующими
центральными характеристиками: 

5. Размах вариации. Среднее линейное отклонение.


Генеральная и выборочная дисперсия

На предыдущем уроке по математической статистике мы изучили


центральные показатели статистической совокупности, а именно моду,
медиану, среднюю, и теперь переходим к показателям вариации. Они
показывают, КАК варьируются статистические данные, а именно – насколько
далеко «разбросаны» варианты относительно средних значений, да и просто
друг от друга. В данной статье будут рассмотрены самые популярные
показатели, и для опытных читателей сразу оглавление:

 Размах вариации
 Среднее линейное (абсолютное) отклонение
 Генеральная и выборочная дисперсия, тут же исправленная выборочная
дисперсия

и, чтобы не «лепить» километровую простыню, разделю материал на две веб


страницы:

 Во второй части будет формула для вычисления дисперсии, среднее


квадратическое (стандартное) отклонение и коэффициент вариации.

Итак, прямо сейчас мы сформулируем определения этих показателей, узнаем


соответствующие формулы и, конечно, потренируемся в конкретных
вычислениях. Да не просто в конкретных, а в рациональных.
Но прежде систематизируем информацию о том, какие статистические данные
могут оказаться в нашем распоряжении:
– они могут быть первичными (не обработанными), грубо говоря – это
неупорядоченный список чисел, либо вторичными – это уже
сформированный дискретный (Урок 2) или интервальный вариационный
ряд (Урок 3).
– рассматриваемая статистическая совокупность может
быть генеральной либо выборочной, и чаще, конечно, перед нами выборка.
…что-то не понятно по терминам? Срочно изучать основы предмета (Урок 1)!
– это быстро и интересно, ну а я, сколько нужно, вас тут подожду :)
Размах вариации
Он уже встречался. Это разность между самым большим и самым малым
значением статической совокупности:

при этом не имеет значения, генеральная ли нам дана совокупность или


выборочная, сгруппированы ли данные или нет.

Очевидно, что все варианты   исследуемой совокупности (той или иной)


заключены в отрезке  , а размах   – есть не что иное, как его длина.
Такой вот простой, надёжный и понятный показатель. Но, несмотря на его
элементарность, рассмотрим технику вычисления, и, конечно, это отличный
повод размяться:
Пример 12
Дана статистическая совокупность
15, 17, 13, 10, 21, 17, 23, 9, 14, 19
Найти размах вариации
Решить задачу можно несколькими способами.
Способ первый, суровый – продолжаю вас готовить к борьбе с киборгами :))
Это когда под рукой нет вычислительной техники. Или когда она есть, но вы
сами понимаете, как важно «прокачать» свои человеческие способности.
Если чисел не так много (наш случай), то максимальное и минимальное
значения легко углядеть устно:   и размах
равен:   единиц.
Если чисел больше (20-30 и даже больше), то надёжен следующий алгоритм:
1) Ищем минимальное значение. Сначала самым маленьким будет первое
число: 15. Второе число (17) больше, и поэтому его пропускаем. Третье число
(13) меньше, чем 15, и теперь 13 – самое малое число. И так далее, пока не
закончится список.
2) Ищем максимальное значение. Сначала самым большим будет первое
число: 15. Второе число (17) больше и теперь оно становится самым большим.
И так далее – до конца списка.
Способ второй, более быстрый (обычно). Использование программного
обеспечения, при этом числа можно просто отсортировать (по возрастанию
либо убыванию) или использовать специальные функции:
Задание 6
Найти минимальное и минимальное значения в Экселе – данные уже там,
данные вас ждут!
…отлично, молодцы!
Запишем ответ   ед. и с нетерпением перейдём к другим показателям,
которые характеризуют степень рассеяния вариант относительно центра
совокупности, прежде всего, относительно средней.
О смысле и важности этих показателей я рассказал в курсе теории
вероятностей (статья о дисперсии дискретной случайной величины), но
коротко повторю и сейчас. Рассмотрим двух студентов, каждый из которых в
среднем учится на 3,5 балла. Но есть один нюанс. Один стабильно получает
тройки-четвёрки, а другой то пятёрки, то двойки. И поэтому важно знать меру
рассеяния оценок относительно средней величины. Чем она меньше – тем
стабильнее учится студент.

Эту меру можно оценить следующим образом: из каждой оценки   (пусть их


будет   штук) вычитаем среднее значение  .   Величина   
называется отклонением (значения  ) от средней.
Теперь эти отклонения нужно просуммировать, но тут появляется проблема:
среди разностей   есть как положительные, так и отрицательные, и при их
суммировании будет происходить взаимоуничтожение отклонений. Более того,

итоговая сумма равна нулю:  , и мы не получаем желаемого


результата.
Вопрос можно решить с помощью модуля, который уничтожает

минусы:  , после чего осталось разделить сумму на объём


совокупности   и получить:
среднее линейное отклонение

 – есть среднее арифметическое абсолютных отклонений всех


значений статистической совокупности от средней. Это формула для
несгруппированных статистических данных.
Если же в нашем распоряжении есть
сформированный дискретный либо интервальный вариационный ряд, то
формула будет такой:

, где   – варианты (для дискретного ряда) либо середины


частичных интервалов (для интервального ряда), а   – соответствующие
частоты.
Напоминаю, что маленькая буква   обычно используется
для выборочной совокупности, а большая  – для генеральной:   – объём ген.
совокупности,    – частоты.
И начнём мы с малого:
Пример 13
В результате 10 независимых измерений некоторой величины, выполненных с
одинаковой точностью, полученные опытные данные, которые представлены в
таблице

Требуется вычислить среднее линейное отклонение


Решение: очевидно, что перед нами первичные данные и выборочная
совокупность (теоретически измерений можно провести бесконечно много).
На первом шаге вычислим выборочную среднюю:

Теперь находим модули отклонений от средней:


и так далее до:
Вычисления удобно проводить на калькуляторе или в Экселе, а результаты
заносить в таблицу:

На завершающем этапе рассчитываем сумму модулей:

 и среднее линейное
отклонение:

 ед. – оно означает, что измеренные значения   


в среднем отличаются от   примерно на 0,6 ед.
Но помимо этого, для оценки
рассеяния вариант относительно средней существует более совершенный и
распространённый подход. Он состоит в том, чтобы использовать не модули, а
возведение отклонений в квадрат:   (чтобы ликвидировать
встречающиеся отрицательные значения).
Генеральная и выборочная дисперсия
Дисперсия с латыни так и переводится – рассеяние.
…не сломать бы язык :) …так… Выборочная дисперсия  – это среднее
арифметическое квадратов отклонений всех вариант выборки от её средней:

 – для несгруппированных данных, и:

 – для сформированного вариационного ряда, где   –


кратные (одинаковые по значению) варианты в дискретном случае либо
середины частичных интервалов – в интервальном, и   – соответствующие
частоты.
Еще раз не спеша и ОСМЫСЛЕННО прочитайте определение и выполните
Задание:
Сформулировать и записать (на бумагу!) определение генеральной дисперсии
и соответствующие формулы.
Свериться можно, как обычно, в конце урока.
После чего следует
продолжение Примера 13
По тем же исходным данным вычислить выборочную дисперсию
Без проблем. Вместо модулей рассчитываем квадраты отклонений:

заполняем табличку:

и порядок:

 квадратных (!) единиц  – коль скоро, мы


возводили в квадрат. И, чтобы вернуться в размерность задачи, из дисперсии
следует извлечь корень. Но мы не будем торопить события, лучше посмотрим,
как выполнять вычисления в Экселе:

Ответ: 
Разобранная задача де-факто встречается в лабораторных работах по физике
(да и не только) – когда некоторая величина замеряется раз 10 и затем
рассчитывается среднее значение.
А теперь представьте, что вся ваша группа выполняет лабу по физике, и
каждый провёл по 10 испытаний в схожих условиях. Очевидно, что у всех
получились несколько разные выборочные значения  , но все они без какой-
либо закономерности (в общем случае) будут варьироваться вокруг истинного
значения показателя   (роль генеральной средней может играть некий
теоретический эталон). Это свойство (отсутствие закономерности)
называется несмещённостью оценки генеральной средней, и справедливо
оно, как мы увидим ниже, не для всех показателей.
Теперь пару ласковых об отклонениях. В чём их смысл? Всё просто: у кого эти
показатели ниже, тот качественнее проводит опыты (плавнее выполняет
действия, точнее снимает показания с приборов, засекает время и т.п.). В
идеале эти отклонения равны нулю, но это только в идеале – сам эмпиризм
ситуации порождает генеральное линейное отклонение   и генеральную
дисперсию , которые обусловлены человеческим фактором, погрешностью
приборов и так далее – вплоть до магнитных бурь.

В случае с полученными линейными отклонениями   – всё то же самое, они


будут безо всякой закономерности варьироваться вокруг генерального
значения  . Но вот с дисперсией всё не так. Полученные значения выборочной
дисперсии   будут давать систематически заниженную оценку генеральной
дисперсии  . И поэтому выборочную дисперсию следует «поправить» по
формуле:

  – желающие могут найти обоснование этого факта и этой


формулы в специализированной литературе по математической статистике.

Показатель   так и называется – исправленная выборочная дисперсия, и


вот она уже является несмещённой оценкой генеральной дисперсии.
Таким образом, каждый студент должен поправить свою дисперсию, в
частности, для Примера 13:

Следует отметить, что для большой выборки (от 100 и даже от 30 вариант) этой

поправкой можно пренебречь, так как при   дробь   стремится к


единице и  .
И иногда дисперсию можно вовсе не поправлять. Так, в разобранном примере
от нас требовалось просто вычислить выборочную дисперсию и всё. А если
хочется что-то додумать, то пусть этого захочет преподаватель :) Но вот если
дисперсия будет «участвовать» в дальнейших действиях, то, конечно,
приводим её к виду  . 
Более того, встречаются задачи, где вообще не понятно – выборочная ли дана
совокупность или генеральная, и тогда разумно проявить аккуратность и
использовать обозначения без подстрочных индексов, в частности,   и  .
Теперь случай, когда дан готовый вариационный ряд. У меня опять есть
подходящая советская задача про телефонную станцию, но я скорректирую
условие в соответствии с современными реалиями:
Пример 14
В результате выборочного исследования звонков, статистик МТС получил
следующие данные (за некоторый временной промежуток):

…у ОпСоСов, как известно, своя статистика – с округлением до ближайшей


целой минуты :), впрочем, это тоже устареет…, как метко заметил современник,
дети дружно играли во дворе – каждый в своём смартфоне(

Найти размах вариации, среднее линейное отклонение и выборочную


дисперсию. Дать несмещённую оценку генеральной дисперсии и пояснить, что
это означает.
Задание 7
Решить данную задачу в Экселе (данные и гайд уже там) либо на бумаге с
помощью калькулятора.
Краткое решение и ответ совсем близко, поскольку 1-я часть урока подошла к
концу, и я жду вас во 2-й части, где мы рассмотрим формулу для вычисления
дисперсии, среднее квадратическое отклонение и коэффициент вариации.
Решения и ответы:
Задание. Генеральная дисперсия  – это среднее арифметическое
квадратов отклонений всех вариант генеральной совокупности от её
средней:

, где   – объём генеральной совокупности.


Для сформированного вариационного ряда формула принимает вид:

, где   – либо варианты дискретного ряда, либо


середины частичных интервалов интервального ряда, а   –
соответствующие частоты.

Пример 14. Решение: найдём размах вариации:   мин.

Вычислим объём совокупности  ,

произведения  , их сумму и выборочную среднюю   мин.


Рассчитаем  , произведения    и их суммы:
Среднее линейное отклонение:

 мин.
Выборочная дисперсия:

 мин. в квадрате.
Несмещённой оценкой генеральной дисперсии является исправленная
выборочная дисперсия:

 мин. в квадрате.
Несмещённость означает, что если в схожих условиях проводить
аналогичные выборки, то полученные значения   будут безо всякой
закономерности варьироваться вокруг генерального значения  .

Ответ: 

6. Формула для вычисления дисперсии.


Среднее квадратическое отклонение. Коэффициент вариации

В первой части урока мы рассмотрели размах вариации, среднее линейное


отклонение и дисперсию, и продолжение темы в заголовке. Многие из этих
показателей фигурируют в теории вероятностей, и если вы зашли с
поисковика именно за ними, то сразу ссылка на нужную статью: Дисперсия
дискретной случайной величины – там же всё остальное.
Ну а здесь на повестке дня Математическая статистика (организационный
урок для «чайников»), и мы продолжаем изучать показатели вариации:

 Формула для вычисления дисперсии


 Среднее квадратическое отклонение , которое также называют
среднеквадратическим или стандартным отклонением. Тут
же исправленное среднее квадратическое отклонение.
 Коэффициент вариации
Всё с формулами, примерами решений и техникой рациональных вычислений.
И снова о дисперсии.
На предыдущем занятии мы рассчитывали дисперсию по определению:

 – для несгруппированных данных и

 – для дискретного либо интервального вариационного
ряда.
Если известно, генеральная ли нам дана совокупность или выборочная, то
хорошим тоном считается поставить подстрочные индексы:   либо  .
Расчёт дисперсии по определению прост и реально используется на практике,
но существует ещё более простой и удобный способ вычисления – по
формуле, которую несложно вывести из определения:

 – дисперсия равна разности средней арифметической квадратов


всех вариант статистической совокупности и квадрата средней самих этих
вариант.
ОСМЫСЛЕННО повторяем ВСЛУХ и вникаем! … Карл украл у Клары кораллы,
а Клара украла у Карла кларнет :)
Если что-то не очень понятно, то сейчас всё станет на свои места:

Для несгруппированных вариант   выборочной совокупности


формула детализируется следующим образом:

и для готового вариационного ряда – так:

, где   – кратные (одинаковые) варианты дискретного


ряда либо середины интервалов интервального ряда, а   –
соответствующие частоты.

Для генеральной дисперсии   формулы те же, только с буквами   


вместо  . Во многих случаях удобно использовать просто значок
суммирования   – без переменной-«счётчика», поскольку в контексте той
или иной задачи и так понятно, что суммируется.
И начнём мы со знакомой подопытной задачи:
Пример 15
В результате 10 независимых измерений получены опытные данные, которые
представлены в таблице:

Это данные из Примера 13, и на этот раз нам требуется вычислить дисперсию
с помощью формулы. Напоминаю, что там мы её рассчитали по определению и
получили результат  , таким образом, ответ известен заранее, и
это всегда круто. Всегда, когда он правильный.

Решение: используем формулу  .


Для этого нужно найти выборочную среднюю, повторим

действие:  ,
вычислить квадраты всех вариант:

и их сумму: 
Результаты вычислений удобно заносить в таблицу:

Осталось применить формулу:


, что и требовалось
увидеть.

Ответ: 
Теперь случай сформированного вариационного ряда. В Примере 14 мы
потренировались на дискретном ряде, и сейчас очередь интервального:
Пример 16
С целью изучения вкладов в Сбербанке города проведено выборочное
исследование, в результате которого получены следующие данные:

Вычислить выборочную дисперсию и среднее квадратическое отклонение,


оценить соответствующие показатели генеральной совокупности.

Автор задачи заботливо подсчитал объем выборки  , но не «закрыл»


крайние интервалы. Такая вещь уже встречалась, и решение мы начинаем с
этого закрытия. Поскольку длины внутренних интервалов составляют   
д.е., то логично рассмотреть такую же длину и по краям, то бишь, интервалы от
200 до 400 и от 1000 до 1200 денежных единиц.
…Возможно, у вас возник вопрос, а как быть, если даны интервалы разной
длины? В этом случае принимаем за «эталон» среднюю длину известных
интервалов.
Для расчёта числовых характеристик перейдём к дискретному
вариационному ряду, выбрав в качестве вариант   середины интервалов,
которые здесь видны устно:

В тяжёлых случаях суммируем концы интервалов и делим их пополам,

например:  .
Кроме того, варианты целесообразно уменьшить в 1000 раз, поскольку в ходе
дальнейших вычислений будут получаться гигантские числа. С современными
вычислительными мощностями, это, конечно, не проблема, но смотреться
будет некрасиво.
Сначала вычислим выборочную среднюю. Этот алгоритм уже обкатан:
находим произведения  , их сумму:

и по соответствующей формуле:

 тыс. д.е. или 780 д.е. – средний размер вклада.


Примечание: далее для компактной записи я буду использовать просто
значок   – без переменной-«счётчика».
Теперь дисперсия. Её никто не запрещает рассчитать по

определению  , но заметьте, насколько легче

формула   – для её применения всего-то лишь


нужно рассчитать произведения   и их сумму   (правый столбец
таблицы). Несмотря на то, что многие читатели уже освоили технику
вычислений в Экселе, я продолжу записывать ролики – мало ли, кто что
запамятовал:
Итак, по формуле вычисления дисперсии, получаем:

 тыс. д.е. в квадрате (т.к.


по определению, дисперсия – есть величина квадратичная).
И, чтобы вернуться в размерность задачи, из дисперсии следует извлечь
квадратный корень:
 тыс. д.е. или 240 денежных единиц. Полученный
показатель называется
среднее квадратическое отклонение
Или стандартное отклонение. Оно обозначается греческой буквой «сигма», и
коль скоро, у нас выборочная совокупность, то добавляем соответствующий
подстрочный индекс:

 – выборочное среднее квадратическое отклонение.


Чем меньше стандартное отклонение (и дисперсия), тем меньше вариация –
тем бОльшее количество вариант находится вблизи выборочной средней. Но у
нас, как нетрудно «прикинуть на глазок», разброс довольно-таки велик –
значительное количество вкладов расположено далековато от  ,и
поэтому значение   получилось немалым.
Следующая часть задачи состоит в том, чтобы корректно оценить генеральную
дисперсию   и генеральное среднее квадратическое отклонение  .
В 1-й части урока я рассказал о том, что выборочная дисперсия  представляет
собой смещённую оценку генеральной дисперсии. Это означает, что если мы
будем проводить неоднократные выборки из той же генеральной совокупности,
то полученные значения   будут систематически занижено оценивать  .
Обращаю ваше внимание, что это не значит, что   будет всегда меньше,
чем  .
И поэтому выборочную дисперсию, как намекает условие, нужно поправить:

 – исправленная выборочная дисперсия


и, соответственно:

 или 240,30 д.е. – исправленное среднее


квадратическое отклонение.

 и   – это уже несмещённые оценки генеральной дисперсии   и


генерального стандартного отклонения   соответственно.
Ввиду большого объёма выборки (более 100 вариант) этой поправкой можно
пренебречь, но всё же мы не будем «разбрасываться» 30 «копейками».

Ответ:  ; в качестве оценки соответствующих генеральных


показателей принимаем   и  .
Рассмотренные выше показатели (размах вариации, среднее линейное
отклонение, дисперсия, стандартное отклонение) входят в
группу абсолютных показателей вариации, которые обладают рядом
неудобств. Так, если в прорешанной задаче не уменьшать варианты в 1000 раз,
то дисперсия получится в миллион раз больше! Да-да, не  ,
а  . И возникает естественное желание привести результаты к некому
единому стандарту.
Для этого существуют показатели относительные, и самым известным из них
является
коэффициент вариации
– это отношение стандартного отклонения к средней, выраженное в
процентах:
И вот теперь совершенно без разницы, в д.е. мы считали:

или в тысячах д.е.:

Примечание: на практике часто считают именно через  , но для оценки


коэффициента вариации всей генеральной совокупности, конечно же,
корректнее использовать исправленное стандартное отклонение  .
В статистике существует следующий эмпирический ориентир:
– если показатель вариации составляет примерно 30% и меньше, то
статистическая совокупность считается однородной. Это означает, что
большинство вариант находится недалеко от средней, и найденное
значение   хорошо характеризует центральную тенденцию совокупности.
– если показатель вариации составляет существенно больше 30%, то
выборка неоднородна, то есть, значительное количество вариант находятся
далеко от  , и выборочная средняя плохо характеризует типичную варианту. В
таких случаях целесообразно рассмотреть квартили, децили, а иногда и
перцентили, которые делят вариационный ряд на части, и для каждого участка
рассчитать свои показатели. Но это уже немного дебри статистики.
Другое преимущество относительных показателей – это возможность
сравнивать разнородные статистические совокупности. Например, множество
слонов и множество хомячков. Совершенно понятно, что дисперсия веса
слонов по отношению к дисперсии веса хомяков будет просто конской, и их
сопоставление не имеет смысла. Но вот анализ коэффициентов
вариации веса вполне осмыслен, и может статься, что у слонов он составляет
10%, а у хомячков 40% (пример, конечно, условный). Это говорит о
сбалансированном питании и размеренной жизни слонов. А вот хомяки там, то
носятся с голодухи по полям, то отъедаются и спят в норах, и поэтому среди
них есть много худощавых и много упитанных особей :)
Кроме коэффициента вариации, существуют и другие относительные
показатели, но в реальных студенческих работах они почти не встречаются, и
поэтому я не буду их рассматривать в рамках данного курса.
И сейчас, конечно же, задачки для самостоятельного решения:
Пример 17, на отработку терминов и формул:
а) Стандартное отклонение выборочной совокупности равно 5, а средний
квадрат её вариант – 250. Найти выборочную среднюю.
б) Определите среднее квадратическое отклонение, если известно, что
средняя равна 260, а коэффициент вариации составляет 30%.
и Пример 18, творческий:
Производство стальных труб на предприятии (тонн) в 1-м полугодии составило:
Определить:
– среднемесячный объем производства;
– среднее квадратическое отклонение;
– коэффициент вариации.
Сделать краткие содержательные выводы. – Да, это тоже типичный пункт
статистической задачи!
Обратите внимание, что здесь не понятно, выборочной ли считать эту
совокупность или генеральной. И в таких случаях лучше не заниматься
домыслами, просто используем обозначения без подстрочных индексов.
Вообще, задачи на экономическую и промышленную тематику – самые
популярные в статистике, и в моей коллекции их сотни. Но все они до ужаса
однотипны, и поэтому я предлагаю их в терапевтической дозировке :)
Задание 8
Выполнить расчёты в Экселе – числа уже там, ну а инструкцию я на этот раз
не привёл, поскольку люди вы уже опытные.
Краткое решение и ответ в конце урока, который подошёл к концу.
Следующее занятие не за горами, а уже за кочкой:
Асимметрия и эксцесс эмпирического распределения
Решения и ответы:
Пример 17. Решение:

а) Используем формулу  . По условию,  ,  .


Таким образом:

б) Используем формулу  . По условию,  ,  . Таким


образом:

Ответ: а)  , б) 


Пример 18. Решение: вычислим сумму вариант и сумму их квадратов:

Найдём среднюю:
 тонны – среднемесячный объем производства за
полугодие.
Дисперсию вычислим по формуле:

Среднее квадратическое отклонение:


 тонн.
Коэффициент вариации:

Ответ:   тонны,   тонн, 


Краткие выводы: за первое полугодие среднемесячный объём производства
труб составил   тонны. Низкие показатели вариации говорят о
стабильной ситуации на производстве.

7. Асимметрия и эксцесс эмпирического распределения

В предыдущих статьях мы познакомились с показателями центральной


тенденции и вариации, и сейчас рассмотрим ещё пару характеристик
статистической совокупности. Для тех, кто зашёл с поисковика и хочет изучить
тему с азов, сразу ссылка на организационный урок: Математическая
статистика для «чайников», там же, в конце, список всех статей курса. И до
статьи 7-й – как рукой подать, после чего будет небольшой и очень приятый
экзамен.
Итак, что такое асимметрия и эксцесс? Говоря простым языком, это показатели,
характеризующие геометрическую форму распределения. Асимметрия
характеризует меру скошенности графика влево / вправо, а эксцесс
–  меру его высоты.
Данные показатели рассчитываются как для эмпирических, так и
для теоретических распределений, которые мы изучили в курсе теории
вероятностей, и за «эталон» симметрии принято нормальное
распределение:

Очевидно, что любое нормальное распределение строго симметрично


относительно своего центра, следовательно, его асимметрия равна нулю.
Данный график кажется пологим, но стандартное отклонение   в данном
примере достаточно велико (см. на синие точки) и на самом деле такая высота
«гармонична». Поэтому эксцесс нормального распределения (любого)
принимают за «отправную» нулевую точку.
Почему именно нормальное распределение? Потому что философское –
обязательно прочитайте эту интереснейшую статью по ссылке, если ещё не
успели этого сделать!
В теории вероятностей существуют строгие формулы для
вычисления коэффициентов асимметрии   и эксцесса   (будут ниже),
но на практике мне такие задачи не встречались. И поэтому я сразу перехожу к
статистике и распределениям эмпирическим, т.к. здесь таких задач как раз
выше крыши. С положительным эксцессом, если выразиться тематически :)
Начнём с асимметрии. Асимметрия характеризует меру
скошенности полигона или гистограммы влево / вправо относительно самого
высокого участка, и во многих случаях для «прикидки» асимметрии достаточно
взглянуть на соответствующие чертежи. Так, например, посмотрим на полигон
частот из Примера 8:

И, в принципе, тут всё видно – пациент скорее симметричен, чем асимметричен


:)
Простейшим критерием симметрии является
равенство средней, моды и медианы: но в жизни такого идеального
совпадения, конечно, не бывает (даже тело человека немного асимметрично), и
поэтому у «почти симметричных» распределений эти показатели должны
располагаться очень близко друг к другу. И в самом деле, как мы вычислили
в Примере 8:  .
Обратите внимание, что рассматриваемые распределения имеют
единственную модальную вершину, и далее речь пойдёт только о таких
распределениях.
Правосторонняя асимметрия характеризуется удлинённым правым
«хвостом», смотрим на гистограмму Примера 10:
Простейшим признаком правосторонней асимметрии является тот факт,
что  , и это неудивительно – ведь справа находится значительное
количество вариант, и поэтому средняя   смещена вправо. И поэтому
английский статистик Карл Пирсон, который ещё не раз нас порадует своими
методами, предложил следующую формулу для расчёта коэффициента
асимметрии:

, где   – среднее квадратическое отклонение статистической


совокупности. Что тоже логично, ведь у разных распределений – разный
«разброс» значений и разные представления о мере асимметрии.
Левостороння асимметрия, наоборот, характеризуются удлинённым левый
«хвостом» и неравенством  ,…. картинки быстро не нашлось, поэтому
просто разверну чертёж в графическом редакторе:
Из формулы   следует, что в левостороннем случае коэффициент
асимметрии отрицателен (т.к.  ), а в правостороннем – положителен (
), и чем больше   по модулю – тем сильнее скос распределения.
Недостаток формулы Пирсона состоит в том, что она описывает лишь
центральную часть распределения и практически не учитывает «периферию».
И, чтобы вас томить, сразу продвинутая формула, которая охватывает все
варианты, для определённости запишу её для выборочной
совокупности объёма  :

, где   – куб стандартного выборочного отклонения, а   – так


называемый центральный эмпирический момент третьего порядка. Для
несгруппированной статической совокупности он рассчитывается так:

 (  – выборочная средняя),
а для сформированного вариационного ряда – так:

, где   – варианты дискретного ряда или


середины частичных интервалов интервального ряда, а   –
соответствующие частоты.

Смысл знаков тот же самый: если  , то распределение скошено вправо,


если   – то влево. При этом принята следующая условная градация: если
полученное значение по модулю меньше, чем 0,25, то асимметрия
незначительна, если  , то умеренная, и если  , то
существенная.

И чем МЕНЬШЕ по модулю  , тем рассматриваемое эмпирическое


распределение БЛИЖЕ к нормальному распределению с
параметрами  .
Справочно формулы теории вероятностей: асимметрия случайной величины

рассчитывается по «родственной» формуле  , где   – среднее

квадратическое отклонение, а   – центральный


теоретический момент 3-го порядка. Для дискретной случайной
величины он рассчитывается так:  , а для непрерывной –

через интеграл:  .
Теперь об эксцессе замолвим слово. Он характеризует высоту и очень
коварный. В том смысле, что глаза будут часто обманывать. Так, например,
посмотрим на чертёж Примера 7 из статьи об интервальном вариационном
ряде:

Ну видно же – гистограмма и полигон серьёзно вытянуты вверх. Но это только


кажется. Дело в том, что стандартное отклонение   этого распределения
невелико, и для сего небольшого рассеяния такая высота ДАЖЕ МАЛА. МалА –
по сравнению с «эталонным» нормальным распределением с
параметрами  .
Поэтому аналитика и ещё раз аналитика. Коэффициент
эксцесса эмпирического распределения рассчитывается по формуле:

, где   – центральный эмпирический момент четвёртого


порядка:

 – для несгруппированных данных, и

 – для сформированного вариационного ряда.

Для случайных величин из тервера формула схожа:  ,

где   – для дискретной, и   –
для непрерывной случайной величины.

Если  , то эмпирическое распределение является более высоким


(«островершинным») – относительно «эталонного» нормального
распределения с параметрами  . Если же   – то более низким
и пологим. И чем больше   по модулю, тем «аномальнее» высота в ту или
иную сторону.
В примере выше, как ни странно,  , и сейчас мы убедимся в этом
аналитически:
Пример 19

Итак, сто пачек чая из Примера 7 (  – середины интервалов):

и нам требуется вычислить коэффициенты асимметрии и эксцесса


Решение: поскольку в формулах асимметрии и эксцесса
фигурирует стандартное отклонение, то сначала нужно
рассчитать выборочную среднюю и дисперсию.

Вычислим произведения  , их сумму и   грамм –


средний вес пачки чая. Дисперсию здесь сподручнее найти не по формуле,

а по определению:  . Для этого рассчитаем


произведения   и сразу  :

Ловкость рук и никаких трудностей, вы удивитесь, как всё быстро:


Собственно, финальные расчёты:

здесь правильнее, конечно, отклонение поправить, но обычно этим


пренебрегают.
Центральные моменты 3-го и 4-го порядков:
И, наконец, коэффициенты. Вычислим коэффициент асимметрии:

, то есть, распределение обладает существенной


правосторонней асимметрией, что, кстати, хорошо было видно по чертежу.
Вычислим коэффициент эксцесса:

 – вот оно как! Оказывается, распределение не то


что выше, а заметно ниже, чем нормальное распределение с
параметрами 

Ответ: 
Вот такой вот у нас получился эксекас :)
Помимо геометрических форм, эти коэффициенты позволяют «прикинуть»,
насколько близка к нормальному распределению не только выборочная, но
и вся генеральная совокупность. Это одна из важнейших задач статистики,
которую мы разберём в разделе Статистические гипотезы.
Ну а сейчас я предлагаю вам небольшое экзаменационное задание по первым
семи урокам. Оно типично для студенческой практики – дана статистическая
совокупность,  и требуется выполнить много-много чего. Внимательно
проверьте, всё ли вы усвоили, всё ли умеете:
Пример 20
В результате эксперимента получены данные, записанные в виде
статистического ряда:

…это ещё ерунда :)


И сразу обратите внимание, что в условии речь идёт о результатах
эксперимента, а значит, перед нами выборочная совокупность, т.к.
теоретически опыты можно повторять бесконечное количество раз.
Задание 9
Выполнить в Экселе следующие действия (числа и макет уже там):
1) Составить интервальный вариационный ряд, состоящий из 9 равных
интервалов. Видео в помощь.
2) Построить гистограмму относительных частот и эмпирическую функцию
распределения.
3) Найти моду и медиану.
4) Вычислить выборочную среднюю, дисперсию, среднее квадратическое
отклонение и коэффициент вариации.
5) Вычислить коэффициенты асимметрии и эксцесса, сделать выводы.
Не тушуйтесь – я с вами! Краткое решение для сверки внизу страницы.
И на этом, как вы правильно догадались, дело не заканчивается,
поэтому сохраните файл с решением! Типовая задача содержит больше
пунктов, и после изучения гипотезы о законе распределения генеральной
совокупности, выполняем следующие задания:
6) По найденным характеристикам сделать вывод о форме эмпирического ряда
распределения.
7) Построить нормальную кривую по опытным данным на графике гистограммы.
8) Произвести оценку степени близости теоретического распределения
эмпирическому ряду с помощью критерия согласия Пирсона на уровне
значимости 0,05.
Но о статистических гипотезах чуть позже. На следующем уроке речь пойдёт
о статистических оценках и доверительных интервалах.
До скорых встреч!
Решения и ответы:
Пример 20. Решение:

1) По статистическим данным находим:  ,  .


Вычислим размах вариации:   ед.
По условию, выборку следует разделить на   равных интервалов, таким
образом, длина частичного интервала:

 ед.
Разметим интервалы и подсчитаем частоты   по каждому интервалу,
после чего убедимся, что объём выборки  . Вычислим

относительные частоты   и относительные накопленные


частоты  :

2) Построим гистограмму относительных частот:


и эмпирическую функцию распределения:

3) Моду вычислим по формуле  , в данном


случае:
 – нижняя граница модального интервала;
 – длина модального интервала;
 – частота модального интервала;
 – частота предыдущего интервала;
 – частота следующего интервала.
Таким образом:

 ед.

Медиану вычислим по формуле  , в данном случае:


 – объём выборочной совокупности;
половину вариант содержит интервал  и   – его нижняя граница;
 – длина медианного интервала;
 – частота медианного интервала;
 – накопленная частота предыдущего интервала.
Таким образом:

 ед.
4) Найдём середины   интервалов, произведения   и вычислим

выборочную среднюю   ед., после чего заполним


оставшуюся часть таблицы и рассчитаем остальные показатели:

Выборочная дисперсия:

,
выборочное среднее квадратическое отклонение:
 ед.,
коэффициент вариации:

5) Вычислим центральные эмпирические моменты 3-го и 4-го порядков:

коэффициент асимметрии:

и коэффициент эксцесса:

 
Таким образом, выборочная совокупность практически симметрична, но
несколько ниже, чем нормальное распределение с
параметрами  .
8. Статистические оценки параметров генеральной совокупности.
Доверительный интервал и доверительная вероятность

Вспомним первый урок по теме (там же внизу оглавление) и основную


задачу математической статистики. Она состоит в том, что для
изучения генеральной совокупности объёма   из неё производится выборка,
состоящая из   элементов, которая хорошо характеризует всю совокупность
(свойство представительности). И на основании исследования
этой выборочной совокупности мы с высокой достоверностью можем оценить
генеральные  характеристики. Чаще всего требуется выявить закон
распределения генеральной совокупности (о чём пойдёт речь позже) и
оценить его важнейшие числовые параметры, такие как генеральная
средняя  , генеральная дисперсия   и среднее квадратическое
отклонение  .
Очевидно, что для оценки этих параметров нужно вычислить соответствующие
выборочные значения. Так, выборочная средняя   позволяет нам оценить
генеральную среднюю  , причём, оценить её точечно. Почему точечно?
Потому что   – это отдельно взятое, конкретное значение. Если из той же
генеральной совокупности мы будем проводить многократные выборки, то в
общем случае у нас будут получаться различные выборочные средние, и
каждая из них представляет собой точечную оценку генерального
значения  .

Аналогично, несмещённой точечной оценкой генеральной дисперсии   


является исправленная выборочная дисперсия  , и соответственно,
стандартного отклонения   – исправленное стандартное отклонение  .
…что-то не понятно / недопонятно в терминах? Срочно изучать предыдущие
уроки!
Недостаток точечных оценок состоит в том, что при небольшом объёме
выборки (как оно часто бывает), мы можем получать выборочные значения,
которые далеки от истины.
И в этих случаях логично потребовать, чтобы выборочная характеристика   
(средняя, дисперсия или какая-то другая) отличалась от генерального
значения   не более чем на некоторое положительное значение  . А
точнее, менее.

Справка:   – греческая буква «тета»,   – греческая буква «дельта».

Значение   называется точностью оценки, и озвученное выше требование


можно записать с помощью модуля:

Обозначение: точность оценки также обозначают через   («эпсилон»).


Но статистические методы не позволяют 100%-но утверждать, что
рассчитанное значение   будет удовлетворять этому неравенству – ведь в
статистике всегда есть место случайности, когда мы можем «выиграть в
лотерею» в плохом смысле этого слова. Таким образом, можно говорить лишь
о вероятности  , с которой это неравенство осуществится:  .
А теперь я раскрою модуль:

и сформулирую суть:

Интервал   называется доверительным интервалом и


представляет собой интервальную оценку генерального значения   по
найденному выборочному значению  . Данный интервал с вероятностью   
«накрывает» истинное значение  . Эта вероятность
называется доверительной
вероятностью или надёжностью интервальной оценки
Надёжность «гамма» часто задаётся наперёд, популярные
варианты 
На данном уроке будут рассмотрены:

 доверительный интервал для… – заголовок параграфа в поле зрения;


 доверительный интервал для оценки генеральной дисперсии и стандартного
отклонения – быстрая ссылка для опытных читателей.

Доверительный интервал для оценки генеральной средней


нормально распределённой генеральной совокупности
И мы сразу разберём распространённую и «заезженную» задачу, которую
предлагают даже студентам-гуманитариям:
Пример 21
…да-да, пример уже 21-й!
Известно, что генеральная совокупность распределена нормально со средним
квадратическим отклонением  . Найти доверительный интервал для оценки
математического ожидания    с надежностью 0,95, если выборочная
средняя  , а объем выборки  .
Внимание! Важное замечание: если в задаче указан тип выборки (повторная /
бесповторная), то решение будет иметь свои особенности – читайте 10-ю
статью об оценках по повторной и бесповторной выборке.
А теперь принципиальный момент непосредственно по задаче:
здесь известно стандартное отклонение   генеральной совокупности.
Дело в том, что в похожих задачах оно бывает не известно, и тогда решение
будет отличаться!
Но сейчас решение таково, разбираемся в ситуации:

– из генеральной совокупности попугаев проведена выборка в   особей и


по её результатам найдена выборочная средняя:   (средняя масса
попугая, например).
Выборочная средняя – это точечная оценка неизвестной нам генеральной
средней  . Как отмечалось выше, недостаток точечной оценки состоит в
том, что она может  оказаться далёкой от истины. И по условию, требуется
найти интервал  , которой с вероятностью   накроет
истинное значение  .

Именно так! Здесь будет неверным сказать, что   попадёт в этот


интервал.

Решаем. Точность оценки рассчитывается по формуле  , где   


– коэффициент доверия. Этот коэффициент отыскивается из
соотношения  , где   – функция Лапласа.

В данном случае  , следовательно:

И по таблице значений функции Лапласа либо пользуясь расчётным


макетом (пункт 5*), выясняем, что значению    соответствует
аргумент  .
Таким образом, точность оценки:

и искомый доверительный интервал:

Этот интервал с вероятностью    (надёжностью) накрывает истинное


генеральное значение   среднего веса попугая. Но всё же остаётся 5%-
ная вероятность, что генеральная средняя окажется вне найденного интервала.

Ответ:  .
И тут возникает светлая мысль уменьшить этот интервал – чтобы получить
более точную оценку. Что для этого можно сделать? Давайте посмотрим на

формулу  .
Очевидно, что чем меньше стандартное отклонение (мера разброса
значений), тем короче доверительный интервал. Но это в отдельно взятой
задаче ни на что не влияет – ведь нам известно конкретное значение  ,и
изменить его нельзя.
Поэтому для уменьшения «дельты» можно уменьшить коэффициент доверия,

например, вместо   рассмотреть   и тогда:  ,и


доверительный интервал   действительно станет в 2
раза короче. Но засада в том, что упадёт и доверительная вероятность:

, то есть о том, что этот более узкий


интервал накроет генеральную среднюю, мы теперь можем утверждать лишь с
вероятностью 68,26%. Что, конечно, неудовлетворительно, для серьёзного
статистического исследования.
Поэтому для уменьшения доверительного интервала (при том же значении  )
остаётся увеличивать объём выборки  . Что совершенно понятно и без

формулы  , ведь чем больше объём выборки, тем точнее она


характеризует генеральную совокупность (при прочих равных условиях). Об
объёме мы поговорим на уроке об оценках по повторной и бесповторной
выборке, ну а пока продолжаем.
Творческая задача для самостоятельного решения:
Пример 22

По результатам выборочного исследования   объектов найдена


выборочная средняя  .
1) С какой вероятностью можно утверждать, что генеральная средняя
отличается от найденного значения менее чем на 3, если известно, что
генеральная совокупность распределения нормально с дисперсией 400?

2) Определить доверительный интервал, который с надежностью   


накроет истинное значение генеральной средней.
Расчётный макет (пункты 5 и 5*) – в помощь. Краткое решение в конце урока.
И тут, наверное, у вас назрели вопросы – а откуда известно, что генеральная
совокупность распределена нормально, и тем более, откуда известно её
стандартное отклонение?
Обычно эта информация известна из предыдущих исследований. Классический
пример – измерительный прибор. Очевидно, что его случайные погрешности
удовлетворяют условию теоремы Ляпунова, а значит, распределены
нормально. Кроме того, производитель, как правило, тестирует прибор, и
указывает в его паспорте стандартное отклонение случайных ошибок
измерения, которое можно принять за  .
Но если установить нормальность распределения достаточно просто (в том
числе статистическими методами), то с генеральным значением   всё
сложнее – зачастую вычислить его трудно или невозможно.
В такой ситуации остаётся ориентироваться на исправленное стандартное
отклонение  , и решение несколько изменится. Ещё одна классическая
задача, которая уже встретилась ранее:
Пример 23
В результате 10 независимых измерений некоторой величины  , выполненных
с одинаковой точностью, полученные опытные данные, которые представлены
в таблице:

Предполагая, что результаты измерений подчинены нормальному закону


распределения вероятностей, оценить истинное значение величины   при
помощи доверительного интервала, покрывающего это значение с
доверительной вероятностью 0,95.
Не путать со случайными ошибками измерительного прибора! Здесь речь идёт
об измерениях и помимо технических, велико влияние других, в частности,
человеческого фактора, особенно, если  вы используете махрово-аналоговый
прибор – что-нибудь вроде механического секундомера или линейки.
Решение следует начать с вычисления выборочных характеристик, и задача
облегчается тем, что в Примере 13 они уже вычислены:   и  .
По условию, требуется оценить генеральную совокупность (а именно,
параметр  ), и поэтому дисперсию нужно обязательно поправить:

 – несмещённая оценка неизвестной генеральной


дисперсии  . И нас будет интересовать несмещённая оценка генерального
стандартного отклонения  :

 – исправленное среднее квадратическое отклонение.


Теперь построим доверительный интервал для оценки истинного
(генерального) значения   величины  .
Если генеральное стандартное отклонение   не известно
(наш случай), то этот интервал строится по похожей формуле:

, с той поправкой, что коэффициент доверия   


рассчитывается с помощью распределения Стьюдента. В рамках курса
теорвера я не рассказывал об этом распределении, и поэтому ограничусь
технической стороной вопроса.

Значение    можно найти с помощью таблицы значений распределения


Стьюдента, в частности, популярна таблица, специально адаптированная
для данной задачи*. И, согласно этой таблице, доверительной
вероятности   и объёму выборки   соответствует коэффициент
доверия:

* В стандартной же таблице приводятся значения для так называемого


уровня значимости   и числа степеней свободы  .
Другой, более универсальный способ – воспользоваться калькулятором, и
чтобы далеко не ходить, я добавил этот функционал в расчётный макет:
ищем Пункт 10б, забиваем значения   ,   и получаем
«на выходе»  .
Вычислим точность оценки:

Таким образом, искомый доверительный интервал:

 – данный интервал с вероятностью   накрывает истинное


значение   измеряемой величины  .

Ответ: 
Для самостоятельного решения:
Пример 24

На основании   испытаний установлено, что в среднем для


изготовления шавермы полупроводникового диода требуется   секунд, а
исправленное среднее квадратическое отклонение составляет   секунд.
Предположив, что время изготовления диода есть нормальная случайная
величина, определить с надежностью   доверительный интервал для
оценки среднего времени изготовления диода
Краткое решение и ответ в конце урока – расчётный макет (Пункт 10б) – в
помощь.
Итак, что главное в разобранных задачах? Главное, обратить внимание,
генеральное ли нам дано отклонение   или исправленное выборочное  . От
этого зависит, какую формулу нужно использовать, эту:

, где  ,
или эту:

, где   отыскивается с помощью распределения


Стьюдента.
Некоторые коварные авторы (вроде меня) могут предложить и «простое»
выборочное отклонение  , и тогда его следует поправить по
формуле:  , которая следует из соотношения

дисперсий:  .  Иногда бывает предложена и дисперсия (та или


иная). И поэтому именно здесь нужно проявить аккуратность, сами же
вычисления достаточно примитивны.
И ещё один момент: при увеличении объёма выборки  , распределение
Стьюдента стремится к нормальному распределению, и поэтому уже при   
(2-й случай) допускается нахождение   с помощью того же
соотношения  . Но я бы не рекомендовал так делать. Потому что если
дано  , то предполагается, что решать нужно именно через «Стьюдента», и
при наличии Экселя с этим никаких проблем – можно рассчитать любые
значения, которые отсутствуют в таблицах.
И быстренько более редкая задача:
Доверительный интервал для оценки
генеральной дисперсии и стандартного отклонения
Этот интервал можно построить несколькими способами, которые я постараюсь
уместить буквально в пару экранов. И сейчас последует продолжение той же
задачи об измерениях:
Пример 25

По   равноточным измерениям найдено исправленное среднее


квадратическое отклонение  . Предполагая, что результаты измерений
распределены нормально, построить доверительный интервал для оценки
истинного значения   (генерального стандартного отклонения) с
надёжностью  .
Обратите внимание, что для решения этой задачи нам не обязательно знать
выборочную среднюю (хотя в Примере 23 мы её нашли).
Способ первый. Доверительный интервал для оценки неизвестной
дисперсии   нормально распределённойгенеральной совокупности
определяется следующим образом (не пугаемся):

, где   – распределение «хи-квадрат» (ещё один


скелет в шкафу:)), а  ,   – его критические значения, вычисленные

для  , 
Данный интервал с вероятностью   (надёжностью) накрывает истинное
значение  . И если из всех частей неравенства извлечь корни, то получим
соответствующий интервал для оценки генерального стандартного отклонения:
Значения   известны, и осталось разобраться с нижним этажом.
Во-первых, вычислим:

и теперь, по таблице критических значений распределения   или с


помощью расчётного макета (Пункт 11б) находим:

Обратите внимание, что получены различные значения, и наш доверительный


интервал будет асимметричным (ввиду асимметрии распределения «хи-
квадрат»):

 – не забываем извлечь корни из знаменателей!


 – таким образом, с вероятностью   можно утверждать, что
данные интервал накроет генеральное стандартное отклонение  .
Как видите, интервал действительно асимметричен относительно выборочного
значения   и, несмотря на его широкий диапазон, даёт хорошую оценку
сверху.
Способ второй. Другой, более простой подход состоит в построении
симметричного интервала по формуле:
, где значение   отыскивается по соответствующей
таблице.

Согласно таблице, доверительной вероятности   и объёму   


соответствует значение  , таким образом:

И у простоты, как вы видите, есть оборотная сторона. В результате мы


получили значительно более широкий интервал, и для малых выборок может
даже статься, что  . В таких случаях принимают ещё более грубую
интервальную оценку:

Кроме того, типовая таблица   содержит небольшое количество данных, а


рассчитать другие значения затруднительно. По той причине, что они получены
как результат вычисления зубодробительных определённых интегралов.

Ответ: 1)  , 2)  .


Как и для распределения Стьюдента, при увеличении   распределение хи-
квадрат стремится к нормальному, и уже при   можно использовать
приближенную формулу:
, где коэффициент доверия определяется из
знакомого лапласовского соотношения  .
Иногда встречаются обратная задача – по известной точности оценки (т.е.
известному интервалу) найти доверительную вероятность  . Иногда требуется
построить одностороннюю оценку. Но ввиду их исключительного «иногда», я
передаю привет студентам Московского института статистики и продолжаю :)
Точнее завершаю, и ради исследовательского интереса предлагаю продолжить
вам – экзаменационный Пример 20:
Пример 26

В результате обработки  экспериментальных данных объёма   мы


получили следующие выборочные характеристики:  .
В предположении о нормальном распределении генеральной совокупности, с
надёжностью   определить доверительные интервалы:

1) для оценки неизвестной генеральной средней  ;


2) для оценки генерального среднего квадратического отклонения   двумя

способами – с помощью распределения хи-квадрат:   и

приближённо, по формуле  , где  .


И заметьте, что здесь «плакал» лёгкий способ построения
интервала  , так как в стандартной таблице отсутствуют
значения для  .
Краткое решение и примерный образец оформления в конце урока, который
подошёл к концу. В следующей небольшой статье я разберу частную, но
весьма популярную задачку по этой же теме – Оценка вероятности
биномиального распределения, ну а если вам не терпится, то сразу
к послеследующей статье.
До скорых встреч!

Пример 22. Решение:

1) По условию, точность оценки равна   и


дисперсия  .

Из формулы   найдём коэффициент доверия:

Вычислим соответствующую доверительную вероятность:


 – таким образом, с вероятностью
86,64% можно утверждать, что генеральная средняя   отличается
от   менее чем на   (т.е. находится в доверительном интервале
от 90 до 96)

2) Для доверительной вероятности  :

 – этому значению функции Лапласа


соответствует аргумент:  .
Вычислим точность оценки:

Определим доверительный интервал:

 
 – данный интервал с вероятностью 99% накрывает
истинное значение  .

Ответ: а)  , б) 


Пример 24. Решение: доверительный интервал для оценки истинного
значения   измеряемой величины имеет вид:

Для заданного уровня доверительной вероятности   и количества


степеней свободы   по таблице распределения
Стьюдента находим:  .
Вычислим точность оценки:

 сек.
Таким образом, искомый доверительный интервал:

 – данный интервал с вероятностью 99,9% накрывает


истинное значение   среднего времени изготовления одного диода.

Ответ: 
Пример 26. Решение: вычислим исправленное среднеквадратическое
отклонение:
1) Определим  доверительный интервал  , где  .
Для уровня доверительной вероятности   и объёма выборки   
по соответствующей таблице найдём  .
Вычислим точность оценки:

Таким образом:

 – с вероятностью   данный интервал накроет


генеральное среднее значение  .
2) Найдём доверительный интервал для генерального стандартного
отклонения  .

а) С помощью распределения   :

Вычислим   и с
помощью соответствующей функции Экселя (Пункт 11б) найдём:

Таким образом:

 – искомый интервал, накрывающий генеральное значение   с


вероятностью  .
б) Дадим интервальную оценку приближенно, с помощью формулы:

Коэффициент доверия найдём из соотношения  . В данном случае:


, и с помощью таблицы или расчётного
макета (Пункт 5*), выясняем, что  .
Таким образом:

 – искомый интервал.
Ответ:
1)  ,
2)   с помощью распределения   и   приближённо.

9. Оценка вероятности биномиального распределения

Оценка вероятности биномиального распределения – это одна из частных


задач по теме статистических оценок, и даже если вы не поняли этих слов,
ничего страшного. Ибо на носу очередной Новый год, и на этот раз я не
собираюсь вам дарить дифференциальные уравнения:)
– пусть проводятся независимые испытания, в каждом из
которых некоторое событие   может наступить с вероятностью  , причём
эта вероятность нам не известна. Да, на этот раз не известна.
И в канун праздника мне пришёл в голову такой пример: представьте игровой
автомат или некую игру, в котором разыгрываются призы. Игрушки, зверушки и
прочие товары для взрослых мандаринки. Разумеется, мы не знаем
вероятность   выигрыша в каждой попытке. Но её реально оценить, и оценить
весьма точно, чему и посвящён этот небольшой урок.
Поставленную  задачу поможет решить математическая статистика и группа
студентов, которая совершила   испытаний (в хорошем смысле слова:)) и

выиграла   призов. Тогда относительная частота   


представляет собой точечную оценку неизвестной вероятности  .
Теперь предположим, что другая группа студентов тоже совершила серию
испытаний (не обязательно 300 раз). Какой будет результат? Почти наверняка
они выиграют иную долю призов, то есть, получат другую относительную
частоту. И, проводя многократные серии испытаний по всему университету, мы
получим множество точечных оценок, которые будут варьироваться вокруг
точного значения  .
Как отмечалось ранее, недостаток точечной оценки состоит в том, что она
может оказаться далека от истины (особенно, при малом  ) и поэтому
вероятность   выгодно оценить интервалом:

 – который с заранее выбранной доверительной


вероятностью   накроет истинное значение  .

Напоминаю, что    («дельта») называется точностью оценки и


вышесказанное можно записать компактнее:

 – вероятность, того, что относительная частота   


отклонится от вероятности   менее чем на  .
И давайте оформим демонстрационную задачу формально:
Пример 27
Проводят независимые испытания с одинаковой, но неизвестной
вероятностью   появления события   в каждом испытании. Найти
доверительный интервал для оценки вероятности   с надёжностью  ,
если в   испытаниях событие   появилось   раз.
Да, кстати, если в вашей задаче вероятность   известна, то такие задачи мы
разбирали на уроке о статистической вероятности с той поправкой, что
вместо буквы   там использовалась  .
Решение: если количество испытаний   достаточно велико (порядка сотни и
больше) и значение   не слишком малО *, то требуемый доверительный
интервал можно построить по следующей приближенной формуле:

, где   – относительная частота, а   


– коэффициент доверия, отыскиваемый из соотношения  . Надеюсь,
все уже знают функцию  . …Но я-то всё равно напомню, даже не надейтесь
:)
* Примечание: при этих условиях биномиальное распределение близкО
к нормальному. Несложный вывод этой и более точной  формулы можно
найти, например, в учебном пособии В.Е. Гмурмана.

Вычислим относительную частоту   и точность

оценки  . Коэффициент доверия найдём из


соотношения  , в данном случае:
, следовательно:

 и по таблице значений функции Лапласа или с


помощью расчётного макета (Пункт 5*) определяем, что этому значению
функции соответствует аргумент  .
Таким образом, точность оценки:

 и искомый доверительный интервал:

 – с вероятностью   этот интервал накрывает истинную


вероятность выигрыша в нашей новогодней игре.

Ответ: 
Оценка получилась неплохая, но её неплохо бы улучшить, т.е. уменьшить

значение  , сузив тем самым интервал. Очевидно, что для этого


нужно увеличить количество   испытаний, что совершенно логично. Есть
вариант уменьшить коэффициент доверия  , но тогда упадёт и доверительная
вероятность, поэтому это плохой вариант.
Обратная задача для самостоятельного решения. Тоже праздничная, о
шариках. В подшипниках:
Пример 28
Из 500 поступивших на сортировку шариков для подшипников 200 попало в
первую группу. В предположении о биномиальном распределении, определить:
1) доверительную вероятность того, что найденная доля шариков отклонится от
вероятности попадания шарика в первую группу, менее чем на 0,03.
…все поняли эту фразу? :) …нет, я не специально – это реальная задача,
поэтому разберитесь в условии!
2) доверительную вероятность того, что вероятность попадания шарика в 1-ю
группу будет накрыта интервалом  .
Для первой части сразу приведу готовую

формулу:  , где аргумент функции Лапласа – не

что иное, как коэффициент доверия  , и расчётный макет (Пункт


5) вам в помощь. А вот вторая часть – творческая, в ней предложен

несимметричный относительно    доверительный интервал.


Краткое решение с комментариями в конце урока.
И ещё один сюрприз состоит в том, что эта статья получилась короткой – это
подарок для вас, это подарок для меня, и сейчас мы разберём ещё одну
важную и интересную вариацию рассматриваемой задачи, которая касается как
раз количества испытаний:
Пример 29

Проверив   изделий, обнаружили, что   изделий высшего сорта. Сколько


надо проверить изделий, чтобы с уверенностью 95% определить долю высшего
сорта с точностью до 0,01?

Сразу вычислим относительную частоту   и для


исследовательского интереса найдём вероятность  , с которой истинное
значение   накрывается столь узким интервалом  .
Примечание: параметр   – есть вероятность того, что наугад
извлечённое изделие окажется первосортным, его также
называют генеральной долей (изделий высшего сорта) и чаще обозначают
буквой  .

Используем формулу  . В данном случае:

 – ну, и, конечно,
такое кислое значение никуда не годится – тут уж проще монетку подбросить,
чем всё это считать :)

Поэтому в задаче и требуется обеспечить надёжность  ,


и решение проводится по той же формуле:

 – откуда следует отыскать   – объём


выборки, обеспечивающий столь высокую доверительную вероятность.
В данном случае:

, следовательно:

 – и по таблице значений функции Лапласа либо


по расчётному макету (Пункт 5*) выясняем, что этому значению функции
соответствует аргумент 1,96:

теперь технически удобно возвести обе части в квадрат:

и найти искомый объём выборки:

 – тут логично округлить


в бОльшую сторону.
Итак, для того, чтобы с уверенностью 95% определить долю высшего сорта с
точностью до 0,01, нужно проверить, ответ: 8068 изделий
И если проверять изделия вручную, то это, конечно, многовато. Поэтому в
подобном случае лучше поступиться точностью оценки  , и для
исследовательского интереса я предлагаю вам те же значения 
, для которых нужно построить доверительный интервал, который с
вероятностью   накроет истинную долю   первосортных изделий.
Краткое решение совсем близко, и в оставшуюся до НГ неделю я таки успел
порадовать вас ещё одной статьей – об оценках по повторной и
бесповторной выборке, где, в частности рассмотрены вариации только что
разобранной задачи.
Решения и ответы:

Пример 28. Решение: вычислим относительную частоту   и


обозначим через   неизвестную вероятность того, что шарик попадёт в
1-ю группу.

1) Используем формулу  . В данном


случае  , таким образом:

 – вероятность

того, что, что значение   будет отличаться от   менее чем


на  .
Иными словами, интервал   с вероятностью   
накрывает истинное значение  .

2) Предложенный доверительный интервал   не симметричен


относительно относительной частоты   и имеет вид:  ,
где  .

Запишем левостороннюю точность оценки:   и найдём


соответствующий коэффициент доверия:

.
По таблице значений функции Лапласа:
 – левосторонняя доверительная вероятность.
Аналогично для правой стороны:

 – правосторонняя доверительная вероятность.


Таким образом, двусторонняя доверительная вероятность составляет:
 – иными словами с такой
вероятностью интервал   накрывает истинное значение  .

Ответ: а)  , б) 


К Примеру 29: Решение: построим доверительный интервал:

Из соотношения   найдём:

, откуда следует, что  .


Вычислим точность оценки:

 – как видите, точность вполне


удовлетворительна.
Таким образом:

 – с вероятностью 95%  можно утверждать, что этот


интервал накрывает истинное значение генеральной доли   первосортных
изделий.

10. Оценка генеральной средней и генеральной доли


по повторной и бесповторной выборке

Продолжаем тему статистических оценок, и сразу разбираемся в новых


словах, которые следовало бы озвучить ещё на первом уроке :)
Повторная и бесповторная выборка. Что это значит? Слова говорят сами за
себя:
– Если случайно отбираемые объекты не возвращаются в генеральную
совокупность, то это бесповторная выборка. Если же выбранный объект
возвращается обратно (перед выбором следующего), то это повторная
выборка, т.е. здесь один и тот же попугай может быть выбран неоднократно.
И те и другие примеры уже встречались ранее, но, конечно, нам привычнее и
понятнее бесповторный отбор. Вспоминаем основную задачу статистики и
Фёдора с помидорами. Совершенно понятно, что после случайного выбора
помидора нет никакого смысла возвращать его обратно в коробку, более того, в
этом даже есть вредный смысл – ибо овощ может попасться снова, что
ухудшит репрезентативность выборки. Или исследование успеваемости
студентов ВУЗа. Однозначно и лучше бесповторный отбор. Другой пример, это
телефонный опрос, давайте под праздник: «Верите ли вы в Деда Мороза?»,
как вариант, анкетирование: «да / нет / по праздникам». Здесь тоже вредно
спрашивать каждого респондента дважды :), и поэтому опрос проводится без
повторов.
Но вот в иных случаях это полезно, например, при статистическом
исследовании прогулов в университете. Очевидно, что один и тот же студент
может попасть в выборку неоднократно, и было неправильно не учитывать его
повторные прогулы. Или количество обращений в поликлинику – то же самое,
один тот же человек может обратиться несколько раз. Другой
распространённый пример – многократное измерение некоторой величины.
Теоретически генеральная совокупность бесконечна, и из неё мы «выбираем»
несколько значений, которые могут повторяться, причём, не только
теоретически, но и практически, по причине округления измерений.
А теперь к теме. На данном уроке мы рассмотрим детализированную задачу
о доверительном интервале генеральной средней и о доверительном
интервале доли; последняя только что встретилась в предновогодней статье
об оценке вероятности биномиального распределения (Пример 29).
Детализация состоит в том, что построение доверительного интервала
зависит от того, бесповторная была проведена выборка или повторная.
Как и прежде, полагаем, что во всех нижеследующих задачах генеральная
совокупность распределена нормально, либо её распределение близкО к
таковому. Этот факт может быть известен и / или подкреплён статистическими
методами.
Для опытных читателей мини-оглавление и быстрая ссылка:
Оценка генеральной средней (заголовок ниже)
Оценка генеральной доли
и для всех – большой и приятный путь:
Оценка генеральной средней
Итак, записываем: пусть из нормально распределенной (или около
того) генеральной совокупности объёма   проведена выборка объёма   и по
её результатам найдена выборочная средняя   и исправленная
выборочная дисперсия  .

Тогда доверительный интервал для оценки генеральной средней   


имеет вид:
,  где   («дельта») – точность оценки, которую также
называют предельной ошибкой репрезентативности выборки.

Точность оценки рассчитывается как произведение   – коэффициента


доверия   на среднюю ошибку выборки  («мю»).  Для бесповторной выборки

она составляет  , а для повторной:  . В том случае, если


изначально известна генеральная дисперсия  , то используют, конечно, её.

Если объём выборки  , то коэффициент доверия определяется с


помощью распределения Стьюдента (см. также Пункт 11б для  ).
Если  , то чаще пользуются соотношением  , где   – функция
Лапласа, а  – доверительная вероятность. Значение «гамма» показывает, с
какой вероятностью построенный интервал   накрывает истинное
значение  .
С конспектом отмучились, теперь задачи :) Есть у меня тут на выбор несколько
штук: про вклады в банке, про токарей на заводе, …но, вот, пожалуй, самая
зимняя – как говорится, у кого подснежники в марте, а у кого и подсолнухи в
декабре:)
Пример 30
С целью изучения урожайности подсолнечника в колхозах области проведено
5%-ное выборочное обследование 100 га посевов, отобранных в случайном
порядке, в результате которого получены следующие данные:

С вероятностью 0,9973 определить предельную ошибку выборки и возможные


границы, в которых ожидается средняя урожайность подсолнечника в области.
Решение: в условии не указан тип отбора, но исходя из логики исследования,
положим, что он бесповторный. Поскольку выборка 5%-ная, то она составляет
1/20-ю часть генеральной совокупности, стало быть, общая посевная площадь
области составляет:

 гектаров – не знаю, насколько это реалистично,


оставим этот вопрос на совести автора задачи.

По условию, требуется найти предельную ошибку выборки  , где   –


коэффициент доверия, соответствующий доверительной
вероятности  , и коль скоро, выборка бесповторна и генеральной
дисперсии мы не знаем, то средняя ошибка рассчитывается по

формуле  . Далее нужно найти интервал  ,


который с вероятностью 99,73% накроет генеральную среднюю   
урожайность подсолнечника по области.
И если с коэффициентом «тэ» трудностей никаких, то коэффициент «мю» здесь
трудовой – по той причине, что нам не известна ни сама выборочная средняя,
ни исправленная выборочная дисперсия. Ну что же, хороший повод
освежить пройденный материал.
Смотрим на таблицу выше и приходим к выводу, что нам
предложен интервальный вариационный ряд с открытыми крайними
интервалами. Поскольку длина частичного интервала составляет   га, то
вопрос закрываем так: 11-13 и 19-21 га.

Находим середины   интервалов (переходим к дискретному ряду),


произведения   и их суммы:
С порядком заполнения таблицы и техникой вычислений можно ознакомиться
на предыдущих уроках, даже кино на эту тему есть.
Вычислим выборочную среднюю:

 – центнеров с гектара.
Выборочную дисперсию вычислим по формуле:

Этим частенько пренебрегают, но я призываю поправлять дисперсию:

 – мелочь, а приятно.

И составляем доверительный интервал   для оценки


генеральной средней урожайности подсолнечника по области.

Вычислим предельную ошибку  .

Так как объём выборки  , то коэффициент доверия ищем из


соотношения   (но можно использовать и распределение Стьюдента).
Поскольку  , то:

По таблице значений функции Лапласа или с помощью Экселя (Пункт 5*),


определяем, что этому значению функции соотвествует аргумент  .
Вычислим среднюю ошибку бесповторной выборки:

 ц/га, таким
образом, предельная ошибка составляет   ц/га, и искомый
доверительный интервал:

 (ц/га) – границы, в которых ожидается средняя урожайность


подсолнечника в области с вероятностью  .
Кстати, такое «странное» значение вероятности не случайно, дело в том, что
оно соотвествует правилу «трёх сигм», т.е., практически достоверным
является тот факт, что построенный интервал накроет истинное значение   
средней урожайности по области.

Ответ:   ц/га,   (ц/га)


Теперь распишем интервал в развёрнутом виде:

и проанализируем дробь  . Очевидно, что при увеличении объёма выборки   

эта дробь будут увеличиваться до единицы, и, соответственно, разность   


будет уменьшаться до нуля. Таким образом, предельная

ошибка   уменьшается, и доверительный интервал становится


меньше, что вполне логично – ведь чем больше выборка, тем точнее оценка. И
в предельном случае, когда мы исследовали всю генеральную
совокупность  , ошибка   становится нулевой и доверительный
интервал вырождается в генеральную среднюю  .
Исходя из вышесказанного, можно рассмотреть две обратные задачи:
1) Предположим, что нам хочется уменьшить доверительный интервал,
например, в два раза, т.е. споловинить предельную ошибку до   ц/га
(вместо 0,6). Но высокую доверительную вероятность и соответствующий
коэффициент   мы сохранить хотим. Тогда ничего не остаётся, как

увеличивать объём выборки. Из соотношения   выведем


формулу для нахождения этого объёма, для этого возведём обе части в
квадрат:

 и разрешим уравнение относительно  :

, откуда следует:

Таким образом, для того чтобы с доверительной вероятностью   


обеспечить точность  , следует организовать выборку объёмом:

 гектара – округляем в бОльшую сторону, что


составляет   генеральной совокупности. Таким образом,
трудозатраты возросли примерно в 3,5 раза. Тоже логично.

И обращаю ОСОБОЕ внимание, что найденный ранее интервал   


уменьшать в два раза НЕЛЬЗЯ:  . Почему?  Потому что в новой
выборке мы почти наверняка получим другое значение   и
интервал   «сдвинется», да и точность   будет выдержана
лишь примерно (т.к. значение   тоже изменится).

2) Теперь обратная ситуация – когда оценка   нас устраивают, но нет


возможности или времени проводить большую выборку. Да чего тут,
исследовали   гектаров из  , и нормально. В этом случае
пострадает доверительная вероятность, давайте выясним насколько:

и по таблице значений функции Лапласа или с помощью расчётного


макета (Пункт 5), находим:

, что, конечно, «на гране фола».


Впрочем, это было очевидно – ведь такая малая выборка явно не
репрезентативна (плохо представляет генеральную совокупность).
Поэтому нужно найти возможность, время, желание и провести нормальное
исследование :) А также решить следующую задачу:
Пример 31

По результатам 10%-ной бесповторной выборки объёма  , найдены


выборочная средняя   и дисперсия  .
а) Найти пределы, за которые с доверительной вероятностью 0,954 не выйдет
среднее значение генеральной совокупности.
б) Выборку примерно какого объёма нужно организовать, чтобы с той же
доверительной вероятностью улучшить точность оценки в три раза?
В пункте «бэ» можно использовать готовую формулу (см. выше), хотя я и
противник такого подхода, но во многих источниках предлагается именно она.
Краткое решение и ответ в конце урока.
Если выборка повторная, то почти всё то же самое, с той поправкой,

что средняя ошибка выборки определяется без множителя  :

, таким образом, предельная ошибка составляет   и


соответствующий доверительный интервал для оценки генеральной средней:

 – не что иное, как интервал, который был рассмотрен


и неоднократно построен в 1-й части урока о статистических оценках.

Примечание: если известна дисперсия генеральной совокупности  , то,


разумеется, используется она.
Теперь поставим предельные ошибки рядом:

и проанализируем такой момент: при большом объёме   генеральной


совокупности (которая может быть и бесконечной) и малом объёма

выборки   грань между формулами стирается. По той причине, что дробь   

стремится к нулю и разность   – к единице, в результате чего 1-я


формула практически совпадает со 2-й, чем мы уже пользовались ранее.
Вспомним, например, Пример 21:

Известно, что генеральная совокупность распределена нормально со
средним квадратическим отклонением  . Найти доверительный
интервал для оценки математического ожидания    с надежностью 0,95,
если выборочная средняя  , а объем выборки  .

В условии не сказано, повторная ли проведена выборка или бесповторная, и не
известен объём   генеральной совокупности. Поэтому ничего не остаётся, как

допустить, что она очень великА и пользоваться формулой  . В том


решении мы получили   и доверительный интервал  ,
который с вероятностью   накрывает неизвестное математическое
ожидание  . Кроме того, было прорешано ещё несколько похожих задач, но во
всех из них остался за кадром анализ объёма выборки. И сейчас пришло время
наверстать упущенное:
Пример 32

По данным Примера 21 ( ) определить объём выборки, обеспечивающий


точность   с вероятностью  .
Да, вот так вот сурово :)

Но решение очень простое. Прежде всего, из формулы    выразим


«эн», здесь это намного проще. Возведём обе части в квадрат:

 и порядок: 
Доверительной вероятности   соответствует коэффициент   (из
соотношения  ).
Таким образом:

  – объём выборки, необходимый для обеспечения


точности   с вероятностью  .

Это означает, что доверительный интервал  , где   –


значение, найденное по выборке объёмом 900, практически достоверно
накроет генеральную среднюю  .

И ещё раз подчёркиваю, что значение   из Примера


21 использовать нельзя, ибо новая выборка – новая средняя. Но заметьте, что
здесь известна генеральная дисперсия и поэтому точность   будет
выдержана строго.

Ответ: 
Как видите, объём заметно возрос, и если вам хочется совсем крутой точности,
скажем,   с той же вероятностью  , то придётся выбрать уже:

 объектов, после чего практически достоверно можно


утверждать, что рассчитанное по этой выборке значение   будет отличаться
от   менее чем на 0,1. Но тут нужно смотреть – будет ли такая большая
выборка целесообразной.
И в заключение параграфа ещё один любопытный факт: если для

бесповторной выборки ошибка   может строго равняться нуля

(когда  ), то для повторной выборки это не так:   – здесь она


может лишь стремиться к нулю при  , даже если объём генеральной
совокупности конечен. Это обусловлено эффектом повторности – представьте,
что из чёрного ящика наугад извлекаются некие предметы и возвращаются
обратно. Мало того, что они будут учтены не одинаковое количество раз, так
некоторые из них теоретически могут вообще не попадаться сколь угодно
долго.
Оценка генеральной доли
Быстренько освежим в памяти, что такое доля. Пусть из генеральной
совокупности объёма   вновь проведена выборка объёмом  , и по её
результатам требуется оценить генеральную долю объёктов, обладающих
некоторым количественным или качественным признаком.
Вспоминаем   помидоров на базе, среди которых   первосортных. Тогда

отношение   является генеральной долей первосортных помидоров.


Однако исследовать все овощи затруднительно, поэтому
организуется представительная выборка из   помидоров, среди которых

первосортных окажется   штук. Отношение   называется выборочной


долей.

И наша задача состоит в том, чтобы по найдённому значению   оценить


истинную долю  . Как оценить? С помощью доверительного интервала:
, где   – предельная ошибка доли.
Далее для удобства я буду опускать подстрочный индекс у выборочной
доли:  .
В том случае, если выборка достаточно велика (  порядка сотни и больше), а
доля не слишком малА (по крайне мере, больше нескольких процентов), то
предельная ошибка доли определяется как произведение  , где   –
коэффициент доверия, определяемый из того же соотношения   для
заданного уровня доверительной вероятности, а   – средняя ошибка доли,
которая определяется так:

 – для бесповторной выборки;

 – для повторной выборки.


В том случае, если генеральная совокупность велика, а выборка малА, то для

бесповторной выборки можно использовать и 2-ю формулу, ибо дробь   будет


близка к нулю.
Как видите, формулы очень похожи, только вместо дисперсии у нас тут
произведение  , и чего томиться, сразу задача:
Пример 33
В целях изучения суточного пробега автомобилей автотранспортного
предприятия проведено 10%-ное выборочное обследование 100 автомобилей
методом случайного бесповторного отбора, в результате которого получены
следующие данные:
С вероятностью 0,954 требуется определить долю машин в генеральной
совокупности с пробегом более 180 км.
Решение: вычислим количество автомобилей с пробегом более 180 км по
выборке:
. Таким образом:

 – выборочная доля автомобилей с пробегом более 180


километров.

Генеральную долю   таких автомобилей оценим с помощью доверительного


интервала:
, где   – предельная ошибка доли.

Для уровня доверительной вероятности   находим знакомый


коэффициент доверия:

Следует отметить, что он не обязан быть целым, просто в задачах


рассматриваемого типа почему-то любят предлагать нежные значения
«гамма». Наверное, щадят студентов-экономистов, у которых эта задача – чуть
ли не обязательная по предмету :) …а то таблицы Лапласа там всякие
смотреть надо, жесть, короче :) А тут запомнил, и всё.
Вычислим среднюю ошибку доли. Коль скоро, выборка 10%-ная, то объём

генеральной совокупности равен   автомобилей и для


бесповторной выборки:

Таким образом, предельная ошибка доли   и искомый


доверительный интервал:

 – с вероятностью 95,4% данный интервал накрывает


истинную генеральную долю   автомобилей с пробегом более 180 км.

Ответ: 
Кстати, тут можно оценить и абсолютное количество таковых машин:

 – от 425 до 615 автомобилей.


Но результат, конечно, такой слабоватый. И помочь здесь может увеличение
выборки.
Родственная формула уже выведена в предыдущем параграфе, и я просто
заменю дисперсию произведением  :
 – здесь по желаемой предельной ошибке можно вычислить
необходимый объём выборки.
И прямо сейчас у вас представится такая возможность. На десерт:
Пример 34
Методом механического отбора проведено однопроцентное обследование веса
пирожных, изготовленных кондитерской фабрикой за сутки. Распределение
веса пирожных по весу следующее:

а) С вероятностью 0,9973 определить пределы, в которых будет находиться


доля пирожных весом не менее 100 г, во всей суточной продукции
б) Сколько процентов пирожных нужно проверить, чтобы улучшить оценку в 7
раз? (при той же доверительной вероятности)
Краткое решение и ответ в конце урока. И в его заключение пара слов
о повторной выборке. На самом деле такую задачу мы уже разобрали на уроке
об оценке вероятности биномиального распределения (Пример 29).
Цитирую условие:

Проверив   изделий, обнаружили, что   изделий высшего сорта.
Сколько надо проверить изделий, чтобы с уверенностью 95% определить
долю высшего сорта с точностью до 0,01?

Заметьте, что в этой задаче ничего не сказано о типе выборки, но, судя по
всему, она бесповторна. Однако размер генеральной совокупности не указан, и
поэтому ничего не остаётся, как предположить, что изделий очень много и

использовать формулу   повторной выборки.


С решением можно ознакомиться по ссылке выше (единственное, там буквы
немного другие), ну а я ещё раз поздравляю всех с праздником – всем солнца,
пирожных и автомобилей! И, конечно, хороших оценок ;)

Пример 31. Решение: вычислим исправленную выборочную дисперсию:

а) Вычислим предельную ошибку   выборки.


Так как  , то коэффициент доверия найдём из соотношения  .
Примечание: ввиду небольшого объёма выборки хорошо смотрится
и оценка по Стьюденту, что может быть даже предпочтительнее.
По условию,  , следовательно:

По таблице значений функции Лапласа находим, что этому значению


функции соотвествует аргумент 
Поскольку выборка 10%-ная бесповторная, то объём генеральной
совокупности равен:

Вычислим среднюю ошибку выборки:

 
Таким образом, предельная ошибка:
 и искомый доверительный интервал:

 – пределы, которые с доверительной вероятностью 0,954


накрывают среднее значение генеральной совокупности.

б) Улучшим точность оценки в три раза:   и воспользуемся


формулой:

 (округлять
лучше до бОльшего значения)

Таким образом, для того, чтобы с вероятностью 95,4% утверждать, что   


 отличается от    менее чем на  , следует провести выборку
объёмом примерно   (что составляет половину генеральной
совокупности, и, конечно, нецелесообразно).

Ответ: а)  , б) 


Пример 34. Решение:
а) Вычислим количество пирожных весом не менее 100 грамм:
. Таким образом:

 – выборочная доля таковых пирожных.


Соответствующую генеральную долю оценим с помощью доверительного
интервала:
, где   – предельная ошибка.

Уровню доверительной вероятности   соответствует


коэффициент 
Вычислим среднюю ошибку доли. Поскольку выборка 1%-ная и бесповторная,
то:

Таким образом, предельная ошибка доли   и искомый


доверительный интервал:

 – данный интервал практически достоверно накрывает долю


пирожных весом не менее 100 грамм во всей суточной партии.

б) Улучшим точность оценки в 7 раз:   и вычислим объём


выборки, которую следует организовать, чтобы обеспечить эту точность.
Учитывая, что объём генеральной совокупности

составляет  :

Таким образом, для того, чтобы с вероятностью 99,73% можно было


утверждать, что выборочная доля   пирожных весом не менее 100 грамм
будет отличаться от истинного значения   менее чем на 0,02, следует
организовать выборку объёмом   пирожных, что составляет
примерно треть генеральной совокупности.

Ответ: а)  , б) 

11. Статистические гипотезы

Надо сказать, капитально я «подзавяз» в интегралах, диффурах и тервере, и


после основательной доработки этих разделов безмерно рад напечатать
первый абзац 11-й статьи по матстату.
Есть ли жизнь после сессии смерти? Далеко не каждая гипотеза является
статистической, и перед тем как перейти к теме, я на всякий случай поставлю
ссылку на 1-й урок по математической статистике, если «чайникам» будет
что-то не понятно в терминах.
Сначала кратко разберём теорию, затем наиболее распространённые
задачи (сразу ссылка для «самоваров»). Зажигаем:
Пусть исследуется некоторый признак статистической совокупности.
Успеваемость студентов, продолжительность жизни… каждый подумал о
своём, точность измерений, да что угодно – хоть качество помидоров. Всё, что
можно «оцифровать» и посчитать.
Как проводится исследование? Обычно так: из генеральной
совокупности извлекается репрезентативная выборка (всё понятно?), и на
основании изучения этой выборки делается вывод обо всей совокупности.
Напоминаю, что это основной метод математической статистики и
называется он выборочным методом. В зависимости от исследования, могут
проводиться неоднократные выборки, выборки из нескольких ген.
совокупностей, да и вообще анализироваться произвольные статистические
данные.
И в результате анализа этих данных появляются мысли, которые
оформляются в статистические гипотезы.
Статистической называют гипотезу о законе распределения статистической
совокупности  либо о числовых параметрах известных (!) распределений.
Например:
– рост танкистов распределен нормально;
– дисперсии стрельбы двух танковых дивизий равны между собой, при этом
известно*, что точность стрельбы распределена нормально.
* из многочисленных ранее проведённых исследований.
В первом случае выдвигается гипотеза о законе распределения, во втором – о
числовых характеристиках двух распределений, закон которых известен.
Откуда взялись эти гипотезы? В первом случае была
проведена выборка танкистов (например, 100 человек) и в результате её
исследования появилось обоснованное предположение, что рост ВСЕХ
танкистов распределён нормально. Во втором случае
исследовались выборочные данные по точности стрельбы двух дивизий, в
результате чего возник интерес проверить – а одинакова ли генеральная
результативность, или же какая-то дивизия стреляет точнее?
В обеих гипотезах речь идёт о генеральных совокупностях, и выдвигаются эти
гипотезы на основании анализа выборочных данных. Это распространенная
схема, но она не единственна, бывают и другие статистические гипотезы.

Выдвигаемую гипотезу называют нулевой и обозначают через  . Обычно это


наиболее очевидная и правдоподобная гипотеза (хотя это вовсе не
обязательно). И в противовес к ней
рассматривают альтернативную или конкурирующую гипотезу  .
В рассмотренных выше примерах альтернативные гипотезы очевидны
(отрицают нулевую), но существуют и другие варианты, так, например, к
гипотезе  : генеральная средняя нормально распределённой совокупности
равна  ,  можно сформулировать разные конкурирующие
гипотезы:   или конкретно  , это
зависит от условия и данных той или иной задачи.
Поскольку нулевая гипотеза выдвигается на основании выборочных данных, то
она может оказаться как правильной, так и неправильной – мы не знаем! И
поэтому она подлежит статистической проверке.
Проверка осуществляется с помощью статистических критериев – это
специальные случайные величины, которые принимают различные
действительные значения. В разных задачах критерии разные, и мы
рассмотрим их в конкретных примерах.
В результате проверки нулевая гипотеза либо принимается, либо отвергается в
пользу альтернативной. При этом есть риск допустить ошибки двух типов:

Ошибка первого рода состоит в том, что гипотеза   будет отвергнута, хотя


на самом деле она правильная. Вероятность допустить такую ошибку
называют уровнем значимости и обозначают буквой   («альфа»).  

Ошибка второго рода состоит в том, что гипотеза   будет принята, но на


самом деле она неправильная. Вероятность совершить эту ошибку обозначают
буквой   («бета»). Значение   называют мощностью критерия – это
вероятность отвержения неправильной гипотезы.
Уровень значимости задаётся исследователем самостоятельно, наиболее
часто выбирают значения  . И тут возникает мысль, что
чем меньше «альфа», тем вроде бы лучше. Но это только вроде: при
уменьшении вероятности  - отвергнуть правильную гипотезу растёт
вероятность   - принять неверную гипотезу (при прочих равных условиях).
Поэтому перед исследователем стоит задача грамотно подобрать соотношение
вероятностей   и  , при этом учитывается тяжесть последствий, которые
повлекут за собой та и другая ошибки.
Понятие ошибок 1-го и 2-го рода используется не только в статистике, и для
лучшего понимания я как раз приведу нестатистический пример…, опять
напрашивается хардкор про диагностику болезни, но мы будем-таки
настраиваться на позитив:
Танкист Вася поиграл с котами и зарегистрировался в почтовике. По
умолчанию,   – он считается добропорядочным пользователем. Так считает
антиспам фильтр. И вот Вася отправляет письмо. После чего фильтр может
совершить ошибку двух типов: 1) ошибочно отклонить нулевую
гипотезу (счесть нормальное письмо за спам и Васю за
спаммера) или 2) ошибочно принять нулевую гипотезу (хотя Вася редиска).
Какая ошибка более «тяжелая»? Васино письмо может быть ОЧЕНЬ важным
для адресата, и поэтому при настройке фильтра целесообразно уменьшить
уровень значимости  , пожертвовав вероятностью  , в результате чего в
основной ящик будут чаще попадать письма особо талантливых спаммеров. …
Такое и почитать даже можно, ведь сделано с любовью :)
Существует примеры, где наоборот – более тяжкие последствия влечёт ошибка
2-го рода, и вероятность   следует увеличить (в пользу уменьшения
вероятности  ). Примеры придумайте самостоятельно, самые прикольные
опубликую :) …и садистских побольше, садистских =)
Ну а теперь возвращаемся к статистике.
Процесс проверки статистической гипотезы состоит из следующих
этапов:
1) Обработка выборочных данных и выдвижение основной   и
конкурирующей   гипотез. К нулю, кстати, нулевая гипотеза не имеет никакого
отношения, это просто историческое название, оно могло оказаться каким
угодно.
2) Выбор статистического критерия  . Это непрерывная случайная
величина, принимающая различные действительные значения. В разных
задачах критерии разные.
3) Выбор уровня значимости  , о дилемме выбора этого значения я чуть-чуть
рассказал выше. 

4) Нахождение критического значения   – это значение случайной


величины  , которое зависит от выбранного уровня значимости   и
опционально от других параметров. Критическое значение
определяет критическую область. Она бывает левосторонней,
правосторонней и двусторонней (красная штриховка):

Критическая область – это область отвержения нулевой гипотезы.


Незаштрихованную область называют областью принятия гипотезы.
Следует отметить, что это только одна из графических моделей. Существуют
статистические критерии, которые принимают далеко не все действительные
значения.
5) Далее на основании выборочных данных рассчитывается наблюдаемое
значение критерия:  . И вердикт:

– Если   в критическую область НЕ попадает, то гипотеза   на уровне


значимости   принимается. Здесь мы с вероятность   рисковали отвергнуть
правильную гипотезу. Однако не нужно думать, что нулевая гипотеза доказана
и 100% правильна, ведь существует вероятность   – того мы совершили
совершить ошибку 2-го рода (приняли неверную гипотезу).

– Если   попадает в критическую область, то гипотеза   на уровне


значимости   отвергается (при этом, если, например,  , то в среднем
в 5 случаев из 100 мы отвергнем правильную гипотезу, т.е. совершим
ошибку 1-го рода).
…ну а что делать?  – такая вот статистика неточная наука :)
И по горячей информации сразу разберём одну из наиболее распространённых
гипотез:
Гипотеза о генеральной средней нормального распределения
Постановка задачи такова: предполагается, что генеральная средняя   
нормального распределения равна некоторому значению  . Это нулевая
гипотеза:

Для проверки гипотезы на уровне значимости   


проводится выборка объема   и рассчитывается выборочная средняя  .
Исходя из полученного значения и специфики той или иной задачи, можно
сформулировать следующие конкурирующие гипотезы:

1) 
2) 
3) 
4)  , где   – конкретное альтернативное значение генеральной
средней.
При этом возможны две принципиально разные ситуации:

а) если генеральная дисперсия   известна.


Тогда в качестве статистического критерия   рассматривают случайную

величину  , где   – случайное значение выборочной средней.


Почему случайное? Потому что в разных выборках мы будем получать разные
значения  , и заранее предугадать это значение невозможно.

Далее находим критическую область. Для конкурирующих гипотез   


и   (случай  ) строится левосторонняя область, для
гипотез   и   (случай  ) – правосторонняя, и для
гипотезы   – двусторонняя – т. к. конкурирующее значение
генеральной средней может оказаться как больше, так и меньше  -го.

Чтобы найти критическую область нужно отыскать критическое значение  .

Оно определяется из соотношения    – для односторонней

области (лево- или право-) и   – для двусторонней области, где   –


выбранный уровень значимости, а   – старая знакомая функция Лапласа.
Теперь на основании выборочных данных рассчитываем наблюдаемое
значение критерия:
это можно было сделать и раньше, но такой порядок более последователен и
логичен.
Результаты:

1) Для левосторонней критической области. Если  , то гипотеза   на


уровне значимости   принимается. Если  , то отвергается. И
картинки тут недавно были, просто заменю букву:

2) Правосторонняя критическая область. Если  , то гипотеза   


принимается, в случае   (красный        цвет) – отвергается:

3) Двусторонняя критическая область. Если   


(незаштрихованный интервал), то гипотеза   принимается, в противном
случае – отвергается:

условие принятия гипотезы часто записывают компактно – с помощью модуля:

И немедленно приступаем к задачам, а то по студенческим меркам я тут уже на


пол диссертации наговорил:)
Пример 35

Из нормальной генеральной совокупности с известной дисперсией   


извлечена выборка объёма   и по ней найдена выборочная
средняя  . Требуется на уровне значимости 0,01 проверить нулевую
гипотезу   против конкурирующей гипотезы  .
Прежде чем приступить к решению, пару слов о смысле такой задачи.
Есть генеральная совокупность с известной дисперсией и есть веские
основания полагать, что генеральная средняя равна 20 (нулевая гипотеза). В
результате выборочной проверки получена выборочная средняя 19,3, и
возникает вопрос: это результат случайный или же генеральная средняя и на
самом деле меньше двадцати? – в частности, равна 19 (конкурирующая
гипотеза).
Решение: по условию, известна генеральная дисперсия  , поэтому для
проверки гипотезы   используем случайную

величину  .
Найдём критическую область. Для этого нужно найти критическое значение. Так
как конкурирующее значение    меньше чем  , то
критическая область будет левосторонней. Критическое значение  определим
из соотношения:

.
для уровня значимости  :

По таблице значений функции Лапласа или с


помощью Калькулятора (Пункт 5*) определяем, что этому значению функции
соответствует аргумент  . Таким образом, при   (красная
критическая область) нулевая гипотеза отвергается, а при   –
принимается:

В данном случае  .
Вычислим наблюдаемое значение критерия:

, поэтому на уровне значимости   нулевую


гипотезу   принимаем.
Такой, вроде бы неожиданный результат, объясняется тем, что генеральное
стандартное отклонение достаточно великО:   , а посему нет
оснований отвергать «главное» значение   (несмотря на то, что
выборочная средняя   гораздо ближе к конкурирующему
значению   ). Иными словами, такое значение выборочной средней,
вероятнее всего, объясняется естественным разбросом вариант  .
Ответ: на уровне значимости 0,01 нулевую гипотезу принимаем.
Что означает «на уровне значимости 0,01»? Это означает, что мы с 1%-ной
вероятностью рисковали отвергнуть нулевую гипотезу, при условии, что она
действительно справедлива. Однако не нужно забывать, что на самом деле она
может быть и неверной и существует  -вероятность того, мы приняли
неправильную гипотезу. Примеры расчёта мощности критерия   для
заданного уровня значимости   и различных конкурирующих значений можно
найти, например, в учебном пособии задачнике В. Е. Гмурмана (поздние
издания). Думал я, думал, и решил-таки этот материал в статью не включать,
ибо задачка редкая, а материал не короткий.
То была «обезличенная» задача, коих очень много, но мы будем менять мир к
лучшему… физическими и химическими способами:) Заодно и понятнее будет,
что здесь к чему:
Пример 36

По результатам   измерений температуры в печи найдено  .


Предполагается, что ошибка измерения есть нормальная случайная величина
с  . Проверить на уровне значимости   гипотезу   
против конкурирующей гипотезы  .
Сначала разберём, в чём жизненность этой ситуации. Есть печка. Для
нормального технологического процесса нужна температура 250 градусов. Для
проверки этой нормы 5 раз измерили температуру, получили 256 градусов. Из
многократных предыдущих опытов известно, что среднеквадратическая
погрешность измерений составляет 6 градусов (она обусловлена погрешностью
самого термометра, случайными обстоятельствами проверки и т.д.)
И здесь не понятно, почему выборочный результат (256 градусов) получился
больше нормы – то ли температура действительно выше и печь нуждается в
регулировке, то ли это просто погрешность измерений, которую можно не
принимать во внимание.
Решение: по условию, известно ген. среднее квадратическое
отклонение  , поэтому для проверки гипотезы   используем

случайную величину  .

Найдём критическую область. Так как в конкурирующей гипотезе   


речь идёт о бОльших значениях температуры, то эта область будет
правосторонней. Критическое значение определим из
соотношения  . Для уровня значимости  :

По таблице значений функции Лапласа или с


помощью Калькулятора (Пункт 5*) определяем, что  . Таким
образом, при    (критическая область) нулевая гипотеза отвергается, а
при   – принимается:

Вычислим наблюдаемое значение критерия:

, поэтому на уровне значимости   нулевую


гипотезу   отвергаем.

Как бы сказали статистики, выборочный результат   статистически


значимо отличается от нормативного значения  , и печь нуждается в
регулировке (для уменьшения температуры).

Ответ: на уровне значимости   гипотезу   отвергаем.


Ещё раз осмыслим – что означает «на уровне значимости 0,05»? Это
означает, что с вероятностью 5% мы отвергли правильную гипотезу
(совершили ошибку 1-го рода). И тут остаётся взвесить риск – насколько
критично чуть-чуть уменьшить температуру (если мы всё-таки ошиблись и
температура на самом деле в норме). Если даже небольшое уменьшение
температуры недопустимо, то имеет смысл провести повторное, более
качественное исследование: увеличить количество замеров  , использовать
более совершенный термометр, улучшить условия эксперимента и т.д.
Следующая задача для самостоятельного решения, и на всякий случай я ещё
раз продублирую ссылку на таблицу значений функции
Лапласа и Калькулятор:
Пример 37
Средний вес таблетки сильнодействующего лекарства (номинал) должен быть
равен 0,5 мг. Выборочная проверка   выпущенных таблеток показала, что
средний вес таблетки равен   мг. Многократными предварительными
опытами по взвешиванию таблеток, изготавливаемых фармацевтическим
заводом, установлено, что вес таблеток распределен нормально со средним
квадратическим отклонением   мг. Требуется на уровне
значимости   проверить гипотезу о том, что средний вес таблеток
действительно равен  .

Рассмотрите как конкурирующую гипотезу  , так и гипотезу  .


И в самом деле – ведь полученное значение   является случайным и  в
другой выборке оно может запросто оказаться и меньше чем 0,5.
Краткое решение и ответы, как обычно, в конце урока.
Кстати, это тот самый пример, где ошибка 2-го рода (ошибочное принятие
неверной нулевой гипотезы), может повлечь гораздо более тяжелые
последствия (опасную передозировку). Поэтому в такой ситуации лучше
включить паранойю и увеличить уровень значимости до   – при этом мы
будем чаще отвергать правильную нулевую гипотезу (совершать ошибку 1-го
рода), но зато перестрахуемся и проведём более тщательное исследование.
Можно ли одновременно уменьшить вероятности ошибок 1-го и 2-го рода (  
и  )? Да можно. Если увеличить объём выборки. Что вполне логично.
Теперь вторая ситуация. Та же самая задача, почти всё то же самое, но:

б) генеральная дисперсия   НЕ известна.


В этом случае остаётся ориентироваться на исправленную выборочную

дисперсию   и критерий   , где   – случайное


значение выборочной средней и   – соответствующее исправленное
стандартное отклонение. Данная случайная величина имеет распределение
Стьюдента с   степенями свободы.
Алгоритм решения полностью сохраняется:
Пример 38

На основании   измерений найдено, что средняя высота сальниковой


камеры равна   мм и   мм. В предположении о нормальном
распределении проверить на уровне значимости   гипотезу   
мм против конкурирующей гипотезы   мм.
И начнём мы опять со смысла задачи, что здесь произошло? Здесь 7 раз
измерили высоту этой камеры, получили среднее значение 51 мм и за
неимением генеральной дисперсии вычислили исправленную выборочную
дисперсию. Согласно норме, высота должна равняться 50 мм – эту гипотезу и
проверяем.
Решение: так как генеральная дисперсия неизвестна, то для проверки

гипотезы   используем случайную величину  .


Конкурирующая гипотеза имеет вид  , а значит, речь идёт о
двусторонней критической области. Критическое значение можно найти по
таблице распределения Стьюдента либо с помощью Калькулятора (Пункт
10в). Для уровня значимости   и количества степеней
свободы  :

Таким образом, при   нулевая гипотеза принимается, и вне этого

интервала (в критической области при  ) – отвергается:

Вычислим наблюдаемое значение критерия:

 – полученное значение попало


в область принятия гипотезы ( ), поэтому на уровне значимости
0,05 нулевую гипотезу принимаем.

Ответ: на уровне значимости 0,05 гипотезу   мм принимаем.

То есть, с точки зрения статистики, выборочный результат   мм


обусловлен погрешностью измерений, и высота сальниковой камеры
соответствует норме. Скорее всего.
Творческая задача для самостоятельного решения:
Пример 39
Нормативный расход автомобильного двигателя составляет 10 л на 100 км.
После конструктивных изменений, направленных на уменьшение этого
показателя, были получены следующие результаты 10 тестовых заездов:

На уровне значимости 0,05 выяснить, действительно ли расход топлива стал


меньше.
Да, это не редкость – когда в предложенной задаче нужно не только проверить
гипотезу, но и предварительно рассчитать выборочные значения. Кстати, даже
при известной генеральной дисперсии, ориентироваться на неё тут
нельзя, ибо конструктивные изменения могут изменить не только генеральную
среднюю, но и генеральную дисперсию.
В лучших традициях курса все числа уже забиты в Эксель – там же
инструкция по расчётам выборочных показателей. Если кто-то не знает или
запамятовал, то вот ролик о том, как провести эти вычисления
быстро (Ютуб).
В данной задаче критическая область левосторонняя, и критическое
значение   для односторонней  области отыскивается по самой
нижней строке таблицы или с помощью Калькулятора (тот же Пункт 10в).
Постарайтесь грамотно оформить решение, свериться с образцом можно чуть
ниже.
И я жду вас на следующем уроке, где мы продолжим проверять
статистические гипотезы.

12. Проверка статистических гипотез

Продолжаем проверять статистические гипотезы – всё новые и новые, новые


и новые, до полного насыщения! Исправляя оплошность (запамятовал), хочу
порекомендовать эту увлекательную тему в качестве основного или
дополнительного материала для вашего научного проекта (курсовика, диплома,
диссертации) или прикладного исследования. Причём, самому широкому кругу
читателей, в том числе экономистам, социологам, психологам – всем, кто
работает со статистическими данными. Здесь и научная новизна, и
практическая значимость, и широкий простор для творчества! И несложные
вычисления, что немаловажно.
Как вы знаете (а если нет, то ссылка выше), все статистические гипотезы
делятся на два вида:
I) Гипотеза о законе распределения статистической совокупности. Этому
виду гипотез посвящен следующий урок – Критерий согласия Пирсона.
II) Вторая большая группа гипотез касается числовых характеристик стат.
совокупностей, закон распределения которых уже известен:
– Гипотеза о генеральной средней нормального распределения – именно с
неё мы и начали разминку;
– Гипотеза о равенстве генеральных средних двух распределений – 4
случая, все разберём!
– Гипотеза о генеральной дисперсии нормального распределения;
– Гипотеза о равенстве ген. дисперсий двух нормальных распределений;
– Гипотеза о вероятности события;
– Сравнение вероятностей двух биномиальных распределений.
Существуют и другие статистические гипотезы, с которыми можно
ознакомиться, например, в учебном пособии В. Е. Гмурмана (поздние издания).
Кроме того, в рамках сайта я рассмотрю статистическую гипотезу о
значимости коэффициента корреляции и не только – со временем добавлю
их в этот список.
Вникаем, решаем и получаем удовольствие!
Гипотеза о равенстве генеральных средних двух распределений
Постановка задачи: из двух генеральных
совокупностей извлечены выборки объёмов   и   и найдены
их выборочные средние:   и   соответственно. Требуется на уровне
значимости   проверить гипотезу    о равенстве генеральных
средних против одной из следующих конкурирующих гипотез: 
,   или  . Как и в гипотезе о значении генеральной
средней, в первом случае строится левосторонняя критическая область, во
втором – правосторонняя и в третьем – двусторонняя.
При этом возможны следующие вариации задачи:
а) выборки независимы, генеральные совокупности распределены нормально и

известны их дисперсии  .
Тогда для проверки нулевой гипотезы используют статистический 

критерий  , где   – случайные значения выборочных средних

Критическая область однозначно определяется критическим значением  ,

которое отыскивается из соотношения   для односторонней

области и   – для двусторонней, где   – выбранный уровень


значимости, а   – функция Лапласа. Не поленюсь и снова нарисую все три
случая, критическая область изображена красным цветом:

Далее на основании выборочных данных рассчитывается наблюдаемое


значение критерия:

Если   в критическую область НЕ попадает, то гипотезу   на


уровне значимости   принимаем. Если же попадает, то нулевая гипотеза
отвергается в пользу альтернативной гипотезы  .
Пример 40

По выборке объема   найден средний вес изделий   г изделий,


изготовленных на первом станке; по выборке объема   найден средний
вес изделий   г изделий, изготовленных на втором станке. Известны
генеральные дисперсии  . Требуется на уровне значимости
0,01 проверить нулевую гипотезу   против конкурирующей
гипотезы  . Предполагается, что генеральные совокупности
распределены нормально, а выборки независимы.
...я, конечно, не знаю, у каких современных станков могут быть такие конские
дисперсии, тут, скорее, речь о двух бабулях, которые пекут одинаковые
пирожки дедовским методом :) И нужно выяснить, одинаковый ли у них выхлоп
или первая бабушка более щедрая.
Решаем: по условию, известны генеральные дисперсии, поэтому для проверки

гипотезы о равенстве генеральных средних используем критерий 


.
Для конкурирующей гипотезы   строится правостороння критическая

область. Критическое значение найдём из соотношения   . По


условию,  :

По таблице значений функции Лапласа или с


помощью Калькулятора (Пункт 5*) определяем, что этому значению функции
соответствует аргумент  . Таким образом, при    нулевая гипотеза
принимается, а при    отвергается:

На чистовике эти чертежи выполнять не обязательно – они нужны, чтобы вы


лучше видели ситуацию.
По выборочным данным вычислим наблюдаемое значение критерия:
, поэтому на уровне значимости 0,01 гипотезу   
отвергаем. Иными словами, выборочные средние   
статистически значимо отличаются друг от друга, и это отличие вряд ли
объяснимо случайными факторами. А объяснимо оно именно различием
генеральных средних.
Но это ещё не значит, что нужно покупать пирожки у «иксовой» бабули, они
ведь могут оказаться менее вкусными :)
Ответ: на уровне значимости 0,01 нулевую гипотезу отвергаем.
И еще раз повторим, что это значит. Это значит, что с вероятностью 1% мы
совершили ошибку первого рода (отвергли правильную гипотезу).
Следующая задача для самостоятельного решения:
Пример 41
Из продукции двух автоматических линий извлечены по 50 гвоздей и
вычислены их выборочные средние длины   и   мм.
Нормативная погрешность линий есть нормальная случайная величина с
дисперсией  . На уровне значимости 0,05 проверить гипотезу  о
равенстве генеральных средних   против конкурирующих гипотез:
а)  , б)  .
Краткое решение и ответ в конце урока, особую аккуратность проявите в
обозначениях – в аналогичных задачах они бывают разными.
Та же гипотеза, другая ситуация:

б) независимые выборки достаточно большие  , генеральные


дисперсии неизвестны, причём ген. совокупности могут иметь и другое
распределение (не  нормальное)

Условие  , к слову, желательно и в предыдущем пункте.


В этом случае можно использовать похожий, но приближенный

критерий  , где   – случайные значения выборочных


средних, а   – соответствующие выборочные дисперсии.
Исправлением дисперсий тут можно пренебречь (т.к. выборки большие), но
лично я бы исправил. Впрочем, результаты такой проверки всё равно будут
менее «авторитетными».
Ситуация более тяжелая:

в) это малые независимые выборки  , ген. совокупности


распределены нормально и дисперсии их не известны
В этом случае выборочные дисперсии дают плохую оценку генеральных
дисперсий, поэтому критерий предыдущего пункта не годится. Но если
предположить или доказать, что генеральные дисперсии одинаковы (хотя и не
известны), то для проверки гипотезы   можно использовать
следующий критерий:

, где   – случайные значения


выборочных средних, а   – соответствующие исправленные
выборочные дисперсии. Эта случайная величина распределена по закону
Стьюдента с   степенями свободы.
Пример 42
Из двух партий деталей, изготовленных одинаковыми станками, извлечены
выборки объемами   и   деталей. По результатам исследования
найдены   мм,   мм и   мм,   мм. Предполагая,
что погрешность изготовления есть нормальная случайная величина,
проверить на уровне значимости   гипотезу   против
конкурирующей гипотезы  .
В этом тяжелом случае нам удалось раздобыть всего лишь 10 и 15 гвоздей, но
ситуацию спасает то, что станки одинаковые, поэтому можно смело допустить,
что их погрешности (ген. дисперсии) одинаковы. Кроме того, можно
проверить гипотезу о равенстве генеральных дисперсий, до которой мы
ещё доберёмся.
Решение: полагая, что генеральные дисперсии одинаковы, используем

критерий  .

Поскольку конкурирующая гипотеза имеет вид  , то критическая


область двусторонняя. Найдём критическое значение. Для уровня
значимости   и числа степеней свободы   по
таблице или с помощью Калькулятора (Пункт 10в) определяем:

При   нулевая гипотеза принимается, а вне этого интервала –


отвергается:

Вычислим наблюдаемое значение критерия:

 – полученное значение попало в


область принятия гипотезы.
Таким различие выборочных средних   статистически не
значимо и объяснимо влиянием случайных факторов (погрешностью станков и
тем, что в саму выборку попали случайные гвозди).

Ответ: на уровне значимости 0,05 гипотезу   принимаем.


Задача для самостоятельного решения будет в параграфе Гипотеза о
равенстве двух генеральных дисперсий, поскольку для того, чтобы
пользоваться равенством ген. дисперсий, строго говоря и по меньшей мере, его
нужно ещё проверить статистически.
И ещё один случай:
г) ген. совокупности распределены нормально, ген. дисперсии неизвестны,
выборки зависимы
Здесь рассматриваются выборки одинакового
объёма, варианты которых попарно зависимы. Что это значит? Пример:
возьмём 50 помидоров и измерим их диаметр линейкой:  . Затем в
том же порядке – штангенциркулем:  . Совершенно понятно, что
соответствующие результаты будут хоть чуть-чуть, но различны:  ,
следовательно, выборочные средние – тоже:  . И возникает вопрос:
значимо или незначимо это отличие?
В случае зависимых выборок гипотеза о равенстве генеральных средних
сводится к уже разобранной гипотезе о значении генеральной средней.
Представим, что описанные выше попарные опыты проводятся много-много
раз. Тогда речь заходит о случайной величине   – случайной
разнице между случайными значениями   выборочных средних. И мы
проверяем гипотезу о том, что генеральная средняя (матожидание) этой
разницы равна нулю   против очевидной
альтернативы   или   либо  .
Технику решения рассмотрим на конкретном примере, социологическая задача,
и никаких гвоздей:
Пример 43
Физическая подготовка 9 спортсменов была проведена при поступлении в
спортивную школу, а затем после недели тренировок. Итоги проверки в баллах
оказались следующими:

(в 1-й строке число баллов при поступлении, во 2-й – после недели


тренировок)
Требуется на уровне значимости 0,05 установить, значимо или незначимо
улучшилась физическая подготовка спортсменов, в предположении, что число
баллов распределено нормально.
И предположение это небезосновательно, т. к. человеческие характеристики,
как правило, распределены нормально.
Решение: проверим гипотезу о том, что матожидание случайной
величины   (разницы между случайными средними) равно
нулю   против конкурирующей гипотезы   (т.к.
улучшение физической формы выражается бОльшим «игрековым» значением
и отрицательной разностью).
Так как генеральная дисперсия этой случайной величины не известна, то

используем знакомый критерий  , где   –


случайная разница между выборочными средними и   –
соответствующее исправленное стандартное отклонение. Напоминаю, что
этот критерий имеет распределение Стьюдента с количеством степеней
свободы  .

Для уровня значимости   и   найдём критическое значение


левосторонней критической области (по нижней строке таблицы или
на Калькуляторе - Пункт 10в):

При   нулевую гипотезу принимаем, а при   – отвергаем:

Для нахождения наблюдаемого значения критерия    нужно


рассчитать выборочные характеристики. Вычислим разности между
вариантами  , их квадраты   и суммы:

Вычислим выборочную среднюю разницу:


Вычислим исправленное стандартное отклонение, не сторонник я
«ускоренных» формул, но здесь она удобна:

Таким образом:

, поэтому на уровне значимости 0,05 нет


оснований отвергать гипотезу  .
В данном случае это более удачная формулировка, нежели «гипотезу
принимаем».

Таким образом, средняя разница   между вариантами   (физ. форма


до тренировки) и соответствующими вариантами   (физ. форма после
тренировки) статистически незначима.
Ответ: на уровне значимости 0,05 нет оснований утверждать, что после
недельной тренировки физическая форма спортсменов значимо улучшилась.
Продолжаем тему самостоятельно:
Пример 44
Две химические лаборатории исследовали 8 проб на допинг одним и тем же
методом. Получены следящие результаты (процент содержания некоторого
вещества в соответствующих пробах):

Требуется на уровне значимости 0,01 определить, значимо или незначимо


различаются средние результаты анализов, в предположении, что они
распределены нормально.
Иными словами, определите, не занесли ли в какую-нибудь лабораторию
деньги :)
Как обычно, все числа уже в Экселе; продублирую также ссылки на таблицу
критических точек распределению Стьюдента и Калькулятор (Пункт 10в).
С другими гипотезами всё проще:
Гипотеза о генеральной дисперсии нормального распределения
Она по своей сути похожа на гипотезу о генеральной средней: есть
основания полагать, что генеральная дисперсия   нормальной совокупности
равна некоторому значению  . По результатам выборки объёма   
найдена исправленная выборочная дисперсия   и возникает вопрос: она
значимо отличается от   или нет? Таким образом, на уровне значимости   
требуется проверить гипотезу   – о том, что генеральная дисперсия
действительно равна своему гипотетическому значению.
Для проверки этой гипотезы использует критерий  , где   –
случайное значение исправленной дисперсии. Данная случайная величина
имеет распределение хи-квадрат с количеством степеней свободы   и
принимает лишь неотрицательные значения.
Критическая область зависит от вида конкурирующей гипотезы, а критические
значения можно определить по соответствующей таблице либо с
помощью Калькулятора (Пункт 11б).

1) Для гипотезы    строится левосторонняя область, критическое


значение равно   .

2) Для гипотезы   строится правосторонняя область, критическое


значение равно   .

3) И для гипотезы   строится двусторонняя критическая область,


левая и правая критические точки определяются по
формулам  , 

Если наблюдаемое значение критерия   попадает в критическую


область, то гипотеза   на уровне значимости   отвергается.
Классическая задача по теме – это задача о точности какого-нибудь прибора,
станка или метода измерения:
Пример 45
Допустимая погрешность измерительного прибора по паспорту
составляет  . В результате 10 измерений найдено фактическое значение
погрешности  . Требуется на уровне значимости 0,05 проверить,
соответствуют ли экспериментальный результат заявленной точности прибора.
Или, попросту говоря, не лажает ли этот прибор.
Решение: полагая, что погрешность измерений распределена нормально,
проверим гипотезу о том, что генеральная дисперсия действительно
равна   против конкурирующей гипотезы  . Это, кстати,
самый популярный вид альтернативной гипотезы – когда есть превышение
нормы, и требуется проверить, случайно оно или нет.

Используем критерий  , где   – случайное значение исправленной


дисперсии.

Найдём правостороннюю критическую область. Для уровня значимости   


и количества степеней свободы   по таблице критических
точек распределения хи-квадрат или с помощью Калькулятора (Пункт
11б) определяем критическое значение:

При   нулевая гипотеза принимается, а при   – отвергается:

Вычислим наблюдаемое значение критерия:

, поэтому на уровне значимости 0,05  нет


оснований отвергать гипотезу  . Таким образом, выборочный более
высокий результат   с большой вероятностью обусловлен случайностью.
Возможно, у вас сложилось впечатление, что значения 5 и 6,2 различаются
существенно, но это иллюзия – ведь дисперсия имеет квадратичную
размерность, и стандартные отклонения действительно довольно близкИ друг к
другу:  .
Ответ: на уровне значимости 0,05 точность прибора соответствует норме.
Самостоятельно:
Пример 46
Партия изделий принимается, если дисперсия контролируемого размера
значимо не превышает 0,2. Исправленная выборочная дисперсия, найденная
по выборке объема  , оказалась равной  . Можно ли принять
партию на уровне значимости 0,05?
Таблица здесь не годится, поэтому пользуемся Калькулятором (Пункт 11б).
За неимением Экселя используйте приближенную формулу Уилсона-
Гильферти:

, где   отыскивается из
соотношения  .
Сейчас для интереса проверил – погрешность составила всего одну сотую!
Гипотеза о равенстве генеральных дисперсий двух нормальных
распределений
Две средние мы уже сравнивали, очередь за дисперсиями. Из двух
нормальных ген. совокупностей извлечены независимые выборки объёмом   
и   и найдены их исправленные дисперсии:   и   соответственно.
Совершенно понятно, что эти значения случайны и отличны друг от друга. Но
возникает вопрос: значимо или незначимо это отличие? Для ответа на этот
вопрос на уровне значимости   проверяется гипотеза о равенстве
генеральных дисперсий  . Если она будет принята, то различие
между выборочными значениями    объяснимо случайными факторами.

Для проверки этой гипотезы используют критерий  , где   – бОльшая


исправленная дисперсия, а   – мЕньшая.
Данная случайная величина имеет распределение Фишера-Снедекора (так
называемое F-распределение) со степенями свободы  ,
если   или  , если  . То есть, степень свободы   
соответствует выборке с бОльшей исправленной дисперсией.
В качестве альтернативы рассматривают одну из следующих гипотез:

1)   (если  ) либо   (если  ). Для этой гипотезы


строят правостороннюю критическую область:

Критическое значение   можно найти по таблице критических


значений F-распределения, а ещё лучше – с помощью стандартной функции
Экселя, используйте тот же Калькулятор (Пункт 12).

2)   – для этой гипотезы строится двусторонняя критическая область:

Однако для решения нашей задачи достаточно найти лишь правое критическое
значение  .
Дело в том, что  , и поэтому случайное

значение   (бОльшее единицы) заведомо не может попасть в левый


кусок критической области.
Далее на основании выборочных данных рассчитывается наблюдаемое

значение критерия  , и если оно попадает в критическую область (


 для обоих случаев), то гипотеза   отвергается.
Если  , то принимается.
Рассматриваемая гипотеза часто возникает, когда требуется сравнить точность
двух приборов, инструментов, станков, двух методов исследования. И сейчас
мы разберём эту стандартную задачу:
Пример 47

Некоторая физическая величина измерена   и   раз двумя различными


способами. По результатам измерений найдены соответствующие
погрешности  . Требуется на уровне значимости 0,05 проверить,
одинаковую ли точность обеспечивают эти способы измерений.
Ситуации тут могут быть разные: это измерение двумя однотипными
инструментами (например, двумя линейками), или инструментами разными
(например, линейкой и штангенциркулем), или речь вообще идёт о двух
методах измерения (например, с зажмуренным левым и правым глазом).

И возникает вопрос: различие между   случайно или обусловлено тем, что


какой-то способ точнее?
Решение: полагая, что погрешности измерений распределены нормально,
проверим гипотезу    о том, что точность двух способов одинакова
против конкурирующей гипотезы    (она правдоподобнее,
нежели  ).

Для проверки гипотезы используем критерий  , где   – бОльшая


исправленная дисперсия, а   – мЕньшая.

Найдём критическое значение  . Степень свободы   должна


соответствовать выборке с бОльшей дисперсией,
следовательно,   и  . По соответствующей
таблице либо с помощью Калькулятора (Пункт 12) находим:

При   нулевая гипотеза принимается, а при    (в критической


области) – отвергается.
Вычислим наблюдаемое значение критерия:

, поэтому на уровне значимости 0,05 нет


оснований отвергать гипотезу    . Иными словами, различие
выборочных значений   обусловлено случайными факторами, но
прежде всего, малым количеством опытов.

Так, если бы было проведено в 10 раз больше измерений   и


получены те же самые погрешности, то  , и гипотеза о
равенстве ген. дисперсий уже отвергается. То есть здесь расхождение
между   уже нельзя объяснить случайностью, а объяснимо оно
именно тем, что второй способ менее точный (справедлива
гипотеза  ).
Ответ: на уровне значимости 0,05 точность способов измерения одинакова.
Творческая задача для самостоятельного решения, случай из жизни:
Пример 48
Две группы студентов-первокурсников написали контрольную по
математическому анализу со следующими результатами:

Предполагая, что успеваемость студентов распределена нормально, на уровне


значимости 0,1:

1) Проверить гипотезу   – о том, что группы однородны по составу (в


плане соотношения лучше и хуже успевающих студентов) против
конкурирующей гипотезы  ,
и в случае однородности групп обещанный пунктик:

2) Проверить гипотезу    – об одинаковой успеваемости групп против


гипотезы о том, что одна из групп более слабая.
Вспоминаем, что такое дискретный вариационный ряд и как
рассчитываются его характеристики. Не позволяй душе лениться! – в жизни
пригодится, все числа уже в Экселе.
Ну что, порешаем ещё задачки? …конечно, порешаем! – ведь я маньяк в
лучшем смысле этого слова:
Гипотеза о вероятности события
Пусть в достаточно большом количестве   независимых
испытаний некоторое случайное событие появилось   раз, и есть основание
полагать, что вероятность   появления этого события (в каждом испытании)
равна некоторому значению  . Возникает вопрос: значимо или незначимо

отличается относительная частота   от этого гипотетического значения?

Для проверки гипотезы   используют критерий  ,


где  , а   – случайное количество испытаний, в которых событие
появилось. При этом для качественного результата должно выполняться
неравенство  .
Далее технически всё похоже на гипотезу о генеральной средней. Для
конкурирующей гипотезы   строится левосторонняя критическая
область, для   – правосторонняя и для   – двусторонняя:

Критическое значение отыскивается из соотношения   для

односторонней области и   – для двусторонней, где   –


выбранный уровень значимости, а   – функция Лапласа.

Если наблюдаемое значение критерия   попадает в


критическую область, то гипотеза   отвергается.
Пример 49
В результате длительных наблюдений установлено, что вероятность полного
выздоровления больного, принимавшего лекарство  , равна 0,8. Новое
лекарство   назначено 800 больным, причём 660 из них полностью
выздоровели. Можно ли считать новое лекарство значимо эффективнее
лекарства   на пятипроцентном уровне значимости?
Итак, в результате использования  нового лекарство получена относительная

частота полного выздоровления   и возникает вопрос: этот


результат случаен или лекарство   действительно эффективнее? Проясним
эту ситуацию статистическим методом:

Решение: на уровне значимости   проверим гипотезу   о


том, что новое лекарство имеет такую же эффективность против
конкурирующей гипотезы  , что оно более эффективно. Используем

критерий   , где   – случайное количество пациентов


из  , которые полностью выздоровеют.
Критическое значение правосторонней критической области найдём из

соотношения  , в данном случае

По таблице значений функции Лапласа или с


помощью Калькулятора (Пункт 5*), определяем, что этому значению функции
соответствует аргумент  .

При   нулевая гипотеза принимает, а при   – отвергается:

Вычислим   и наблюдаемое значение критерия:

, поэтому на уровне значимости 0,05 гипотезу   


отвергаем в пользу конкурирующей гипотезы  . Таким образом,

выборочный результат   вряд ли объясним случайностью.


Ответ: на пятипроцентном уровне значимости новое лекарство эффективнее
лекарства  .
Самостоятельно:
Пример 50
Завод рассылает рекламные каталоги возможным заказчикам. Как показал
опыт, вероятность того, что организация, получившая каталог, закажет
рекламируемое изделие, равна 0,08. Завод разослал 1000 каталогов новой
улучшенной формы и получил 98 заказов. Можно ли считать, что новая форма
рекламы значимо эффективнее?

Примите уровень значимости   и проверьте это предположение.


И заключительный параграф этой интереснейшей статьи:
Сравнение вероятностей двух биномиальных распределений
На самом деле о вероятности биномиального распределения речь уже шла в
предыдущей гипотезе, и теперь перед нами стоит задача сравнить вероятности
двух биномиальных распределений.  
Пусть в двух генеральных совокупностях проводятся независимые
испытания, в каждом из которых событие   может появиться – с неизвестной
вероятностью   в первой совокупности и с неизвестной вероятностью   – во
второй. По выборочным сериям испытаний объёмами   и   найдены
соответствующие относительные частоты:

, где   – фактическое число появлений события   в


1-й и во 2-й выборке.
Требуется оценить, значимо или незначимо отличаются друг от друга
относительные частоты. Незначимое отличие объяснимо случными факторами
и справедливостью гипотезы  .
Для проверки этой гипотезы используют критерий:

, где   – случайное количество


появлений события   в 1-й и во 2-й выборке соответственно.

В качестве альтернативы рассматривают гипотезу   


либо  . Критические области строятся точно так же, как и в
предыдущем пункте! Кстати, почему здесь можно использовать лапласовские
соотношения? А дело в том (кто помнит), что при достаточно большой
выборке биномиальное распределение близкО к нормальному.
Возвращаемся к нашим помидорам:
Пример 51

От двух поставщиков в магазин поступило   и   однотипных


изделий. В первой партии оказалось   бракованных изделий, а во второй
–  . Требуется на уровне значимости 0,05 оценить, одинаково ли хороши
поставщики.
Очевидно, что здесь существуют вполне конкретные вероятности   – того,
что магазин получит бракованное изделие от 1-го и 2-го поставщика
соответственно.  И эти вероятности нам не известны. Однако в нашем
распоряжении есть выборочные данные – относительные частоты:

И возникает вопрос: эта разница случайна или нет?

Решение: на уровне значимости   проверим гипотезу   о том,


что поставщики равноценны против конкурирующей гипотезы  .
Критическое значение двусторонней критической области найдём из

соотношения  . В данном случае:

По таблице значений функции Лапласа или с


помощью Калькулятора (Пункт 5*) определяем  . При   

нулевая гипотеза принимается, а при   – отвергается:

Вычислим наблюдаемое значение критерия:

 – полученное
значение попало в область принятия гипотезы  , таким образом,

различие относительных частот  , скорее всего,


случайно.
Ответ: на уровне значимости 0,05 нет оснований отдавать предпочтение
какому-то одному из поставщиков
Как говорится, что там помидоры, что там.
И почётное право завершить этот урок предоставляется героям, которые
помогали нам на протяжении всего курса тервера, ну а может и некоторые
читатели уже взялись за оружие:))
Пример 52
Два стрелка совершили по 50 выстрелов в цель. Первый стрелок поразил цель
41 раз, а второй – 36. Можно ли на уровне значимости 0,1 утверждать, что
первый стрелок более меткий?
Решение и ответ совсем близко.
Но и это ещё не всё! На очереди важнейшая и очень
распространённая гипотеза о законе распределения генеральной
совокупности.
Пример 41. Решение: по условию, известны генеральные дисперсии,

поэтому для проверки гипотезы используем критерий  .


а) Для гипотезы   строим левостороннюю критическую область.

Критическое значение найдём из соотношения  . Для уровня


значимости  :

По таблице значений функции Лапласа определяем  . Таким образом,


при    нулевую гипотезу принимаем, а при   (в критической
области) – отвергаем:

Вычислим наблюдаемое значение критерия:

, поэтому на уровне значимости 0,05 нулевую гипотезу


принимаем.

б) Для гипотезы   строим двустороннюю критическую область:


Критическое значение найдём из соотношения  :

Наблюдаемое значение критерия   попало в область принятия


гипотезы  , поэтому на уровне значимости 0,05 нулевую
гипотезу принимаем.

Ответ: в обоих случаях гипотезу    принимаем.


Напоминаю, что это не 100%-ное доказательство гипотезы, т.к.
существует
-вероятность того, что мы приняли неверную гипотезу
(совершили ошибку второго рода).

Пример 44. Решение: рассмотрим случайную величину  , где   


– случайные значения выборочных средних, и проверим
гипотезу   против конкурирующей гипотезы  .
Поскольку генеральная дисперсия этой случайной величины не известна, то

используем критерий  , распределённый по закону Стьюдента с


количеством степеней свободы  .

Для уровня значимости   и   по таблице критических точек


распределения Стьюдента находим критическое значение для двусторонней
критической области:

Таким образом, при   нулевую гипотезу принимаем, и вне этого


интервала (в критической области) отвергаем:

Найдём наблюдаемое значение критерия. Для этого нужно вычислить


выборочную среднюю разницу   между выборочными средними   и   и
соответствующую дисперсию  . Заполним расчётную таблицу:
Таким образом:

Наблюдаемое значение критерия:

 – полученное значение попало в критическую


область, поэтому на уровне значимости 0,05
гипотезу   отвергаем.
Ответ: на уровне значимости 0,05 результаты лабораторий отличны друг
от друга.
Пример 46. Решение: полагая, что погрешности размера выпускаемых
изделий распределены нормально, проверим гипотезу   против

конкурирующей гипотезы  . Используем критерий  .


Так как в конкурирующей гипотезе речь идёт о бОльших значениях
дисперсии, то критическая область будет правосторонней. Найдём
критическое значение. Для уровня значимости   и количества
степеней свободы   с помощью MS Excel находим
критическое значение:

При   нулевая гипотеза принимается, а при   – отвергается.


Вычислим наблюдаемое значение критерия:

, поэтому на уровне значимости 0,05 


гипотезу   отвергаем.
Иными словами, выборочный результат   статистически значимо
отличается от нормативного значения 0,2, и оборудование, на котором
производятся изделия, нуждается в регулировке. Скорее всего.
Ответ: на уровне значимости 0,05 партию изделий принять нельзя.
Пример 48. Решение: Заполним расчётную таблицу:

Вычислим выборочные характеристики. Средний балл:

Выборочные дисперсии:

Исправленные дисперсии:

1) На уровне значимости 0,1 проверим гипотезу   против

конкурирующей гипотезы  . Используем критерий   , где   


– бОльшая исправленная дисперсия, а   – меньшая.
Найдём правое критическое значение двусторонней критической области.
Для уровня значимости    и числа степеней
свободы   с помощью MS Excel
находим:

Вычислим наблюдаемое значение критерия:

, поэтому на уровне значимости 0,1


гипотезу   принимаем. Таким образом, группы однородны (в плане
соотношения лучше и хуже успевающих студентов).
Замечание: здесь, конечно, речь идёт не о строгом, а о примерном
равенстве генеральных дисперсий.
2) На уровне значимости 0,1 проверим гипотезу   против
гипотезы   о том, что 1-я группа учится слабее. Исследуемые
совокупности достаточно малы   и их генеральные дисперсии
неизвестны, но в предыдущем пункте статистически обосновано
незначимое различие ген. дисперсий. Поэтому для проверки гипотезы можно

использовать критерий  , где   –


случайные значения выборочных средних, а   – соответствующие
исправленные выборочные дисперсии.

Поскольку конкурирующая гипотеза имеет вид  , то критическая


область будет левосторонней. Для уровня значимости   и числа
степеней свободы   найдём критическое значение
односторонней области:

При   нулевая гипотеза отвергается, а при   – принимается:

Вычислим наблюдаемое значение критерия:

, поэтому на уровне значимости 0,1 нет


оснований отвергать гипотезу  .
Таким образом, по результатам контрольной работы нельзя утверждать,
что различие между средними оценками   обусловлено тем,
что 1-я группа более слабая. Для проверки этого предположения требуется
дальнейший мониторинг за успеваемостью.
Ответ: на уровне значимости 0,1 нет оснований отвергнуть нулевые
гипотезы.

Пример 50. Решение: на уровне значимости   проверим


гипотезу   о том, новая рекламная кампания имеет такую же
эффективность против конкурирующей гипотезы  . Используем

критерий   , где  , а   – случайное кол-во заказов,


которое может поступить в результате рассылки 1000 новых каталогов.
Найдём критическое значение правосторонней критической области:

, по таблице значений
функции Лапласа определяем  . При   нулевую гипотезу
принимаем, а при   – отвергаем.
Вычислим наблюдаемое значение критерия:

, поэтому на уровне значимости   


гипотезу   отвергаем.
Ответ: на уровне значимости  0,05 новая форма рекламы значимо
эффективнее.

Пример 52. Решение: на уровне значимости   проверим


гипотезу   против гипотезы   о том, что 1-й стрелок
стреляет точнее.
Найдём критическое значение правосторонней критической области:

При   нулевую гипотезу принимаем, а при   – отвергаем.


Вычислим наблюдаемое значение критерия:

, следовательно, на уровне
значимости 0,1 нет оснований отвергать гипотезу  .
Ответ: на уровне значимости 0,1 нет оснований считать, что 1-й стрелок
более меткий.

13. Гипотеза о законе распределения генеральной совокупности.


Критерий согласия Пирсона
Итак, после разгрома двух десятков задач ставим вишенку на
торт статистических гипотез, а именно разбираем важнейшую гипотезу о
виде (законе) распределения и распространённые тематические примеры.
Рассмотрим генеральную совокупность, распределение которой неизвестно.
Однако есть основание полагать, что она распределена по некоторому
закону   (чаще всего, нормально). Это предположение может появиться как
до, так и в результате статистического исследования, когда мы извлекли и
изучили выборку объёма  .

И нам требуется на уровне значимости   проверить нулевую гипотезу   


– о том, что генеральная совокупность распределена по закону  против
конкурирующей гипотезы   о том, что она по нему НЕ распределена.
Как проверить эту гипотезу? Постараюсь объяснить кратко. Как вы знаете,
выборочные данные группируются в дискретный или интервальный
вариационный ряд с вариантами    и соответствующими частотами 

Поскольку эти данные взяты из практического опыта, то выборочный


вариационный ряд называют эмпирическим рядом, а частоты   
– эмпирическими частотами.
Далее строятся графики, рассчитываются выборочные характеристики
(выборочная средняя  , выборочная дисперсия   и другие), словом,
выполняются все те хорошие дела, которыми мы занимались на протяжении
многих уроков.
На основе некоторых выборочных характеристик по специальным формулам,
которые зависят от проверяемого закона  , строится теоретическое
распределение, где для тех же вариант   
рассчитываются теоретические частоты  .
И возникает вопрос: значимо или незначимо различие между
эмпирическими   и соответствующими
теоретическими   частотами?
Для ответа на это вопрос рассматривают различные статистические
критерии, которые называют критериями согласия, и наиболее популярный

из них разработал Карл Пирсон: 


При достаточно большом   (объёме выборки) распределение этой случайной
величины близкО к распределению хи-квадрат с количеством степеней
свободы  , где   – количество оцениваемых параметров закона  .

…всем понятно, почему величина   случайная? – по той причине, что в


разных выборках мы будем получать разные, заранее непредсказуемые
эмпирические частоты.
Далее строится правосторонняя критическая область:

Критическое значение   можно отыскать с


помощью соответствующей таблицы или Экселя (Пункт 11б).
Наблюдаемое значение критерия рассчитывается по эмпирическим и
найденным теоретическим частотам:

Если  , то на уровне значимости   нет оснований отвергать


гипотезу   о том, что генеральная совокупность распределена по
закону  . То есть, различие между эмпирическими и теоретическими
частотами незначимо и обусловлено случайными факторами (случайностью
самой выборки, способом группировки данных и т.д.)

Если  , то нулевую гипотезу отвергаем, иными словами эмпирические


и теоретические частоты отличаются значимо, и это различие вряд ли
случайно.
Обратите внимание на формулировку, которую я выделил жирным цветом –
такая формулировка напоминает нам о том, что принятие статистической
гипотезы ещё означает её истинность, поскольку существует  -вероятность
того, что мы приняли неправильную гипотезу (совершили ошибку второго
рода).
И, наконец, бараны коровы, которые нас уже заждались. Реалистичность
фактических данных оставлю на совести автора методички
сельскохозяйственной академии:
Пример 53
По результатам выборочного исследования найдено распределение средних
удоев молока в фермерском хозяйстве (литров) от одной коровы за день:
На уровне значимости 0,05 проверить гипотезу о том, что генеральная
совокупность (средний удой коров всей фермы) распределена нормально.
Построить гистограмму частот и теоретическую кривую.
…если не любите молоко, то пусть это будет чай, сок, пиво или какой-то другой
напиток, который вам нравится :) Чтобы было интереснее исследовать эту
волшебную ферму.

Решение: на уровне значимости   проверим гипотезу   о нормальном


распределении генеральной совокупности против конкурирующей гипотезы   
о том, что она так НЕ распределена. Используем критерий  согласия

Пирсона  .
Эмпирические частоты известны из предложенного интервального ряда, и
осталось найти теоретические. Для этого нужно вычислить выборочную
среднюю   и выборочное стандартное отклонение  .

Выберем в качестве вариант   середины частичных интервалов (длина


каждого интервала  ) и заполним расчётную таблицу:

Внимание! Если вы не понимаете, как заполнять эту таблицу, или не знаете,


как это сделать быстро, то обязательно обратитесь к Примеру 16, там есть
все объяснения и видео!
Вычислим выборочную среднюю:

 литра
Выборочную дисперсию вычислим по формуле:

И выборочное стандартное отклонение:


 литра.
По причине большого объёма выборки его исправлением можно пренебречь.
Теоретические частоты рассчитываются по формуле:

, где   – знакомая функция Гаусса, а  .

Входные данные известны:    и мы заполняем


ещё одну расчётную таблицу:

Все вычисления удобно проводить в Экселе и на всякий случай я распишу одну


строчку:

 – здесь выгодно использоваться


встроенную экселевскую функцию =НОРМРАСП(0,0330; 0; 1; 0), первый
аргумент которой равен текущему значению  . За неимением Экселя и
калькулятора пользуйтесь стандартной таблицей, которая есть практически в
любой книге по терверу.
И, наконец, теоретическая частота:

, довольно часто её округляют до целого


значения, но без округления результат всё же точнее.
Надеюсь, на данный момент уже все умеют протягивать (копировать) формулы
по образцу, а если нет, то я всё равно научу :) Решил таки записать отдельный
ролик, хотя особой технической новизны тут нет:
// видео ожидается
Построим гистограмму эмпирических частот и теоретическую кривую,
которая проходит через точки  :
О технике построения гистограммы в MS Excel я рассказывал на уроке
об интервальном ряде распределения, вот нужный ролик на Ютубе, и
далее через правый клик к ней добавляется нормальная кривая.
И перед тем, как сравнивать теоретические и эмпирические частоты, следует
объединить интервалы с малыми (меньше пяти) частотами. В данном случае
объединяем два первых и два последних интервала, для этого суммируем
частоты, обведённые красным цветом, и получаем оранжевые результаты:

Это нужно для того, чтобы сгладить неоправданно большое расхождением


между малыми частотами по краям выборки. Действие не обязательное, но
крайне желательное, ибо студентов на моей памяти из-за этого заставляли
переделывать задание.

Найдём критическое значение   критерия согласия Пирсона.


Количество степеней свободы определяется по формуле  , где   –
количество интервалов, а   – количество оцениваемых параметров
рассматриваемого закона распределения.

Так как мы объединяли интервалы, то теперь их не девять, а  .


У нормального закона мы оцениваем   параметра.
Пояснение:   – это оценка неизвестного генерального матоожидания, а   
– это оценка неизвестного генерального стандартного отклонения, итого
два оцениваемых параметра.

Таким образом,   и для уровня значимости  :

Это значение можно найти по таблице критических значений распределения


хи-квадрат или с помощью Калькулятора (Пункт 11б).

При   нулевая гипотеза отвергается, а при   таких оснований


нет:

Вычислим наблюдаемое значение критерия  , и для этого


удобно заполнить ещё одну расчётную табличку:

На всякий пожарный пример расчёта:  .


В нижней строке таблицы у нас получилось готовое
значение  , поэтому на уровне значимости 0,05
гипотезу   о нормальном распределении генеральной совокупности
отвергаем.
Иными словами различие между эмпирическими и теоретическими
частотами статистически значимо и вряд ли объяснимо случайными
факторами.
Ответ: на уровне значимости 0,05 гипотезу о нормальном распределении
отвергаем
В чём может быть причина? Ведь по теореме Ляпунова большинство коров не
оказывают практически никакого влияния на удой других коров, и поэтому
распределение ген. совокупности должно быть близкО к нормальному.
Причины могут быть разными. Например, неоднородный состав совокупности
(коровы разной породы), или на ферме есть VIP-хлев, где коровы получают
улучшенное питание :) А может быть, некоторые коровы больны и как раз
оказывают существенное влияние на остальных, в связи с чем нарушается
условие теоремы Ляпунова.
Интересно отметить, что при уменьшении уровня значимости до 0,01
критическое значение  , и гипотеза о нормальном
распределении уже принимается. Однако не нужно забывать, что здесь
выросла  -вероятность того, что мы приняли неправильную гипотезу. С
оценкой этой вероятности можно ознакомиться в специализированной
литературе по статистике.
И, конечно, в случае сомнений имеет смысл увеличить объём выборки, чтобы
провести повторное исследование.
Рассмотренная задача может встретиться в более простой или более сложной
формулировке. В версии-«лайт» вам предложат готовые теоретические
частоты, где остаётся только проверить гипотезу. Продвинутое же условие
звучит примерно так:
На основании исследования выборки выдвинуть гипотезу о законе
распределения генеральной совокупности
То есть, здесь не говорится о том, что предполагаемый закон нормальный (или
какой-то другой) – этот вопрос вам предлагается проанализировать
самостоятельно.
Каким образом это можно сделать?
Во-первых, гипотезу можно выдвинуть априорно, даже не исследуя
выборку, и зависеть она будет от содержания задачи. Так, для коров
используем упомянутую выше теорему Ляпунова: если каждый объект
совокупности оказывается несущественное влияние на всю совокупность, то её
распределение близкО к нормальному. Если речь идёт о погрешностях
округления, то распределены они обычно равномерно. Если распадаются
радиоактивные изотопы, то, скорее всего, по экспоненциальному закону. И
так далее.
Но по условию, требуют опираться на выборочные данные, и здесь есть сразу
несколько признаков, чтобы «вычислить» этот закон. Самый простой и
наглядный способ – графический. Грубо говоря, чертим и смотрим.
Интервальный вариационный ряд чаще всего изображают гистограммой,
возвращаемся к нашим коровам:

Построенная гистограмма по форме напоминает


колоколообразный график плотности нормального распределения, и это
является веской причиной предположить, что генеральная совокупность
распределена нормально. Да, здесь есть слишком высокий средний столбик,
но, возможно, это просто случайность выборки.
Если столбики примерно одинаковы по высоте, то предполагаем, что
генеральная совокупность распределена равномерно. Для показательного
распределения тоже будет своя, характерная гистограмма.
Следующие признаки аналитические, приведу их для нормального
распределения:
1) У нормального распределения математическое ожидание совпадает
с модой и медианой. В нашем случае соответствующие выборочные
показатели весьма близкИ друг к другу (матожидание
оценивается выборочной средней):

   (литры)
Желающие могут рассчитать моду и медиану самостоятельно. Впрочем,
желающими часто становятся поневоле, поскольку задача, которую мы
рассматриваем, нередко идёт в комплексе со всеми этими заданиями.
2) Выполнение правила «трёх» сигм. Практически все значения нормальной
случайной величины находятся в интервале  . Найдём этот
интервал для нашей выборки. Матожидание «а» оценивается выборочной
средней  , а стандартное отклонение «сигма» – выборочным
стандартным отклонением  .Таким образом, наш эмпирический
интервал:

 – и в него действительно попадают все коровы!


3) Коэффициенты асимметрии и эксцесса нормального распределения
равны нулю. В нашем случае эти характеристики не сказать  что сильно, но
довольно близкИ к нулю:

На практике в исследование желательно включить все пункты за исключением,


возможно, третьего (т.к. асимметрию и эксцесс рассчитывают далеко не
всегда).
Следует отметить, что перечисленные выше предпосылки ещё не означают,
что распределение нормально или то, что соответствующая гипотеза будет
принята. В чём мы недавно и убедились.
И теперь настал момент продолжить решение нашего «экзаменационного»
задания:
Пример 20, продолжение:
Если вы не прорешали предыдущие пункты, то настоятельно рекомендую это
сделать, ну или просто взять готовые числа из образца:
6) По найденным характеристикам сделать вывод о законе эмпирического ряда
распределения.
7) Построить нормальную кривую по опытным данным на графике гистограммы.
8) Произвести оценку степени близости теоретического распределения
эмпирическому ряду с помощью критерия согласия Пирсона на уровне
значимости 0,05.
Как видите, Пункт 6 как раз на обоснование предполагаемого закона
распределения. Краткое решение в конце этого урока.
И, конечно же, ещё одна задача, передаю привет студентам Университета
путей сообщения:
Пример 54
В результате проверки 500 контейнеров со стеклянными изделиями
установлено, что число повреждённых изделий   имеет следующее
эмпирическое распределение:

(  – количество повреждённых изделий в контейнере,   – количество


контейнеров)
С помощью критерия согласия Пирсона на уровне значимости 0,05 проверить
гипотезу о том, что случайная величина   – число повреждённых
изделий распределена по закону Пуассона.
…здесь тоже представьте изделия по своему интересу :)
Все числа уже забиты в макет, придерживайтесь следующего алгоритма:
1) Находим выборочную среднюю  . Это значение будет оценкой параметра

«лямбда» теоретического распределения  .

2) Находим значения   для  . Вычисления можно


проводить на обычном калькуляторе, но удобнее использовать экселевскую
функцию =ПУАССОН, Калькулятор (Пункт 7) в помощь.

3) Находим теоретические частоты 

4) Находим критическое значение   критерия согласия Пирсона,


где  . В данной задаче мы объединяем две последние варианты
ввиду их малых частот, следовательно,  . Оценивается один параметр
(«лямбда»), поэтому  .

5) Рассчитываем наблюдаемое значение критерия   и делаем


вывод.
Примерный образец чистового оформления задачи в конце урока.
Помимо разобранных примеров, в задачнике В. Е. Гмурмана можно найти
аналогичные задачи
для биномиального, равномерного и показательного распределения, но
лично в моей практике они почти не встречались.
Ну а этот урок и тема подошли к концу, и я надеюсь, вам было хорошо. Но
математическая статистика ни в коем случае не закончилась! – есть ещё порох,
есть зажигательные разделы, о которых нужно непременно рассказать.
Желаю успехов и до скорых встреч!
Решения и ответы:
Пример 20. Решение (продолжение):
6) Проанализируем полученные результаты:
Форма гистограммы похожа на нормальную кривую.
Выборочная средняя, мода и медиана достаточно близкИ друг другу:

Построим интервал  :

 – в данный интервал попали все выборочные значения.

Асимметрия практически равна нулю  , однако, эксцесс отличается


значительно  .
Перечисленные признаки позволяют предположить, что генеральная
совокупность распределена нормально.
7) Найдём теоретические частоты:

, где  ,  ,
 в данной задаче  :

Построим гистограмму частот и теоретическую кривую:

8) Проверим гипотезу   о том, что генеральная совокупность


распределена нормально. Используем критерий согласия Пирсона. Для
уровня значимости   и количества степеней
свободы   по соответствующей таблице находим
критическое значение:

При   выдвинутую гипотезу отвергаем, а при   нет


оснований отвергать гипотезу.
Вычислим наблюдаемое значение критерия  . Заполним
расчётную таблицу:

В результате:  , поэтому на уровне значимости 0,05 нет


оснований отвергать гипотезу о нормальном распределении
генеральной совокупности.

Пример 54. Решение: проверим гипотезу   о том, что генеральная


совокупность распределена по закону Пуассона. Используем критерий
согласия Пирсона. Вычислим произведения  , выборочную

среднюю   и теоретические частоты по

формуле  , где  .
Вычисления сведём в таблицу:

Объединяем две последние варианты ввиду их малых частот и находим


критическое значение для уровня значимости   и количества
степеней свободы  :
Вычислим наблюдаемое значение критерия  :

Таким образом,  , поэтому на уровне значимости нет


оснований отвергать гипотезу   о том, что генеральная
совокупность распределена по закону Пуассона.