КЫРГЫЗСКОЙ РЕСПУБЛИКИ
КЫРГЫЗСКО-РОССИЙСКИЙ СЛАВЯНСКИЙ УНИВЕРСИТЕТ
Кафедра Высшей математики
МАТЕМАТИЧЕСКАЯ СТАТИСТИКА
Учебно-методическое пособие
БИШКЕК - 2014
1
УДК 519.22
Рецензенты:
д-р физ.-мат. наук, профессор А.Б. Байзаков,
канд. физ.-мат. наук, доцент Ш.А. Эгемердиев
канд. физ.-мат. наук, доцент А.К. Курманбаева
2
Оглавление
Введение…………………………………………………………………... 4
Приложения…………………………………………………………….... 152
Литература………………………………………………………………... 162
3
ВВЕДЕНИЕ
Математическая статистика – это раздел математики, который изучает
методы сбора, систематизации, обработки и использования статистических
данных для получения научно обоснованных выводов и принятия решений.
Под статистическими данными понимается совокупность чисел,
которые представляют количественные характеристики интересующих нас
признаков изучаемых объектов. Статистические данные получаются в
результате наблюдения или специально поставленных опытов и зависят от
многих случайных факторов, поэтому математическая статистика тесно
связана с теорией вероятностей.
И теория вероятностей и математическая статистика изучают массовые
случайные явления. При этом теория вероятностей из математической
модели выводит свойства реального процесса, а математическая статистика
устанавливает свойства математической модели, исходя из статистических
данных.
Теория вероятностей устанавливает правила нахождения числовых
характеристик случайных величин по заданным законам распределения. На
практике редко встречаются случаи, когда законы распределения
рассматриваемых случайных величин были бы заранее известны. В таких
ситуациях используются статистические методы исследования, смысл
которых состоит в том, что сведения об изучаемом признаке всей
совокупности объектов получают, изучая более или менее обширную часть
должным образом отобранную из общей совокупности объектов.
Полученные сведения представляют собой статистические данные, которые
будучи обработаны методами математической статистики, позволяют
сделать выводы о качестве всей совокупности объектов.
Таким образом, предметом математической статистики является
изучение случайных величин по результатам наблюдений.
Задачи математической статистики:
4
- указать способы сбора и группировки статистических сведений,
полученных в результате наблюдений или в результате специально
поставленных экспериментов.
– дать оценку неизвестной вероятности события; оценку неизвестной
функции распределения; оценку параметров распределения, вид которого
известен;
- произвести проверку статистических гипотез о виде неизвестного
распределения или о величине параметров распределения, вид которого
известен.
Знание математической статистики совершенно необходимо для
успешной деятельности современного специалиста в любой отрасли науки и
практики. Результаты проводимых методами математической статистики
исследований применяются к принятию решений, в частности, при
планировании и организации производства, при анализе технологических
процессов, при контроле качества продукции, при выборе оптимального
времени настройки или замены действующей аппаратуры и т.д.
Решение задач математической статистики связано с существенным
объемом вычислений, связанных с численной реализацией необходимого
вычислительного алгоритма и графической интерпретацией результатов
решения. Появление во второй половине XX века ЭВМ и, в частности,
персональных компьютеров и разработанные для них статистические
программные пакеты способствовали широкому внедрению математико-
статистических методов исследования.
Для того чтобы отвечать требованиям современности специалист
должен не только хорошо знать математику, но и уметь реализовывать
математические методы на компьютере. Самостоятельное освоение
специализированных математических пакетов – достаточно трудоемкая
задача, а изучение электронной таблицы Excel включено в курс
информатики, именно поэтому в пособии изложены некоторые аспекты
применения пакета Excel.
5
Так как интерпретация результатов эксперимента должна опираться не
только на слой выводов, поставляемых компьютерными статистическими
программами, но и на понимание сущности проделываемых в «черном
ящике» статистического пакета операций и преобразований, то в пособии в
полной мере изложен теоретический материал и приведено большое
количество решенных примеров. Чем богаче у исследователя представление
о математической сути применяемых методов, тем яснее его понимание
собственных результатов.
6
ГЛАВА I. ВЫБОРКИ И ИХ ХАРАКТЕРИСТИКИ
9
продукция изготовляется на нескольких машинах, среди которых есть более
и менее изношенные, то здесь типический отбор целесообразен.
Механическим называют отбор, при котором генеральную
совокупность «механически» делят на столько групп, сколько объектов
должно войти в выборку, а из каждой группы отбирают один объект.
Например, если нужно отобрать 20% изготовленных станком деталей, то
отбирают каждую пятую деталь; если требуется отобрать 5% деталей, то
отбирают каждую двадцатую деталь, и т.д. Следует указать, что иногда
механический отбор может не обеспечить репрезентативности выборки.
Например, если отбирают каждый двадцатый обтачиваемый валик, причем
сразу же после отбора производят замену резца, то отобранными окажутся
все валики, обточенные затупленными резцами. В таком случае следует
устранить совпадение ритма отбора с ритмом замены резца.
Серийным называют отбор, при котором объекты отбирают из
генеральной совокупности не по одному, а «сериями», которые подвергаются
сплошному обследованию. Например, если изделия изготовляются большой
группой станков-автоматов, то подвергают сплошному обследованию
продукцию только нескольких станков. Серийным отбором пользуются
тогда, когда обследуемый признак колеблется в различных сериях
незначительно.
Подчеркнем, что на практике часто применяется комбинированный
отбор, при котором сочетаются указанные выше способы. Например, иногда
разбивают генеральную совокупность на серии одинакового объема, затем
простым случайным отбором выбирают несколько серий и, наконец, из
каждой серии простым случайным отбором извлекают отдельные объекты.
11
Если изучаемый признак варьирует дискретно, то его статистическое
распределение в выборке задают рядом (*), а если непрерывно – то рядом
(**).
Для построения статистического ряда, который варьирует дискретно,
различные значения признака (варианты x i ) располагаем в порядке их
возрастания (ранжируем) и просматривая протокол наблюдений (выборку),
подсчитываем соответствующие частоты.
Пример 1. В супермаркете проводились наблюдения над числом
покупок совершенных покупателями. Наблюдения в течение часа дали
следующие результаты: 3, 3, 1, 4, 2, 4, 8, 3, 2, 6, 7, 2, 4, 3, 3, 1, 4, 2, 4, 1, 1, 5, 5,
6, 7, 5, 4, 1, 6, 5. Составить: 1) вариационный ряд; 2) статистический ряд.
Решение. 1) Здесь, очевидно, изучаемый признак варьирует дискретно.
Всего исследованы покупки 30 покупателей, т.е. объем выборки равен 30.
Проранжируем данные, т.е. расположим их в порядке возрастания, получим
вариационный ряд: 1, 1, 1, 1, 1, 2, 2, 2, 2, 3, 3, 3, 3, 3, 4, 4, 4, 4, 4, 4, 5, 5, 5, 5,
6, 6, 6, 7, 7, 8.
2) Видно, что варианта x1 1 встречается 5 раз – частота n1 5 ,
варианта x2 2 встречается 4 раза – частота n2 4 и т.д. Статистическое
распределение выборки представлено в таблице:
xi 1 2 3 4 5 6 7 8
ni 5 4 5 6 4 3 2 1
12
и ширины каждого из них. Обычно предпочтительны интервалы одинаковой
ширины, а при выборе числа интервалов исходят из следующих
соображений.
При увеличении числа интервалов группировки и, следовательно, при
сужении каждого из них, уменьшается число экспериментальных данных,
попадающих в каждый интервал. Поскольку выборочные значения случайны,
они случайным образом распределяются по интервалам группировки,
поэтому картина эмпирического распределения будет содержать много
случайных деталей, что мешает установить общие закономерности
варьирования признака. И, наоборот, при чрезмерно широких интервалах
группировки нельзя получить детальной картины распределения, поэтому
возникает опасность упустить важные закономерные подробности формы
распределения.
Поэтому вопрос о выборе числа и ширины интервалов группировки
приходится решать в каждом конкретном случае исходя из целей
исследования, объема выборки и степени варьирования признака в выборке.
Однако приближенно число интервалов k можно оценить исходя только из
объема выборки n . Делается это одним из следующих способов:
1) по формуле Стерджеса: k 1 3,32 lg n .
2) с помощью таблицы: Объем выборки, n Число интервалов, k
25-40 5-6
40-60 6-8
60-100 7-10
100-200 8-12
Больше 200 10-15
5) за начало первого интервала чаще всего берут xmin h или xmin . Это
2
делается для того, чтобы варианты не совпадали с границами интервалов.
Чтобы получить конец первого интервала, к его началу прибавляют
ширину h. Конец первого интервала служит началом второго и т.д. до тех
пор, пока не будет получен интервал, содержащий xmax ;
6) подсчитывают частоты всех интервалов, причем в интервал включают
значения, большие или равные нижней границе интервала.
Пример 2. Измерена максимальная емкость 100 подстроечных
конденсаторов (в пикофарадах). Результаты представлены в таблице.
Построить интервальный статистический ряд.
5,56 5,45 5,48 5,45 5,39 5,37 5,46 5,59 5,61 5,31
5,46 5,61 5,11 5,41 5,31 5,57 5,33 5,11 5,54 5,43
5,34 5,53 5,46 5,41 5,48 5,39 5,11 5,42 5,48 5,49
5,36 5,4 5,45 5,49 5,68 5,51 5,5 5,68 5,21 5,38
5,58 5,47 5,46 5,19 5,6 5,63 5,48 5,27 5,22 5,37
5,33 5,498 5,5 5,54 5,4 5,58 5,42 5,29 5,05 5,79
5,79 5,65 5,7 5,71 5,79 5,44 5,47 5,48 5,47 5,55
5,67 5,71 5,73 5,06 5,35 5,72 5,49 5,61 5,57 5,69
5,54 5,39 5,32 5,21 5,73 5,59 5,38 5,25 5,26 5,80
5,27 5,64 5,2 5,23 5,33 5,37 5,24 5,55 5,6 5,51
15
Пример 3. Используя условие и результаты примера 1 построить
полигон частот и полигон относительных частот.
ni
Решение. Рассчитаем относительные частоты по формуле i .
n
5 1 4 2
Объем выборки n 5 4 5 6 4 3 2 1 30 , 1 , 2 ,
30 6 30 15
5 1 6 1 4 2 3 1 2 1 1
3 , 4 , 5 , 6 , 7 , 8 .
30 6 30 5 30 15 30 10 30 15 30
xi 1 2 3 4 5 6 7 8
ni 5 4 5 6 4 3 2 1
i 1/6 2/15 1/6 1/5 2/15 1/10 1/15 1/30
7
полигон частот 0,25
полигон относительных
частот
относительные частоты
6
0,2
5
частоты
4 0,15
3 0,1
2
0,05
1
0 0
1 2 3 4 5 6 7 8 1 2 3 4 5 6 7 8
варианты варианты
250
200
150
100
50
0
5 5,1 5,2 5,3 5,4 5,5 5,6 5,7
интервалы
18
5 10 25
Аналогично, при 6 x 10 F * ( x) 0,8 .
50
Так как x4 10 наибольшая варианта, то при x 10
5 10 25 10
F * ( x) 1.
50
Запишем искомую функцию и построим ее график:
1,2
F*(x)
0 при x 1 1
0,1 при 1 x 4
0,8
F * ( x) 0,3 при 4 x6
0,8 при 6 x 10 0,6
1 при x 10 0,4
0,2
x
0
-4 1 6 11
0 при x 6,67
0,01 при x 6,69
0,085 при x 6,71
0,17 при x 6,73
0,39 при x 6,75
F * ( x)
0,65 при x 6,77
0,87 при x 6,79
0,94 при x 6,81
0,995 при x 6,83
1 при x 6,85
Так как эта формула определяет функцию не полностью (не для всех
значений x известны ее значения), то при графическом изображении данной
функции целесообразно ее доопределить, соединив точки графика,
соответствующие концам интервалов, отрезками прямой. В результате
график функции F * ( x) будет представлять собой непрерывную линию.
1,2
F*(x)
1
0,8
0,6
0,4
0,2
x
0
6,6 6,65 6,7 6,75 6,8 6,85
20
§1.4. Числовые характеристики выборки
Вариационные ряды и графики эмпирических распределений дают
наглядное представление о том, как варьирует признак в выборочной
совокупности. Но они недостаточны для полной характеристики выборки,
поскольку содержат много деталей, охватить которые невозможно без
применения обобщающих числовых характеристик.
Числовые характеристики выборки дают количественное
представление об эмпирических данных и позволяют сравнивать их между
собой. Наибольшее практическое значение имеют характеристики
положения, рассеяния и асимметрии эмпирических распределений.
Характеристики положения
Характеристики положения определяют положение центра
эмпирического распределения. Чаще всего употребляются такие
характеристики положения, как выборочная средняя, медиана и мода.
Определение. Выборочной средней xв называют среднее
арифметическое значение признака выборочной совокупности.
Если выборка задана вариантами x1, x2 , ..., xn , каждая из которых
повторяется один раз, то
n
xi
xв i 1
. (1.1)
n
Если выборка представлена статистическим рядом
xi x1 x2 x3 … xk
ni n1 n2 n3 … nk
то выборочная средняя вычисляется по формуле
k
xi ni
xв i 1
. (1.2)
n
21
Выборочная средняя вычисленная по формуле (1.2), называется также
средневзвешенной, т.к. xi суммируются с коэффициентами (весами),
равными частотам ni .
Замечание. В случае интервального статистического ряда в равенстве
(1.2) в качестве xi берут середины его интервалов.
Пример 7. Найти среднюю цену пачки сливочного масла в г. Бишкек,
если розничные цены двухсотграммовой пачки масла в десяти наудачу
выбранных магазинах города оказались следующими 83, 62, 57, 65, 67, 66, 80,
79, 60, 69 сом.
Решение. Выборка задана вариантами, каждая из которых
повторяется один раз, поэтому выборочная средняя равна
83 62 57 65 67 66 80 79 60 69
xв 68,8 сом.
10
Пример 8. Найти выборочную среднюю распределения, заданного
таблицей:
xi -3 -1 0 2 4 5
ni 2 4 6 5 2 1
xв
x i ni
17260
172,6.
n 100
Для тех случаев, когда эмпирическое распределение оказывается
сильно асимметричным, выборочная средняя теряет свою практическую
ценность, поскольку при этом значительно большая часть значений признака
оказывается выше или ниже выборочной средней. В этой ситуации лучшей
характеристикой центра распределения является медиана.
Пример 10. Рассмотрим среднюю месячную зарплату работников
фирмы «Лектос», в которой работают 20 человек. Зарплата 19 работников
составляет 10000 сом, а зарплата руководителя – 1000000 сом. Тогда средняя
19 10000 1000000
заработная плата одного работника этой фирмы 59500
20
сом. Выборочная средняя в этом случае плохо характеризует зарплату одного
работника: она слишком велика для большинства работников, и слишком
мала для высокооплачиваемого руководителя.
23
Определение. Медианой (Ме) называется значение признака,
приходящееся на середину ранжированного ряда наблюдений.
Широкое использование этой характеристики на практике объясняется
простотой ее вычисления и независимостью от формы распределения
эмпирических данных.
Пусть проведено нечетное число наблюдений, т.е. n 2k 1,
результаты наблюдений проранжированы и выписаны в следующий ряд:
x1 , x2 , ..., xk , ..., xn . Здесь через xi обозначено значение признака, занявшего i-е
порядковое место в ранжированном ряду. На середину ряда приходится
значение xk . Следовательно, медиана равна Me xk .
Если проведено четное число наблюдений, т.е. n 2k , то на середину
ранжированного ряда x1 , x2 , ..., xk , xk 1 ,..., xn приходятся значения xk и xk 1 . В
этом случае за медиану принимают среднее арифметическое значений xk и
xk xk 1
xk 1 , т.е. Me .
2
Например, для ряда 2 3 5 6 7 медиана равна Me 5 . А для ряда 2 3
56
5 6 7 9 медиана равна Me 5,5 .
2
Если необходимо найти медиану для сгруппированных данных, то
поступают следующим образом. Объем выборки делят пополам и среди
накопленных частот находят эту половину, варианта ей соответствующая и
24
где xMe – начало медианного интервала, который находится также как
медиана дискретного распределения; x – длина медианного интервала;
n – объем выборки; nx Me1 – накопленная частота интервала стоящего перед
25
автомобилей – белый, черный, синий, белый, зеленый, белый – мода будет
равна белому цвету. При экспертной оценке с еѐ помощью определяют
наиболее популярные типы продукта, что учитывается при прогнозе продаж
или планировании их производства.
Если ряд интервальный, мода вычисляется по следующей
приближенной формуле:
nMo nMo1
Mo xMo x , (1.4)
nMo nMo1 nMo nMo1
где xMo – начало модального интервала, т.е. интервала с наибольшей
частотой; x – длина модального интервала; nMo – частота модального
интервала; nMo1 – частота интервала, стоящего перед модальным; nMo1 –
частота интервала стоящего после модального.
Выборочная средняя, медиана и мода совпадают только в случае, если
распределение унимодальное (с одним максимумом) и симметричное. Чем
больше распределение отличается от симметричного, тем сильнее различие
между этими характеристиками.
Пример 13. Найти моду и медиану распределения, заданного таблицей:
xi -3 -1 0 2 4 5
ni 2 4 6 5 2 1
26
Объем заданного распределения составляет n 20 . Разделив объем
выборки пополам, получим число 10. Среди накопленных частот найдем
число 10 или первое большее 10 число. Это число 12. Варианта,
соответствующая числу 12, и будет медианой, т.о. Mе 0.
Пример 14. Обследование некоторой физической величины дало
следующие результаты:
xi 120-140 140-160 160-180 180-200 200-220 220-240
ni 7 25 28 30 8 2
27
начало медианного интервала; nMe 28 – частота медианного интервала;
n
x Mе1
32 – накопленная частота интервала, стоящего перед медианным.
Характеристики рассеяния
Средние значения не дают полной информации о варьирующем
признаке. Нетрудно представить себе два эмпирических распределения, у
которых средние одинаковы, но при этом у одного из них значения признака
рассеяны в узком диапазоне вокруг среднего, а у другого – в широком.
Поэтому, наряду со средними значениями вычисляют и характеристики
рассеяния выборки: размах вариации, выборочная дисперсия, выборочное
среднее квадратическое отклонение и коэффициент вариации.
Простейшей характеристикой рассеяния является размах вариации.
Определение. Размахом вариации называют разность между
максимальной ( xmax ) и минимальной ( xmin ) вариантами выборки:
R xmax xmin . (1.5)
Например, для ряда 5 6 8 9 11 23 45 56 размах равен R=56-5=51.
Широко используемой характеристикой рассеивания является
выборочная дисперсия.
Определение. Выборочной дисперсией Dв называется среднее
арифметическое квадратов отклонения значений выборки от выборочной
средней x в , т.е.
k
( x i x в ) 2 ni
Dв i 1
. (1.6)
n
Для несгруппированных данных дисперсия вычисляется по формуле:
28
k
( xi x в ) 2
Dв i 1
. (1.7)
n
Можно показать, что Dв может быть подсчитана также по более
удобной формуле:
Dв
x i
2
ni
(xв )2 . (1.8)
n
Выборочная дисперсия характеризует разброс, рассеивание,
отклонение вариант выборочной совокупности относительно их выборочной
средней.
Дисперсия статистической совокупности может быть использована для
сравнения двух совокупностей, для оценивания параметров, для
предварительной проверки статистических гипотез. Если выборочные
средние у двух совокупностей окажутся одинаковыми, то в некоторых
случаях вопрос о том, какой совокупности отдать предпочтение, может быть
решен с помощью дисперсии.
Пример15. Два стрелка сделали по 100 выстрелов. Первый выбил 8
очков 40 раз, 9 очков – 10 раз и 10 очков – 50 раз. Второй выбил 8, 9 и 10
очков соответственно – 10, 70 и 20 раз. Какой из стрелков стреляет лучше?
Решение. Первоначально можно прийти к выводу, что для ответа на
вопрос достаточно вычислить средние числа очков, выбиваемых каждым из
стрелков при 100 выстрелах. Но оказалось, что x в y в 9,1 . Выборочные
средние не позволили отдать предпочтения одному из стрелков. Вычислим
меру разброса данных – дисперсию статистической совокупности: ведь при
равенстве средних естественно отдать предпочтение тому из стрелков, у
которого попадания группируются кучнее вокруг среднего, т.е. тому, для
которого дисперсия имеет меньшее значение. Вычисления приведены в
таблице 1 для первого стрелка и таблице 2 – для второго.
29
Таблица 1.
xi ni xi ni ( xi x в ) 2 ni
8 40 320 48,4
9 10 90 0,1
10 50 500 40,5
100 910 89
xв
x i ni
910
9,1 ; Dв
( xi x в ) 2 ni 89
0,89
n 100 n 100
Таблица 2.
yi ni yi ni ( yi y в ) 2 ni
8 10 80 12,1
9 70 630 0,7
10 20 200 16,2
100 910 29
yв
y i ni
910
9,1 Dв
( yi y в ) 2 ni 29
0,29
n 100 n 100
При равенстве выборочных средних дисперсия статистической
совокупности у второго стрелка оказалась меньшей. Поэтому второго
стрелка можно считать лучшим.
30
Стандартное отклонение описывает типичное расстояние от среднего
значения для отдельных значений набора данных.
Пример 16. В группе проведено тестирование по математике. Балл
студента Иванова оказался равным 17. Результаты тестирования студентов
группы следующие: 17, 19, 23, 24, 20, 13, 15, 21, 12, 14. Требуется
определить, типичен ли результат студента Иванова для всей группы.
Решение. Средний балл в группе по формуле (1.1) равен
17 19 23 24 20 13 15 21 12 14
xв 17,8 .
10
Дисперсию результатов тестирования вычислим по формуле (1.8):
17 2 19 2 232 24 2 20 2 132 15 2 212 12 2 14 2
Dв 17,8 2 16,16.
10
Стандартное отклонение в Dв 16,16 4,02 .
Разность между результатом студента Иванова и средним баллом
значительно меньше стандартного отклонения.
Т.о., результат студента Иванова, несмотря на то, что он меньше
среднего, является типичным для данной группы студентов.
sв2
1 n
n 1 i 1
2
xi x в ni ,
квадратическим отклонением.
Определение. Коэффициентом вариации V называют выраженное в
процентах отношение выборочного среднего квадратического отклонения к
выборочной средней:
в
V 100% . (1.10)
xв
31
Коэффициент вариации служит для сравнения величины рассеяния по
отношению к выборочной средней двух вариационных рядов: тот из рядов
имеет большее рассеяние по отношению к выборочной средней, у которого
коэффициент вариации больше.
Коэффициент вариации – безразмерная величина, поэтому он пригоден
для сравнения рассеяния вариационных рядов, варианты которых имеют
различную размерность, например, если варианты одного ряда выражены в
метрах, а другого в граммах.
Коэффициент вариации используется и как показатель однородности
выборочных наблюдений. Считается, что если V 10% , то выборку можно
считать однородной, т.е. полученной из одной генеральной совокупности.
Замечание. Если x в 0 , то получим бесконечный коэффициент
вариации.
Пример 17. Найти размах вариации, выборочную дисперсию,
выборочное среднее квадратическое отклонение, коэффициент вариации
распределения, заданного таблицей:
xi -3 -1 0 2 4 5
ni 2 4 6 5 2 1
Решение. Размах вариации R xmax xmin 5 (3) 8 . Для расчета
остальных характеристик рассеяния, составим вспомогательную расчетную
таблицу.
xi ni xi ni ( xi x в ) 2 ni
-3 2 -6 26,645
-1 4 -4 10,89
0 6 0 2,535
2 5 10 9,1125
4 2 8 22,445
5 1 5 18,9225
20 13 90,55
32
Вычислим выборочную среднюю
xв
x i ni
13
0,65.
n 20
Для вычисления дисперсии воспользуемся формулой (1.6), для этого в
таблицу добавлен четвертый столбец – ( xi x в ) 2 ni .
Dв
(x i
x в ) 2 ni 90,55
4,53 .
n 20
Выборочное среднее квадратическое отклонение в Dв 2,13 .
в 2,13
Коэффициент вариации V 100% 100% 327% .
xв 0,65
Пример 18. По данным примера 9, найти выборочную дисперсию,
выборочное среднее квадратическое отклонение, коэффициент вариации
этого распределения.
Решение. Составим вспомогательную расчетную таблицу:
интервалы ni xi xi ni
2
в 22,92
Коэффициент вариации V 100% 100% 13,28% .
xв 172,6
33
§1.5. Моменты. Асимметрия и эксцесс
Выборочная средняя x в и выборочная дисперсия Dв представляют
собой частные случаи общих числовых характеристик выборки, называемых
моментами. Моменты служат для характеристики распределения признака
относительно некоторой величины.
Определение. Моментом порядка s вариационного ряда
относительно некоторого числа A называют величину:
k
xi A ni
s
Ms i 1
. (1.11)
n
Если A 0 (начало отсчета), момент называется начальным:
k
x i
s
ni
s i 1
. (1.12)
n
Из (1.12) при s 1 следует
k
x i ni
1 i 1
xв ,
n
т.е. выборочная средняя есть начальный момент первого порядка.
Если A x в (центр распределения), момент называется центральным:
xi x в
k s
ni
s i 1
. (1.13)
n
Из (1.13) при s 2 следует
xi x в
k 2
ni
2 i 1
Dв ,
n
т.е. дисперсия есть центральный момент второго порядка.
Центральные моменты удобно вычислять через начальные по формулам:
2 2 12 ,
3 3 3 21 213 ,
34
4 4 4 31 6 212 314 .
Доказывается, что если распределение симметричное, то все
центральные нечетные моменты равны нулю: 1 0 , 3 0 , 5 0 и т.д.
Центральный момент первого порядка любого распределения равен
нулю - 1 0 .
На практике часто используют также центральные моменты третьего и
четвертого порядков, позволяющие судить о симметричности и остроте
вершины распределения.
Симметричность графика распределения признака можно измерить
численно. Мерой симметричности служит коэффициент асимметрии:
3
As .
в3
При As 0 распределение имеет симметричную форму.
При As 0 , длинная часть кривой распределения расположена слева от
x (левосторонняя асимметрия).
f (x)
As<0
xв
f (x)
As>0
x
xв
-2 2 -4 8 -16 32
-1 4 -4 4 -4 4
0 6 0 0 0 0
1 5 5 5 5 5
2 2 4 8 16 32
3 1 3 9 27 81
20 4 34 28 154
36
k k
x i ni
4 x i
2
ni
34
1 i 1
0,2 ; 2 i 1
1,7 ;
n 20 n 20
k k
x 3
i ni
28 x i
4
ni
154
3 i 1
1,4 ; 4 i 1
7,7 .
n 20 n 20
Теперь рассчитаем второй, третий и четвертый центральные моменты:
2 2 12 1,7 0,2 2 1,66,
3 3 3 21 213 1,4 3 1,7 0,2 2 0,23 0,396 ,
4 4 4 31 6 212 314 7,7 4 1,4 0,2 6 1,7 0,22 3 0,24 6,9832 .
Найдем дисперсию и среднее квадратическое отклонение
Dв 2 1,66 , в Dв 1,66 1,29 .
Теперь вычислим коэффициент асимметрии и эксцесс:
3 0,396 6,9832
As 0,19 ; Е х 44 3 3 0,47 .
в 1,29
3 3
в 1,29 4
Значения коэффициентов асимметрии и эксцесса малы. Это дает основания
сделать вывод, что заданное распределение близко к нормальному.
37
Многофункциональность Excel не позволяет даже кратко остановиться
на всех основных свойствах системы и ее возможностях. Рассмотрим лишь
некоторые возможности, связанные с вводом и статистической обработкой
числовых данных.
Алгоритм решения задачи может быть реализован путем
программирования необходимых выражений в ячейках электронной таблицы
или обращением к стандартным встроенным функциям и модулям.
Для ввода формулы необходимо набрать в пустой ячейке «=», а затем с
помощью операций (+, -,*, /, ^ и др.) связать исходные данные в ячейках,
результат расчета с которыми мы хотим получить. Порядок операций может
быть изменен с помощью круглых скобок. При вводе формул удобно
использовать встроенные функции, используя диалоговые окна,
предписывающие последовательность ввода данных и уменьшающие
возможность допущения ошибки.
Необходимо помнить, что ячейки в Excel могут иметь абсолютную
($A$11) и относительные адресации ($A11: столбец А – абсолютная ссылка,
строка 11 – относительная; A$11: столбец А – относительная ссылка, строка
11 – абсолютная; А11: столбец А – относительная ссылка, строка 11 –
относительная ссылка). При копировании формул в другие ячейки
абсолютные ссылки сохраняются, а относительные изменяются, эти свойства,
в частности, значительно упрощают обработку массивов, табулирование
функций и т.д.
Для копирования формул удобно использовать маркер заполнения.
Маркер заполнения – небольшой черный квадрат в углу выделенного
диапазона. Попав на маркер заполнения указатель принимает вид черного
креста. Чтобы скопировать содержимое выделенного диапазона в соседние
ячейки или заполнить их подобными данными требуется нажать левую
кнопку мыши и перемещать мышь в нужном направлении.
При проведении сложного статистического или инженерного анализа можно
использовать надстройку "Пакет анализа". Набора его средств достаточно
38
для реализации большинства инженерных запросов. Чтобы выполнить анализ
с помощью этого пакета, следует указать входные данные и выбрать
параметры. Расчет будет выполнен с использованием подходящей
статистической или инженерной макрофункции, а результат будет помещен в
выходной диапазон. Некоторые инструменты позволяют представить
результаты анализа в графическом виде.
Нужно отметить, что в списке доступных надстроек по умолчанию пакет
анализа данных отсутствует. Поэтому сначала его следует установить.
Загрузка и активация Пакета Анализа осуществляется следующим образом:
1. Откройте вкладку Файл, нажмите кнопку Параметры и выберите
категорию Надстройки.
2. В раскрывающемся списке Управление выберите пункт Надстройки
Excel и нажмите кнопку Перейти.
3. В окне Надстройки установите флажок Пакет анализа, а затем
нажмите кнопку ОК.
• Если Пакет анализа отсутствует в списке поля Доступные
надстройки, нажмите кнопку Обзор, чтобы выполнить поиск.
Рекомендуемый алгоритм:
41
Замечание 1. На данном рисунке гистограмма, представляет собой
смежные прямоугольники, в действительности, гистограмма при описанном
алгоритме строится в виде:
Гистограмма
18
16
14
12
Частота
10
8
6
4
2
0
23 32 41 50 59 68 77 Еще
42
Замечание 3. При заполнении параметра интервал карманов следует
учесть:
значения, соответствующие концам интервалов, должны быть
введены в возрастающем порядке;
параметр интервал карманов не является обязательным, так как если
диапазон карманов не был введен, то набор отрезков, равномерно
распределенных между минимальным и максимальным значениями
данных, будет создан автоматически.
в Microsoft Office Excel вычисляется число попаданий данных в
диапазон между текущим началом отрезка и соседним большим по
порядку, если такой существует. При этом включаются значения на
нижней границе отрезка и не включаются значения на верхней
границе.
Для подсчета процентных значений распределения в правых
границах интервалов F * ( x)100% следует активизировать (установить
флажок) «Интегральный процент».
43
Группировка данных и построение графиков с помощью
встроенных функций.
44
значения границ интервалов. Потом одновременно нажимаются клавиши
[Ctrl], [Shift], [Enter].
2. Если массив границ не содержит значений, то группировка осуществляется
автоматически.
3. Если границы интервалов задаются с шагом единица, то получается
дискретный ряд.
45
и одновременно нажимаем клавиши [Ctrl], [Shift], [Enter]. В ячейках С2:С8
появится результат выполнения функции.
46
Гистограмму относительных частот построим, используя,
содержащиеся во вкладке Вставка, возможности построения гистограмм.
1. Выделим диапазон ячеек D2:D8.
2. Выбираем во вкладке Вставка, на ленте в группе Диаграммы меню
Гистограмма. В данном меню выбираем вид гистограммы, например,
Гистограмма с группировкой. Каждую диаграмму легко обработать
используя макет и стиль диаграммы.
3. При щелчке правой кнопкой мыши по диаграмме в появившемся
диалоговом окне в пункте Формат ряда данных можно устанавливать
желаемый боковой зазор (в рассматриваемом примере он составляет
0%), изменять заливку, цвет и стили границ гистограмм.
47
Гистограмма относительных частот
0,35
0,3
0,25
0,2
0,15
0,1
0,05
0
23 32 41 50 59 68 77
49
20, 27, 26, 32, 37, 22, 20, 27, 32, 37, 22, 32, 37, 26, 32, 17, 32, 22, 15, 20, 26, 22,
32.
Решение. Для вычисления числовых характеристик в столбец А,
начиная с ячейки А1 вводятся данные задачи. Обратившись к режиму
Описательная статистика, в диалоговом окне следует включить
параметры, указанные на рисунке, и щелкнуть ОК.
50
В Excel содержатся стандартные статистические функции,
позволяющие вычислять числовые характеристики диапазона данных.
Рассмотрим основные из них:
Название Описание Синтаксис
функции
(обозначение)
ДИСП ( S в2 ) Оценивает дисперсию по =ДИСП(число1; число2; …)
выборке
ДИСПР ( Dв ) Вычисляет дисперсию для =ДИСПР(число1; число2; …)
генеральной совокупности
МЕДИАНА (Ме) Возвращает медиану =МЕДИАНА(число1; число2;
заданных чисел …)
МОДА (Мо) Возвращает наиболее =МОДА(число1; число2; …)
часто встречающееся или
повторяющееся значение в
массиве или интервале
данных
51
СКОС ( As ) Возвращает асимметрию =СКОС(число1; число2; …)
распределения
СРЗНАЧ ( x в ) Возвращает среднее =СРЗНАЧ(число1;число2; …)
арифметическое
аргументов
СТАНДОТКЛОН Оценивает стандартное =СТАНДОТКЛОН(число1;
(s) отклонении по выборке число2; …)
СТАНДОТКЛОНП Вычисляет стандартное =СТАНДОТКЛОНП (число1;
( ) отклонение по число2; …)
генеральной совокупности
ЭКСЦЕСС ( E x ) Возвращает эксцесс =ЭКСЦЕСС (число1; число2;
множества данных …)
Пример 23. Вычислить числовые характеристики по данным примера
22, используя встроенные функции Excel.
Решение. В столбец А вводим данные примера 22. Выбрав ячейку С3
на панели Стандартная, вызываем мастер функций f x , выбираем категорию
Статистические и в ней одну из перечисленных выше функций. Используя
диалоговые окна функции в качестве диапазона данных указываем адреса
ячеек А2:А51 и щелкаем ОК. Результаты приведены на рисунке:
52
Если данные представлены в виде сгруппированного статистического
ряда, то вычисление числовых характеристик может быть произведено
только путем программирования арифметических действий в ячейках Excel.
Пример 24. Вычислить выборочную среднюю и дисперсию пользуясь
выборочными данными (см. пример 2, Глава 1)
интервалы 5,0-5,1 5,1-5,2 5,2-5,3 5,3-5,4 5,4-5,5 5,5-5,6 5,6-5,7 5,7-5,8
ni 2 4 11 16 28 17 12 10
53
Глава II. СТАТИСТИЧЕСКОЕ ОЦЕНИВАНИЕ ПАРАМЕТРОВ
РАСПРЕДЕЛЕНИЯ
54
в соответствие вероятность, характеризующую степень достоверности
принимаемого решения.
Задача оценки параметров в общем виде: пусть распределение
признака X – генеральной совокупности – задается функцией вероятностей
( xi , ) P( X xi ) (для дискретной случайной величины X) или плотностью
вероятности ( x, ) (для непрерывной случайной величины X), которая
содержит неизвестный параметр . Например, это параметр в законе
Пуассона или параметры a и для нормального закона и т.д.
Для вычисления параметра исследовать все элементы генеральной
совокупности не представляется возможным. Поэтому о параметре
пытаются судить по выборке, состоящей из значений (вариант) x1 , x2 ,...,xn .
Эти значения можно рассматривать как частные значения (реализации) n
независимых случайных величин X 1 , X 2 ,...,X n , каждая из которых имеет тот
же закон распределения, что и сама случайная величина X.
~ ~
Определение. Статистической оценкой n (или просто – оценкой )
параметра теоретического распределения называют его приближенное
значение, зависящее от данных выбора.
~
Очевидно, что оценкой n называют всякую функцию результатов
наблюдений над случайной величиной X (иначе – статистику), с помощью
которой судят о значении параметра :
~ ~
n n ( X 1 , X 2 ,...,X n ) .
~
Поскольку X 1 , X 2 ,...,X n – случайные величины, то и оценка n
является случайной величиной, зависящей от закона распределения
случайной величины X и числа n.
Выбор оценки, позволяющий получить хорошее приближение
оцениваемого параметра, – основная задача теории оценивания.
55
§ 2.2. Несмещенные, эффективные и состоятельные оценки
Для того чтобы статистические оценки давали «хорошие»
приближения оцениваемых параметров, они должны удовлетворять
следующим требованиям:
1. Состоятельность оценок
~
Определение. Оценка n параметра называется состоятельной,
если при неограниченном увеличении объема выборки ( n ) она
стремится к истинному значению параметра . Это означает, что для любого
0 выполняется соотношение
~
lim P n 1 .
n
57
§2.3. Точечные оценки математического ожидания и дисперсии
Статистика, используемая в качестве приближенного значения
неизвестного параметра генеральной совокупности, называется ее точечной
оценкой. То есть точечная оценка характеристики генеральной совокупности
– это число, определяемое по выборке.
Наиболее важными числовыми характеристиками случайной величины
являются математическое ожидание и дисперсия.
Выясним, какие выборочные характеристики лучше всего в смысле
несмещенности, эффективности и состоятельности оценивают
математическое ожидание и дисперсию.
Пусть изучается случайная величина X с математическим ожиданием
a M (X ) и дисперсией D(X ) ; оба параметра неизвестны, а x1 , x2 ,...,xn –
выборка, полученная в результате проведения n независимых наблюдений за
случайной величиной X. Чтобы подчеркнуть случайный характер величин
x1 , x2 ,...,xn перепишем их в виде X 1 , X 2 ,...,X n , т.е. под X i будем понимать
значение СВ X в i-м опыте. Поскольку эти величины одинаково
распределены, то они имеют одинаковые числовые характеристики.
Поэтому M ( X 1 ) M ( X 2 ) ... M ( X n ) M ( X ) a , D( X 1 ) D( X 2 ) ... D( X n ) D( X ) .
Теорема. Пусть X 1 , X 2 ,...,X n – выборка из генеральной совокупности
ожидания M (X ) .
M X M X
1 n
1 n 1 n
M X i M X i na a.
1
в i
n i 1 n i 1 n i 1 n
58
1 n 1 n
lim P X i M X i 1 ,
n
n i 1 n i 1
которое, согласно условию теоремы, можно переписать в виде:
lim P X в M ( X ) 1
n
или, что то же самое, lim P 1 . Согласно определению получаем,
n
sв2
1 n
n 1 i 1
2
xi x в ni .
59
n n 1
M sв2 M
n n
Dв M Dв D X D X .
n 1 n 1 n 1 n
2494 2504,875 254,41 .
2
60
Решение. Несмещенная оценка равна исправленной дисперсии
n 51
s в2 Dв 5 5,1.
n 1 50
Метод моментов
Метод моментов был предложен английским статистом Карлом
Пирсоном в 1894 году и является одним из первых общих методов
оценивания.
Метод моментов заключается в приравнивании определенного числа
выборочных (эмпирических) моментов к соответствующим теоретическим
моментам распределения.
Формулы для вычисления теоретических и эмпирических моментов
приведены в таблице:
Момент Теоретический Эмпирический
n m
k xik pi (для ДСВ) xik ni
i 1
~k i 1
Начальный
n
k x ( x)dx (для НСВ)
k
n m
k xi a pi xi x
k k
(для ДСВ) ni
i 1
~k i 1
Центральный
n
k x a ( x)dx (для НСВ)
k
61
Замечание. В приложениях обычно используются моменты первого и
второго порядков. Очевидно, что теоретический начальный момент первого
порядка – математическое ожидание, а центральный момент второго порядка
– дисперсия. Эмпирический начальный момент первого порядка –
выборочное среднее, эмпирический центральный момент второго порядка –
выборочная дисперсия.
В прикладных задачах наибольшее приложение имеют распределения,
описываемые одним или двумя параметрами.
Если распределение определяется одним параметром, то для
построения оценки один теоретический момент приравнивается к
одному эмпирическому моменту того же порядка (обычно первого), т.е
надо решить одно уравнение: 1 ~1 или M ( X ) x в .
Если распределение зависит от двух параметров, то для получения
оценок следует решить систему из двух уравнений, которая получается
если приравнять два теоретических момента к двум соответствующим
эмпирическим моментам тех же порядков (обычно первых двух). В общем
1 ~1 , M ( X ) x в ,
случае система уравнений имеет вид: ~
2 2 , D( X ) Dв .
62
Число Количество Число Количество
посетителей ( xi ) часов ( ni ) посетителей ( xi ) часов ( ni )
0 57 7 139
1 203 8 45
2 383 9 27
3 525 10 10
4 532 11 4
5 408 12 1
6 273 14 1
В предположении, что случайное число посетителей описывается
распределением Пуассона, оценить параметр методом моментов. Оценить
вероятность того, что в течение часа на сайте не будет ни одного посетителя.
Решение. Распределение Пуассона определяется одним параметром.
Для получения оценки составляем уравнение:
M ( X ) xв .
x n i i
10096
M (X ) , а xв i 1
3,87 .
n 2608
Следовательно, * 3,87 . Для оценки вероятности используем
63
Границы Середина Число Границы Середина Число
отклонений интервала валиков отклонений интервала валиков
-30…-25 -27,5 3 0–5 2,5 55
-25…-20 -22,5 8 5 –10 7,5 30
-20…-15 -17,5 15 10 – 15 12,5 25
-15…-10 -12,5 35 15 – 20 17,5 14
-10…-5 -7,5 40 20 –25 22,5 8
-5…0 -2,5 60 25 –30 27,5 7
M ( X ) xв ,
D( X ) Dв .
a x в ,
2
Dв .
* Dв .
64
Середина Число
xi ni xi x в xi xв
2
x i x в 2 ni
интервала xi валиков ni
-27,5 3 -82,5 -27,1 734,41 2203,23
-22,5 8 -180 -22,1 488,41 3907,28
-17,5 15 -262,5 -17,1 292,41 4386,15
-12,5 35 -437,5 -12,1 146,1 5124,35
-7,5 40 -300 -7,1 50,41 2016,4
-2,5 60 -150 -2,1 4,41 264,6
2,5 55 137,5 2,9 8,41 462,55
7,5 30 225 7,9 62,41 1872,3
12,5 25 312,5 12,9 166,41 4160,25
17,5 14 245 17,9 320,41 4485,74
22,5 8 180 22,9 524,41 4195,28
27,5 7 192,5 27,9 778,41 5448,87
300 -120 38 527
120 ( x i x в ) 2 ni
38527
xв 0,4 , Dв i 1 128,42 .
300 n 300
15
P X 0,4 15 2 21,32 2 * 0,4066 0,8132 81% .
11,33
35 40 60 55 30 25 245
0,817 82% .
300 300
где p( xi , ) PX xi , .
Согласно методу максимального правдоподобия в качестве оценки
~
неизвестного параметра принимается такое значение , которое
максимизирует функцию правдоподобия.
66
Эта оценка, называемая оценкой максимального правдоподобия,
является решением уравнения
dL x,
0.
d ~
Заметим, что нахождение оценки упрощается, если максимизировать не
саму функцию Lx, , а ln Lx, поскольку максимум обеих функций
достигается при одном и том же значении . Величину ln Lx, иногда
называют логарифмической функцией правдоподобия.
Алгоритм нахождения оценки максимального правдоподобия:
1. решить уравнение правдоподобия, получаемое приравниванием
d ln Lx,
производной по параметру к нулю, т.е. 0;
d
2. отобрать то решение, которое обращает функцию ln Lx, в максимум
d ln Lx,
2
ln L
0,
1
уравнений правдоподобия: ...,
ln L
0.
n
68
n
xi
Lx1 , x2 ,...,xn , e x1 e x2 ... e xn n e i 1
.
Логарифмируя, получим:
xi
n
n
ln L ln n e i 1 n ln xi
i 1
и
d ln L n n
xi .
d i 1
Уравнение правдоподобия имеет вид:
n n
xi 0 .
i 1
Отсюда находим
~ n 1
n
.
xi xв
i 1
~ 1
Докажем, что в критической точке функция правдоподобия
xв
d 2 ln L n d 2 ln L n
достигает максимума. Находим 2 , а так как 2 0 , то
d 2
d 2
~ 1
оценка является оценкой максимального правдоподобия.
xв
n
xi ni
i 1
По выборочным данным находим: xв 20 .
n
~ 1 1
Итак, получаем 0,05 .
xв 20
PX 60 0,05e 0,05x dx lim e 0,05x 60 e
b 3
0,05 .
b
60
69
с неизвестным параметром p. В таблице приведено эмпирическое
распределение числа появлений события А в 1000 испытаниях (в первой
строке указано число xi появлений события в одном опыте из m 10
испытаний, во второй строке приведена частота ni – число опытов, в которых
наблюдалось xi появлений события А):
xi 0 1 2 3 4 5 6 7
ni 2 3 10 22 26 20 12 5
Найти методом максимального правдоподобия точечную оценку
неизвестного параметра p биномиального распределения.
Решение. В рассматриваемом случае функция правдоподобия имеет
вид
L Cmx1 p x1 1 p
m x1
C x2
m p x2 1 p
m x2
C xn
m p xn 1 p
m xn
,
или
L Cmx1 Cmx2 Cmxn p x1 x2 xn 1 p
nm x1 x2 xn
.
Прологарифмировав функцию правдоподобия, получим:
ln L ln Cmx1 Cmx2 Cmxn xi ln p nm xi ln 1 p .
i i
Первая производная по оцениваемому параметру p равна:
x nm xi
d ln L i i
i
.
dp p 1 p
Уравнение правдоподобия имеет вид:
xi nm xi
i
i
0.
p 1 p
Решением которого является критическая точка
xi
p i
.
nm
Вторая производная по p:
70
d 2 ln L xi nm xi
i 2 i
.
dp 2
p 1 p 2
xi d 2 ln L n3m3
При p i
вторая производная 0,
nm dp 2
xi mn xi
i i
следовательно, эта точка является точкой максимума и ее надо принять в
качестве оценки максимального правдоподобия неизвестной вероятности p
биномиального распределения. Учитывая, что xi появлений события
наблюдалось в ni опытах, получим искомую оценку
xi ni
p
* i
.
nm
Подставляя в найденную оценку заданные значения, получим
400
p* 0,4 .
1000
Пример 10. Найти методом максимального правдоподобия по выборке
x1 , x2 ,...,xn точечные оценки параметров a и нормального распределения,
плотность которого
x a 2
1
f ( x) e 2 2 .
2
Решение. Выпишем функцию правдоподобия в виде
1 n
1 xi a 2
L( x1 , x2 ,...,a, ) 2 i 1
2
e
n
.
2
Логарифмическая функция правдоподобия имеет вид
1
xi a .
n
ln L n ln n ln 2
2
2 2
i 1
71
ln L 1 n n x a 0,
a x a 0,
i 1 a*
1 n
xi ,
2 i 1
i i
n i 1
n 1
3 xi a 0, 3 xi a , *2 xi x .
ln L n 1 n 2
n 2 1 n 2
i 1 i 1 n i 1
i 1
72
~
Пример 11. Найти оценку метода наименьших квадратов n для
генеральной средней x0 .
~
Решение. Согласно методу наименьших квадратов найдем оценку n
из условия минимизации суммы:
n
F xi min .
2
i 1
dF n n x
2 xi 0 , откуда
i
d
xi n 0 , кр i 1
n
xв . А так как
i 1 i 1
d 2F n x i
2 1 2n 0 при любом значении , то кр i 1
xв – точка
d 2 i 1 n
n
~ x i
минимума функции F ( ) . Таким образом, n i 1
xв , т.е. оценка метода
n
наименьших квадратов генеральной средней x0 есть выборочная средняя xв .
Метод наименьших квадратов получил самое широкое
распространение в практике статистических исследований, так как, во-
первых, не требует знания закона распределения выборочных данных; во-
вторых, достаточно хорошо разработан в плане вычислительной реализации.
Метод применяется в задачах корреляционного и регрессионного
анализа.
Замечание. Даже имея очень большой объем экспериментальных
данных, невозможно указать точного значения оцениваемого параметра.
Более того, как уже неоднократно отмечалось, получаемые оценки близки к
истинным значениям оцениваемых параметров только «в среднем» или «в
большинстве случаев». Поэтому важной статистической задачей является
задача определения точности и достоверности проводимого оценивания.
73
§2.5. Понятие доверительного оценивания. Доверительная вероятность
~ ~
1 2
~ ~
~
P n , n P n .
~
Число 0 характеризует точность оценки: чем меньше разность n ,
75
для дальнейшего построения интервала является вопрос о том, известна или
нет дисперсия.
P xв a .
Пользуясь формулой
P X a 2 ,
заменив X через xв и через x в , получим
n
n
P xв a 2 2t ,
n
где t . Из последнего равенства находим
t
,
n
t
Поэтому P xв a 2t или
n
P x в t a xв t 2t .
n n
Смысл полученного соотношения таков: с надежностью γ можно утверждать,
что доверительный интервал
xв t a xв t (2.1)
n n
76
покрывает неизвестный параметр а.
Точность оценки определяется формулой
t (2.2)
n
Число t определяется из равенства 2t ; по таблице функции
Лапласа (см. приложение 2) находят значение аргумента t, которому
соответствует значение функции Лапласа, равное .
2
Замечание. Оценку xв a t называют классической. Из формулы
n
(2.2), определяющей точность классической оценки, можно сделать
следующие выводы:
- при возрастании объема выборки n число убывает и, следовательно,
точность оценки увеличивается;
- увеличение надежности оценки 2t приводит к увеличению t, а
следовательно, и к возрастанию ; другими словами, увеличение
надежности классической оценки влечет за собой уменьшение ее
точности.
Отметим, что соотношение (2.1) – точное, т.е. справедливо для любых
объемов экспериментальных данных, в том числе и для малых выборок.
Пример 12. Постоянная величина измерена 25 раз с помощью прибора,
систематическая ошибка которого равна нулю, а случайные ошибки
измерения распределены по нормальному закону со средним квадратичным
отклонением 10 м. Определить значения границ доверительного
интервала для измеряемой величины с надежностью 0,99, если xв 100 м.
Решение. Найдем значение t. Из соотношения 2t 0,99 получим
t 0,495 . По таблице приложения 2 находим t 2,57 .
77
10
По формуле (2.2) точность оценки t 2,57 5,14 .
n 25
Доверительный интервал строим по формуле (2.1): 100-5,14<a<100+5,14, т.е.
99,86<a<105,14.
Пример 13. Средняя квадратичная ошибка высотомера 15 м.
Сколько надо иметь таких приборов на самолете, чтобы с вероятностью 0,99
ошибка измерения средней высоты x в была меньше 30м? При этом
случайные ошибки распределены по нормальному закону, а систематические
ошибки отсутствуют.
Решение. Из соотношения 2t 0,99 получим t 0,495 . По
таблице приложения 2, находим t 2,57 . Используем формулу для
определения ошибки измерения (2.2) t . Подставляя значения,
n
15
получим 2,57 30 , откуда n 1,285 . Число высотомеров n – целое,
n
поэтому берем ближайшее целое число, следовательно, n 2 , т.е. на
самолете должно быть не менее двух высотомеров.
Пример 14. Для среднего значения нормально распределенного
признака X генеральной совокупности был построен доверительный интервал
(255,3; 263,5). Какова доверительная вероятность γ построенного интервала,
если размер выборки был равен 49, а 22,42 .
Решение. Находим величину середины интервала, которая является
выборочным средним значением xв 259,4 , ошибка измерения
263,5 x в 263,5 259,4 4,1. По формуле (2.2) t ,
n
n 4,1 49
следовательно t 1,28 . По таблице функции Лапласа
22,42
(приложение 2), находим 21,28 0,7994 .
78
Доверительные интервалы для оценки математического ожидания
нормального распределения при неизвестном
Для построения доверительного интервала введем случайную величину
X a
T ,
S
n
79
Решение. Находим выборочное среднее xв 86 и «исправленное»
среднее квадратическое отклонение s 12,54 . Для уровня значимости
0,95 и объема выборки n 10 находим по таблице (приложения 3)
значение t 2,26 . Определим границы доверительного интервала,
4,795 10 10 , 4,779 10 10 , 4,769 10 10 . Определить значение оценки величины
заряда электрона и найти доверительный интервал при коэффициенте
доверия 99%, считая, что ошибки распределены по нормальному закону и
измерения не имеют систематической ошибки.
Решение. По результатам опыта xв 4,783 10 10 , s 0,01. Пользуясь
таблицей приложения 3 при 0,99 и n 5 , находим t 4,6 . Тогда
доверительные границы:
s 0,01
xв t 4,783 10 10 4,6 4,762 10 10 ;
n 5
s 0,01
xв t 4,783 10 10 4,6 4,805 10 10 .
n 5
Итак, с надежностью 0,99 величина заряда электрона заключена в
доверительном интервале 4,762 1010 a 4,805 10 10 .
80
Доверительный интервал для среднего квадратического отклонения
нормального распределения
Пусть количественный признак X генеральной совокупности
распределен нормально. Требуется оценить неизвестное генеральное среднее
квадратическое отклонение по «исправленному» выборочному среднему
квадратическому отклонению s. Построим доверительный интервал для
среднего квадратического отклонения с заданной надежностью .
Потребуем, чтобы выполнялось соотношение
P s ,
или
Ps s .
Преобразуем двойное неравенство s s в равносильное
неравенство
s1 s1 .
s s
Введем обозначение q и получим доверительный интервал для оценки
s
среднего квадратического отклонения
s1 q s(1 q) ,
81
Решение. В теории ошибок точность измерений (точность прибора)
принято характеризовать при помощи среднего квадратического отклонения
случайных ошибок измерений. Для оценки используют исправленное
среднее квадратическое отклонение s.
Доверительный интервал вычислим по формуле s1 q s(1 q) .
По таблице (приложение 4) при 0,95 и n 12 найдем q 0,55 . Тогда,
искомый интервал таков:
0,61 0,55 0,61 0,55 ,
или
0,27 0,93 .
82
б) при неизвестном
s s
x t a x t
n n
Искомая величина Алгоритм нахождения
t
s появившемся диалоговом окне задать параметр Уровень
x n
надежности, который определяет величину , от
x
которого зависит доверительный интервал
лев
2
ХИ2ОБР1 - ;n ,
2
прав
2
ХИ2ОБР ; n ,
2
85
Выходной интервал: определяет место вывода результатов вычислений D2
Включаем параметры – итоговая статистика и уровень надежности 95%
86
s s
Следовательно, доверительный интервал x t a x t примет
n n
вид: (-0,09-9,641; -0,09+9,641) или (-9,731; 9,555).
Доверительный интервал для среднего квадратичного имеет вид:
n 1 S n 1 S
x ; . Используем встроенную функцию ХИ2ОБР,
прав лев
учитывая, что число степеней свободы равно n-1, где n – объем выборки
0,1
лев
2
ХИ2ОБР1 - ; n ХИ2ОБР1 - ;10 1 ХИ2ОБР0,95;9 ,
2 2
лев
2
3,325 .
Аналогично,
прав
2
ХИ2ОБР ; n ХИ2ОБР 0,05;9 16,919 .
2
Получаем лев 1.823 , прав 4,113
87
ГЛАВА III. ПРОВЕРКА СТАТИСТИЧЕСКИХ ГИПОТЕЗ
88
В общем случае, не располагая сведениями обо всей генеральной
совокупности, высказанную гипотезу сопоставляют по определенным
правилам с выборочными данными и делают вывод о том, можно принять
гипотезу или нет. Эта процедура называется проверкой гипотезы.
Рассмотрим этапы проверки гипотезы и используемые при этом понятия.
ЭТАП 1. Располагая выборочными данными и руководствуясь
конкретными условиями рассматриваемой задачи, формулируют гипотезу
H 0 , которую называют нулевой (или основной), и противоположную ей
гипотезу H 1 , называемую альтернативной (или конкурирующей) гипотезой.
За основную гипотезу принимается то предположение, неверное
отклонение которого приводит к более опасным последствиям.
ЭТАП 2. Решение о том, можно ли считать высказывание H 0
справедливым для генеральной совокупности, принимается по выборочным
данным, т.е. по ограниченному объему информации. Следовательно, это
решение может быть ошибочным. При этом могут иметь место следующие
случаи:
– отклоняют гипотезу H 0 (принимают альтернативную H 1 ), тогда как
на самом деле гипотеза H 0 верна; это ошибка первого рода;
– принимают гипотезу H 0 , тогда как на самом деле гипотеза H 0
неверна (верной является гипотеза H 1 ); это ошибка второго рода.
Определение. Вероятность ошибки первого рода (обозначается через )
называется уровнем значимости критерия.
Обычно пользуются стандартными значениями для (0,1; 0,05; 0,025;
0,01; 0,005, 0,001). Например, величина 0,01 означает, что среднем в
одном случае из ста при использовании данного статистического критерия
будет ошибочно отвергаться справедливая основная гипотеза H 0 .
Вероятность допустить ошибку 2-го рода, т.е. принять гипотезу H 0 ,
когда она неверна, обычно обозначают .
89
Определение. Вероятность 1 не допустить ошибку 2-го рода, т.е.
отвергнуть гипотезу H 0 , когда она неверна, называется мощностью
критерия.
Сказанное выше иллюстрирует таблица:
Статистическое Фактическая оценка нулевой гипотезы
решение Верна Неверна
Не отвергать нулевую Правильное решение, его Ошибка второго рода, ее
гипотезу вероятность 1 вероятность
Отвергнуть нулевую Ошибка первого рода, ее Правильное решение, его
гипотезу вероятность вероятность 1
Таким образом, верные решения возникают в случае, если: гипотеза H 0
является верной, и она принимается; H 0 является ложной гипотезой, и она
отвергается.
Понять смысл ошибок первого и второго рода поможет рассмотрение
ситуации с вынесением судебного приговора. В соответствии с презумпцией
невиновности, подсудимый считается невиновным (нулевая гипотеза) до тех
пор, пока не будет доказано противное в результате показаний свидетелей,
экспертиз, вещественных доказательств и т. д. Если суд считает невиновного
человека преступником, то совершается ошибка первого рода (нулевая
гипотеза отвергается в то время, когда она верна). Если же суд признает
преступника невиновным, то совершается ошибка второго рода (нулевая
гипотеза не отвергается в то время, когда она неверна). Два других решения,
которые могут быть приняты судом, являются верными и, следовательно,
справедливыми.
В ряде прикладных исследований ошибка первого рода означает
вероятность того, что предназначавшийся наблюдателю сигнал не будет им
принят, а ошибка второго рода – вероятность того, что наблюдатель
примет ложный сигнал.
90
Очевидно, что и желательно сделать как угодно малыми. В
теории статистической проверки гипотез доказывается, что при
фиксированном объеме выборки можно сделать как угодно малой лишь одну
из величин – или , что сопряжено с неизбежным увеличением другой.
Лишь при увеличении объема выборки возможно одновременное
уменьшение вероятностей и . Выбор значений и определяется в
зависимости от конкретного содержания решаемой задачи. Чем весомее для
исследователя потери от ошибочного отвержения основной гипотезы, тем
меньше .
Вероятности ошибок первого и второго рода однозначно определяются
выбором критической области.
Пример 1. Рассматривается вопрос о влиянии нового метода обучения на
среднюю успеваемость. Проведено выборочное исследование. Требуется:
1) Сформулировать нулевую и альтернативную гипотезы.
2) Охарактеризовать ошибки первого и второго рода.
Решение. 1) Нулевая гипотеза – средняя успеваемость остается
неизменной; альтернативная гипотеза – средняя успеваемость изменяется
(если есть уверенность в том, что после введения нового метода средняя
успеваемость может только увеличиваться, то альтернативная гипотеза
может быть сформулирована так: средняя успеваемость больше известной
величины)
2) Верные решения и типы ошибок при проверке данной статистической
гипотезы представим в таблице.
91
Принятое Истинное положение
решение Средняя успеваемость Средняя успеваемость
не изменилась изменилась
Успеваемость Правильное решение Ошибка второго рода
не Принято решение о
изменилась неэффективности нового метода
обучения – возможен возврат к
прежнему методу.
Средняя Ошибка первого рода Правильное решение
успеваемость Принято решение об
изменилась эффективности нового
метода обучения –
будет повсеместно
введен новый метод, но
он не оправдает
ожидания
92
К критической области выдвигается следующее требование:
Вероятность принятия критерием К значения из критической
области D при справедливости гипотезы H 0 должна быть равна , т.е.
P( K D) .
O Kкр
б)
–Kкр O
в)
–Kкр O Kкр
93
Односторонней называют правостороннюю или левостороннюю
критическую область.
Двусторонней называется критическая область, определяемая
неравенством
K K' кр , K K" кр .
где K' кр и K" кр определяются из условий PK K "кр и PK K 'кр и
2 2
называются двусторонними критическими точками, отвечающими уровню
значимости .
В частности, если критические точки симметричны относительно нуля,
то говорят о двусторонней симметрической критической области
K K кр , Kкр 0 .
94
гипотезы H 0 в сравнении с альтернативной H 1 не означает, что мы уверены в
абсолютной правильности H0 или что высказанное в гипотезе H0
95
a0 . Например, если X– совокупность размеров xi партии деталей,
изготовляемых станком-автоматом, то можно предположить, что генеральная
средняя а этих размеров равна проектному размеру a0 . Чтобы проверить это
U
X a 0 n
которая распределена нормально, причем при справедливости нулевой
гипотезы M (U ) 0 , (U ) 1 .
96
Обозначим значение критерия U, вычисленное по данным
наблюдений, через U набл и сформулируем правило проверки нулевой
гипотезы.
Правило. Для того чтобы при заданном уровне значимости проверить
нулевую гипотезу H 0 : a a0 о равенстве генеральной средней а нормальной
U набл
x a 0 n
.
2. По таблице функции Лапласа (приложение 2) найти критическую
область в зависимости от вида конкурирующей гипотезы (см.
нижеследующую таблицу) и сделать вывод о принятии или
отклонении основной гипотезы.
Область Область
Конкурирующая Критическая Критическая
принятия отклонения
гипотеза H1 область точка uкр
H0 H0
1 2α U набл uкр U набл uкр
H1 : a a0 правосторонняя Φ(uкр )
2
1 2α U набл uкр U набл uкр
H1 : a a0 левосторонняя Φ(uкр )
2
1 α
H1 : a a0 двусторонняя Φ(uкр ) U набл uкр U набл uкр
2
Пример 2. В цехе завода выпускают валы электродвигателей. Из
продукции одного станка произвольно выбирают 50 изделий, измеряют их
диаметры и вычисляют значение выборочного среднего x в 42,972 мм. По
техническим условиям станок настраивается на номинальный размер 43 мм.
Можно ли, при уровне значимости 0,05, на основании полученных
результатов, сделать вывод о том, что станок обеспечивает заданный
номинальный размер, или полученные данные свидетельствуют о
97
неудовлетворительной наладке технологического оборудования.
Контролируемый признак имеет нормальное распределение, 2 0,01 мм2.
Решение. Для оценки правильности настройки оборудования
необходимо проверить гипотезу H 0 : a a0 43 мм о математическом
U набл
x a
0 n
42,972 43 50
1,98 .
0,1
По виду конкурирующей гипотезы выбираем двустороннюю
критическую область. Критическую точку найдем по равенству
1 α 1 0,05
Φ(uкр ) 0,475 .
2 2
По таблице функции Лапласа (приложение 2) находим uкр 1,96 .
T
X a 0 n
,
s
где s — «исправленное» среднее квадратическое отклонение. Величина Т
имеет распределение Стьюдента с k n 1 степенями свободы.
Правило проверки нулевой гипотезы:
98
Правило. Для того чтобы при заданном уровне значимости проверить
нулевую гипотезу H 0 : a a0 о равенстве неизвестной генеральной средней а
(нормальной совокупности с неизвестной дисперсией) гипотетическому
значению a0 надо:
1. Вычислить наблюдаемое значение критерия:
Tнабл
x a 0 n
.
s
2. По таблице критических точек распределения Стьюдента
(приложение 5), по заданному уровню значимости и числу
степеней свободы k n 1 найти критическую область (в зависимости
от вида конкурирующей гипотезы) и сделать вывод о принятии или
отклонении основной гипотезы
99
Решение. Для вычисления выборочной средней и исправленной
дисперсии составим расчетную таблицу:
xi ni xi ni xi x в x x x
i в
2
i 2
x в ni
24,7 3 74,1 -0,325 0,105625 0,316875
24,9 2 49,8 -0,125 0,015625 0,03125
25 5 125 -0,025 0,000625 0,003125
25,1 4 100,4 0,075 0,005625 0,0225
25,2 6 151,2 0,175 0,030625 0,18375
20 500,5 -0,225 0,158125 0,5575
500,5 0,5575
Имеем: x в 25,025 , sв2 0,027875 , sв 0,17 .
20 19
Вычислим наблюдаемое значение критерия
Tнабл
x a 0 n
25,025 25 20
0,658 .
s 0,17
По условию конкурирующая гипотеза H1 : a 25, поэтому критическая
область – двусторонняя.
По таблице критических точек распределения Стьюдента по уровню
значимости 0,01 и по числу степеней свободы k 20 1 19, находим
критическую точку tдв уст.кр. 0,01;19 2,86 .
100
02 . На практике 02 устанавливается на основании предшествующего опыта
или теоретически.
Пусть из генеральной совокупности извлечена выборка объема n и по
ней найдена исправленная выборочная дисперсия s 2 с k n 1 степенями
свободы. Требуется проверить нулевую гипотезу H 0 : M ( s 2 ) 02 , что
математическое ожидание исправленной дисперсии равно гипотетическому
значению генеральной дисперсии. Другими словами, требуется установить,
значимо или незначимо различаются исправленная выборочная и
гипотетическая генеральная дисперсии.
На практике рассматриваемая гипотеза проверяется, если нужно
проверить точность приборов, инструментов, станков, методов исследования
и устойчивость технологических процессов. Например, если известна
допустимая характеристика рассеяния контролируемого размера деталей,
изготавливаемых станком-автоматом, равная 02 , а найденная по выборке
101
область и сделать вывод о принятии или отклонении основной
гипотезы
Конкури- Критическая Область
Критическая Область
рующая точка отклонения
область принятия H 0
гипотеза H1 крит
2
( , k ) H0
H 0 : 2 02 правосторон. крит
2
( , k ) набл
2
кр2 набл
2
кр2
набл
2
. лев .кр
2
левая
2
кр (1 ;k) или
2 лев
2
.кр набл. прав .кр
2 2
H1 :
2 2
двусторонняя
0
набл
правая . прав.кр
2 2 2
кр ( ;k)
2
гипотезы H1 : 2 0,18 .
Решение. Найдем наблюдаемое значение критерия
(n-1 )sв2 (17 1)0,24
2
набл 21,33 .
σ 02 0,18
102
Пример 5. В результате длительного хронометража времени сборки
узла различными сборщиками установлено, что дисперсия этого времени
02 2 мин2. Результаты 20 наблюдений за работой новичка таковы ( xi –
время сборки одного узла в минутах, середины интервалов; ni – частота):
xi 56 58 60 62 64
ni 1 4 10 3 2
Можно ли при уровне значимости 0,05 считать, что дисперсия
затрачиваемого новичком времени существенно не отличается от дисперсии
времени остальных сборщиков?
Решение. Для вычисления наблюдаемого значения критерия вычислим
исправленную выборочную дисперсию. Результаты вычислений приведем в
следующей таблице:
xi 56 58 60 62 64 Итого:
ni 1 4 10 3 2 20
103
Так как набл
2
прав
2
ост. кр , то нулевая гипотеза отвергается.
105
Решение. В данном случае нулевая гипотеза H 0 : p p0 0,75 , а
конкурирующая гипотеза H1 : p 0,75 .
Найдем значение статистики критерия, учитывая, что относительная
140
частота в данной задаче равна w 0,7 :
200
(w p0 ) n 0,7 0,75 200
U набл 1,63 .
p0( 1 p0 ) 0,75 0,25
106
Другой ситуацией получения попарно зависимых выборок является
следующая ситуация: пусть xi – результаты измерений деталей первым
прибором, а y i – результаты измерений этих же деталей, произведенные в
том же порядке вторым прибором, тогда xi и y i попарно зависимы и в этом
смысле сами выборки зависимые. Поскольку, как правило, xi yi то
возникает необходимость установить, значимо или незначимо различаются
пары этих чисел.
Пусть генеральные совокупности Х и Y распределены нормально,
причем их дисперсии неизвестны. Из этих совокупностей извлечены
зависимые выборки одинакового объема n, варианты которых
соответственно равны xi и y i . Введем следующие обозначения:
n n
di d i2 2 n
d i xi yi , d i 1
; Dd i 1
d , sd Dd .
n n n 1
Правило. Для того чтобы при заданном уровне значимости
проверить нулевую гипотезу H 0 : M ( X ) M (Y ) о равенстве двух средних
нормальных совокупностей с неизвестными дисперсиями (в случае
зависимых выборок одинакового объема) надо:
1. Вычислить наблюдаемое значение критерия
d n
Tнабл .
sd
2. По таблице критических точек распределения Стьюдента, по
заданному уровню значимости и по числу степеней свободы
k n 1 найти критические точки t кр. ( , k ) (в зависимости от вида
107
Критичес- Область
Конкурирующая Критическая Область
кая отклонения
гипотеза H1 точка t кр. ( , k ) принятия H 0
область H0
Tнабл tправост. кр Tнабл tправост. кр
H 1 : M ( X ) M (Y ) правост. tправост.кр. ; k
xi 25 30 28 50 20 40 32 36 42 38
yi 28 31 26 52 24 36 33 35 45 40
гипотеза H1 : M ( X ) M (Y ).
108
10 n
di d i2 2 65
d i 1
0,9 ; Dd i 1
d (0,9) 2 5,69 ,
10 n 10
n 10
sd Dd 5,69 2,51.
n 1 9
Находим значение статистики критерия
d n 0,9 10
Tнабл 1,13 .
sd 2,51
Из таблицы распределения Стьюдента (приложение 5) для
двусторонней критической области по уровню значимости 0,01 и числу
степеней свободы k n 1 10 1 9 определяем t кр 0,01; 9 3,25.
Сотрудник
1 2 3 4 5 6 7
До обучения 20 18 15 16 20 14 17
После обучения 26 27 20 23 19 22 28
гипотеза H1 : M ( X ) M (Y ).
Для вычисления статистики критерия составим вспомогательную
расчетную таблицу:
109
Сотрудник
1 2 3 4 5 6 7
До обучения 20 18 15 16 20 14 17
После обучения 26 27 20 23 19 22 28
d i xi yi -6 -9 -5 -7 1 -8 -11 -45
d i2 36 81 25 49 1 64 121 377
гипотеза отвергается.
Таким образом, можно утверждать, что обучение привело к
существенному увеличению производительности труда.
II. Независимые выборки
Пусть имеются две независимые выборки x1 , x2 ,...,xn и x1 , y2 ,..., yn ,
имеющие нормальное распределение с параметрами M ( X ); D( X ) и
M (Y ); D(Y ) соответственно. Обычно ставится задача проверки их
110
однородности, т.е. равенства обоих параметров, либо следует проверить
равенство параметров по отдельности.
111
sб2
1. Вычислить Fнабл 2.
sм
2. В зависимости от вида альтернативной гипотезы, по таблице
критических точек распределения Фишера – Снедекора (приложение 7)
по заданному уровню значимости и числам степеней свободы k1 и k 2 (
k1 − число степеней свободы большей исправленной дисперсии), найти
критическую точку Fкр и сделать вывод о принятии или отклонении
нулевой гипотезы.
Область Область
Конкурирующая Критическая Критическая
принятия отклонения
гипотеза H1 область точка Fкр
H0 H0
112
Выяснить, являются ли существенными различия между дисперсиями
расхода сырья на единицу продукции при использовании старой и новой
технологий при уровне значимости 0,05. В качестве альтернативной
гипотезы рассмотреть гипотезу H1 : D( X ) D(Y ) .
Решение. Находим исправленные выборочные дисперсии для каждой
выборки:
303 1 307 4 308 4
xв 307 ,
9
Dв
303 307 1 (307 307) 2 4 308 307 4 20
2 2
,
9 9
9 20 20
s x2 2,5
8 9 8
Аналогично y в 304,77 , s y2 2,19 .
sб2 2,5
В соответствии с правилом вычислим Fнабл 1,14 .
s м2 2,19
По таблице (приложение 7), по уровню значимости 0,05 и числам степеней
свободы k1 n1 1 9 1 8 , k2 n2 1 13 1 12 находим критическую
точку Fкр , k1 , k 2 Fкр 0,05,8,12 2,85 .
113
n 9 n 6
s x2 Dв ( X ) 14,4 16,2 и s y2 Dв (Y ) 20,5 24,6 .
n 1 8 n 1 5
Отношение большей исправленной дисперсии к меньшей:
24,6
Fнабл 1,52 .
16,2
По условию конкурирующая гипотеза H1 : D( X ) D(Y ) , поэтому
критическая область – двусторонняя. Следуя правилу, при нахождении
критической точки следует брать уровень значимости, вдвое меньший
заданного. По таблице критических точек Фишера – Снедекора при уровне
0,1
значимости 0,05 и числам степеней свободы k1 6 1 5 ,
2 2
k 2 9 1 8 находим критическую точку Fкр 0,05,5,8 3,69 .
115
1 α
M ( X ) M (Y ) двусторонняя Φ(zкр ) Z набл z кр Z набл z кр
2
α/2 1-α
α/2
-zкрит 0 zкрит
Учитывая, что
PZ z кр.прав PZ z кр. лев
1
, , P0 Z
2 2 2
получим равенство
α
0 zкрит
116
x2 5 и y2 7 . При уровне значимости 0,05 выявить влияние автомата, на
котором изготовлена деталь, на ее средний размер. В качестве
альтернативной гипотезы принять H1 : M ( X ) M (Y ) .
Решение. Для проверки нулевой гипотезы H 0 : M ( X ) M (Y ) по
182 185
исходным данным вычисляем Z набл 2,82 . Для вычисления z кр ,
5 7
14 9
учитывая форму альтернативной гипотезы строим двустороннюю
1 1 0,05
критическую область. Получим Φ(zкр ) 0,475. По таблице
2 2
приложения 2 находим z кр 1,96. Сравнивая z кр и Z набл , имеем Z набл z кр ,
117
Сравнение двух средних нормальных генеральных совокупностей,
дисперсии которых неизвестны, но равны
Пусть X и Y – две независимые нормально распределенные
генеральные совокупности. Причем, их генеральные дисперсии неизвестны,
но предполагаются равными. Из данных совокупностей извлечены две
независимые выборки малых объемов n 30, m 30 . По этим данным
дисперсии s x2 и s y2 .
118
M ( X ) M (Y ) t левост.кр. tправост.крT. набл tправост. кр Tнабл tправост. кр
левосторон.
tправост.кр. ; k
M ( X ) M (Y )
двусторон. tдвуст.кр. ; k Tнабл tдвуст. кр Tнабл tдвуст. кр
Fкр , k1 , k 2 , k1 n1 1 , k 2 n2 1, где n1 - объем выборки большей
2
исправленной дисперсии, получаем Fкр 0,05,7,9 3,68.
119
По условию, конкурирующая гипотеза H1 : M ( X ) M (Y ) , поэтому
критическая область – двусторонняя. По таблице критических точек
распределения Стьюдента (приложение 5) по числу степеней свободы
k n m 2 10 8 2 16 и по уровню значимости 0,1 (в верхней
строке таблицы) находим tдвуст. кр (0,1;16) 1,75 .
121
гипотезы о виде распределения генеральной совокупности. В качестве
критерия, характеризующего степень расхождения между эмпирическими
частотами ( ni ) и теоретическими частотами ( ni ) К. Пирсон предложил
величину («критерий Пирсона»):
m ni ni 2
2
.
i 1 ni
5. Если набл
2
крит
2
, то гипотеза H 0 не противоречит опытным данным;
если набл
2
крит
2
, то гипотеза H 0 отвергается.
1 14 10 4 16 1,6
2 18 24 -6 36 1,5
3 32 34 -2 4 0,1176
4 70 80 - 10 100 1,25
5 20 18 2 4 0,222
6 36 22 14 196 8,909
7 10 12 -2 4 0,333
набл
2
13,93
По таблице (приложение 6) критических точек распределения хи-
квадрат по уровню значимости 0,05 и числу степеней свободы
123
Проверка гипотезы о нормальном распределении генеральной
совокупности
I. Случайная величина X задана в виде дискретного статистического
ряда с равноотстоящими вариантами
Правило. Для того, чтобы при данном уровне значимости проверить
гипотезу о нормальном распределении генеральной совокупности
необходимо:
1. Вычислить x в и в .
nh
2. Вычислить теоретические частоты ni u i , где n – объем
в
u2
xi x в 1 2
выборки, h xi 1 xi – шаг, ui , u e (функция
в 2
Гаусса, значения которой даны в таблице, приложение1).
m ni ni 2
3. Вычислить значение 2
.
ni
набл
i 1
5. Сравнить набл
2
и крит
2
. Если набл
2
крит
2
– нет оснований отвергнуть
ni 6 9 26 25 30 26 21 24 20 8 5
xi ni xi ni xi2 ni
3 6 18 54
5 9 45 225
7 26 182 1274
9 25 225 2025
11 30 330 3630
13 26 338 4394
15 21 315 4725
17 24 408 6936
19 20 380 7220
21 8 168 3528
23 5 115 2645
∑ 200 2524 36656
Итак
n n
xi ni xi2 ni
xв i 1
n
2524
200
12,62, в i 1
n
xв
2
36656
200
(12,62) 2 4,9 .
25
20
15
10
5
x
0
0 5 10 15 20 25
Эксперементальная кривая
125
Для проверки этой гипотезы согласно правилу находим теоретические
частоты. Расчеты приведем в таблице:
xi ni ui ui ni
3 6 -1,96327 0,05844 5
5 9 -1,5551 0,12001 10
7 26 -1,14694 0,20594 17
9 25 -0,73878 0,30339 25
11 30 -0,33061 0,3778 31
13 26 0,077551 0,39767 33
15 21 0,485714 0,35381 29
17 24 0,893878 0,26848 22
19 20 1,302041 0,17137 14
21 8 1,710204 0,09246 8
23 5 2,118367 0,04217 4
На рисунке построены нормальная (теоретическая) кривая по
теоретическим (выравнивающим) частотам и полигон наблюдаемый частот.
35
n
30
25
20
15
10
5
x
0
0 5 10 15 20 25
Эксперементальная кривая теоретически нормальная кривая
126
ni ni ni ni ni ni 2 ni ni 2 ni
6 5 1 1 0,2
9 10 -1 1 0,1
26 17 9 81 4,76
25 25 0 0 0
30 31 -1 1 0,03
26 33 -7 49 1,48
21 29 -8 64 2,21
24 22 2 4 0,18
20 14 6 36 2,57
8 8 0 0 0
5 4 1 1 0,25
набл
2
11,78
Находим число степеней свободы: по выборке рассчитаны два
параметра, значит, r 2 . Количество интервалов m 11 . Следовательно,
k 11 2 1 8 . Зная, что 0,05 и k 8 , по таблице критических точек
распределения хи-квадрат (приложение 6) находим
крит
2
( ; k ) крит
2
(0,05;8) 15,5 . Итак, набл
2
крит
2
, следовательно, нет
127
1. Вычислить x в и в , причем в качестве вариант xi принять среднее
в
128
Границы Середина
Номер Частота
интервала интервала xini x n
2
i i
интервала ni
xi xi 1 xi
s
s
x n i i x i ni
2
Dв i 1
i 1 22550 4,3 2 94,26 , в 9,71.
n n 200
Дальнейшие вычисления выполним по правилу применения критерия
согласия Пирсона и оформим их в виде таблицы:
129
Границы Эмпири- Границы
Теорет.
интервала ческая интервала
№ zi zi 1 Pi частота
частота
xi xi 1 zi zi 1 ni nPi
ni
130
ni ni 2
№ ni ni ni ni ni ni
2
ni
1 7 4,66 2,34 5,4756 1,175021
2 11 9,5 1,5 2,25 0,236842
3 15 19,54 -4,54 20,6116 1,054841
4 24 32,3 -8,3 68,89 2,132817
5 49 39,58 9,42 88,7364 2,24195
6 41 38,9 2,1 4,41 0,113368
7 26 28,38 -2,38 5,6644 0,199591
8 17 16,62 0,38 0,1444 0,008688
9 10 10,52 -0,52 0,2704 0,025703
Сумма 200 200 набл
2
7,19
132
(1,54) 0 e 1,54 (1,54)1 e 1, 54
p0 P517 (0) 0,214 ; p1 P517 (1) 0,33 ;
0! 1!
(1,54) 2 e 1,54 (1,54) 3 e 1,54
p2 P517 (2) 0,254 ; p3 P517 (3) 0,13 ;
2! 3!
(1,54) 4 e 1,54
p4 P517 (4) 0,05 ;
4!
p5 P517 (i 5) 1 Pi 5 1 (0,214 0,33 0,254 0,13 0,05) 0,022 .
Найдем теоретические частоты по формуле ni ' n pi и составим
следующую таблицу:
Число Частота (ni ni ' ) 2
pi ni ' n pi ni ni ' (ni ni ' ) 2
частиц ni ni '
133
Проверка гипотезы о показательном распределении генеральной
совокупности
Пусть задано эмпирическое распределение непрерывной случайной
величины X в виде последовательности интервалов и соответствующих
частот. Требуется, используя критерий Пирсона, проверить гипотезу о том,
что случайная величина X имеет показательное распределение.
Правило. Для того чтобы при заданном уровне значимости проверить
гипотезу о том, что случайная величина распределена по показательному
закону, надо:
1) Найти по заданному распределению выборочную среднюю x в .
2) Принять в качестве оценки параметра λ показательного распределения
1
величину, обратную выборочной средней: .
xв
3) Найти вероятность попадания случайной величины X в интервал
x x
( xi ; xi 1 ) по формуле pi P( xi X xi1 ) F ( xi1 ) F ( xi ) e i e i 1 .
134
Дальнейшие расчеты сведем в таблицу:
ni '
0 10 306 309 -3 9 0,029126
10 20 140 132 8 64 0,484848
20 30 72 57 15 225 3,947368
30 40 12 24 -12 144 6
40 ∞ 10 18 -8 64 3,555556
Итого 540 540 набл 14,0169
2
крит
2
(0,01;3) 11,3 . Число степеней свободы k 5 1 1 3 , так как число
135
§3.5. Проверка статистических гипотез в Excel
Содержащее параметры:
Интервал переменной 1: – адреса ячеек, содержащих выборочные значения
случайной величины X.
Интервал переменной 2: – адреса ячеек, содержащих выборочные значения
случайной величины Y.
Метки – включается, если первая строка содержит заголовки столбцов.
Альфа: – задается уровень значимости.
Выходной интервал / Новый рабочий лист / Новая рабочая книга –
определяет место вывода результатов вычислений.
136
Пример 20. Спроектированы и изготовлены две одинаковые опытные
установки А и В для данного процесса. В таблице приведены первые 10
значений количеств X и Y продукта, полученного на каждой из установок,
величины X и Y распределены нормально.
№ опыта 1 2 3 4 5 6 7 8 9 10
установка
97,8 98,9 101,2 98,8 102,0 99,0 100,8 100,9 99,1 100,5
А
установка
97,2 100,5 98,2 98,3 97,5 99,9 97,9 96,8 97,4 97,2
В
Требуется проверить гипотезу о равенстве дисперсий при 0,05 .
Решение. Выборочные данные вводим в ячейки А2 – А11, В2 –В11.
Обращаемся к режиму Двухвыборочный F-тест для дисперсий. В
появившемся диалоговом окне вводим следующие параметры:
137
Двухвыборочный F-тест для дисперсии
Установка А Установка В
Среднее 99,9 98,09
Дисперсия 1,815555556 1,472111111
Наблюдения 10 10
Df 9 9
F 1,233300626
P(F<=f) одностороннее 0,379928027
F критическое одностороннее 3,178893105
Так как наблюдаемое значение статистики F=1,233 меньше критического,
равного 3,18, то нет оснований отвергнуть нулевую гипотезу о равенстве
дисперсий генеральных совокупностей.
138
которое содержит следующие параметры:
Интервал переменной 1: – адреса ячеек, содержащих выборочные значения
случайной величины X.
Интервал переменной 2: – адреса ячеек, содержащих выборочные значения
случайной величины Y.
Гипотетическая средняя разность: – задает число, равное предполагаемой
разности математических ожиданий (при проверки гипотезы о равенстве
математических ожиданий задается 0).
Дисперсия переменной 1 (известная): – вводится известное значение X2 .
139
После щелчка на ОК, в указанном диапазоне появляются результаты работы
данного режима в виде:
140
Проверка гипотезы о равенстве математических ожиданий двух
нормальных распределений с неизвестными, но равными дисперсиями
Для проверки этой гипотезы используется режим работы Двухвыборочный t-
тест c одинаковыми дисперсиями. Для вызова этого режима необходимо во
вкладке Данные выбрать команду Анализ данных. Затем в появившемся
списке режимов выбрать данный режим и щелкнуть ОК. Появится
следующее диалоговое окно
142
Так как t набл t кр то гипотеза о равенстве математических ожиданий
отвергается.
143
Решение. Использование графического метода позволяет дать
ориентировочную оценку расхождения или совпадений распределений
40
35
30
25
20
15
10
5
0
11 21 31 41 51 61 71 81
144
3) В ячейку Е5 вводим функцию =ПРОИЗВЕД(C5;D5); а в ячейку F5
=ПРОИЗВЕД(C5;Е5) и продолжаем, аналогично до ячеек Е12 и F12.
4) В ячейках D13, E13, F13 подсчитываем суммы, используя встроенную
функцию =СУММ(число 1; число 2;…).
5) В ячейке А15 вычислим выборочное среднее. С этой целью в А15 вводим
выражение =E13/D13. В ячейке D19 вводим выражение =(F13/D13)-A15^2,
которое рассчитывает дисперсию. В ячейке А16 вычислим среднее
квадратическое отклонение, используя функцию =КОРЕНЬ(D19).
6) Для вычисления значений функции распределения на концах интервалов
(столбцы G и H) используем встроенную статистическую функцию
=НОРМРАСП(x; среднее;стандартное_откл;интегральная),
которая возвращает нормальную функцию распределения, где
x — значение, для которого строится распределение.
Среднее — среднее арифметическое распределения.
Стандартное_откл — стандартное отклонение распределения.
Интегральная — логическое значение, определяющее форму функции. Если
аргумент «интегральная» имеет значение ИСТИНА, функция НОРМРАСП
возвращает интегральную функцию распределения; если этот аргумент имеет
значение ЛОЖЬ, возвращается функция плотности распределения
В нашем примере для ячейки H5 функция имеет вид
=НОРМРАСП(B5;$A$15;$A$16;ИСТИНА) и т.д.
7) При вычислении теоретических частот нормального распределения
учитываем, что левый конец первого интервала принимается равным –∞, а
правый конец последнего интервала ∞. Причем, по свойству функции
распределения F () 0 , F () 1 . Поэтому в ячейку G5 вводим значение 0,
а в ячейку H12 – значение 1. Вероятность попадания случайной величины X в
интервал ( xi ; xi 1 ) (столбец I) находим по формуле
pi P( xi X xi 1 ) F ( xi1 ) F ( xi ) , а далее теоретические частоты n'i npi .
Результаты вычислений представлены на рисунке.
145
146
Проверку гипотезы о согласовании теоретических и эмпирических частот
можно продолжить двумя способами:
1-й способ.
8) Для сравнения эмпирических частот с теоретическими частотами
заполнены столбики K, L, M, по формулам, указанным в заголовках
соответствующих столбцов. В итоговой строке, в ячейке M13 вычислено
наблюдаемое значение хи-квадрат: кр2 набл
2
.
147
значимости 0,05, то гипотеза о нормальном распределении генеральной
совокупности отвергается.
Пример 24. В итоге испытаний 1000 элементов на время безотказной
работы получено эмпирическое распределение, приведенное в таблице (в
первой строке указаны интервалы времени в часах; во второй – частота ni ,
т.е. количество отказавших элементов в i-м интервале).
xi xi 1 0-10 10-20 20-30 30-40 40-50 50-60 60-70
ni 365 245 150 100 70 45 25
Требуется при уровне значимости 0,01 проверить гипотезу о том, что время
безотказной работы элементов распределено по показательному закону.
Решение.
Правило. Для того чтобы при данном уровне значимости проверить гипотезу
о том, что случайная величина распределена по показательному закону, надо:
1) Найти по заданному распределению выборочную среднюю x в .
2) Принять в качестве оценки параметра λ показательного распределения
1
величину, обратную выборочной средней: .
xв
3) Найти вероятность попадания случайной величины X в интервал
( xi ; xi 1 ) по формуле pi P( xi X xi1 ) F ( xi1 ) F ( xi ) e xi e xi 1 .
148
Поясним вычисления, представленные на рисунке:
1. Выборочную среднюю находим в два этапа. Первоначально в ячейке
D14 используем функцию
=СУММПРОИЗВ(массив1; массив2; …),
а далее (ячейка С5) полученное значение разделим на объем выборки (ячейка
D12).
1
2. Параметр λ вычисляем по формуле (ячейка D16).
xв
3. Значения функции распределения вычисляем с помощью встроенной
функции
=ЭКСПРАСП(x; λ; интегральная),
которая вводится в ячейки F5: F11 и G5:G10. Например, для ячейки F5
обращение к функции имеет вид:
=ЭКСПРАСП(B5;$D$16;ИСТИНА) и т.д.
Учитывая, что показательное распределение неограниченно справа, конец
последнего интервала полагаем равным ∞. И, согласно свойства функции
распределения, вводим в ячейку G11 значение равное 1.
4. Вычисляем теоретические частоты n'i npi .
149
5. Для проверки гипотезы используем встроенную функцию
=ХИ2ТЕСТ(фактический_интервал; ожидаемый_интервал). Результат
вычисления данной функции занесен в ячейку В18 (см. рисунок). Так как
данное значение (0,000163345) меньше уровня значимости, то нулевая
гипотеза отвергается, следовательно, время безотказной работы элементов не
подчиняется показательному закону распределения.
150
ПРИЛОЖЕНИЯ
Приложение 1
Значения функции Гаусса x 1 e x
2
2
2
151
Приложение 2
x
Значения интеграла Лапласа x
1
e
t 2 2
dt
2 0
152
Приложение 3
Таблица значений t t , n
Приложение 4
Таблица значений q q , n
153
Приложение 5
Критические точки распределения Стьюдента
154
Приложение 6
Критические точки распределения 2
155
Приложение 7
Критические точки распределения Фишера-Снедекора
156
продолжение Приложения 7
157
окончание Приложения 7
158
Приложение 8
Проверка гипотез для одной выборки
Предполо- Статистика
H0 H1 Область принятия H0
жения критерия
1
a a0 U набл uкр , Φ(uкр )
2 U набл
x a 0 n
2
1
a a0 a a0 U набл uкр , Φ(uкр )
известно 2
1
a a0 U набл uкр , Φ(uкр )
2
Tнабл t кр α,n-1 для
a a0
односторонней области
a a0 2 не Tнабл
x a
0 n a a0
Tнабл t кр α,n-1 для
известно s односторонней области
Tнабл t кр α,n-1 для
a a0
двусторонней области
2 2
0 набл
2
2 ; n 1
2 02 а не (n-1 )S 2 2 02 набл
2
2 1 ; n 1
2
известно набл
σ 02
2 1 2
; k набл 2 ;k
2 2
0 2 2
k n 1
1
p p0 U набл uкр , Φ(uкр )
n порядка 2
нескольких (w p0 ) n 1
p p0
десятков,
U набл p p0 U набл uкр , Φ(uкр )
p0( 1 p0 ) 2
(или сот),
1
p p0 U набл uкр , Φ(uкр )
2
159
Приложение 9
Проверка гипотез для двух выборок
Предполо
Статистика Область
H0 - H1
критерия принятия H0
жения
Z набл z кр ,
M ( X ) M (Y ) 1
Φ(zкр )
2
x y Z набл z кр ,
M ( X ) M (Y ) x2и 2 Z набл
y
D( X ) D(Y ) M ( X ) M (Y ) 1
известны Φ(zкр )
n m 2
Z набл z кр ,
M ( X ) M (Y ) 1
Φ(zкр )
2
Tнабл t кр α,n m-2
M ( X ) M (Y ) для односторонней
области
M ( X ) M (Y )
x2 и y2 x y nm(n m 2)
nm
Tнабл t кр α,n m 2
не Tнабл M ( X ) M (Y ) для односторонней
известны, n 1sx2 m 1s 2y области
но равны
Tнабл t кр α,n m 2
M ( X ) M (Y ) для двусторонней
области
Fнабл Fкр ( , k1 , k 2 )
k1 – число степеней
D X DY свободы большей
исправленной
M (X ) , дисперсии
sб2
D X DY M (Y ) не Fнабл Fнабл Fкр ( , k1 , k 2 )
известны s 2м 2
160
ЛИТЕРАТУРА
162