Академический Документы
Профессиональный Документы
Культура Документы
МАТЕМАТИЧЕСКАЯ СТАТИСТИКА
МЕТОДИЧЕСКИЕ УКАЗАНИЯ
К ПРАКТИЧЕСКИМ ЗАНЯТИЯМ
Алматы
2013
АЛМАТИНСКИЙ ФИЛИАЛ НЕГОСУДАРСТВЕННОГО ОБРАЗОВАТЕЛЬНОГО
УЧРЕЖДЕНИЯ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ
«САНКТ-ПЕТЕРБУРГСКИЙ ГУМАНИТАРНЫЙ УНИВЕРСИТЕТ ПРОФСОЮЗОВ»
МАТЕМАТИЧЕСКАЯ СТАТИСТИКА
МЕТОДИЧЕСКИЕ УКАЗАНИЯ
К ПРАКТИЧЕСКИМ ЗАНЯТИЯМ
Алматы
2013
Рецензенты:
Хомпыш Х., кандидат физико-математических наук,
старший преподаватель Казахского Национального
университета им. Аль-Фараби
Авторы-составители:
КАРАТАБАНОВА С.Ж., кандидат физико-математических наук,
доцент Алматинского филиала НОУ ВПО
«Санкт-Петербургский Гуманитарный университет профсоюзов»
Рекомендовано к печати
Методическим советом Алматинского филиала НОУ ВПО
«Санкт-Петербургский Гуманитарный университет профсоюзов»
от « 22 » мая 2013 г. Протокол № 6.
2
СОДЕРЖАНИЕ
ВВЕДЕНИЕ …………………………………………………………………... 4
1. Выборочный метод ………………………………………………… 6
2. Примеры решения задач …………………………………………... 12
3. Задачи для самостоятельной работы …………………………… 22
4. Семестровые задания ………………………………………………. 26
5. Теоретические сведения …………………………………………… 29
ГЛОССАРИЙ………………………………………………………………….. 52
СПИСОК ЛИТЕРАТУРЫ ……………………………………………….…. 54
3
ВВЕДЕНИЕ
4
ОК-2 - способность логически верно, аргументировано и ясно строить
устную и письменную речь, владеть навыками ведения дискуссии и
полемики;
ОК-5 - способность самостоятельно приобретать и использовать в
практической деятельности новые знания и умения, стремиться к
саморазвитию;
ПК-3 - способность использовать основные законы
естественнонаучных дисциплин в профессиональной деятельности и
эксплуатировать современное электронное оборудование и информационно-
коммуникационные технологии в соответствии с целями образовательной
программы бакалавриата;
Процесс изучения дисциплины направлен на формирование у
студентов специальностей «Экономика» и «Прикладная информатика»
следующих компетенций:
ПК-5 - способность осуществлять и обосновывать выбор проектных
решений по видам обеспечения информационных систем;
ПК-10 - способность применять к решению прикладных задач базовые
алгоритмы обработки информации, выполнять оценку сложности
алгоритмов, программировать и тестировать программы;
ПК-14 - способность принимать участие в реализации
профессиональных коммуникаций в рамках проектных групп, презентовать
результаты проектов и обучать пользователей ИС;
ПК-15 - способность проводить оценку экономических затрат на
проекты по информатизации и автоматизации решения прикладных задач;
ПК-16 - способность оценивать и выбирать современные операционные
среды и информационно-коммуникационные технологии для
информатизации и автоматизации решения прикладных задач и создания ИС;
ПК-17 - способность применять методы анализа прикладной области на
концептуальном, логическом, математическом и алгоритмическом уровнях;
ПК-18 - способность анализировать, выбирать методы и средства
обеспечения информационной безопасности.
5
СОДЕРЖАНИЕ ДИСЦИПЛИНЫ
1.ВЫБОРОЧНЫЙ МЕТОД
Пусть нам нужно обследовать количественный признак в партии
экземпляров некоторого товара. Проверку партии можно проводить двумя
способами:
1) провести сплошной контроль всей партии;
2) провести контроль только части партии.
Первый способ не всегда осуществим, например, из–за большого числа
экземпляров в партии, из–за дороговизны проведения операции контроля,
из–за того, что контроль связан с разрушением экземпляра (проверка
электролампы на долговечность ее работы).
При втором способе множество случайным образом отобранных
объектов называется выборочной совокупностью, или выборкой. Все
множество объектов, из которого производится выборка, называется
генеральной совокупностью. Число объектов в выборке называется объемом
выборки. Обычно будем считать, что объем генеральной совокупности
бесконечен.
Выборки разделяются на повторные (с возвращением) и бесповторные
(без возвращения).
Обычно осуществляются бесповторные выборки, но благодаря
большому (бесконечному) объему генеральной совокупности ведутся
расчеты и делаются выводы, справедливые лишь для повторных выборок.
Выборка должна достаточно полно отражать особенности всех
объектов генеральной совокупности, иначе говоря, выборка должна быть
репрезентативной (представительной).
Выборки различаются по способу отбора.
1. Простой случайный отбор.
Все элементы генеральной совокупности нумеруются и из таблицы
случайных чисел берут, например, последовательность любых 30-ти идущих
подряд чисел. Элементы с выпавшими номерами и входят в выборку.
2. Типический отбор.
Такой отбор производится в том случае, если генеральную
совокупность можно представить в виде объединения подмножеств, объекты
которых однородны по какому–то признаку, хотя вся совокупность такой
однородности не имеет (партия товара состоит из нескольких групп,
произведенных на разных предприятиях). Тогда по каждому подмножеству
проводят простой случайный отбор, и в выборку объединяются все
полученные объекты.
3. Механический отбор.
Отбирают каждый двадцатый (сотый) экземпляр.
4. Серийный отбор.
В выборку подбираются экземпляры, произведенные на каком–то
производстве в определенный промежуток времени.
6
В дальнейшем под генеральной совокупностью мы будем
подразумевать не само множество объектов, а множество значений
случайной величины, принимающей числовое значение на каждом из
объектов. В действительности генеральной совокупности как множества
объектов может и не существовать. Например, имеет смысл говорить о
множестве деталей, которые можно произвести, используя данный
технологический процесс. Используя какие–то известные нам
характеристики данного процесса, мы можем оценивать параметры этого
несуществующего множества деталей. Размер детали – это случайная
величина, значение которой определяется воздействием множества факторов,
составляющих технологический процесс. Нас, например, может интересовать
вероятность, с которой эта случайная величина принимает значение,
принадлежащее некоторому интервалу. На этот вопрос можно ответить, зная
закон распределения этой случайной величины, а также такие ее параметры,
как M и D.
Итак, отвлекаясь от понятия генеральной совокупности как множества
объектов, обладающих некоторым признаком, будем рассматривать
генеральную совокупность как случайную величину , закон распределения и
параметры которой определяются с помощью выборочного метода.
Рассмотрим выборку объема n, представляющую данную генеральную
совокупность. Первое выборочное значение x1 будем рассматривать как
реализацию, как одно из возможных значений случайной величины 1,
имеющей тот же закон распределения с теми же параметрами, что и
случайная величина . Второе выборочное значение x2 – одно из возможных
значений случайной величины 2 с тем же законом распределения, что и
случайная величина . То же самое можно сказать о значениях x3, x4,..., xn .
Таким образом, на выборку будем смотреть как на совокупность
независимых случайных величин 1, 2, ..., n, распределенных также, как и
случайная величина , представляющая генеральную совокупность.
Выборочные значения x1, x2, ..., xn – это значения, которые приняли эти
случайные величины в результате 1-го, 2-го, ..., n-го эксперимента.
Пусть для объектов генеральной совокупности определен некоторый
признак или числовая характеристика, которую можно замерить (размер
детали, удельное количество нитратов в дыне, шум работы двигателя). Эта
характеристика – случайная величина , принимающая на каждом объекте
определенное числовое значение. Из выборки объема n получаем значения
этой случайной величины в виде ряда из n чисел:
x1, x2,..., xn. (*)
7
каждое значение лишь один раз, а затем под каждым значением xi признака
написать, сколько раз данное значение встречается в ряду (*):
x1 x2 x3 ... xk
m1 m2 m3 ... mk
то получится таблица, называемая дискретным вариационным рядом. Число
mi называется частотой i-го значения признака.
Очевидно, что xi в ряду (*) может не совпадать с xi в вариационном
ряду. Очевидна также справедливость равенства
k
mi n.
i 1
mi
Величина i называется относительной частотой значения
n
признака xi. Если значения признака, полученные из выборки, не
группировать и не представлять в виде вариационного ряда, то для
вычисления выборочной средней нужно пользоваться формулой
1 n .
x xi
n i 1
8
Установление закономерностей, которым подчинены массовые
случайные явления, основано на изучении методами теории вероятностей
статистических данных – результатов наблюдений.
Современная математическая статистика разрабатывает способы
определения числа необходимых испытаний до начала исследования
(планирование эксперимента), в ходе исследования (последовательный
анализ) и решает многие другие задачи. Современную математическую
статистику определяют как науку о принятии решений в условиях
неопределенности.
Итак, задача математической статистики состоит в создании методов
сбора и обработки статистических данных для получения научных и
практических выводов.
Выборочной совокупностью, или просто выборкой, называют
совокупность случайно отобранных объектов.
Генеральной совокупностью называют совокупность объектов, из
которых производится выборка.
Объемом совокупности (выборочной или генеральной) называют число
объектов этой совокупности.
Например, если из 1000 деталей отобрано для обследования 100
деталей, то объем генеральной совокупности N 1000 , а объем выборки
n 100 .
Пусть из генеральной совокупности извлечена выборка, причем х1
наблюдалось n1 раз, x2 – n2 - раз, xk – nk - раз и ni n – объем выборки.
Определение. Наблюдаемые значения xi называют вариантами, а
последовательность вариант, записанных в возрастающем порядке, –
вариационным рядом. Числа наблюдений называют частотами, а их
ni
отношения к объему выборки Wi – относительными частотами.
n
Определение. Статистическим распределением выборки называют
перечень вариант и соответствующих им частот или относительных частот.
Статистическое распределение можно задать также в виде
последовательности интервалов и соответствующих им частот (в качестве
частоты, соответствующей интервалу, принимают сумму частот, попавших в
этот интервал). Заметим, что в теории вероятностей под распределением
понимают соответствие между возможными значениями случайной
величины и их вероятностями, а в математической статистике – соответствие
между наблюдаемыми вариантами и их частотами, или относительными
частотами.
Пример 1. Задано распределение частот выборки объема n = 20:
xi 2 6 12
ni 3 10 7
Написать распределение относительных частот.
Решение. Найдем относительные частоты, для чего разделим частоты
на объем выборки:
9
3 10 7
W1 0,15 , W2 0,50 , W3 0,35 .
20 20 20
Напишем распределение относительных частот:
xi 2 6 12
Wi 0,15 0,5 0,35
Контроль: 0,15 0,5 0,35 1 .
Пусть известно статистическое распределение частот
количественного признака X . Введем обозначения:
n x – число наблюдений, при которых наблюдалось значение признака
меньшее х; n – общее число наблюдений (объем выборки).
В целях наглядности строят различные графики статистического
распределения и, в частности, полигон и гистограмму.
Полигоном частот называют ломаную, отрезки которой соединяют
точки ( x1 , n1 ) , ( x2 , n2 ) ,..., ( xk , nk ) . Для построения полигона частот на оси
абсцисс откладывают варианты xi , а на оси ординат – соответствующие им
частоты ni . Точки ( xi , ni ) соединяют отрезками прямых и получают полигон
частот.
Полигоном относительных частот называют ломаную, отрезки
которой соединяют точки ( x1 ,W1 ) , ( x2 ,W2 ) ,..., ( xk ,Wk ) . Для построения
полигона относительных частот на оси абсцисс откладывают варианты xi , а
на оси ординат – соответствующие им относительные частоты Wi . Точки
( xi ,Wi ) соединяют отрезками прямых и получают полигон относительных
частот.
В случае непрерывного признака целесообразно строить гистограмму,
для чего интервал, в котором заключены все наблюдаемые значения
признака, разбивают на несколько частичных интервалов длиной h и находят
для каждого частичного интервала ni – сумму частот вариант, попавших в i -
й интервал.
На рис. 1 изображен полигон относительных частот следующего
распределения:
X 1,5 3,5 5,5 7 ,5
W 0,1 0,2 0,4 0,3
Гистограммой частот называют ступенчатую фигуру, состоящую из
прямоугольников, основаниями которых служат частичные интервалы
ni
длиною h , а высоты равны отношению (плотность частоты).
h
Для построения гистограммы частот на оси абсцисс откладывают
частичные интервалы, а над ними проводят отрезки, параллельные оси
ni
абсцисс на расстоянии .
h
10
ni
Площадь i -го частичного прямоугольника равна h ni – сумме
h
частот вариант i -го интервала; следовательно, площадь гистограммы частот
равна сумме всех частот, т. е. объему выборки.
На рис.2 изображена гистограмма частот распределения n 100 ,
приведенного в таблице 1.
Рис. 1 Рис.2.
Таблица 1
Частичный интервал Сумма частот вариант Плотность
длиною h 5 частичного интервала ni частоты ni
h
5-10 4 0,8
10-15 6 1,2
15-20 16 3,2
20-25 36 7,2
25-30 24 4,8
30-35 10 2,0
35-40 4 0,8
Гистограммой относительных частот называют ступенчатую фигуру,
состоящую из прямоугольников, основаниями которых служат частичные
Wi
интервалы длиною h, а высоты равны отношению (плотность
h
относительной частоты).
Для построения гистограммы относительных частот на оси абсцисс
откладывают частичные интервалы, а над ними проводят отрезки,
Wi
параллельные оси абсцисс на расстоянии . Площадь i -го частичного
h
Wi
прямоугольника равна h Wi – относительной частоте вариант, попавших
h
в i -й интервал. Следовательно, площадь гистограммы относительных частот
равна сумме всех относительных частот, т.е. единице.
11
2. ПРИМЕРЫ РЕШЕНИЯ ЗАДАЧ
*
x i x * m1
3
6,2304
0,1246
m
3
i 50
Ответ: 3=0,1246.
Ответ: n=73.
12
Задача №3. На контрольных испытаниях n=17 было определено
x =3000 ч . Считая, что срок службы ламп распределен нормально с =21 ч.,
определить ширину доверительного интервала для генеральной средней с
надежностью =0,98.
Решение:
P( X t X t ) (t ) ,
n n
1
t Ф (0,98) 2,33
x t 2988
n
x t 3011
n
Ответ: [2988< <3012].
13
Задача №6. На основании выборочных наблюдений за
производительностью труда n=37 рабочих было вычислено x =400 метров
ткани в час, S=12 м/ч. В предположении о нормальном распределении найти
вероятность того, что среднее квадратическое отклонение будет находиться в
интервале от 11 до 13.
Решение:
2n 2n
P (11 13) P( S S)
2v 1 t 2v 1 t
Ф 1 (t )
2n
S 11
2v 1 t
t 1,57
Ф 1 (1,57) 0,8836
Ответ: P(11<<13)=0,8836.
Mi 85 120 25 10
Mti 117 85 37 9
Решение:
mi miT (mi-miT)2 (mi-miT)2/ miT
85 117 1024 8,752137
120 85 1225 14,41176
25 37 144 3,891892
10 9 1 0,111111
27,1669
2факт.=(mi- miT)/ miT=27,17
2табл.= (=2, =0,02)=7,824
2факт>2табл
Ответ: Выдвинутая гипотеза о нормальном законе распределения
отвергается с вероятностью ошибки альфа.
14
Решение:
1 > 0 выберем правостороннюю критическую область.
X 0
t набл N (0;1)
t z2
2
2 0
t кр (1 2 ), (t )
1
e 2
dz
15
что ошибки измерения имеют нормальное распределение, на уровне
значимости = 0.1 вычислить мощность критерия гипотезы H0: 2 0.01 при
конкурирующей гипотезе H1: 2 0.005.
Решение:
02 12 построим левостороннюю критическую область.
02 2
1 1 P( 2 кр (1 ; n 1)) 0.23
2
1
Ответ: 23.
t кр 1,96
Ответ : | t набл | t кр , гипотеза отвергается при данном уровне значимости.
16
Задача №14. Из n1 = 200 задач первого типа, предложенных для решения,
студенты решили m1 = 152, а из n2 = 250 задач второго типа студенты решили
m2 = 170 задач. Проверить на уровне значимости = 0.05 гипотезу о том, что
вероятность решения задачи не зависит от того, к какому типу она относится,
т.е. H0: P1 = P2. В ответе записать разность между абсолютными величинами
табличного и фактического значений выборочной характеристики.
Решение:
mi
pi , p1 0.76, p 2 0.68
ni
l
m i
p i 1
l
0.716
n
i 1
i
1 l
набл
2
( p p) i
2
ni 3,55
p (1 p ) i 1
P ( 2 кр
2
( , l 1))
кр2 3,841
Ответ : набл кр нулевая гипотеза при данном уровне значимости
2 2
17
*
x x i
3
0
0
m
3
i 50
Ответ: 3*=0.
Число партий 79 55 22 11 3
m 0 1 2 3 4
p 0.4647 0.3235 0.1294 0.0647 0.0176
m x 0.3235 0.2528 0.1941 0.0704 0.8408
i i
0.016816
n 50 50
j 0.016816 3 0.016816 4.755 10 6
P P( x j ) e e 0.9833 7.79 10 7
j! 3! 6
Ответ: P=7.79*10-7.
(t ) 0.48
t 1 (0.48) 2.05
t
n
5
2.055 2
n
n=(5.1375)3=26.3927
Ответ: n=27.
18
Задача №18. На основании измерения n=7 деталей вычислена
выборочная средняя и S=8 мк. В предположении, что ошибка изготовления
распределена нормально, определить с надежностью =0.98 точность оценки
генеральной средней.
Решение:
t St 1 (0.98) 1.131
S S
x t x t
n 1 n 1
S 8
t 0.131 0.4278
n 1 6
St(t,=n-1)==St(t,6)=0.98
Ответ: =0.4278.
19
m pq 1 0.25 0.75
t 2.33 0.3
n n 4 400
Ответ: 0.3.
2n 2 100
S 7 8.457
2 1 t 2 99 1 2.33
Ответ: 8.457.
mi 6 13 22 28 15 3
miT 8 17 29 20 10 3
Решение:
mi miT (mi-miT)2 (mi-miT)2/ miT
6 8 4 0.5
13 17 16 0.941
22 29 49 1.6897
28 20 64 3.2
15 10
25 1.9231
3 3
Итого: - - 8.2537
20
2
набл 8.2537
Ответ: -2.2627.
набл
2
кр2 5.991 8.2537 2.2627
Задача №23. Вычислить дисперсию.
Производительность Число рабочих Средняя производительность
труда труда
81,5-82,5 9 82
82,5-83,5 15 83
83,5-84,5 16 84
84,5-85,5 11 85
85,5-86,5 4 86
Итого 55
S 2 xi x m /m
2
i i
x
x mi i
82 * 9 83 * 15 84 * 16 85 * 11 86 * 4
83,75
m i 55
(82 83,75) 2 * 9 (83 83,75) 2 * 15 (84 83,75) 2 * 16 (85 83,75) 2 * 11 (86 83,75) 2 * 4
S2
55
27,56 8,44 1 17,19 20,25 74,44
1,35.
55 55
Решение:
Ответ: 1,35.
m 0 1 2 3 4 5 Итого
fi 164 76 40 27 10 3 320
Pm 0,34 0,116 0,026 0,004 0,001
Pm*fi 288,75 25,84 4,64 0,702 0,04 0,003 320
fi теор. 288 26 5 1 0 0 320
Решение:
m – число дефектных изделий в партии,
fi – число партий,
fi теор. = теоретическое число партий
21
e m
Pm
m!
76 80 81 40 15
x 0,68
320
e 0, 68 0,5
Теоретическое значение числа партий получается округлением Pm*fi.
Соответственно, теоретическое количество партий с тремя дефектными
изделиями равно 1.
Ответ: 1.
y
Задача №2. Найти выборочное уравнение прямой y x y r x x
x
регрессии Y на X по данной корреляционной таблице.
X
Y 10 15 20 25 30 35 ny
30 3 3 - - - - 6
40 - 5 4 - - - 9
50 - - 8 40 2 - 50
60 - - 5 10 6 - 21
70 - - - 4 7 3 14
nx 3 8 17 54 15 3 n 100
22
y
Задача №3. Найти выборочное уравнение прямой y x y r x x
x
регрессии Y на X по данной корреляционной таблице.
Х
Y 25 30 35 40 45 50 ny
35 4 2 - - - - 6
45 - 5 3 - - - 8
55 - - 5 45 5 - 55
65 - - 2 8 7 - 17
75 - - - 4 7 3 14
nx 4 7 10 57 19 3 n 100
24
Задача №9. В таблице приведено распределение 200 рабочих завода по
стажу работы Х (лет) и затратам времени на обработку одной детали Y (мин.):
Y
Х 15-17 17-19 19-21 21-23 23-25 25-27 Итого
0-4 - - - - 3 5 8
4-8 - - - 12 10 3 25
8-12 - 2 18 25 5 - 50
12-16 - 5 32 18 - - 55
16-20 2 10 38 5 - - 55
20-24 5 2 - - - - 7
Итого 7 19 88 60 18 8 200
0
Необходимо:
1. Вычислить групповые средние xi и yi и построить эмпирические
линии регрессии.
2. Предполагая, что между переменными Х и Y существует линейная
корреляционная зависимость:
а) найти уравнения прямых регрессии и построить их графики на одном
чертеже с эмпирическими линиями регрессии;
б) вычислить коэффициент корреляции, на уровне значимости α=0,05
оценить его значимость и сделать вывод о тесноте и направлении связи
между переменными Х и Y;
в) используя соответствующее уравнение регрессии, оценить средний
стаж рабочих, затрачивающих на обработку детали 20 мин.
25
4. СЕМЕСТРОВЫЕ ЗАДАНИЯ
Задача №1.
а) изобразить графически данную таблицу частот;
б) найти несмещенные оценки математического ожидания и дисперсии
случайной величины Х – дневной выручки магазина;
в) построить эмпирическую функцию распределения случайной
величины Х – выручки магазина в случайно взятый день;
г) найти вероятность того, что в наудачу выбранный день выручка
составит не менее 20 у.е.;
д) с помощью критерия Пирсона проверить гипотезу о нормальном
распределении случайной величины Х – дневной выручки магазина при
уровне значимости ;
е) найти доверительные интервалы для оценки среднего значения и
среднего квадратического отклонения случайной величины Х с надежностью
.
Xi(y.e) 15 16 17 18 19 20 21 22 23 24
Данные к условию задачи:
№ N1 N2 N3 N4 N5 N6 N7 N8 N9 N10
вар.
1 1 3 5 9 20 22 18 12 7 3 0,05 0,999
2 3 4 5 9 18 20 19 11 6 5 0,01 0,95
3 2 4 6 8 19 21 20 12 6 2 0,01 0,999
4 1 3 5 8 22 20 19 13 6 3 0,025 0,95
5 2 4 6 9 20 20 17 12 7 3 0,025 0,99
6 3 5 6 10 19 18 16 13 6 4 0,05 0,999
7 1 4 7 10 18 21 16 12 7 4 0,01 0,95
8 4 5 7 11 17 19 15 11 8 3 0,025 0,99
9 2 3 7 10 18 19 17 13 7 4 0,01 0,999
10 3 5 6 9 17 21 18 13 6 2 0,05 0,999
11 1 2 5 8 19 21 20 15 6 3 0,025 0,95
12 4 5 6 10 17 19 18 13 6 2 0,01 0,99
13 2 3 5 9 19 20 21 12 7 2 0,05 0,999
14 3 4 6 9 18 20 18 13 6 3 0,025 0,99
15 1 4 5 8 20 21 18 14 5 4 0,01 0,95
16 2 3 5 10 17 22 19 12 6 4 0,025 0,99
17 1 3 6 9 17 21 18 13 7 5 0,05 0,95
18 3 4 7 9 16 20 17 12 8 4 0,05 0,99
19 4 6 7 10 16 19 17 12 6 3 0,01 0,999
20 1 5 7 10 18 20 18 13 5 3 0,01 0,99
21 2 4 7 10 17 21 18 12 6 3 0,05 0,95
26
22 1 3 6 11 18 22 19 11 5 4 0,01 0,99
23 3 5 7 11 17 20 18 11 5 3 0,05 0,999
24 2 5 6 10 17 21 19 12 6 2 0,025 0,99
25 4 6 7 9 16 20 18 12 5 3 0,05 0,95
26 2 5 7 10 18 20 19 11 5 3 0,025 0,999
27 3 6 7 10 17 20 18 11 6 2 0,01 0,95
28 1 5 7 11 18 21 18 12 5 2 0,025 0,95
29 1 4 6 9 18 22 19 13 5 3 0,01 0,999
30 3 6 7 10 17 20 17 12 6 2 0,05 0,99
Задача №2.
Проводится исследование спроса на некоторый вид товара. Пробные
продажи показали следующие данные о зависимости дневного спроса от
цены:
Цена, ден. ед. p1 p2 p3 p4 p5
Спрос, ед. товара q1 q2 q3 q4 q5
Необходимо:
а) определить коэффициент корреляции между ценой P и спросом Q,
построить прямую регрессии Q на P;
б) используя прямую регрессии, определить спрос при цене p=p0 ден.
ед. за ед. товара.
Данные к условию задачи:
№ p1 p2 p3 p4 p5 q1 q2 q3 q4 q5 p0
вар.
1 4 5 6 7 8 19 17 15 15 13 10
2 11 13 15 17 19 90 75 70 58 52 14
3 15 16 17 18 19 32 29 28 25 23 12
4 20 22 24 26 28 11 10 8 7 6 25
5 7 8 9 10 11 41 35 29 23 19 12
6 9 11 13 15 17 76 66 61 52 45 16
7 14 15 16 17 18 45 41 36 30 20 13
8 22 24 26 28 30 35 31 28 25 20 31
9 11 13 15 17 19 85 83 80 68 52 18
10 15 16 17 18 19 39 33 29 23 19 10
11 14 15 16 17 18 45 44 42 39 35 19
12 9 11 13 15 17 91 79 61 52 45 8
13 20 22 24 26 28 17 15 15 12 11 25
14 4 5 6 7 8 38 35 29 28 25 11
15 11 13 15 17 19 76 68 61 55 45 10
27
16 7 8 9 10 11 28 25 21 18 17 6
17 20 22 24 26 28 38 31 29 25 15 30
18 14 15 16 17 18 38 34 30 25 20 12
19 22 24 26 28 30 19 18 18 16 13 25
20 9 11 13 15 17 70 65 59 58 50 10
21 11 13 15 17 19 67 65 59 55 52 16
22 15 16 17 18 19 26 24 20 19 15 14
23 4 5 6 7 8 19 15 13 7 5 3
24 22 24 26 28 30 40 35 32 25 21 18
25 9 11 13 15 17 68 63 55 50 46 19
26 20 22 24 26 28 31 28 25 19 15 15
27 4 5 6 7 8 40 35 27 23 19 9
28 15 16 17 18 19 65 56 54 45 43 21
29 11 13 15 17 19 75 72 70 63 53 25
30 7 8 9 10 11 52 44 37 35 30 4
28
5. ТЕОРЕТИЧЕСКИЕ СВЕДЕНИЯ
n1 x1 n2 x 2 nk x k
ni x i
i 1
xв , или xâ ,
n n
29
т.е. выборочная средняя есть средняя взвешенная значений признака с
весами, равными соответствующим частотам.
Пусть из генеральной совокупности (в результате независимых
наблюдений над количественным признаком X ) извлечена повторная
выборка объема n со значениями признака x1 , x2 , ..., x n .
Рассмотрим совокупность, безразлично генеральную или выборочную,
значений количественного признака X объема n :
значение признака x1 x2 xk k
причем ni n.
частота n1 n2 nk i 1
k
Далее для удобства записи знак суммы будет заменен знаком .
i 1
Найдем общую среднюю
x
ni x i
.
n
Отсюда
ni xi nx . (*)
Заметим, что поскольку x - постоянная величина, то
ni x x ni nx . (**)
Отклонением называют разность xi x между значением признака и
общей средней.
Определение. Генеральной дисперсией D называют среднее
арифметическое квадратов отклонений значений признака генеральной
совокупности от их среднего значения x .
Если все значения x1 , x 2 , ..., x N признака генеральной совокупности
объема N различны, то
k
( xi x )
2
D i 1 .
N
Если же значения признака x1 , x 2 , ..., x k имеют соответственно частоты
N 1 , N 2 , ..., N k , причем N1 N 2 ... N k , то
k
N i ( xi x )
2
i 1
D ,
N
т. е. генеральная дисперсия есть средняя взвешенная квадратов отклонений с
весами, равными соответствующим частотам.
Пример. Генеральная совокупность задана таблицей распределения:
xi 2 4 5 6
Ni 8 9 10 3.
30
Найти генеральную дисперсию.
Решение. Найдем генеральную среднюю:
8 2 9 4 10 5 3 6 120
x 4.
8 9 10 3 30
Найдем генеральную дисперсию:
8 (2 4) 2 9 (4 4) 2 10 (5 4) 2 3 (6 4) 2 54
D 1,8 .
30 30
Кроме дисперсии для характеристики рассеяния значений признака
генеральной совокупности вокруг своего среднего значения пользуются
сводной характеристикой ‒ средним квадратическим отклонением.
Генеральным средним квадратическим отклонением (стандартом)
называют квадратный корень из генеральной дисперсии:
D .
Для того чтобы охарактеризовать рассеяние наблюдаемых значений
количественного признака выборки вокруг своего среднего значения x в , вводят
сводную характеристику Dв , т.е. выборочную дисперсию.
Определение. Выборочной дисперсией Dв называют среднее арифмети-
ческое квадратов отклонения наблюдаемых значений признака от их среднего
значения x в .
Если все значения x1 , x 2 , ..., x n признака выборки объема n
различны, то
n
( xi xв )
2
Dв i 1
n
Если же значения признака x1 , x 2 , ..., xk имеют соответственно частоты
n1 , n 2 , ..., n k , причем n1 n 2 ... nk n , то
k
ni ( xi xв )
2
Dв i 1 ,
n
т. е. выборочная дисперсия есть средняя взвешенная квадратов отклонений с
весами, равными соответствующим частотам.
Пример. Выборочная совокупность задана таблицей распределения
xi 1 2 3 4
ni 20 15 10 5.
Найти выборочную дисперсию.
Решение. Найдем выборочную среднюю
20 1 15 2 10 3 5 4 100
xв 2.
20 15 10 5 50
31
Найдем выборочную дисперсию:
20 ( 1 2 ) 2 15 ( 2 2 ) 2 10 ( 3 2 ) 2 5 ( 4 2 ) 2 50
Dв 1.
50 50
Кроме дисперсии для характеристики рассеяния значений признака
выборочной совокупности вокруг своего среднего значения пользуются
сводной характеристикой – средним квадратическим отклонением.
Выборочным средним квадратическим отклонением (стандартом)
называют квадратный корень из выборочной дисперсии:
в Dв .
Вычисление дисперсии (безразлично выборочной или генеральной)
можно упростить, используя следующую теорему.
Теорема. Дисперсия равна среднему квадратов значений признака
минус квадрат общей средней
D x 2 [x ]2 .
Пример. Найти дисперсию по данному распределению:
xi 1 2 3 4
ni 20 15 10 5.
Решение. Найдем общую среднюю:
20 1 15 2 10 3 5 4 100
x 2.
20 15 10 5 50
Найдем среднюю квадратов значений признака:
20 12 15 2 2 10 32 5 4 2
x2 5
50
32
среднее абсолютное отклонение служит для характеристики рассеяния
вариационного ряда.
Определение. Коэффициентом вариации V называют выраженное в
процентах отношение выборочного среднего квадратического отклонения к
выборочной средней:
в
V 100 %
xв
Коэффициент вариации служит для сравнения величин рассеяния двух
вариационных рядов: тот из рядов имеет большее рассеяние, у которого
коэффициент вариации больше.
Предположим, что варианты выборки расположены в возрастающем
порядке, т.е. в виде вариационного ряда.
Равностоящими называют варианты, которые образуют
арифметическую прогрессию с разностью h .
Условными называют варианты, определяемые равенством:
xi C
ui ,
h
где C – ложный нуль (новое начало отсчета); h – шаг, т. е. разность между
любыми двумя соседними первоначальными вариантами (новая единица
масштаба).
Упрощенные методы расчета сводных характеристик выборки
основаны на замене первоначальных вариант условными.
Покажем, что если вариационный ряд состоит из равноотстоящих
вариант с шагом h , то условные варианты есть целые числа. Действительно,
выберем в качестве ложного нуля произвольную варианту, например, xm .
Тогда
x xm x1 (i 1)h [ x1 (m 1)h]
ui i im.
h h
Так как i и m – целые числа, то их разность i m u1 также есть целое
число.
Замечание 1. В качестве ложного нуля можно принять любую
варианту. Максимальная простота вычислений достигается, если выбрать в
качестве ложного нуля варианту, которая расположена примерно в середине
вариационного ряда (часто такая варианта имеет наибольшую частоту).
Замечание 2. Варианте, которая принята в качестве ложного нуля,
соответствует условная варианта, равная нулю.
Пример. Найти условные варианты статистического распределения
варианты 23,6 28,6 33,6 38,6 43,6
частоты 5 20 50 15 10
Решение. Выберем в качестве ложного нуля варианту 33,6 (она
расположена в середине вариационного ряда).
33
Найдем шаг h 28,6 23,6 5 .
x1 C 23,6 33,6
Найдем условную варианту u1 2 .
h 5
Аналогично получим u2 1 , u3 0 , u4 1 , u5 2 .
Для вычисления сводных характеристик выборки удобно пользоваться
эмпирическими моментами, определения которых аналогичны определениям
соответствующих теоретических моментов. В отличие от теоретических,
эмпирические моменты вычисляют по данным наблюдений.
Обычным эмпирическим моментом порядка k называют среднее
значение k степеней разностей xi C :
M k
ni ( xi C) k
.
n
где xi – наблюдаемая варианта; ni – частота варианты; n ni – объем
выборки; C – произвольное постоянное число (ложный нуль).
Определение. Начальным эмпирическим моментом порядка k
называют обычный момент порядка k при C 0
ni xi
M1 xв ,
n
т. е. начальный эмпирический момент первого порядка равен выборочной
средней.
Определение. Центральным эмпирическим моментом порядка k
называют обычный момент порядка k при C xâ
mk
ni ( xi xâ ) k
.
n
В частности,
ni ( xi xв )
2
m2 Dв ,
n
т. е. центральный эмпирический момент второго порядка равен выборочной
дисперсии.
Вычисление центральных моментов требует довольно громоздких
вычислений. Чтобы упростить расчеты, заменяют первоначальные варианты
условными.
Определение. Условным эмпирическим моментом порядка k называют
начальный момент порядка k , вычисленный для условных вариант:
k
x C
ni i h
M k*
i i
n u k
.
n n
В частности,
xi C
ni
M 1* h 1 ni x i C n i 1 x C .
B
n h n n h
34
Отсюда
x B M 1* h C .
Таким образом, для того чтобы найти выборочную среднюю,
достаточно вычислить условный момент первого порядка, умножить его на h
и к результату прибавить ложный нуль C .
Выразим обычные моменты через условные:
1 ni xi C
k M'
M k* k.
hk n hk
Отсюда
M 'k M *k h k
35
6) умножают частоты на квадраты условных вариант, увеличенных
каждая на единицу, и записывают произведения ni ( ui 1)2 в шестой
контрольный столбец; сложив все полученные числа, их сумму ni ( ui 1)2
помещают в нижнюю клетку столбца.
После того, как расчетная таблица заполнена и проверена правильность
вычислений, вычисляют условные моменты:
ni ui niui2 .
M* 1, M* 2
n n
Наконец, вычисляют выборочные среднюю и дисперсию по формулам:
2
xB M1* h C, DB M 2* M1* h2 .
Пример. Найти методом произведений выборочные среднюю и
дисперсию следующего статистического распределения:
варианты 10,2 10 ,4 10 ,6 10 ,8 11,0 11,2 11,4 11,6 11,8 12 ,0
частота 2 3 8 13 25 20 12 10 6 1
Решение. Составим расчетную таблицу, для чего:
1) запишем варианты в первый столбец;
2) запишем частоты во второй столбец; сумму частот (100) поместим в
нижнюю клетку столбца;
3) в качестве ложного нуля выберем варианту 11,0 (эта варианта
имеет наибольшую частоту); в клетке третьего столбца, которая
принадлежит строке, содержащей наибольшую частоту, пишем 0; над нулем
последовательно –1, –2, –3, –4, а под нулем - 1, 2, 3, 4, 5;
4) произведения частот на условные варианты записываем в четвертый
столбец; отдельно находим сумму (–46) отрицательных и отдельно сумму
(103) положительных чисел; сложив эти числа, их сумму (57) помещаем в
нижнюю клетку столбца;
5) произведения частот на квадраты условных вариант запишем в
пятый столбец; сумму чисел столбца (383) помещаем в нижнюю клетку
столбца;
6) произведения частот на квадраты условных вариант, увеличенных на
единицу, запишем в шестой контрольный столбец; сумму (597) чисел
столбца помещаем в нижнюю клетку столбца.
В итоге получим расчетную таблицу 1.
Таблица 1
xi 2
x i u i
niu i niu i n i ( u i +1) 2
10,2 2 -4 -8 32 18
10,4 3 -3 -9 27 12
10,6 8 -2 -16 32 8
10,8 13 -1 -13 13 0
11,0 25 0 A1 =-46 25
11,2 20 1 20 20 80
36
11,4 12 2 24 48 108
11,6 10 3 30 90 160
11,8 6 4 24 96 150
12,0 1 5 5 25 36
A2 =103
n 100 ni ui 57 ni ui 383
2
ni ( ui 1 ) 597
2
неравенство ~ , т.е.
P
~ (1)
Обычно надежность задается заранее, в качестве берут число,
близкое к единице. Так как неравенство ~ равносильно неравенствам
~ или ~ ~ , то формулу (1) можно записать в виде
P
~ ~ (2)
Эта формула означает следующее: вероятность того, что интервал
,~ заключает в себе (покрывает) неизвестный параметр , равна .
~
37
Рассмотрим вопрос о построении доверительного интервала для оценки
математического ожидания а нормального распределения при известном значении
среднего квадратического отклонения .
Пусть количественный признак X генеральной совокупности имеет
нормальное распределение с заданным и неизвестным а. Оценим неизвестный
параметр а выборочной средней x B ; найдем доверительный интервал,
покрывающий параметр а с надежностью . Так как выборочное среднее x B
меняется от выборки к выборке, его можно рассматривать как случайную величину
ХВ.. Выборочные значения х1,,х2,,...,хп также меняются от выборки к выборке. Будем
рассматривать их как одинаково распределенные случайные величины Х1,Х2,,...Хп
(математическое ожидание каждой из этих величин равно а, среднее
квадратическое отклонение равно ).
Имеем M X B a , X B (3)
n
Потребуем, чтобы
P X B a (4)
Поскольку случайная величина ХВ. также имеет нормальное распределение,
то равенство
P X a 2
Применяя к величинам ХВ. и X B , находим
n
n
P X B a 2
2 t (5), где t n (6)
i 1 n i 1
39
можно считать точечной оценкой дисперсии D генеральной совокупности.
Приведем еще один пример точечной оценки. Пусть каждый объект
генеральной совокупности характеризуется двумя количественными
признаками x и y. Например, деталь может иметь два размера – длину и
ширину. Можно в различных районах измерять концентрацию вредных
веществ в воздухе и фиксировать количество легочных заболеваний
населения в месяц. Можно через равные промежутки времени сопоставлять
доходность акций данной корпорации с каким-либо индексом,
характеризующим среднюю доходность всего рынка акций. В этом случае
генеральная совокупность представляет собой двумерную случайную
величину , . Эта случайная величина принимает значения x, y на
множестве объектов генеральной совокупности. Не зная закона совместного
распределения случайных величин и , мы не можем говорить о наличии
или глубине корреляционной связи между ними, однако некоторые выводы
можно сделать, используя выборочный метод.
Выборку объема n в этом случае представим в виде таблицы, где
i-тый отобранный объект (i= 1,2,...n) представлен парой чисел xi, yi :
x1 x2 ... xn
y1 y2 ... yn
Выборочный коэффициент корреляции рассчитывается по формуле
xy x y .
rxy
x y
Здесь
2
1 n
1 n
xy xi yi , x x xi x ,
2
n i 1 n i 1
2
1 n
y y yi y .
2
n i 1
40
Такая выборочная оценка называется несмещенной.
Для доказательства несмещённости некоторых точечных оценок будем
рассматривать выборку объема n как систему n независимых случайных
величин 1, 2,... n , каждая из которых имеет тот же закон распределения с
теми же параметрами, что и случайная величина , представляющая
генеральную совокупность. При таком подходе становятся очевидными
равенства: Mxi = Mi =M; Dxi = Di =D для всех k = 1,2,...n.
Теперь можно показать, что выборочная средняя x есть несмещенная
оценка средней генеральной совокупности или, тоже самое, математического
ожидания интересующей нас случайной величины :
x1 x2 . . . xn 1
M1 M 2 . . . M n n M M .
1
Mx M
n n n
1 n
n i 1
xi M 2 xi M x M x M
2 2
1 n
xi M x M .
2 2
n i 1
n n
2 x M xi M 2 x Mnx nM 2n x M .
2
i 1 i 1
1 n 2
2
M M xi M x M
2
n i 1
41
1 n
M xi M M x M n D Dx
2 2 1
n i 1 n
D n 1
D D .
n n
1 n
s2 xi x 2 .
n 1 i 1
42
Числа 1 и 2 называются доверительными границами, интервал (1,
2) — доверительным интервалом для параметра . Число называется
доверительной вероятностью или надежностью сделанной оценки.
Сначала задается надежность. Обычно ее выбирают равной 0.95, 0.99
или 0.999. Тогда вероятность того, что интересующий нас параметр попал в
интервал (1, 2) достаточно высока. Число (1 + 2) / 2 – середина
доверительного интервала – будет давать значение параметра с точностью
(2 – 1) / 2, которая представляет собой половину длины доверительного
интервала.
Границы 1 и 2 определяются из выборочных данных и являются
функциями от случайных величин x1, x2,..., xn , а следовательно – сами
случайные величины. Отсюда доверительный интервал (1, 2) тоже случаен.
Он может покрывать параметр или нет. Именно в таком смысле нужно
понимать случайное событие, заключающееся в том, что доверительный
интервал покрывает число .
43
P( x – a < d) =P(a – d < x < a + d) =
a d a a d a d n
= 2 .
n n
d n
t
определим значение d: d t .
n
Окончательный результат получим, представив формулу (1) в виде:
t t
P x a x .
n n
44
интервала) d: d = 2,52,58 / 27 1,24. Отсюда получаем искомый
доверительный интервал: (10,76; 13,24).
t
x a n
s
x a n
P t , (2)
s
s s
P x t a x t . (3)
n n
x a n
P t 1 ,
s
2
n 1s2
D
P 1 2 2
2 2
(*)
P(2 12) = 1 – (1 – )/ 2 = (1 + )/ 2
46
2 n 1s2
P 1 2 .
2
D
n 1s2 n 1s2
P D .
2
2
12
n 1 s n 1s
P D . (****)
2 2
12
47
Пусть по некоторым данным имеются основания выдвинуть
предположения о законе распределения или о параметре закона
распределения случайной величины (или генеральной совокупности, на
множестве объектов которой определена эта случайная величина). Задача
заключается в том, чтобы подтвердить или опровергнуть это предположение,
используя выборочные (экспериментальные) данные.
Гипотезы о значениях параметров распределения или о сравнительной
величине параметров двух распределений называются параметрическими
гипотезами.
Гипотезы о виде распределения называются непараметрическими
гипотезами.
Проверить статистическую гипотезу – это значит проверить,
согласуются ли данные, полученные из выборки, с этой гипотезой. Проверка
осуществляется с помощью статистического критерия. Статистический
критерий – это случайная величина, закон распределения которой (вместе со
значениями параметров) известен в случае, если принятая гипотеза
справедлива. Этот критерий называют еще критерием согласия (имеется в
виду согласие принятой гипотезы с результатами, полученными из выборки).
Гипотезу, выдвинутую для проверки ее согласия с выборочными
данными, называют нулевой гипотезой и обозначают H0. Вместе с гипотезой
H0 выдвигается альтернативная или конкурирующая гипотеза, которая
обозначается H1. Например:
48
Решение уравнения (1) (то же самое для уравнений (2) и (3))
заключается в следующем: по вероятности , зная функцию pK(x), заданную
как правило таблицей, нужно определить Kкр.
Что означает условие (1)?
Если гипотеза H0 справедлива, то вероятность того, что критерий K
превзойдет некоторое значение Kкр очень мала – 0,05 , 0,01 или еще меньше,
в зависимости от нашего выбора. Если Kв – значение критерия K,
рассчитанное по выборочным данным, превзошло значение Kкр, это означает,
что выборочные данные не дают основания для принятия нулевой гипотезы
H0 (например, если =0,01, то можно сказать, что произошло событие,
которое при справедливости гипотезы H0 встречается в среднем не чаще, чем
в одной из ста выборок). В этом случае говорят, что гипотеза H0 не
согласуется с выборочными данными и должна быть отвергнута. Если Kв не
превосходит Kкр, то говорят, что выборочные данные не противоречат
гипотезе H0, и нет оснований отвергать эту гипотезу.
Для уравнения (1) область K> Kкр называется критической областью.
Если значение Kв попадает в критическую область, то гипотеза H0
отвергается.
Для уравнения (1) область K < Kкр называется областью принятия
гипотезы. Если значение Kв попадает в область принятия гипотезы, то
гипотеза H0 принимается.
Рисунок 1. иллюстрирует решение
уравнения (1). Здесь pK(x) – известная
плотность распределения случайной
величины K при условии справедливости
гипотезы H0.
Пусть выбрано некоторое малое
значение вероятности , по нему определено
значение Kкр и по выборочным данным
определено значение Kв, которое попало в критическую область. В этом
случае гипотеза H0 отвергается, но она может оказаться справедливой,
просто случайно произошло событие, которое имеет очень малую
вероятность . В этом смысле есть вероятность отвержения правильной
гипотезы H0.
Отвержение правильной гипотезы называется ошибкой первого рода.
Вероятность называется уровнем значимости. Таким образом, уровень
значимости – это вероятность совершения ошибки первого рода.
49
Критическая область, полученная для
уравнения (1) и приведенная на рисунке 1,
называется правосторонней.
Уравнение (2) определяет
левостороннюю критическую область. Ее
изображение приводится на рисунке 2.
Отметим, что каждая из
заштрихованных фигур на рисунках 1. и 2.
имеет площадь, равную .
Уравнение (3) определяет
двустороннюю критическую область. Такая
область изображена на рисунке 3. Здесь
критическая область состоит из двух
частей. В случае двусторонней критической
области границы ее частей Kкр1 и Kкр2
определяются таким образом, чтобы
выполнялось условие:
50
рода, называется мощностью критерия. На рисунке 4 мощность критерия
равна площади фигуры,
образованной графиком функции
p1(x), и полубесконечной частью
горизонтальной координатной
оси, лежащей справа от точки Kкр.
Выбор статистического
критерия и вида критической
области осуществляется таким
образом, чтобы мощность критерия была максимальной.
51
ГЛОССАРИЙ
53
СПИСОК ЛИТЕРАТУРЫ
54
Для заметок
55
Подписано в печать 14.06.2013 г. Тираж 50 экз.
Формат изд. 60х84/16. Объем 3,5 усл. печ. л.
Отпечатано в типографии “ИП Волков А.И.”
Райымбека 212/1, оф. 319. Тел.: 330-03-12, 330-03-13
56