Вы находитесь на странице: 1из 11

Первичная обработка результатов измерений случайной величины

7.1. Статистическое распределение выборки


7.2. Полигон частот и гистограмма
7.3. Эмпирическая функция распределения

- - 213
Часть 2
ОСНОВЫ МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ

Тема 5
ПЕРВИЧНАЯ ОБРАБОТКА РЕЗУЛЬТАТОВ ИЗМЕРЕНИЙ
СЛУЧАЙНОЙ ВЕЛИЧИНЫ

Лекция 13
Математическая статистика занимается статистическим
анализом результатов опытов или наблюдений, а также построением и
проверкой подходящих математических моделей процессов и систем на
основе результатов экспериментов.
Статистический анализ и построение вероятностных моделей
процессов и систем основаны на том, что измеряемые в процессе опыта
или наблюдений физические (или иного смысла) величины X,
характеризующие исследуемый процесс или систему, при повторении
опытов подвержены некоторому неконтролируемому разбросу
x1 , x2 ,..., xn . Этот разброс обусловлен главным образом действием
случайных неучтенных факторов и ошибками измерений. Поэтому
наблюдаемая величина X рассматривается как одномерная случайная
величина. Результаты измерения x1 , x2 ,..., xn в математической статистике
называют основными признаками случайной величины X, которые
рассматриваются в этом смысле эмпирической реализацией этого
математического понятия.
Совокупность всех мыслимых значений, которые может принимать
величина X при данном реальном комплексе условий, называют
генеральной совокупностью. Распределение признака X в генеральной
совокупности совпадает с теоретическим распределением вероятностной

- - 214
величины X. Последнее называется распределением генеральной
совокупности, а его параметры – параметрами генеральной
совокупности.
Генеральная совокупность может быть конечной (всего N
мыслимых наблюдений) и бесконечной в зависимости от того, конечна
или бесконечна совокупность всех мыслимых значений.
Выборка из данной генеральной совокупности – это результаты
ограниченного ряда наблюдений x1 , x2 ,..., xn значений случайной
величины X.
Таким образом, выборку можно рассматривать как некий
эмпирический аналог генеральной совокупности. На практике при
исследованиях мы чаще всего имеем дело с выборками, поскольку
обследование всей генеральной совокупности бывает слишком трудоемко
(когда n – достаточно большое число), либо принципиально невозможно
(в случае бесконечных генеральных совокупностей).
Число n наблюдений, образующих выборку, называют объемом
выборки.
Разность между наибольшим max{xi } и наименьшим min{xi }
значениями xi (i = 1,..., n) из выборки называется размахом выборки:
R = max{xi } − min{xi }
Каждая выборка x1 , x2 ,..., xn значений X представляет собой, вообще
говоря, случайную выборку из теоретически бесконечной генеральной
совокупности. Поэтому выборочные значения x1 , x2 ,..., xn признака X
рассматривают также как реализации независимых случайных величин
X 1 , X 2 ,..., X n , распределение признаков которых X i (i =1,..., n) в
генеральной совокупности совпадает с теоретическим распределением
вероятностной величины X. В этом случае X 1 , X 2 ,..., X n представляют
собой взаимно независимые случайные величины с одинаковой

- - 215
плотностью распределения p(x) случайной величины X. К основным
задачам математической статистики относятся:
• определение закона распределения основного признака (наблюдаемой
случайной величины);
• нахождение оценок неизвестных параметров распределений и оценок
числовых характеристик случайной величины;
• проверка правдоподобия статистических гипотез;
• оптимальная организация и проведение экспериментов и оптимальная
обработка результатов экспериментов.

7.1. Статистическое распределение выборки

Пусть из генеральной совокупности извлечена выборка объемом


n = 20. Наблюдаемые значения xi называют вариантами, а
последовательность значений (вариант), записанных в возрастающем
порядке, – вариационным рядом. Числа наблюдений ni называют

частотами, а их отношения к объему выборки ni /n = pi* –


относительными частотами.
Статистическим распределением выборки называют перечень
вариантов xi и соответствующих им частот ni
xi 2 6 12
ni 3 10 7

или относительных частот pi*


xi 2 6 12
pi 3/20 10/20 7/20
При больших объемах выборки n статистическое распределение
выборки становится недостаточно наглядным. В этом случае

- - 216
статистические данные представляются в виде интервального
вариационного ряда, который носит также название статистического
ряда.
Для построения статистического ряда размах выборки разбивается
на r конечных (или бесконечных) подходящим образом выбранных
интервалов X j − 0,5∆X j < xi < X j + 0,5∆X j , длины которых (размахи)

соответственно h j = ∆X j , а середины интервалов X j , где j=1,...,r.

Количество интервалов выбирается в основном из практических


соображений. В частности, рекомендуется, чтобы значение r было
не менее 5 – 10 и более 20 – 25. В каждом интервале должно быть
не менее 10 значений. В том случае, если полученные из опыта данные
группируются вокруг некоторых значений, то желательно, чтобы эти
значения не находились вблизи узлов разбиения интервалов. Затем
подсчитываются число значений выборки n j , попавших в интервал j, и

относительная частота p *j значений, попавших в этот интервал. Если

данные попадают на границы интервалов, то их либо распределяют


равномерно по двум соседним интервалам, либо относят только к одному
из них (например, к левому). Выбор количества интервалов существенно
зависит от объема выборки. Существуют также рекомендации по
использованию формулы Старджеса m ≅ log 2 n + 1 ≅ 3,32 ln n + 1 или

других формул: m ≅ 5 lg n , m ≅ n .
Все эти формулы следует рассматривать как нижнюю оценку m. Так
как длина интервала h j может быть большой, а количество численных

значений nj, попавших в него, сравнительно малым, то для

сопоставления групп друг с другом вычисляется также величина


p *j = p *j / ∆X j , называемая плотностью относительной частоты.

Полученные результаты сводятся в таблицу вида.

- - 217
№ интервала 1 2 ……. j ……. r
Длина интервала ∆ X j ∆ X1 ∆ X2 ……. ∆X j ……. ∆ Xr

Частота n j n1 n2 ……. nj ……. nr


*
Относит. частота p j p1* p 2* ……. p *j ……. p r*
Плотность относитель– p1* p 2* ……. p *j ……. p r*
*
ной частоты p j
Для большей наглядности статистический ряд оформляют в виде
полигона частот или гистограммы.

7.2. Полигон частот и гистограмма

Полигоном частот называют ломаную линию (рис.7.1), отрезки ко-


торой соединяют точки ( x1 , n1 ),( x2 , n2 ),…,( xn , nn ). Для построения
полигона частот на оси абсцисс откладывают
ni
варианты xi , а по оси ординат –
7
соответствующие им частоты ni . Точки xi , n i
3
соединяют отрезками прямых и получают
x полигон частот.
0 2 6 12
Рис.7.1 Полигоном относительных частот
называют ломаную (рис.7.2), отрезки которой соединяют точки
( x1 , p1* ),( x2 , p 2* ),…,( xn , p n* ). pi*
0.50
Гистограммой частот называют 0.35
ступенчатую фигуру (рис.7.3), состоящую из
0.15
прямоугольников, основаниями которых
служат интервалы длиною h j = ∆X j , x
0 2 6 12

представленные в таблице вида Рис.7.2

- - 218
№ интервала 1 2 3
Границы интервала 0–4 4–8 8 – 14

Длина интервала h j 4 4 6

Частота n j 3 10 7

Плотность частоты n j / h j 0,75 2,50 1,16

Плотность относительной 0,037 0,125 0,058


частоты p *j / hj
а высоты равны отношению n j / h j (плотность частоты). Площадь j-го

прямоугольника равна h j n j / h j = n j – сумме частот j-го интервала.

Следовательно, площадь гистограммы частот равна сумме всех


частот, т.е. объему выборки n .

nj /hj p *j / h j
2.50 0.125
0
1.16
0.058
0.75
0.037
x x
0 4 8 14 0 4 8 14
Рис.7.3 Рис.7.4
Гистограммой относительных частот называют ступенчатую
фигуру (рис.7.4), состоящую из прямоугольников, основаниями которых
служат частичные интервалы длиною h j = ∆X j , а высоты равны

отношению p *j / h j (плотность относительной частоты). Площадь j-

го частичного прямоугольника равна h j p *j / h j = p *j – сумме

относительных частот j-го интервала.


Следовательно, площадь гистограммы относительных частот
равна сумме всех относительных частот, т.е. единице.

- - 219
7.3. Эмпирическая функция распределения

Эмпирической функцией распределения (функцией распределения


выборки) называют функцию F * ( x) , определяющую для каждого

значения x относительную частоту события X < x , т.е. F * ( x) = n x / n ,где


n x – число вариант (значений), меньших x; n – объем выборки.

Таким образом, для того чтобы найти, например F * ( x2 ) , надо число

вариант, меньших x2 , разделить на объем выборки F * ( x) = n x 2 / n .

Из теоремы Бернулли следует, что при неограниченном увеличении


n относительная частота события X < x , т.е. F * ( x2 ) стремится по
вероятности к F(x) этого события, так как
lim P{| p * − p | < ε } = 1 .
n→∞

Отсюда следует целесообразность использования эмпирической


(статистической) функции распределения выборки для приближенной
оценки (представления) теоретической (интегральной) функции
распределения генеральной совокупности.
Это подтверждается тем, что F * ( x) обладает всеми свойствами
F(x):
- значения эмпирической функции принадлежат отрезку [0,1];
- F * ( x) – неубывающая функция;

- если x1 – наименьшая варианта, то F * ( x) = 0 при x < x1 ;

- если xk – наибольшая варианта, то F * ( x) = 1 при x ≥ xk .

Пример: Построить F * ( x) по данному распределению


Варианты xi 2 6 12
Частоты ni 3 10 7

- - 220
Решение. Определим объем выборки n = 3+10+7=20. Наименьшая
варианта равна 2, следовательно, F * ( x) = 0 при x < 2 . Значение X < 6,

а именно, x = 2, наблюдалось 3 раза, следовательно F * ( x) = 3/20 = 0,15


при значениях 2 ≤ x < 7. Значения X < 12, а именно, x = 2 и x = 6 ,
наблюдались 3 + 10 = 13 раз, следовательно, F * ( x) = 13/20 = 0,65

при 6 ≤ x < 12. Наибольшая варианта равна 12, следовательно, F * ( x) = 1


при x ≥ 12.
Таким образом:
0 при x < 2 F * ( x)
1,00
 0,15
*  при 2 ≤ x < 6 0,65
F ( x) = 
 0,65 при 6 ≤ x < 12
 1 при x ≥ 12 0,15
x
0 2 6 12
и функция распределения имеет Рис.7.5
вид рис.7.5.
С увеличением объема выборки и количества интервалов,
содержащих в пределе одну реализацию случайной величины,
гистограмма приближается к плотности распределения исследуемой
случайной величины.
Следует отметить, что полигон частот является статистическим
аналогом ряда распределения случайной величины, а гистограмма –
статистическим аналогом плотности распределения.

Упражнения

1.Для выборки: +2, –1, +2, –1, +5, –4, +2, +2, –1, +5 постройте график
эмпирической функции распределения F * ( x) .
2. Построить для упражнения 1 полигон частот и полигон относительных
частот.
3. В цехе работает четыре станка, причем вероятность остановки каждого
станка в течение часа равна 0,8. Построить полигон распределения вероятности числа
станков, остановившихся в течение данного часа.

- - 221
4. Выборка баллов оценки абитуриентов на приемных экзаменах дала
следующие результаты.
20 19 22 24 18 23 17 20 16 15 23
18 23 21 19 20 21 20 18 17 22 20
20 17 21 17 19 20 20 21 18 22 23
19 21 24 23 21 19 22 21 19 25 21
*
Постройте эмпирическую функцию распределения F ( x) и гистограмму.
5. Постройте гистограмму по таблице, заполнив, пустую строку
ni − частота, hi − длина интервала.
Интервал [–8; –3] [–3; 2] [2; 7] [7; 12] [12; 17]
ni 8 15 6 2
hi
Контрольные вопросы

Основы математической статистики


1. Чем занимается математическая статистика?
2. Чем обусловлен разброс измеряемых величин?
3. Дайте определение генеральной совокупности случайных величин.
4. Что понимается под выборкой из генеральной совокупности?
5. Что называтся размахом выборки?
6. Назовите основные задачи математической статистики.

Статистическое распределение выборки


1. Какие величины называют вариационным рядом?
2. Что такое частота наблюдений?
3. Что понимается под относительной частотой наблюдений?
4. Охарактеризуйте статистическое распределение выборки.
5. Как строится статистический ряд?
6. Что понимается под плотностью относительной частоты наблюдений.
7. Постройте полигон частот по статистическому распределению выборки.
xi 2 6 12

ni 3 10 7

8. Как описывается полигон относительных частот?


9. Постройте полигон относительных частот по статистическому
распределению выборки.

- - 222
xi 2 6 12

pi 3/20 10/20 7/20

10. Как строится гистограмма частот?


11. Что определяет площадь гистограммы частот?
12. Как строится гистограмма относительных частот?
13. Чему равна площадь гистограммы относительных частот?
14. Что называют эмпирической фукцией распределения?

- - 223