Вы находитесь на странице: 1из 15

Занятие № 1

ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА РЕЗУЛЬТАТОВ


ЭКСПЕРИМЕНТА
Цели занятия
1. Освоить приёмы первичной обработки эксперименталь-
ных данных с помощью MS Excel.
2. Ознакомиться с инструментами Пакета анализа MS Excel
«Гистограмма», «Выборка», «Генерация случайных чи-
сел».
Для проведения статистической обработки информации в таб-
личном процессоре Microsoft Excel имеется программная
надстройка Анализ данных и библиотека статистических функ-
ций.
Пакет анализа – это набор средств анализа данных, предна-
значенный для решения сложных статистических и инженерных
задач. Для того, чтобы вывести список доступных инструментов
анализа, нужно:
1. Загрузить MS Excel .
2. Перейти на вкладку Данные и на панели Анализ нажать
кнопку Анализ данных.
3. В окне диалога Анализ данных выбрать необходимый ин-
струмент.
Для работы со статистическими функциями можно использо-
вать мастер функций. Для его вызова нужно перейти на вкладку
Формулы и на панели Библиотека функций нажать кнопку Вста-
вить функцию. В ячейке появится знак равенства и откроется
окно диалога.
В окне Категория выбрать соответствующую категорию, в от-
крывшемся списке выбрать нужную функцию. В окне Аргументы
функции ввести данные.
Вызвать мастер функций можно с помощью кнопки в
строке формул.

1
1. Моделирование вероятностных распределений

Соотношение, устанавливающее связь между возможными


значениями случайной величины и их вероятностями, называется
законом распределения случайной величины.
Универсальным способом задания закона распределения веро-
ятностей является функция распределения F(x).
Функцией распределения случайной величины Х называется
функция F(x), которая для любого числа x R равна вероятности
события (X < x):
F(x) = P(X < x).
Замечание. В MS Excel под функцией распределения случай-
ной величины Х понимают функцию действительной переменной
x, значение которой при каждом x равно вероятности выполнения
неравенства X  x, то есть F(x) = P(X  x).
Плотностью распределения вероятностей непрерывной слу-
чайной величины Х называется производная её функции распре-
деления:
f(x) = F’(x).
В MS Excel имеется набор функций, позволяющих моделиро-
вать основные законы распределения случайных величин. Они
находятся в категории «Статистические». Рассмотрим примеры
моделирования случайных величин, имеющих известное теорети-
ческое распределение.
Моделирование нормального закона распределения случай-
ной величины
Непрерывная случайная величина Х распределена по нормаль-
ному закону N(μ, σ), если её плотность вероятностей имеет вид:

 x   2
f x  
1 2 2
e ,
 2
где μ – математическое ожидание,  - среднее квадратическое
(стандартное) отклонение, 2 – дисперсия.
Функция распределения нормальной случайной величины Х
определяется по формуле:

2
x  x 
2

F x  
1
e 2
2
dx
 2 
Если μ = 0 и  = 1, то такое распределение называется стан-
дартным нормальным распределением N(0, 1) его функция рас-
пределения записывается в виде:
x x2

F0 x     x  ,
1 1
2 e

2 dx 
2
x x2

где: x  
1

2 0
e 2dx ‒ функция Лапласа.

Для моделирования выборки из непрерывного распределения


с функцией распределения F(x), нужно сначала получить выборку
из генеральной совокупности, имеющей равномерное распреде-
ление R(0, 1), а затем использовать функцию, обратную к функ-
ции распределения F(x), соответствующей случайной величины.
Пример 1. Получить последовательность значений случайной
величины, имеющей нормальное распределение, с математиче-
ским ожиданием μ = 2 и средним квадратическим отклонением σ
= 1,5. Построить графики функции распределения и плотности
вероятности.
Решение
Для вычисления значения функции распределения и плотно-
сти вероятностей нормального распределения в MS Excel исполь-
зуем функцию НОРМ.РАСП (категория Статистические), ко-
торая имеет вид:
НОРМ.РАСП(x; среднее; стандартное_откл; интегральная),
где: x – значение аргумента, для которого вычисляется функция;
среднее – среднее арифметическое (математическое ожидание) μ
распределения; стандартное_откл – стандартное отклонение 
распределения; интегральная – задаёт форму функции. Если па-
раметр «интегральная» имеет значение ИСТИНА, то функция

3
НОРМ.РАСП возвращает интегральную функцию распределе-
ния, если этот аргумент имеет значение ЛОЖЬ, то возвращается
функция плотности вероятностей.
На рабочем листе MS Excel в ячейки A1, B1, C1, D1 и E1 вве-
дём текстовые метки: «Равномерная сл. величина», «Нормальная
сл. величина», «Отсортированные значения», F(x), f(x).
В ячейку А2 введём формулу =СЛЧИС() (функция без аргу-
ментов) и протянем маркером заполнения (за правый нижний
угол) вниз до ячейки А21. В диапазоне А2:А21 будут получены
20 случайных чисел, равномерно распределённых на отрезке [0;
1]. Для того, чтобы значения не пересчитывались, нужно выде-
лить полученный диапазон А2:А21, вызвать контекстное меню и
выполнить команды Копировать / Параметры вставки /значе-
ния.
Функция НОРМ.ОБР(вероятность; среднее; стандарт-
ное_откл) в категории Статистические возвращает значение х,
для которого выполняется условие: НОРМ.РАСП(x; среднее;
стандартное_откл; ИСТИНА) = вероятность.
В ячейку В2 введём формулу = НОРМ.ОБР(A2; 2; 1,5) и про-
тянуть маркером заполнения до ячейки В21. В диапазоне В2:В21
будут получены значения случайной величины, имеющей нор-
мальное распределение с математическим ожиданием 2 и сред-
ним квадратическим отклонением 1,5.
Скопируем значения из диапазона В2:В21 в диапазон С2:С21
и отсортируем их по возрастанию. Для этого выделим диапазон
С2:С21, вызовем контекстное меню, щёлкнув правой кнопкой
мыши, и выберем команду Сортировка / От минимального к
максимальному.
В ячейку D2 введём формулу =НОРМ.РАСП(С2; 2; 1,5; ИС-
ТИНА) и протянем её маркером заполнения до ячейки D21. Та-
ким образом получим значения функции распределения F(x).
В ячейку Е2 введём формулу =НОРМ.РАСП(С2; 2; 1,5;
ЛОЖЬ) и протянем её маркером заполнения до ячейки Е21. По-
лучим значения плотности вероятности f(x).

4
Отформатируем результаты. Для этого выделим диапазон
С2:Е21 и выполним команды контекстного меню Формат ячеек
/ Число / Числовой / Число десятичных знаков: 2. Результат по-
казан на рисунке.

Для построения графиков функций выделим диапазон С2:Е21


и на вкладке Вставка в группе Диаграммы выберем тип создава-
емой диаграммы Точечная, Точечная с гладкими кривыми. Выде-
лим область построения, щёлкнув мышью по диаграмме. Нажмём
правую клавишу мыши и в контекстном меню выберем команду
Выбрать данные. В открывшемся диалоговом окне Выбор ис-
точника данных выберем команду Добавить. В диалоговом окне

5
Изменение ряда введём в поле Имя ряда: F(x), значения Х:
С2:С21, значения Y: D2:D21. Нажмём кнопку ОК. Аналогично до-
бавим второй ряд для f(x).
Графики функции распределения и плотности вероятности по-
казаны на рисунке.

Графики y=F(x), y=f(x)


1,20

1,00

0,80

0,60
y

F(x)
0,40
f(x)
0,20

0,00
-2,00 0,00 2,00 4,00 6,00
x

2. Биномиальный закон распределения

В качестве примера моделирования дискретной случайной ве-


личины рассмотрим случайную величину, имеющую биномиаль-
ный закон распределения.
Биномиальным называется закон распределения дискретной
случайной величины Х ‒ числа появлений события А в n незави-
симых испытаниях, в каждом из которых появляется либо собы-
тие А, либо событие A , и вероятность появления события А равна
p, а вероятность появления события A равна q = 1  p.
Тогда P  X  k  ‒ вероятность появления события А ровно k
раз в n испытаниях ‒ вычисляется по формуле Бернулли:

6
P X  k   Pn k   C kn p k 1  p  .
nk

Функция p ( k )  P  X  k  , устанавливающая связь между воз-


можными значениями k = 0, 1, 2,… целочисленной случайной ве-
личины Х и вероятностями появления этих значений, называтся
функцией вероятности.
В MS Excel биномиальное распределение моделируется с по-
мощью стандартной функции БИНОМ.РАСП(k; n; p; инте-
гральная), где: k ‒ количество успешных испытаний; n ‒ число
независимых испытаний; p ‒ вероятность успеха каждого испы-
тания; интегральная – логическое значение. Если аргумент «ин-
тегральная» имеет значение ИСТИНА, то функция БИ-
НОМ.РАСП возвращает вероятность того, что число успешных
испытаний не больше значения аргумента k:
k
Pn  X  k   C p 1  p
i 0
n
i i n i

Если аргумент интегральная имеет значение ЛОЖЬ, то воз-


вращается вероятность того, что число успешных испытаний в
точности равно значению аргумента k.
Пример 2. Построить график функции вероятностей для слу-
чайной величины Х, имеющей биномиальное распределение при
n = 15 и p = 0,3.
Решение
В ячейки А1:А16 введём значения появления «успехов» k = 0,
1, 2, …, 15 и вычислим вероятности появления «успехов» в пят-
надцати испытаниях. Для этого в ячейку В1 введём формулу
=БИНОМ.РАСП(А1; 15; 0,3; ЛОЖЬ) и протянем её до ячейки
В16.
В ячейку С1 введём формулу =БИНОМ.РАСП(А1; 15; 0,3;
ИСТИНА) и протянем её до ячейки С16. В диапазоне С1:С16 по-
лучим соответствующие накопленные вероятности.
Построим график вероятностей биномиального распределе-
ния. Для этого выделим диапазон B1:B16 и вызовем инструмент
«Гистограмма» вкладки Вставка. Выберем тип Гистограммы:

7
Гистограмма с группировкой. Отформатируем диаграмму так,
как показано на рис. 2.

3. Описание экспериментальных данных: полигон, гисто-


грамма, кумулята

Для графического изображения статистического ряда исполь-


зуются полигон, гистограмма и кумулята.

Пример 3. Записать в виде вариационного и статистического


рядов выборку
5, 3, 7, 10, 5, 5, 2, 10, 7, 2, 7, 7, 4, 2, 4.
Последовательность выполнения:
Объём выборки n = 15.
Вариационный ряд: 2, 2, 2, 3, 4, 4, 5, 5, 5, 7, 7, 7, 7, 10, 10.
Статистический ряд представлен в виде таблицы:
Элементы, xi 2 3 4 5 7 10
Частота, mi 3 1 2 3 4 2
Относительная
3/15 1/15 2/15 3/15 4/15 2/15
частота, mi n

8
6
Контроль:  mi  15 .
i 1
Решение в MS Excel
1. Ввести исходную выборку в ячейки А2:А16.
2. Установить курсор на любой ячейке диапазона А2:А16.
На вкладке Редактирование выбрать команды Сортировка и
фильтр → Сортировка от минимального к максимальному. В
диапазоне А2:А16 отобразится вариационный ряд.
3. В ячейки B2:B7 записать в порядке возрастания различ-
ные значения элементов вариационного ряда – варианты.
4. Выделить диапазон ячеек C2:C7.
5. В строке формул ввести =ЧАСТОТА(А2:А16;В2:В7) и,
удерживая нажатыми клавиши Ctrl и Shift, нажать Enter. В ячей-
ках диапазона появятся частоты, соответствующие вариантам
xi . (Функция ЧАСТОТА содержится в категории Статистиче-
ские Мастера функций MS Excel).
6. Выделить ячейки C2:C7 и нажать кнопку

на вкладке Редактирование. В ячейке С8 по-


явится число 15 ─ сумма ячеек C2:C7, равная сумме всех частот,
т.е. объёму выборки.
Таким образом, ячейки В2:В7 содержат значения вариант zi
, а ячейки C2:C7 соответствующие им частоты, т.е. получен ста-
тистический ряд.
Для вычисления относительных частот необходимо выде-
лить диапазон ячеек D2:D7 и в строке формул ввести = C2:C7/C8.
Удерживая нажатыми клавиши Ctrl и Shift, нажать Enter. Для
контроля выделить диапазон D2:D7 и нажать кнопку

на вкладке Редактирование. В ячейке D8 по-


явится 1.

9
3.1.Полигон (или многоугольник) статистического распреде-
ления – ломаная линия на плоскости Oxy, соединяющая точки
xi ; mi n  , i =1, …k, где n – объём выборки, xi – значение ста-
тистического ряда и mi - число значений xi в этом ряде (частота).
Пример 4. По результатам, полученным в примере 1, постро-
ить полигон относительных частот.
Последовательность выполнения
Для построения полигона выделить диапазон B2:B7, нажать
клавишу Ctrl и, удерживая её, выделить диапазон D2:D7. Пе-
рейти на вкладку Вставка и на панели Диаграммы выбрать тип
создаваемой диаграммы (Точечная, Точечная с прямыми отрез-
ками и маркерами) и выполнить редактирование полученной
диаграммы.

10
3.2.Гистограмма интервального статистического ряда – сту-
пенчатая фигура, построенная по правилу: на плоскости Oxy по
оси абсцисс откладывают отрезки, изображающие интервалы ва-
рьирования h, и на этих отрезках, как на основаниях, строят пря-
моугольники с высотами, равными отношению частоты к длине
интервала 𝑚𝑖⁄ℎ или частости (относительной частоты) к длине
интервала 𝑟𝑖 ⁄ℎ .
Полигон и гистограмма являются графическими приближени-
ями дифференциальной функции распределения исследуемой слу-
чайной величины.
Для построения гистограммы, кумуляты и гистограммы рас-
пределения используется инструмент Пакета анализа «Гисто-
грамма».
3.3. Генерация случайных чисел и получение выборок
Для формирования массива случайных чисел, распределённых
по известному теоретическому закону, в Пакете анализа MS Excel
можно использовать инструмент «Генерация случайных чи-
сел». В зависимости от вида распределения диалоговое окно ин-
струмента содержит разные параметры.
Общими параметрами для всех подрежимов являются: Число
переменных – вводится число столбцов значений, которые необ-
ходимо разместить в выходном диапазоне; Число случайных чисел
– вводится число случайных значений, которое необходимо вы-
вести в каждом столбце выходного диапазона (число строк); Рас-
пределение – в списке выбирается тип распределения, использу-
емого для генерации случайных чисел; Случайное рассеивание –
вводится «стартовое» число для генерации определённой после-
довательности случайных чисел; Параметры вывода – указыва-
ется место вывода результата: Выходной интервал/Новый рабо-
чий лист /Новая рабочая книга.
Для получения выборки используется инструмент «Вы-
борка», при этом входной диапазон рассматривается как гене-
ральная совокупность.
Выборка может быть сформирована двумя способами: перио-
дическим и случайным. При периодическом способе в диалоговом

11
окне указывается период – периодический интервал, в соответ-
ствии с которым будет производиться выборка. Входное значе-
ние, номер которого совпадает с номером, заданным в поле Пе-
риод, и каждое последующее с номером, кратным периоду, будет
скопировано в выходной столбец. Процесс создания выборки
прекратится при достижении конца входного диапазона. При слу-
чайном способе формируется выборка с возвратом. Параметр
Число выборок – число случайных значений (объём выборки), ко-
торые необходимо разместить в выходном столбце. Позиция каж-
дой извлекаемой переменной во входном диапазоне выбирается
случайно.

Пример 5. Получить совокупность нормально распределён-


ных случайных величин объёмом 100 для одной переменной с па-
раметрами: среднее   2 и стандартное отклонение   3 . По-
лучить выборку из полученной совокупности n=30. По выборке
построить гистограмму частот, кумуляту и диаграмму Парето.
Последовательность выполнения
После загрузки Пакета анализа MS Excel вызвать инструмент
«Генерация случайных чисел» и в окне диалога ввести данные.

12
В результате ячейки в блоке A1:D25 будут заполнены случай-
ными числами, распределение которых подчиняется нормаль-
ному с заданными параметрами.

Вызвать инструмент «Выборка» и ввести в окне диалога сле-


дующие параметры: Входной интервал: A1:D25; Метод вы-
борки: Случайный; Число выборок: 30; Выходной интервал: $1.
Полученные результаты отформатировать до
второго знака после запятой следующим спосо-
бом: выделить данные в столбце. На вкладке
Главная на панели Число открыть список форма-
тов и выбрать числовой с двумя знаками после за-
пятой.
Запишем полученную выборку:
4,16 5,65 -2,10 -2,10 -1,14 1,18 2,10 -2,10 6,53 2,53
2,93 5,19 2,65 6,78 0,15 3,89 4,88 -0,27 0,30 5,59
-2,98 -2,10 0,72 -3,07 6,01 -0,02 5,08 -2,14 0,04 -1,14

Расчёт числа интервалов разбиения осуществить по формуле:


𝑘 = 1 + 3,322 ∙ 𝑙𝑔𝑛
Полученное значение округляется до ближайшего целого. В
ячейку H1 ввести формулу:
=ОКРВВЕРХ (1+3,322* LOG10(30);1),
в H2: =МАКС(F1:F30),
в H3: =МИН(F1:F30).

13
Результаты:
k 6
Xmaх 6,78
Xmin -3,07
Так как при вычислении числа данных в сформированные ин-
тервалы нижние границы являются строгими, а верхние – нестро-
гими, то в качестве промежутка разбиения можно взять интервал
[-3,07; 6,78]. Тогда величина интервала будет равна
6,78 − (−3,07)
ℎ= = 1,65
6
Рассчитать границы интервалов:
𝑎1 = −3,07; 𝑎 2 = −3,07 + 1,65 = 1,42 и т. д. Полученные гра-
ницы записать в столбец I.
Вызвать инструмент «Гистограмма» и в окне диалога ввести
значения:

14
В столбце М представлены данные для построения кумуляты.
Кумулятивная кривая (кумулята) - график накопленных ча-
стот 𝑚𝑖 или частостей 𝑟𝑖 . При этом верхним границам интервалов
соответствуют накопленные частоты 𝑚нак 𝑥 или накопленные ча-
стости 𝑟𝑥нак, нижней границе первого интервала – накопленная
частота (частость), равная нулю. Полученные точки соединяют
отрезками. Кумулята оценивает статистическую функцию рас-
пределения 𝐹(𝑥) в точке x.
Диаграмма Парето (отсортированная диаграмма) представ-
ляет собой данные, представленные в порядке убывания отноше-
ний частот 𝑚𝑖⁄ℎ или частостей 𝑟𝑖 ⁄ℎ , начиная с наибольшего.

15