Вы находитесь на странице: 1из 30

Министерство науки и высшего образования Российской Федерации

Федеральное государственное бюджетное образовательное учреждение


высшего образования
«Магнитогорский государственный технический университет
им. Г.И. Носова»

кафедра вычислительной техники и программирования

Лабораторная работа №3
Предварительная обработка экспериментальных данных

по дисциплине «Обработка экспериментальных данных на ЭВМ»

Выполнил: Медведев И.Д. студент 4 курса, группа АВб-20-12


Проверила: Квасова Н.А., старший преподаватель кафедры ИиИБ

Магнитогорск, 2023
Оглавление
ЗАДАНИЕ........................................................................................................................3
1 РАСЧЕТ СТАТИСТИЧЕСКИХ ПОКАЗАТЕЛЕЙ....................................................4
1.1 ИНФОРМАЦИЯ..........................................................................................................4
1.1.1 Степенные средние.........................................................................................4
1.1.2 Структурные средние......................................................................................4
1.1.3 Показатели вариации......................................................................................5
1.1.4 Показатели рассеивания.................................................................................5
1.2 РАСЧЕТ СТАТИСТИЧЕСКИХ ПОКАЗАТЕЛЕЙ..............................................................6
2 ОТСЕВ ГРУБЫХ ПОГРЕШНОСТЕЙ ПО СТАТИСТИКЕ СТЬЮДЕНТА............7
2.1 ИНФОРМАЦИЯ..........................................................................................................7
2.2 РАСЧЕТ ПО СТАТИСТИКЕ СТЬЮДЕНТА....................................................................8
2.3 ДИНАМИКА ИЗМЕНЕНИЯ СТАТИСТИЧЕСКИХ ПОКАЗАТЕЛЕЙ.................................13
3 ПРОВЕРКА ГИПОТЕЗ..............................................................................................20
3.1 КРИТЕРИЙ САО......................................................................................................20
3.2 КРИТЕРИЙ ПИРСОНА..............................................................................................21
3.3 КРИТЕРИЙ КОЛМОГОРОВА-СМИРНОВА.................................................................26
ЗАКЛЮЧЕНИЕ.............................................................................................................29
БИБЛИОГРАФИЧЕСКИЙ СПИСОК..........................................................................30

2
ЗАДАНИЕ
Задание 1.
Для исходных данных выполнить расчет простых степенных средних, моду,
медиану, показатели вариации и рассеяния.
Задание 2.
Для исходных данных выполнить отсев грубых погрешностей по статистике
Стьюдента. На каждом отсеве фиксировать: все статистические показатели (см.
задание 1), а также причину отсева.
Задание 3.
Отобразить динамику изменения статистических показателей в процессе
отсева.
Задание 4.
Выполнить проверку гипотезу о том, что исходные данных подчиняются
нормальному закону распределения по критерию Пирсона и Колмогорова-
Смирнова. Для каждого критерия отобразить графическое и табличное
представление. Построить таблицу сравнения результатов проверки критериев.
Задание 5.
Оформить результат предварительной обработки данных в виде письменного
отчета.

3
1 РАСЧЕТ СТАТИСТИЧЕСКИХ ПОКАЗАТЕЛЕЙ
Задание 1 - для сталей обычного качества, выплавленных на печи №2 (*57)
выполнить расчет простых степенных средних, моду, медиану, показатели вариации
и рассеяния.
1.1 Информация
Средние показатели – величины, которые дают характеристики средней
тенденции в развитии явления, они могут быть рассчитаны только по
количественному признаку.
1.1.1 Степенные средние
Виды степенных средних показателей:
1. Средняя арифметическая – это такое среднее значение признака, при
получении которого сохраняется неизменным общий объем признака в
совокупности.
2. Средняя гармоническая – эту среднюю называют обратной средней
арифметической, поскольку эта величина используется при m = -1.
3. Средняя геометрическая – чаще всего находит свое применение при
определении средних темпов роста (средних коэффициентов роста),
когда индивидуальные значения признака представлены в виде
относительных величин. Она используется также, если необходимо
найти среднюю между минимальным и максимальным значениями
признака (например, между 100 и 1 000 000).
4. Средняя квадратическая – основной сферой ее применения является
измерение вариации признака в совокупности (расчет среднего
квадратического отклонения).
1.1.2 Структурные средние
Структурные средние применяются для изучения внутреннего строения рядов
распределения значений признака, а также для оценки средней величины
(степенного типа), если по имеющимся статистическим данным ее расчет не может
быть выполнен.
4
Мода – это значение признака X, которое наиболее часто встречается в
исследуемой совокупности.
Мода в дискретном ряду – вариант признака X с наибольшей частотой.
Медиана – это значение признака X, которое находится в середине
ранжированного ряда, рассекая совокупность на две равные группы.
1.1.3 Показатели вариации
Вариацией называется изменчивость значений признака X у единиц
статистической совокупности [1].
Показатели вариации – это статистические показатели, характеризующие
исследуемую совокупность с точки зрения ее гомогенности или гетерогенности.
Показатели вариации:
1. Размах вариации – представляет собой разность между максимальной и
минимальной величиной признака.
2. Среднее линейное отклонение – представляет собой среднюю
арифметическую величину из абсолютных отклонений значений признака
от их средней.
3. Дисперсия – средняя арифметическая величина, полученная из квадратов
отклонений значения признака от их средней.
1.1.4 Показатели рассеивания
Показатели относительного рассеивания признака – мера колеблемости
изучаемого признака.
Коэффициент осцилляции – определяется как отношение размаха вариации к
средней величине признака и характеризует относительную рассеянность или
колеблемость крайних значений признака вокруг средней.
Этот показатель показывает, на сколько процентов отклоняется среднее от
крайних значений вариации.
Относительное линейное отклонение характеризует долю усредненного
значения абсолютных отклонений от средней величины.

5
Коэффициент вариации является наиболее распространенным показателем
колеблемости, используемым для оценки типичности средних величин. При этом
исходят из того, что если он больше 33%, то это говорит о большой колеблемости
признака в изучаемой совокупности.
1.2 Расчет статистических показателей

Рисунок 2 – Пример расчета статистических показателей для одного зи шагов, для


задания 1.

6
2 ОТСЕВ ГРУБЫХ ПОГРЕШНОСТЕЙ ПО СТАТИСТИКЕ СТЬЮДЕНТА
Решение задания 2.
Для исходных данных выполнить отсев грубых погрешностей по статистике
Стьюдента. На каждом отсеве фиксировать: все статистические показатели (см.
задание 1), а также причину отсева.
2.1 Информация
Отсев грубых погрешностей:
1. Изменение условий эксперимента;
2. Ошибки переноса данных;
3. Ошибки округления данных.
Алгоритм отсева при n< 25:
1. Для каждого наблюдения x i вычисляется величина τ :
|x i− x|
τi= ,
σ
где x – среднее значение выбранной величины
σ – стандартное отклонение

2. Из всех значений τ i выбирается максимальное.


3. Если неравенство τ max <τ табл( α , n−1) соблюдается, то наблюдение не
отсеивается, если не соблюдается, то наблюдение исключается.
4. Процедура отсева повторяется до тех пор, пока отсеивается значение с
максимальным относительным отклонением. Если принято решение о
том, что значение отсеивать не следует, то процесс отсева
останавливается.
Алгоритм Стьюдента при n> 25:
1. Вычисляем максимальное линейное отклонение:
d max =max { d i }, где d i=| xi −x|
i=1 ,n

2. Для исходных данных определяется:


d max
τ max=
σ

7
3. Вычисляются критические значения τ α для двух уровней значимости
α =5 % и α =0 , 1 %:

τ α , n−2 √ n−1
τ α= ,
√n−2+τ 2
α , n−2

где τ α, n−2 – табличное значение распределения Стьюдента.


4. Решение об отсеве принимается на основе схемы, представленной на
рисунке 3.

Рисунок 3 – Схема принятия решения по отсеву


5. Процедура отсева повторяется до тех пор, пока отсеивается хотя бы
одно значение.
2.2 Расчет по статистике Стьюдента
Для удобства подсчета найдем d i=| xi −x| для каждого значения отдельно:
время горения дуги, мин; вес скрапа, загруженного в печь, т; потребление углерода,
кг; вес чугуна, т.
Создадим общую таблицу, где для каждого свойства будут показаны расчеты
по каждому пункту из алгоритма Стьюдента.

Рисунок 5 – Расчеты по статистике Стьдента. Шаг 1

8
Так как значения τ max во втором свойстве больше, чем τ 0 ,1 %, то строка подлежат
удалению. Для первого и четвертого свойства, которые попали в промежуток,
удаление происходит на наше усмотрение.
Таблица 1 – Оценка результатов отсева на шаге 1
Номер Номер Время Вес скрапа, Потреблени Вес Причина
строки фактора горения загруженного е углерода, чугуна, отсева
дуги, в печь, т. кг. т.
мин.
72 1 43,75 216 1,388 30 Передержка
44 2 40,55 61 1,266 20 Избыток
поступившего
сырья
27 4 28,01 180 0,474 60 Избыток
чугуна

Шаг 2

Рисунок 6 – Расчеты по статистике Стьюдента. Шаг 2

9
Так как значения τ max во втором свойстве больше, чем τ 0 ,1 %, то строка подлежат
удалению. Для первого и четвертого свойства, которые попали в промежуток,
удаление происходит на наше усмотрение.
Таблица 2 – Оценка результатов отсева на шаге 2
Номер Номер Время Вес скрапа, Потреблени Вес Причина
строки фактора горения загруженного е углерода, чугуна, отсева
дуги, в печь, т. кг. т.
мин.
99 1 25,87 178 0,3 60 Передержка
73 2 37,9 120 0,458 50 Избыток
поступившего
сырья
78 4 40,03 205 0,893 60 Избыток
чугуна

Шаг 3

Рисунок 7 – Расчеты по статистике Стьюдента. Шаг 3


10
Так как значения τ max во втором свойстве больше, чем τ 0 ,1 %, то строка подлежат
удалению. Для первого, третьего и четвертого свойства, которые попали в
промежуток, удаление происходит на наше усмотрение.
Таблица 3 – Оценка результатов отсева на шаге 3
Номер Номер Время Вес скрапа, Потреблени Вес Причина
строки фактора горения загруженного е углерода, чугуна, отсева
дуги, в печь, т. кг. т.
мин.
63 1 26,36 170 0,752 50 Передержка
39 2 30,60 147 0,141 35 Избыток
сырья
39 3 30,60 147 0,141 35 Избыток
углерода
84 4 26,95 183 0,229 60 Избыток
чугуна

Шаг 4

Рисунок 8 – Расчеты по статистике Стьюдента. Шаг 4


11
Значение τ max первого и второго свойств попало в промежуток между τ 5 % и τ 0 ,1 %,
следовательно, строки удаляем на наше усмотрение.
Таблица 4 - Оценка результатов отсева на шаге 4
Номер Номер Время Вес скрапа, Потреблени Вес Причина
строки фактора горения загруженного е углерода, чугуна, отсева
дуги, в печь, т. кг. т.
мин.
32 1 26,38 169 0,329 50 Передержка
64 2 29,06 165 0,828 45 Избыток
поступившего
сырья

Шаг 5

Рисунок 9 – Расчеты по статистике Стьюдента


Значение τ max всех свойств попало в промежуток между τ 5 % и τ 0 ,1 %,
следовательно, строки удаляем на наше усмотрение.
Таблица 5 - Оценка результатов отсева на шаге 5

12
Номер Номер Время Вес скрапа, Потреблени Вес Причина
строки фактора горения загруженного е углерода, чугуна, отсева
дуги, в печь, т. кг. т.
мин.
55 1 26,42 176 0,487 50 Передержка
85 2 27,04 165 1,226 45 Избыток
поступившего
сырья
57 3 26,88 171 0,182 50 Избыток
углерода
13 4 30,01 184 0,841 50 Избыток
чугуна

Наличие информации, представленной в таблицах 1-5, позволяет выявить


причины возникновения грубых погрешностей.
В результате выполнения пяти шагов отсева получено, что для всех столбцов
значение коэффициента вариации менее 33% и, следовательно, для них можно
переходить к проверке гипотезы о нормальности распределения каждой величины.
Решение задания 3.
Отобразить динамику изменения статистических показателей в процессе
отсева.
2.3 Динамика изменения статистических показателей
Динамика изменения коэффициента вариации, дисперсии, среднего
арифметического, максимального отклонения и tau_max в процессе отсеивания
предоставлены на рисунках 10.1-10.5 и 11.1-11.5.

13
Рисунок 10.1 – Тенденция снижения коэффициента вариации по шагам отсева
грубых погрешностей

Рисунок 11.1 – Темп снижения коэффициента вариации по шагам отсева грубых


погрешностей

14
Рисунок 10.2 – Тенденция снижения значения дисперсии по шагам отсева грубых
погрешностей

Рисунок 11.2 – Темп снижения значения дисперсии по шагам отсева грубых


погрешностей

15
Рисунок 10.3 – Тенденция снижения значения среднего арифметического по шагам
отсева грубых погрешностей

Рисунок 11.3 – Темп снижения значения среднего арифметического по шагам


отсева грубых погрешностей

16
Рисунок 10.4 – Тенденция снижения значения максимального отклонения по шагам
отсева грубых погрешностей

Рисунок 11.4 – Темп снижения значения максимального отклонения по шагам


отсева грубых погрешностей

17
Рисунок 10.5 – Тенденция снижения значения ταυ максимального по шагам отсева
грубых погрешностей

Рисунок 11.5 – Темп снижения значения ταυ максимального по шагам отсева грубых
погрешностей
18
Анализируя динамику изменения выборочных характеристик в ходе отсева,
можно сделать вывод, что коэффициент вариации, максимальное отклонение,
дисперсия и τ max в основном уменьшаются, по ходу отсева, а среднее
арифметическое варьируется вокруг изначального значения, не имея явного тренда.

19
3 ПРОВЕРКА ГИПОТЕЗ
Решение задания 4.
Выполнить проверку гипотезу о том, что исходные данных подчиняются
нормальному закону распределения по критерию Пирсона и Колмогорова-
Смирнова. Для каждого критерия отобразить графическое и табличное
представление. Построить таблицу сравнения результатов проверки критериев.
3.1 Критерий САО
Гипотеза – предположение или догадка, которая нуждается в доказательстве.
САО – критерий среднего абсолютного отклонения.
Алгоритм проверки гипотезы о наличии нормального распределения
случайной величины по САО:
1. Выдвинуть гипотезу H 0 о том, что выбранная случайная величина
подчиняется нормальному закону распределения.
2. Вычислить САО:
n

∑ di
d= i=1
n
3. Проверить истинность неравенства:

|dσ −0,7979|< 0√,n4


4. Если неравенство истинно, то нет оснований отвергать гипотезу о
нормальном распределении величины.
Проверим гипотезу для x 1 , x 2 , x 3 , y . На рисунке 12 представлены все расчеты.
По данным, оставшимся после отсева, можно сделать вывод, что неравенство
ложное для всех признаков, т.е. гипотеза о нормальном распределении величины
отвергается.

20
Рисунок 12 – Критерии САО.
3.2 Критерий Пирсона
Критерий Пирсона – это непараметрический метод, который позволяет
оценить значимость различий между фактическим (выявленным в результате
исследования) количеством исходов или качественных характеристик выборки,
попадающих в каждую категорию, и теоретическим количеством, которое можно
ожидать в изучаемых группах при справедливости нулевой гипотезы.
Алгоритм проверки гипотезы по критерию Пирсона:
1. Выдвигается гипотеза H 0: генеральная совокупность распределена по
закону А.
2. Выполнить построение эмпирического распределения случайной
величины при разбиении на k классов.
3. Вычислить теоретические значения случайной величины по закону А.
4. Рассчитать наблюдаемое значение критерия согласия:
k ' 2
(ni−ni)
=∑
2
❑набл ,
i=1 ni

где n'i – теоретические частоты, вычисленные для плотности распределения А.


5. Если ❑2набл <❑2кр (α , k−1), то нет основания отвергать нулевую гипотезу, в
противном случае гипотеза отвергается.
Для каждого признака получим таблицы частот и гистограммы, изображенные
на рисунках 16-27, с помощью программы STATISTICA.
Для первого признака, исходя из расчетов (рисунок 16, 17), для 2 степени
свободы критическое значение равняется 2.72. Выборочное значение, равное 20.61,
больше критического значения, т.е. гипотеза отвергается.

21
Рисунок 16 – Таблица частот x 1

Рисунок 17 – Расчет критического значения для 2 степени свободы x 1

Рисунок 18 – Гистограмма эмпирических и теоретических частот для признака x 1


22
Для второго признака, исходя из расчетов (рисунок 19, 20), для 2 степени
свободы критическое значение равняется 2.77. Выборочное значение, равное 21.48,
больше критического значения, т.е. гипотеза отвергается.

Рисунок 19 – Таблица частот x 2

Рисунок 20 – Расчет критического значения для 2 степени свободы x 2

Рисунок 21 – Гистограмма эмпирических и теоретических частот для признака x 2


23
Для третьего признака, исходя из расчетов (рисунок 22, 23), для 1 степени
свободы критическое значение равняется 1.32. Выборочное значение, равное 34.14,
больше критического значения, т.е. гипотеза отвергается.

Рисунок 22 – Таблица частот x 3

Рисунок 23 – Расчет критического значения для 1 степени свободы x 3

24
Рисунок 24 – Гистограмма эмпирических и теоретических частот для признака x 3
Для четвертого признака, исходя из расчетов (рисунок 25, 26), для 1 степени
свободы критическое значение равняется 2.77. Выборочное значение, равное 5.09,
больше критического значения, т.е. гипотеза отвергается.

Рисунок 25 – Таблица частот x 4

Рисунок 26 – Расчет критического значения для 2 степени свободы x 4


25
Рисунок 27 – Гистограмма эмпирических и теоретических частот для признака x 4
3.3 Критерий Колмогорова-Смирнова
Критерий Колмогорова-Смирнова – непараметрический критерий согласия, в
классическом понимании предназначен для проверки простых гипотез о
принадлежности анализируемой выборки некоторому известному закону
распределения.
Алгоритм проверки гипотезы по критерию Колмогорова-Смирнова:
1. Выдвигается гипотеза H 0: генеральная совокупность распределена по
закону А.
2. Выполнить построение эмпирического распределения случайной
величины при разбиении на k классов.
3. Вычислить теоретические значения случайной величины по закону А.
4. Вычислить накопленные теоретические FA и эмпирические FE

накопленные частоты.
5. Рассчитать наблюдаемое значение критерия согласия:
max {|F A −F E|}
i=1 ,k
Dнабл =
n

26
6. По таблице критических точек распределения Колмогорова-Смирнова,
по заданному значению уровня значимости α и числу степеней свободы
v=n найти критическую точку D( α , v ).

7. Если Dнабл < D(α , v), то нет оснований отвергать гипотезу, в противном
случае гипотеза отвергается.
При построении эмпирического распределения количество классов
определяется по правилу Штюргерса. Построим с помощью пакета STATISTICA
таблицы частот для каждого признака, а также таблицу с результатами проверки,
которые изображены на рисунках 28-32.

Рисунок 28 – Таблица частот для x1

Рисунок 28 – Таблица частот для x2

27
Рисунок 28 – Таблица частот для x3

Рисунок 28 – Таблица частот для y

Рисунок 29 – Результаты проверки гипотез по критерию Колмогорова-Смирнова


У всех признаков нет оснований отвергать гипотезу.
Таблица 6 – Результаты проверки гипотезы о наличии нормального распределения
признаков
Время Вес скрапа, Потребление Вес чугуна
горения загруженного углерода
дуги в печь
САО 0,64 0,69 0,42 0,49
Пирсона 20,61 21,48 34,14 5,09
Колмогорова- 0,13 0,15 0,11 0,21
Смирнова
28
ЗАКЛЮЧЕНИЕ
В лабораторной работе рассматривались стали обычного качества,
выплавленные на печи №2 (*57). Количество исходных данных равнялось 100. Для
них был выполнен расчет простых степенных средних, моды, медианы, показателей
вариации и рассеяния.
Также был рассмотрен и выполнен отсев грубых погрешностей по статистике
Стьюдента. Всего было произведено пять шагов, на каждом из которых
зафиксированы все статистические показатели. После отсева осталось 86 значений.
В табличном и графическом представлении отображена тенденция выборочных
характеристик, обобщающих показателей, показателей вариации и показан темп
изменения каждого показателя.
Анализируя динамику изменения выборочных характеристик в ходе отсева,
можно сделать вывод, что коэффициент вариации, максимальное отклонение,
дисперсия и τ max в основном уменьшаются, по ходу отсева, а среднее
арифметическое варьируется вокруг изначального значения, не имея явного тренда.
Была выполнена проверка гипотез о том, что исходные данные подчиняются
нормальному закону распределения по критерию САО, Пирсона и Колмогорова-
Смирнова. Для каждого критерия было сделано графическое и табличное
представление получившихся расчетов, построена сводная таблица сравнения
результатов проверки критериев.
В результате проверки гипотезы на наличие нормального закона
распределения по критерию САО, Пирсона и Колмогорова-Смирнова, было
выявлено, что у всех признаков гипотеза отвергается.

29
БИБЛИОГРАФИЧЕСКИЙ СПИСОК
1. Обработка экспериментальных данных на ЭВМ: учебник / О. С. Логунова,
П. Ю. Романов, Е. А. Ильина [и др.]. – Москва: ИНФРА-М, 2019. – 326 с. – Текст:
электронный. – URL: https://znanium.com/catalog/product/1025509 (дата обращения:
25.10.2020). – Режим доступа: по подписке.

30

Вам также может понравиться