Вы находитесь на странице: 1из 34

Министерство науки и высшего образования Российской Федерации

Федеральное государственное бюджетное образовательное учреждение


высшего образования
«Магнитогорский государственный технический университет
им. Г.И. Носова»

кафедра вычислительной техники и программирования

Лабораторная работа №3
Предварительная обработка экспериментальных данных

по дисциплине «Обработка экспериментальных данных на ЭВМ»

Выполнил: Ляшенко М.Ю., студент 4 курса, группа АВб-20-11


Проверила: Ильина Е.А., доцент кафедры ВТ и П, к.п.н.

Магнитогорск, 2023
Содержание
ЗАДАНИЕ........................................................................................................................3
1 ИСХОДНЫЕ ДАННЫЕ...............................................................................................4
2 РАСЧЕТ СТАТИСТИЧЕСКИХ ПОКАЗАТЕЛЕЙ....................................................5
2.1 ИНФОРМАЦИЯ..........................................................................................................5
2.1.1 Степенные средние.........................................................................................5
2.1.2 Структурные средние......................................................................................5
2.1.3 Показатели вариации......................................................................................6
2.1.4 Показатели рассеивания.................................................................................6
2.2 РАСЧЕТ СТАТИСТИЧЕСКИХ ПОКАЗАТЕЛЕЙ..............................................................7
3 ОТСЕВ ГРУБЫХ ПОГРЕШНОСТЕЙ ПО СТАТИСТИКЕ СТЬЮДЕНТА............8
3.1 ИНФОРМАЦИЯ..........................................................................................................8
3.2 РАСЧЕТ ПО СТАТИСТИКЕ СЬЮДЕНТА......................................................................9
3.3 ДИНАМИКА ИЗМЕНЕНИЯ СТАТИСТИЧЕСКИХ ПОКАЗАТЕЛЕЙ.................................15
4 ПРОВЕРКА ГИПОТЕЗ..............................................................................................21
ЗАКЛЮЧЕНИЕ.............................................................................................................22
БИБЛИОГРАФИЧЕСКИЙ СПИСОК..........................................................................23

2
ЗАДАНИЕ
Задание 1.
Для исходных данных выполнить расчет простых степенных средних, моду,
медиану, показатели вариации и рассеяния.
Задание 2.
Для исходных данных выполнить отсев грубых погрешностей по статистике
Стьюдента. На каждом отсеве фиксировать: все статистические показатели (см.
задание 1), а также причину отсева.
Задание 3.
Отобразить динамику изменения статистических показателей в процессе
отсева.
Задание 4.
Выполнить проверку гипотезу о том, что исходные данных подчиняются
нормальному закону распределения по критерию Пирсона и Колмогорова-
Смирнова. Для каждого критерия отобразить графическое и табличное
представление. Построить таблицу сравнения результатов проверки критериев.
Задание 5.
Оформить результат предварительной обработки данных в виде письменного
отчета.

3
1 ИСХОДНЫЕ ДАННЫЕ

Рисунок 1 – Исходные данные


В задаче рассматриваются качественные стали, выплавленные на печи №2
(57*). Количество исходных данных равняется 128 (рисунок 1).

4
2 РАСЧЕТ СТАТИСТИЧЕСКИХ ПОКАЗАТЕЛЕЙ
Решение задания 1.
Для исходных данных выполнить расчет простых степенных средних, моду,
медиану, показатели вариации и рассеяния.
2.1 Информация
Средние показатели – величины, которые дают характеристики средней
тенденции в развитии явления, они могут быть рассчитаны только по
количественному признаку [1].
Все средние показатели делятся на два класса: степенные средние и
структурные средние (мода, медиана).
2.1.1 Степенные средние
Виды степенных средних показателей:
1. Средняя арифметическая – это такое среднее значение признака, при
получении которого сохраняется неизменным общий объем признака в
совокупности.
2. Средняя гармоническая – эту среднюю называют обратной средней
арифметической, поскольку эта величина используется при m=−1.
3. Средняя геометрическая – чаще всего находит свое применение при
определении средних темпов роста (средних коэффициентов роста),
когда индивидуальные значения признака представлены в виде
относительных величин. Она используется также, если необходимо
найти среднюю между минимальным и максимальным значениями
признака (например, между 100 и 1 000 000).
4. Средняя квадратическая – основной сферой ее применения является
измерение вариации признака в совокупности (расчет среднего
квадратического отклонения).
2.1.2 Структурные средние
Структурные средние применяются для изучения внутреннего строения рядов
распределения значений признака, а также для оценки средней величины
5
(степенного типа), если по имеющимся статистическим данным ее расчет не может
быть выполнен.
Мода – это значение признака X, которое наиболее часто встречается в
исследуемой совокупности.
Мода в дискретном ряду – вариант признака X с наибольшей частотой.
Медиана – это значение признака X, которое находится в середине
ранжированного ряда, рассекая совокупность на две равные группы.
2.1.3 Показатели вариации
Вариацией называется изменчивость значений признака X у единиц
статистической совокупности [2].
Показатели вариации – это статистические показатели, характеризующие
исследуемую совокупность с точки зрения ее гомогенности или гетерогенности.
Показатели вариации:
1. Размах вариации – представляет собой разность между максимальной и
минимальной величиной признака.
2. Среднее линейное отклонение – представляет собой среднюю
арифметическую величину из абсолютных отклонений значений признака
от их средней.
3. Дисперсия – средняя арифметическая величина, полученная из квадратов
отклонений значения признака от их средней.
2.1.4 Показатели рассеивания
Показатели относительного рассеивания признака – мера колеблемости
изучаемого признака.
Коэффициент осцилляции – определяется как отношение размаха вариации к
средней величине признака и характеризует относительную рассеянность или
колеблемость крайних значений признака вокруг средней.
Этот показатель показывает, на сколько процентов отклоняется среднее от
крайних значений вариации.

6
Относительное линейное отклонение характеризует долю усредненного
значения абсолютных отклонений от средней величины.
Коэффициент вариации является наиболее распространенным показателем
колеблемости, используемым для оценки типичности средних величин. При этом
исходят из того, что если он больше 33%, то это говорит о большой колеблемости
признака в изучаемой совокупности.
2.2 Расчет статистических показателей

Рисунок 2 – Расчет статистических показателей для задания 1

7
3 ОТСЕВ ГРУБЫХ ПОГРЕШНОСТЕЙ ПО СТАТИСТИКЕ СТЬЮДЕНТА
Решение задания 2.
Для исходных данных выполнить отсев грубых погрешностей по статистике
Стьюдента. На каждом отсева фиксировать: все статистические показатели (см.
задание 1), а также причину отсева.
3.1 Информация
Отсев грубых погрешностей:
1. Изменение условий эксперимента;
2. Ошибки переноса данных;
3. Ошибки округления данных.
Алгоритм отсева при n< 25:
1. Для каждого наблюдения x i вычисляется величина τ :
|x i− x|
τi= ,
σ
где x – среднее значение выбранной величины
σ – стандартное отклонение

2. Из всех значений τ i выбирается максимальное.


3. Если неравенство τ max <τ табл( α , n−1) соблюдается, то наблюдение не
отсеивается, если не соблюдается, то наблюдение исключается.
4. Процедура отсева повторяется до тех пор, пока отсеивается значение с
максимальным относительным отклонением. Если принято решение о
том, что значение отсеивать не следует, то процесс отсева
останавливается.
Алгоритм Стьюдента при n> 25:
1. Вычисляем максимальное линейное отклонение:
d max =max { d i }, где d i=| xi −x|
i=1 ,n

2. Для исходных данных определяется:


d max
τ max=
σ

8
3. Вычисляются критические значения τ α для двух уровней значимости
α =5 % и α =0 , 1 %:

τ α , n−2 √ n−1
τ α= ,
√n−2+τ 2
α , n−2

где τ α, n−2 – табличное значение распределения Стьюдента.


4. Решение об отсеве принимается на основе схемы, представленной на
рисунке 3.

Рисунок 3 – Схема принятия решения по отсеву


5. Процедура отсева повторяется до тех пор, пока отсеивается хотя бы
одно значение.
3.2 Расчет по статистике Стьюдента
Для удобства подсчета найдем d i=| xi −x| для каждого значения отдельно. На
рисунке 4 показан фрагмент итоговой таблицы, где
x 1 – время горения дуги, мин

x 2 – вес скрапа, загруженного в печь, т

x 3 – потребление углерода, кг

y – вес чугуна, т

9
Рисунок 4 – Нахождение d i
Создадим общую таблицу, где для каждого свойства будут показаны расчеты
по каждому пункту из алгоритма Стьюдента.
Шаг 1

Рисунок 5 – Расчеты по статистике Стьдента. Шаг 1

10
Так как значения τ max во втором свойстве больше, чем τ 0 ,1 %, то строка подлежат
удалению. Для первого и четвертого свойства, которые попали в промежуток,
удаление происходит на наше усмотрение.
Таблица 1 – Оценка результатов отсева на шаге 1
Номер Номер Время Вес скрапа, Потреблени Вес Причина
строки фактора горения загруженного е углерода, чугуна, отсева
дуги, в печь, т. кг. т.
мин.
7 1 4,86 124 0,001 45 Аварийная
остановка
53 2 35,26 112 0,568 40 Недостаток
скрапа
127 3 41,2 190 2,22 20 Избыток
углерода

Шаг 2

Рисунок 6 – Расчеты по статистике Стьюдента. Шаг 2

11
Так как значения τ max во втором свойстве больше, чем τ 0 ,1 %, то строка подлежат
удалению. Для первого и четвертого свойства, которые попали в промежуток,
удаление происходит на наше усмотрение.
Таблица 2 – Оценка результатов отсева на шаге 2
Номер Номер Время Вес скрапа, Потреблени Вес Причина
строки фактора горения загруженного е углерода, чугуна, отсева
дуги, в печь, т. кг. т.
мин.
128 1 46,7 216 2,199 40 Передержка
44 4 27,89 183 0,232 60 Избыток
чугуна
28 4 37,49 208 0,505 60 Избыток
чугуна

Шаг 3

Рисунок 7 – Расчеты по статистике Стьюдента. Шаг 3

12
Так как значения τ max во втором свойстве больше, чем τ 0 ,1 %, то строка подлежат
удалению. Для первого, третьего и четвертого свойства, которые попали в
промежуток, удаление происходит на наше усмотрение.
Таблица 3 – Оценка результатов отсева на шаге 3
Номер Номер Время Вес скрапа, Потреблени Вес Причина
строки фактора горения загруженного е углерода, чугуна, отсева
дуги, в печь, т. кг. т.
мин.
126 1 45,58 207 1,772 45 Передержка
124 2 31,8 145 0,889 50 Недостаток
поступившего
сырья
19 3 39,33 201 1,861 30 Избыток
углерода
12 4 36,7 201 0,486 20 Недостаток
чугуна

Шаг 4

Рисунок 8 – Расчеты по статистике Стьюдента. Шаг 4


13
Значение τ max первого и второго свойств попало в промежуток между τ 5 % и τ 0 ,1 %,
следовательно, строки удаляем на наше усмотрение.
Таблица 4 - Оценка результатов отсева на шаге 4
Номер Номер Время Вес скрапа, Потреблени Вес Причина
строки фактора горения загруженного е углерода, чугуна, отсева
дуги, в печь, т. кг. т.
мин.
1 1 43,26 198 1,089 30 Передержка
30 2 35 240 1,358 45 Избыток
поступившего
сырья
120 3 32,04 204 1,669 40 Избыток
углерода
78 4 25,28 177 0,106 55 Малое время
горения

Шаг 5

Рисунок 9 – Расчеты по статистике Стьюдента


14
Значение τ max всех свойств попало в промежуток между τ 5 % и τ 0 ,1 %,
следовательно, строки удаляем на наше усмотрение.
Таблица 5 - Оценка результатов отсева на шаге 5
Номер Номер Время Вес скрапа, Потреблени Вес Причина
строки фактора горения загруженного е углерода, чугуна, отсева
дуги, в печь, т. кг. т.
мин.
84 1 24,58 228 0,052 45 Нехватка
углерода
71 2 28,68 238 0,995 45 Избыток
поступившего
сырья

Наличие информации, представленной в таблицах 1-5, позволяет выявить


причины возникновения грубых погрешностей.
В результате выполнения пяти шагов отсева получено, что для всех столбцов
значение коэффициента вариации менее 33% и, следовательно, для них можно
переходить к проверке гипотезы о нормальности распределения каждой величины.
Решение задания 3.
Отобразить динамику изменения статистических показателей в процессе
отсева.
3.3 Динамика изменения статистических показателей
Динамика изменения коэффициента вариации, дисперсии, среднего
арифметического, максимального отклонения и tau_max в процессе отсеивания
предоставлены на рисунках 10.1-10.5 и 11.1-11.5.

15
Рисунок 10.1 – Тенденция снижения коэффициента вариации по шагам отсева
грубых погрешностей

Рисунок 11.1 – Темп снижения коэффициента вариации по шагам отсева грубых


погрешностей

16
Рисунок 10.2 – Тенденция снижения значения дисперсии по шагам отсева грубых
погрешностей

Рисунок 11.2 – Темп снижения значения дисперсии по шагам отсева грубых


погрешностей
17
Рисунок 10.3 – Тенденция снижения значения среднего арифметического по шагам
отсева грубых погрешностей

Рисунок 11.3 – Темп снижения значения среднего арифметического по шагам


отсева грубых погрешностей
18
Рисунок 10.4 – Тенденция снижения значения максимального отклонения по шагам
отсева грубых погрешностей

Рисунок 11.4 – Темп снижения значения максимального отклонения по шагам


отсева грубых погрешностей

19
Рисунок 10.5 – Тенденция снижения значения ταυ максимального по шагам отсева
грубых погрешностей

Рисунок 11.5 – Темп снижения значения ταυ максимального по шагам отсева грубых
погрешностей

20
Анализируя динамику изменения выборочных характеристик в ходе отсева,
можно сделать вывод, что коэффициент вариации, максимальное отклонение,
дисперсия и τ max в основном уменьшаются, по ходу отсева, а среднее
арифметическое варьируется вокруг изначального значения, не имея явного тренда.

21
4 ПРОВЕРКА ГИПОТЕЗ
Решение задания 4.
Выполнить проверку гипотезу о том, что исходные данных подчиняются
нормальному закону распределения по критерию Пирсона и Колмогорова-
Смирнова. Для каждого критерия отобразить графическое и табличное
представление. Построить таблицу сравнения результатов проверки критериев.
4.1 Критерий САО
Гипотеза – предположение или догадка, которая нуждается в доказательстве.
САО – критерий среднего абсолютного отклонения.
Алгоритм проверки гипотезы о наличии нормального распределения
случайной величины по САО:
1. Выдвинуть гипотезу H 0 о том, что выбранная случайная величина
подчиняется нормальному закону распределения.
2. Вычислить САО:
n

∑ di
d= i=1
n
3. Проверить истинность неравенства:

|dσ −0,7979|< 0√,n4


4. Если неравенство истинно, то нет оснований отвергать гипотезу о
нормальном распределении величины.
Проверим гипотезу для x 1 – время горения дуги. На рисунке 12 представлены
все расчеты. По данным, оставшимся после отсева, можно сделать вывод, что
неравенство ложное, т.е. гипотеза о нормальном распределении величины
отвергается.

22
Рисунок 12 – Критерий САО для времени горения дуги
Проверим гипотезу для x 2 – вес скрапа, загруженного в печь. На рисунке 13
представлены все расчеты. По данным, оставшимся после отсева, можно сделать
вывод, что неравенство ложное, т.е. гипотеза о нормальном распределении
величины отвергается.

Рисунок 13 – Критерий САО для веса скрапа, загруженного в печь


Проверим гипотезу для x 3 – вес чугуна. На рисунке 14 представлены все
расчеты. По данным, оставшимся после отсева, можно сделать вывод, что

23
неравенство ложное, т.е. гипотеза о нормальном распределении величины
отвергается.

Рисунок 14 – Критерий САО для потребления углерода


Проверим гипотезу для y – потребление углерода. На рисунке 15
представлены все расчеты. По данным, оставшимся после отсева, можно сделать
вывод, что неравенство ложное, т.е. гипотеза о нормальном распределении
величины отвергается.

24
Рисунок 15 – Критерий САО для веса чугуна
Таким образом, в результате проверки гипотезы на наличие нормального
закона распределения по критерию САО для всех признаков x 1 , x 2 , x 3 и y , было
выявлено, что гипотеза отвергается.
4.2 Критерий Пирсона
Критерий Пирсона – это непараметрический метод, который позволяет
оценить значимость различий между фактическим (выявленным в результате
исследования) количеством исходов или качественных характеристик выборки,
попадающих в каждую категорию, и теоретическим количеством, которое можно
ожидать в изучаемых группах при справедливости нулевой гипотезы.
Алгоритм проверки гипотезы по критерию Пирсона:
1. Выдвигается гипотеза H 0: генеральная совокупность распределена по
закону А.
2. Выполнить построение эмпирического распределения случайной
величины при разбиении на k классов.
3. Вычислить теоретические значения случайной величины по закону А.
4. Рассчитать наблюдаемое значение критерия согласия:
k ' 2
(ni−ni)
=∑
2
❑набл ,
i=1 ni

где n'i – теоретические частоты, вычисленные для плотности распределения А.


5. Если ❑2набл <❑2кр (α , k−1), то нет основания отвергать нулевую гипотезу, в
противном случае гипотеза отвергается.
Для каждого признака получим таблицы частот и гистограммы, изображенные
на рисунках 16-27, с помощью программы STATISTICA [3].
Произведем расчет для первого признака (рисунок 16).

25
Рисунок 16 – Таблица частот x 1

Рисунок 17 – Гистограмма эмпирических и теоретических частот для признака x 1


Произведем расчет для второго признака (рисунок 18).

26
Рисунок 18 – Таблица частот x 2

Рисунок 19 – Гистограмма эмпирических и теоретических частот для признака x 2


Произведем расчет для третьего признака (рисунок 20).

Рисунок 20 – Таблица частот x 3

27
Рисунок 21 – Гистограмма эмпирических и теоретических частот для признака x 3
Произведем расчет для четвертого признака (рисунок 22).

Рисунок 22 – Таблица частот x 4

28
Рисунок 23 – Гистограмма эмпирических и теоретических частот для признака x 4
4.3 Критерий Колмогорова-Смирнова
Критерий Колмогорова-Смирнова – непараметрический критерий согласия, в
классическом понимании предназначен для проверки простых гипотез о
принадлежности анализируемой выборки некоторому известному закону
распределения.
Алгоритм проверки гипотезы по критерию Колмогорова-Смирнова:
1. Выдвигается гипотеза H 0: генеральная совокупность распределена по
закону А.
2. Выполнить построение эмпирического распределения случайной
величины при разбиении на k классов.
3. Вычислить теоретические значения случайной величины по закону А.
4. Вычислить накопленные теоретические FA и эмпирические FE

накопленные частоты.
5. Рассчитать наблюдаемое значение критерия согласия:
max {|F A −F E|}
i=1 ,k
Dнабл =
n

29
6. По таблице критических точек распределения Колмогорова-Смирнова,
по заданному значению уровня значимости α и числу степеней свободы
v=n найти критическую точку D( α , v ).

7. Если Dнабл < D(α , v), то нет оснований отвергать гипотезу, в противном
случае гипотеза отвергается.
При построении эмпирического распределения количество классов
определяется по правилу Штюргерса. Построим с помощью пакета STATISTICA [3]
таблицы частот для каждого признака, а также таблицу с результатами проверки,
которые изображены на рисунках 24-28.

Рисунок 24 – Таблица частот для x1

Рисунок 25 – Таблица частот для x2

30
Рисунок 26 – Таблица частот для x3

Рисунок 27 – Таблица частот для y

Рисунок 28 – Результаты проверки гипотез по критерию Колмогорова-Смирнова

31
Таблица 6 – Результаты проверки гипотезы о наличии нормального распределения
признаков
Время горения Вес скрапа, Потребление Вес чугуна
дуги загруженного углерода
в печь
Значение по 47,33 67,45 15,79 68,00
статистике
Пирсона
Решение по Отвергается Отвергается Принимается Отвергается
гипотезе
Значение по 0,110853 0,166687 0,098855 0,221174
статистике
Колмогорова-
Смирнова
Решение по Принимается Отвергается Принимается Отвергается
гипотезе
Табличное значение статистики Пирсона для 8 степеней свободы и 5%-м
уровне значимости составляет 17,1 и табличное значение статистики Колмогорова
— Смирнова при n = 231 составляет 0,134. Существенные отклонения в частотах
привели к тому, что по критерию Пирсона гипотеза отвергается для всех признаков.
По критерию Колмогорова – Смирнова гипотезу следует отвергнуть только в двух
случаях – для признака Вес чугуна и признака Вес скрапа, загруженного в печь.

32
ЗАКЛЮЧЕНИЕ
В лабораторной работе рассматривались качественные стали, выплавленные
на печи №2 (57*). Количество исходных данных равнялось 128. Для них был
выполнен расчет простых степенных средних, моды, медианы, показателей
вариации и рассеяния.
Также был рассмотрен и выполнен отсев грубых погрешностей по статистике
Стьюдента. Всего было произведено пятнадцать шагов, на каждом из которых
зафиксированы все статистические показатели. После отсева осталось 103 значений.
В табличном и графическом представлении отображена тенденция выборочных
характеристик, обобщающих показателей, показателей вариации и показан темп
изменения каждого показателя.
Анализируя динамику изменения выборочных характеристик в ходе отсева,
можно сделать вывод, что коэффициент вариации, максимальное отклонение,
дисперсия и τ max в основном уменьшаются, по ходу отсева, а среднее
арифметическое варьируется вокруг изначального значения, не имея явного тренда.
Была выполнена проверка гипотез о том, что исходные данные подчиняются
нормальному закону распределения по критерию Пирсона и Колмогорова-
Смирнова. Для каждого критерия было сделано графическое и табличное
представление получившихся расчетов, построена сводная таблица сравнения
результатов проверки критериев.
В результате проверки гипотезы на наличие нормального закона
распределения по критерию Пирсона и Колмогорова-Смирнова, было выявлено, что
у трех признаков гипотеза по критерию Пирсона отвергается, а по критерию
Колмогорова-Смирнова принимается по двум.

33
БИБЛИОГРАФИЧЕСКИЙ СПИСОК
1. Основы теории статистики: Учебное пособие / В. В. Полякова,
Н. В. Шаброва. – Екатеринбург: Изд-во Урал. ун-та, 2015. – 148 с.
2. Обработка экспериментальных данных на ЭВМ: учебник / О. С. Логунова,
П. Ю. Романов, Е. А. Ильина [и др.]. – Москва: ИНФРА-М, 2019. – 326 с. – Текст:
электронный. – URL: https://znanium.com/catalog/product/1025509 (дата обращения:
25.10.2020). – Режим доступа: по подписке.
3. Боровиков, В. П. Программа STATISTICA для студентов и инженеров / В.
П. Боровиков. – М.: КомпьютерПресс, 2001. – 301 с.

34

Вам также может понравиться