Вы находитесь на странице: 1из 27

Министерство науки и высшего образования Российской Федерации

Федеральное государственное бюджетное образовательное учреждение


высшего образования
«Магнитогорский государственный технический университет
им. Г.И. Носова»

кафедра вычислительной техники и программирования

Лабораторная работа №5
Построение эмпирических моделей

по дисциплине «Обработка экспериментальных данных на ЭВМ»

Выполнил: Ляшенко М.Ю., студент 4 курса, группа АВб-20-11


Проверила: Ильина Е.А., доцент кафедры ВТ и П, к.п.н.

Магнитогорск, 2023
Содержание
ЗАДАНИЕ........................................................................................................................3
1 ИСХОДНЫЕ ДАННЫЕ...............................................................................................4
2 ПРОВЕРКА ИНТЕРКОРРЕЛЯЦИИ И МУЛЬТИКОЛЛИНЕАРНОСТИ...............5
2.1 ТЕОРЕТИЧЕСКАЯ ЧАСТЬ...........................................................................................5
2.2 ДОКАЗАТЕЛЬСТВО МУЛЬТИКОЛЛИНЕАРНОСТИ И ИНТЕРКОРРЕЛЯЦИИ...................5
3 ПОСТРОЕНИЕ МНОЖЕСТВА ИНФОРМАТИВНЫХ И НЕИНФОРМАТИВНЫХ
ФАКТОРОВ.....................................................................................................................7
3.1 ТЕОРЕТИЧЕСКАЯ ЧАСТЬ...........................................................................................7
3.2 ОПРЕДЕЛЕНИЕ ФАКТОРОВ........................................................................................8
4 ПОСТРОЕНИЕ ЛИНЕЙНОЙ И МУЛЬТИПЛИКАТИВНОЙ МОДЕЛЕЙ...........10
4.1 ТЕОРЕТИЧЕСКАЯ ЧАСТЬ.........................................................................................10
4.2 ПОСТРОЕНИЕ МОДЕЛЕЙ.........................................................................................11
5 ОЦЕНКА СТРУКТУРНОЙ СТАБИЛЬНОСТИ ИСХОДНЫХ ДАННЫХ...........15
5.1 ТЕОРЕТИЧЕСКАЯ ЧАСТЬ.........................................................................................15
5.2 ОЦЕНКА СТАБИЛЬНОСТИ........................................................................................16
ЗАКЛЮЧЕНИЕ.............................................................................................................24
БИБЛИОГРАФИЧЕСКИЙ СПИСОК..........................................................................25
ПРИЛОЖЕНИЕ.............................................................................................................26

2
ЗАДАНИЕ
Задание 1.
Для исходных данных выполнить проверку интеркорреляции и
мультиколлинеарности.
Задание 2.
Для исходных данных произвести построение множества информативных и
неинформативных факторов.
Задание 3.
Для исходных данных и данных после кластеризации выполнить построение
линейной и мультипликативной моделей. Доказать применимость каждой модели.
Задание 4.
Проверить предпосылки метода наименьших квадратов для каждой
построенной модели.
Задание 5.
Выполнить сравнение полученных результатов.
Задание 6.
Оценить структурную стабильность используемых исходных данных.

3
1 ИСХОДНЫЕ ДАННЫЕ

Рисунок 1 – Исходные данные


В задаче рассматриваются качественные стали, выплавленные на печи №2
(57*). Количество исходных данных, взятых после отсева, равняется 32 (рисунок 1).

4
2 ПРОВЕРКА ИНТЕРКОРРЕЛЯЦИИ И МУЛЬТИКОЛЛИНЕАРНОСТИ
2.1 Теоретическая часть
Интеркорреляция факторов – линейная зависимость двух факторов между
собой. Определяется по значимым коэффициентам парной корреляции между
факторами.
Мультиколлинеарность факторов – это линейная зависимость более чем двух
факторов между собой. Оценивается по критерию Пирсона.
Результат: набор информативных факторов для включения в модель.
Алгоритм оценки мультиколлинеарности факторов:
1. Вычислить определитель матрицы межфакторной корреляции:

| |
1 … 1
а) если 00 1 … 1 =0, то факторы мультиколлинеарны,
R =
1 … 1

| |
1 … 0
б) если R00= 0 1 0 =1, то факторы немультиколлинеарны,
0 … 1

| |
1 … 0
в) если 0< R 00 = 0 1 0 <1, то:
0 … 1

2. Выдвинуть гипотезу H0 о том, что выбранные факторы


мультиколлинеарны.
3. Вычисляется величина:
2 1
❑ =n−1− (2 p+ 5)lg Det R00
6
4. Проверяется неравенство:
2 2 1
❑ ≫ ❑табл (α , p( p−1))
2
Если неравенство истинно, то гипотеза H 0 принимается.
2.2 Доказательство мультиколлинеарности и интеркорреляции
Найдем определитель матрицы межфакторной корреляции:

| |
1 0 , 06 −0 , 33
R00= 0 , 06 1 0 , 12 =0 , 87
−0 , 33 0 ,12 1

5
Выдвигаем гипотезу H 0 о том, что выбранные факторы мультиколлинеарны.
Вычисляем величину:
2 1
❑ =32−1− ( 2 ∙3+5 ) lg 0 , 87=31 , 11
6
Проверяем неравенство:
2 1
31 ,11 ≫ ❑табл (5 % , ∙ 3(3−1))
2
31 ,11 ≫ 0 , 35

Неравенство истинно, следовательно, гипотеза H 0 о том, что выбранные


факторы мультиколлиенарны, принимается. Мультиколлинеарность считается
доказанной.

6
3 ПОСТРОЕНИЕ МНОЖЕСТВА ИНФОРМАТИВНЫХ И
НЕИНФОРМАТИВНЫХ ФАКТОРОВ
3.1 Теоретическая часть
Информативный фактор – фактор, не имеющий зависимостей с другими
факторами.
Алгоритм отбора информативных факторов:
1. Выполнить построение матрицы межфакторной корреляции.

( )
1 r 12 … r1 p
r 21 1 … r2 p
… … … …
r p1 r p 2 … 1

2. Выделить в матрице межфакторной корреляции область ниже главной


диагонали.

( )
1 r 12 … r1 p
r 21 1 … r2 p
… … … …
r p1 r p 2 … 1

3. В выделенной области выбрать максимальный по абсолютному


значению коэффициент парной корреляции.
r max =r km

4. Если выбранный коэффициент является незначимым, то все факторы


являются информативными, в противном случае:
p
r km → x k → Sk =∑ |r ki|
i=1

p
r km → x m → Sm =∑ |r ℑ|
i=1

Sk > S m

5. Если неравенство истинно, то:


xk ∈ I ∨ xm ∈ I

6. Если неравенство ложно, то:


xm∈ I ∨ xk ∈ I

7. Повторить алгоритм после исключения неинформативного фактора.


7
8. Записать списки информативных и неинформативных факторов.
3.2 Определение факторов
На таблице 1 представлена матрица парной корреляции. Красным цветом
выделены значимые коэффициенты корреляции.
Таблица 1 – Матрица парной корреляции
Вес скрапа,
Время горения дуги, загруженного в Потребление
Вес чугуна, т (x3)
мин (x1) печь, т (x2) углерода, кг (y)

Время горения дуги,


1 0,06 -0,33 0,28
мин (x1)

Вес скрапа,
загруженного в печь, 0,06 1 0,12 0,22
т (x2)

Вес чугуна, т (x3) -0,33 0,12 1 -0,04

Потребление
0,28 0,22 -0,04 1
углерода, кг (y)

Ниже главной диагонали выбираем максимальный по модулю и значимый


коэффициент – 0,33. Он соответствует факторам x 1 и x 3.
Находим сумму модулей коэффициентов парной корреляции в столбце для x 1
и x 3.
S1=0 ,3 3+0 , 0 6=0 , 39

S3=0 ,33+ 0 ,12=0 , 45

0 , 45> 0 ,39

Фактор x 3 оказывает большее влияние на все факторы, поэтому вносим его в


список неинформативных факторов и исключаем строку и столбец для этого
фактора из матрицы парной корреляции. Получаем матрицу как на таблице 2.

Таблица 2 – Матрица парной корреляции после первого шага

8
Время горения дуги, Вес скрапа, загруженного Потребление углерода,
мин (x1) в печь, т (x2) кг (y)

Время горения дуги, мин


1 0,06 0,28
(x1)

Вес скрапа,
загруженного в печь, т 0,06 1 0,22
(x2)

Потребление углерода,
0,28 0,22 1
кг (y)

Оставшийся коэффициент корреляции между факторами x 1 и x 2, равный 0,13,


не значим. Процесс выбора останавливаем.
I ={ x 1 , x 2 }

I ={ x 3 }

Эмпирическая модель должна содержать два фактора x 1 и x 2.

9
4 ПОСТРОЕНИЕ ЛИНЕЙНОЙ И МУЛЬТИПЛИКАТИВНОЙ МОДЕЛЕЙ
4.1 Теоретическая часть
Для оценки применимости построенной эмпирической модели для
последующего прогнозирования и управления используют три статистических
показателя и результаты анализа остатков. В зависимости от вида уравнения набор
показателей изменяется согласно схеме, приведенной на рисунке 2. Положительное
решение о применимости эмпирической модели – при истинности всех требований к
этим показателям (рисунок 3).

Рисунок 2 – Схема классификации показателей применимости

Рисунок 3 – Формула проверки применимости


F-статистика (статистика Фишера) применяется для оценки отношения двух
величин. Для уравнения регрессии выдвигается гипотеза о том, что построенное
уравнение регрессии является надежным, или о том, что рассеянность остатков при
предсказании по уравнению регрессии много меньше рассеянности остатков при
предсказании по среднему значению функции отклика.
Найденное значение F -статистики сравнивают с табличным значением
F (α , v 1 , v 2 ), где v 1 – количество степеней свободы величины числителя; v 2 –

количество степеней свободы величины знаменателя. Считают, что не оснований

10
отвергать гипотезу, если фактическое значение F-статистики превосходит
табличное.
Т -статистика применяется для оценки значимости коэффициентов регрессии
b 0 , b j и оценивается по критерию Стьюдента. Для этого выдвигается гипотеза о том,

что каждый найденный коэффициент уравнения значимо отличается от нуля.


Выполняется расчет величины t -статистики для каждого параметра:
|b j|
t j=
Sb j

Стандартная ошибка вычисления коэффициентов регрессии определяется по


формуле
Sb =√ D ост ∙ c ij

где c ij – диагональный элемент матрицы, обратной к матрице вариации.


Вычисленное значение t -статистики сравнивают с табличным T (α , v), где
v=n−p−1. Если вычисленное значение превосходит табличное, то не оснований

отвергать гипотезу. Это означает, что изменение выбранного фактора существенно


сказывается на изменении функции отклика.
Средняя относительная ошибка аппроксимации A :
1
n
y i−^yi
A= ∑
n i=1 y i
∙ 100 %

Средняя относительная ошибка аппроксимации считается допустимой, если


она не превосходит 10%.
4.2 Построение моделей
Построим линейную модель со всеми множествами факторов. На рисунке 4
введены следующие обозначения: R – значение множественного коэффициента
корреляции; R? – значение коэффициента детерминации; F – значение статистики
Фишера; t – значение статистики Стьюдента; p – уровень значимости вычисленного
значения характеристики.

11
Рисунок 4 – Результаты построения множественной линейной регрессии всех
факторов
По результатам, приведённым на рисунке 4, можно записать линейное
уравнение со всеми множествами факторов:
^y =−3 , 48+0,051 ∙ x 1 +0,012 ∙ x 2 +0,001 ∙ x 3

Критерий Фишера равен 1 , 27. Уравнение регрессии является надёжным, так


как уровень значимости меньше 5% (табличное – 2 , 9).
Значение статистики Стьюдента для коэффициента x 1 равно 1 , 45 на уровне
значимости меньшем, чем 5%, следовательно, x 1 незначимо отличается от нуля
(табличное – 2,036).
Значение статистики Стьюдента для коэффициента x 2 равно 1 , 09 на уровне
значимости меньшем, чем 5%, следовательно, x 2 незначимо отличается от нуля.
Значение статистики Стьюдента для коэффициента x 3 равно 0 , 1 на уровне
значимости меньшем, чем 5%, следовательно, x 3 незначимо отличается от нуля.
Средняя относительная ошибка аппроксимации для линейного уравнения со
всеми множествами факторов составила 9,468107%. Она не превосходит 10%,
следовательно, считается допустимой.
Исходя из расчетов трёх статистических показателей можно сделать вывод,
что модель множественной линейной регрессии всех факторов применима.
Построим линейную модель по информативным факторам.

12
Рисунок 5 – Результаты построения множественной линейной регрессии по
информативным факторам
По результатам, приведённым на рисунке 5, можно записать линейное
уравнение по информативным факторам:
^y =−3 , 45+0,049 ∙ x 1 +0,012 ∙ x 2

Критерий Фишера равен 1,97. Уравнение регрессии является надёжным, так


как уровень значимости меньше 5% (табличное – 3 , 3).
Значение статистики Стьюдента для коэффициента x 1 равно 1,54 на уровне
значимости меньшем, чем 5%, следовательно, x 1 незначимо отличается от нуля
(табличное – 2,036).
Значение статистики Стьюдента для коэффициента x 2 равно 1,16 на уровне
значимости меньшем, чем 5%, следовательно, x 2 незначимо отличается от нуля.
Средняя относительная ошибка аппроксимации для линейного уравнения по
информативным факторам составила 9,473983%. Она не превосходит 10%,
следовательно, считается допустимой.
Применимость данной модели подтверждается диаграммами,
расположенными в приложении (рис. 19-22).
Исходя из расчетов трёх статистических показателей можно сделать вывод,
что модель множественной линейной регрессии по информативным факторам
применима.
Построим мультипликативную модель со всеми множествами факторов.
По результатам, приведённым на рисунке 6, можно записать
мультипликативную форму:
^y =0,0005∙ x 11 ,56 ∙ x 20 ,32 ∙ x30 ,05

13
Рисунок 6 – Результаты построения мультипликативной регрессии всех факторов
Средняя относительная ошибка аппроксимации для нелинейного уравнения со
всеми множествами факторов составила 9,84%. Она не превосходит 10%,
следовательно, считается допустимой.
Исходя из результата относительной ошибки аппроксимации можно сделать
вывод, что модель мультипликативной регрессии всех факторов применима.
Построим мультипликативную модель по информативным факторам.
По результатам, приведённым на рисунке 7, можно записать
мультипликативную форму:
^y =0,0005∙ x 11 ,56 ∙ x 20 ,34

Рисунок 7 – Результаты построения мультипликативной регрессии по


информативным факторам
Средняя относительная ошибка аппроксимации для нелинейного уравнения со
всеми множествами факторов составила 9,88%. Она не превосходит 10%,
следовательно, считается допустимой.
Исходя из результата относительной ошибки аппроксимации можно сделать
вывод, что модель мультипликативной регрессии по информативным факторам
применима.

14
5 ОЦЕНКА СТРУКТУРНОЙ СТАБИЛЬНОСТИ ИСХОДНЫХ ДАННЫХ
5.1 Теоретическая часть
Значимость структурных изменений можно оценить с помощью
статистического критерия Грегори Чоу. Выдвинем гипотезу H 0 о структурной
стабильности двух частей ряда (т.е. об отсутствии смены тенденции) и
конкурирующую гипотезу о том, что структурные изменения в двух частях ряда
статистически значимы (т.е. о наличии смены тенденции).
Для проверки критерия Грегори Чоу построим уравнения линейных трендов и
найдем остаточные суммы квадратов с помощью пакета «Анализ данных»,
инструмент «Регрессия».
Остаточная сумма квадратов кусочно-линейной модели равна
t n
S1ост =∑ ( y i −^y(1) ) ,S2ост =∑ ( y i −^y(2) ) ,
2 2

i=1 t +1

n
S3ост =∑ ( y i −^y(3) )
2

где ^y (1 ), ^y (2 ), ^y (3 ) – теоретические значения уровней, найденные соответственно


по уравнениям (I), (II) и (III).
кл 1 2
Sост =S ост + Sост

Изменение остаточной дисперсии при переходе от единого уравнения тренда к


кусочно-линейной модели определяется как разность:
3 кл
△ S ост=S ост−Sост

Расчетное значение F-критерия:


△ S ост n−k 1−k 2
F расч= ⋅
S ост k 1 +k 2 −k 3
кл

Оно сравнивается с табличным F табл(a , df 1 , df 2), найденным по таблице


критических точек распределения Фишера для уровня значимости a и числа
степеней свободы df 1 =k 1 +k 2−k 3, df 2 =n−k 1−k 2. Если F расч > F табл, то гипотеза H 0 о
структурной стабильности отклоняется, и влияние структурных изменений на
динамику изучаемого показателя считается значимым.
5.2 Оценка стабильности
15
Результаты расчетов x 1 с помощью Statistica пакета приведены на рисунках 8-
11. На рисунке 8 показан разделенный на две части исходный ряд (в первой части –
16 первых наблюдений исходного ряда, во второй части – последние 16
наблюдений).

Рисунок 8 – Изменение структуры ряда x1

Рисунок 9 – Результаты регрессионного анализа для первой части ряда x1

16
Рисунок 10 – Результаты регрессионного анализа для второй части ряда x1

Рисунок 11 – Результаты регрессионного анализа для всего ряда x1


Результаты расчетов приведены в таблице 1.
Таблица 3 – Расчетная таблица критерия Грегори Чоу
Число
Остаточная
Номер Длина параметров
Уравнение тренда сумма
уравнения ряда n уравнения
квадратов
тренда
(I) ^y =−0 ,25+ 0 , 03∙ x 1 16 0,954 2
(II) ^y =−1, 87+ 0 , 08∙ x 1 16 1,155 2
(III) ^y =−1, 02+0 , 05 ∙ x1 32 2,169 2

Все уравнения тренда линейные, число параметров всех уравнений


k 1=k 2=k 3=2

Вычислим сумму:
кл
Sост =0,954+1,155=2,109

Найдем разность:
17
△ S ост=2,169−2,109=0 ,06

Определяем фактическое значение F-критерия:


0 , 06 32−2−2
F расч= ⋅ =0 , 4
2,109 2+2−2
Определяем критическое значение:
df 1 =2+ 2−2=2

df 2 =32−2−2=28

F табл ( 5 % ,2 , 28 )=3 , 3
F табл> F расч

Структурные изменения считаются значимыми, следовательно, гипотеза о


стабильности коэффициентов регрессии не отвергается.
Результаты расчетов x 2 с помощью пакета Statistica приведены на рисунках 12-
15. На рисунке 12 показан разделенный на две части исходный ряд (в первой части –
6 первых наблюдений исходного ряда, во второй части – последние 21 наблюдений).

Рисунок 2 – Изменение структуры ряда x2

Рисунок 3 – Результаты регрессионного анализа для первой части ряда x2

18
Рисунок 4 – Результаты регрессионного анализа для второй части ряда x2

Рисунок 5 – Результаты регрессионного анализа для всего ряда x2


Результаты расчетов приведены в таблице 4.

Таблица 4 – Расчетная таблица критерия Грегори Чоу


Число
Остаточная
Номер Длина параметров
Уравнение тренда сумма
уравнения ряда n уравнения
квадратов
тренда
(I) ^y =−3 ,26+ 0 , 02∙ x 2 11 0,593 2
(II) ^y =−1, 15+0,001 ∙ x2 21 1,397 2
(III) ^y =−1, 89+ 0 ,01 ∙ x 2 32 2,169 2

Все уравнения тренда линейные, число параметров всех уравнений


k 1=k 2=k 3=2

19
Вычислим сумму:
кл
Sост =0,593+1,397=1 , 99

Найдем разность:
△ S ост=2,169−1 ,99=0,179

Определяем фактическое значение F-критерия:


0,179 32−2−2
F расч= ⋅ =1 ,26
1 , 99 2+2−2
Определяем критическое значение:
df 1 =2+ 2−2=2

df 2 =32−2−2=28

F табл ( 5 % ,2 , 28 )=3 , 3
F табл> F расч

Структурные изменения считаются значимыми, следовательно, гипотеза о


стабильности коэффициентов регрессии не отвергается.
Результаты расчетов x 3 с помощью пакета приведены на рисунках 16-19. На
рисунке 16 показан разделенный на две части исходный ряд (в первой части – 10
первых наблюдений исходного ряда, во второй части – последние 22 наблюдений).
Результаты расчетов приведены в таблице 5.

Рисунок 6 – Изменение структуры ряда x3

20
Рисунок 17 – Результаты регрессионного анализа для первой части ряда x3

Рисунок 18 – Результаты регрессионного анализа для второй части ряда x3

Рисунок 19 – Результаты регрессионного анализа для всего ряда x3


Таблица 5 – Расчетная таблица критерия Грегори Чоу
Номер Уравнение тренда Длина Остаточная Число
уравнения ряда n сумма параметров
квадратов уравнения
21
тренда
(I) ^y =40 , 49−4 ,11∙ x 3 10 0,529 2
(II) ^y =38 ,03−1 ,31 ∙ x 3 22 1,404 2
(III) ^y =39 , 02−2 ,53 ∙ x 3 32 2,169 2

Все уравнения тренда линейные, число параметров всех уравнений


k 1=k 2=k 3=2

Вычислим сумму:
кл
Sост =0,529+1,404=1,933

Найдем разность:
△ S ост=2,169−1,933=0,236

Определяем фактическое значение F-критерия:


0,236 32−2−2
F расч= ⋅ =1 , 71
1,933 2+ 2−2
Определяем критическое значение:
df 1 =2+ 2−2=2

df 2 =32−2−2=28

F табл ( 5 % ,2 , 28 )=3 , 3
F табл> F расч

Структурные изменения считаются значимыми, следовательно, гипотеза о


стабильности коэффициентов регрессии не отвергается.

22
ЗАКЛЮЧЕНИЕ
В задаче рассматривались качественные стали, выплавленные на печи №1
(57*). Количество исходных данных равнялось 32. Была проведена оценка
мультиколлинеарности факторов. Определитель матрицы, равный 0,87, был
использован при доказательстве гипотезы о мультиколлинеарности факторов,
основанной на критерии Пирсона. Так как неравенство оказалось истинным,
мультиколлинеарность подтвердилась.
Также было выполнено построение множества информативных и
неинформативных факторов. Исходя из алгоритма, в матрице парной корреляции
выбирались максимальные значимые коэффициенты. Всего удалось провести два
этапа, по итогам которых оказалось, что информативных факторов два – x 1 (время
горения дуги) и x 2 (вес скрапа, загруженного в печь). Оставшийся фактор – x 3
(потребление углерода) – неинформативен.
Было построено четыре вида моделей: линейная регрессия всех факторов,
линейная регрессия по информативным факторам, мультипликативная регрессия по
информативным факторам, мультипликативная регрессия всех факторов. Для
оценки применимости каждой построенной эмпирической модели для
последующего прогнозирования и управления было использовано три
статистических показателя: статистика Фишера, статистика Стьюдента, ошибка
аппроксимации. После проведения всех расчетов оказалось, что и линейные
регрессии (независимо от того, по всем факторам или только по информативным), и
мультипликативные модели вполне применимы.
Оценена стабильность структурных изменений с помощью критерия Грегори
Чоу. У всех факторов структурные изменения являются значимыми, то есть
F табл> F расч.

23
БИБЛИОГРАФИЧЕСКИЙ СПИСОК
1. Васнев, С. А. Статистика: Учебное пособие / С. А. Васнев. – Москва:
МГУП, 2001. – 170 с.
2. Обработка экспериментальных данных на ЭВМ: учебник / О. С. Логунова,
П. Ю. Романов, Е. А. Ильина [и др.]. – Москва: ИНФРА-М, 2019. – 326 с. –
Текст: электронный. – URL: https://znanium.com/catalog/product/1025509
(дата обращения: 23.10.2020). – Режим доступа: по подписке.
3. Гмурман, В. Е. Теория вероятностей и математическая статистика: учебное
пособие для вузов / В. Е. Гмурман. – М.: Высшая школа, 1977. – 479 с.
4. Боровиков, В. П. Программа STATISTICA для студентов и инженеров / В.
П. Боровиков. – М.: КомпьютерПресс, 2001. – 301 с.

24
ПРИЛОЖЕНИЕ

Рисунок 19 – Диаграмма рассеяния для зависимости остатков от времени горения


дуги

Рисунок 20 – Диаграмма рассеяния для зависимости остатков от веса скрапа,


загруженного в печь

25
Рисунок 21 – Диаграмма рассеяния для зависимости остатков от потребления
углерода

Рисунок 22 – Диаграмма рассеяния для зависимости остатков от веса чугуна

26
Рисунок 23 – Гистограмма эмпирических и теоретических частот остатков

27

Вам также может понравиться