Академический Документы
Профессиональный Документы
Культура Документы
Лабораторная работа №5
Построение эмпирических моделей
Магнитогорск, 2023
Содержание
ЗАДАНИЕ........................................................................................................................3
1 ИСХОДНЫЕ ДАННЫЕ...............................................................................................4
2 ПРОВЕРКА ИНТЕРКОРРЕЛЯЦИИ И МУЛЬТИКОЛЛИНЕАРНОСТИ...............5
2.1 ТЕОРЕТИЧЕСКАЯ ЧАСТЬ...........................................................................................5
2.2 ДОКАЗАТЕЛЬСТВО МУЛЬТИКОЛЛИНЕАРНОСТИ И ИНТЕРКОРРЕЛЯЦИИ...................5
3 ПОСТРОЕНИЕ МНОЖЕСТВА ИНФОРМАТИВНЫХ И НЕИНФОРМАТИВНЫХ
ФАКТОРОВ.....................................................................................................................7
3.1 ТЕОРЕТИЧЕСКАЯ ЧАСТЬ...........................................................................................7
3.2 ОПРЕДЕЛЕНИЕ ФАКТОРОВ........................................................................................8
4 ПОСТРОЕНИЕ ЛИНЕЙНОЙ И МУЛЬТИПЛИКАТИВНОЙ МОДЕЛЕЙ...........10
4.1 ТЕОРЕТИЧЕСКАЯ ЧАСТЬ.........................................................................................10
4.2 ПОСТРОЕНИЕ МОДЕЛЕЙ.........................................................................................11
5 ОЦЕНКА СТРУКТУРНОЙ СТАБИЛЬНОСТИ ИСХОДНЫХ ДАННЫХ...........15
5.1 ТЕОРЕТИЧЕСКАЯ ЧАСТЬ.........................................................................................15
5.2 ОЦЕНКА СТАБИЛЬНОСТИ........................................................................................16
ЗАКЛЮЧЕНИЕ.............................................................................................................24
БИБЛИОГРАФИЧЕСКИЙ СПИСОК..........................................................................25
ПРИЛОЖЕНИЕ.............................................................................................................26
2
ЗАДАНИЕ
Задание 1.
Для исходных данных выполнить проверку интеркорреляции и
мультиколлинеарности.
Задание 2.
Для исходных данных произвести построение множества информативных и
неинформативных факторов.
Задание 3.
Для исходных данных и данных после кластеризации выполнить построение
линейной и мультипликативной моделей. Доказать применимость каждой модели.
Задание 4.
Проверить предпосылки метода наименьших квадратов для каждой
построенной модели.
Задание 5.
Выполнить сравнение полученных результатов.
Задание 6.
Оценить структурную стабильность используемых исходных данных.
3
1 ИСХОДНЫЕ ДАННЫЕ
4
2 ПРОВЕРКА ИНТЕРКОРРЕЛЯЦИИ И МУЛЬТИКОЛЛИНЕАРНОСТИ
2.1 Теоретическая часть
Интеркорреляция факторов – линейная зависимость двух факторов между
собой. Определяется по значимым коэффициентам парной корреляции между
факторами.
Мультиколлинеарность факторов – это линейная зависимость более чем двух
факторов между собой. Оценивается по критерию Пирсона.
Результат: набор информативных факторов для включения в модель.
Алгоритм оценки мультиколлинеарности факторов:
1. Вычислить определитель матрицы межфакторной корреляции:
| |
1 … 1
а) если 00 1 … 1 =0, то факторы мультиколлинеарны,
R =
1 … 1
| |
1 … 0
б) если R00= 0 1 0 =1, то факторы немультиколлинеарны,
0 … 1
| |
1 … 0
в) если 0< R 00 = 0 1 0 <1, то:
0 … 1
| |
1 0 , 06 −0 , 33
R00= 0 , 06 1 0 , 12 =0 , 87
−0 , 33 0 ,12 1
5
Выдвигаем гипотезу H 0 о том, что выбранные факторы мультиколлинеарны.
Вычисляем величину:
2 1
❑ =32−1− ( 2 ∙3+5 ) lg 0 , 87=31 , 11
6
Проверяем неравенство:
2 1
31 ,11 ≫ ❑табл (5 % , ∙ 3(3−1))
2
31 ,11 ≫ 0 , 35
6
3 ПОСТРОЕНИЕ МНОЖЕСТВА ИНФОРМАТИВНЫХ И
НЕИНФОРМАТИВНЫХ ФАКТОРОВ
3.1 Теоретическая часть
Информативный фактор – фактор, не имеющий зависимостей с другими
факторами.
Алгоритм отбора информативных факторов:
1. Выполнить построение матрицы межфакторной корреляции.
( )
1 r 12 … r1 p
r 21 1 … r2 p
… … … …
r p1 r p 2 … 1
( )
1 r 12 … r1 p
r 21 1 … r2 p
… … … …
r p1 r p 2 … 1
p
r km → x m → Sm =∑ |r ℑ|
i=1
Sk > S m
Вес скрапа,
загруженного в печь, 0,06 1 0,12 0,22
т (x2)
Потребление
0,28 0,22 -0,04 1
углерода, кг (y)
0 , 45> 0 ,39
8
Время горения дуги, Вес скрапа, загруженного Потребление углерода,
мин (x1) в печь, т (x2) кг (y)
Вес скрапа,
загруженного в печь, т 0,06 1 0,22
(x2)
Потребление углерода,
0,28 0,22 1
кг (y)
I ={ x 3 }
9
4 ПОСТРОЕНИЕ ЛИНЕЙНОЙ И МУЛЬТИПЛИКАТИВНОЙ МОДЕЛЕЙ
4.1 Теоретическая часть
Для оценки применимости построенной эмпирической модели для
последующего прогнозирования и управления используют три статистических
показателя и результаты анализа остатков. В зависимости от вида уравнения набор
показателей изменяется согласно схеме, приведенной на рисунке 2. Положительное
решение о применимости эмпирической модели – при истинности всех требований к
этим показателям (рисунок 3).
10
отвергать гипотезу, если фактическое значение F-статистики превосходит
табличное.
Т -статистика применяется для оценки значимости коэффициентов регрессии
b 0 , b j и оценивается по критерию Стьюдента. Для этого выдвигается гипотеза о том,
11
Рисунок 4 – Результаты построения множественной линейной регрессии всех
факторов
По результатам, приведённым на рисунке 4, можно записать линейное
уравнение со всеми множествами факторов:
^y =−3 , 48+0,051 ∙ x 1 +0,012 ∙ x 2 +0,001 ∙ x 3
12
Рисунок 5 – Результаты построения множественной линейной регрессии по
информативным факторам
По результатам, приведённым на рисунке 5, можно записать линейное
уравнение по информативным факторам:
^y =−3 , 45+0,049 ∙ x 1 +0,012 ∙ x 2
13
Рисунок 6 – Результаты построения мультипликативной регрессии всех факторов
Средняя относительная ошибка аппроксимации для нелинейного уравнения со
всеми множествами факторов составила 9,84%. Она не превосходит 10%,
следовательно, считается допустимой.
Исходя из результата относительной ошибки аппроксимации можно сделать
вывод, что модель мультипликативной регрессии всех факторов применима.
Построим мультипликативную модель по информативным факторам.
По результатам, приведённым на рисунке 7, можно записать
мультипликативную форму:
^y =0,0005∙ x 11 ,56 ∙ x 20 ,34
14
5 ОЦЕНКА СТРУКТУРНОЙ СТАБИЛЬНОСТИ ИСХОДНЫХ ДАННЫХ
5.1 Теоретическая часть
Значимость структурных изменений можно оценить с помощью
статистического критерия Грегори Чоу. Выдвинем гипотезу H 0 о структурной
стабильности двух частей ряда (т.е. об отсутствии смены тенденции) и
конкурирующую гипотезу о том, что структурные изменения в двух частях ряда
статистически значимы (т.е. о наличии смены тенденции).
Для проверки критерия Грегори Чоу построим уравнения линейных трендов и
найдем остаточные суммы квадратов с помощью пакета «Анализ данных»,
инструмент «Регрессия».
Остаточная сумма квадратов кусочно-линейной модели равна
t n
S1ост =∑ ( y i −^y(1) ) ,S2ост =∑ ( y i −^y(2) ) ,
2 2
i=1 t +1
n
S3ост =∑ ( y i −^y(3) )
2
16
Рисунок 10 – Результаты регрессионного анализа для второй части ряда x1
Вычислим сумму:
кл
Sост =0,954+1,155=2,109
Найдем разность:
17
△ S ост=2,169−2,109=0 ,06
df 2 =32−2−2=28
F табл ( 5 % ,2 , 28 )=3 , 3
F табл> F расч
18
Рисунок 4 – Результаты регрессионного анализа для второй части ряда x2
19
Вычислим сумму:
кл
Sост =0,593+1,397=1 , 99
Найдем разность:
△ S ост=2,169−1 ,99=0,179
df 2 =32−2−2=28
F табл ( 5 % ,2 , 28 )=3 , 3
F табл> F расч
20
Рисунок 17 – Результаты регрессионного анализа для первой части ряда x3
Вычислим сумму:
кл
Sост =0,529+1,404=1,933
Найдем разность:
△ S ост=2,169−1,933=0,236
df 2 =32−2−2=28
F табл ( 5 % ,2 , 28 )=3 , 3
F табл> F расч
22
ЗАКЛЮЧЕНИЕ
В задаче рассматривались качественные стали, выплавленные на печи №1
(57*). Количество исходных данных равнялось 32. Была проведена оценка
мультиколлинеарности факторов. Определитель матрицы, равный 0,87, был
использован при доказательстве гипотезы о мультиколлинеарности факторов,
основанной на критерии Пирсона. Так как неравенство оказалось истинным,
мультиколлинеарность подтвердилась.
Также было выполнено построение множества информативных и
неинформативных факторов. Исходя из алгоритма, в матрице парной корреляции
выбирались максимальные значимые коэффициенты. Всего удалось провести два
этапа, по итогам которых оказалось, что информативных факторов два – x 1 (время
горения дуги) и x 2 (вес скрапа, загруженного в печь). Оставшийся фактор – x 3
(потребление углерода) – неинформативен.
Было построено четыре вида моделей: линейная регрессия всех факторов,
линейная регрессия по информативным факторам, мультипликативная регрессия по
информативным факторам, мультипликативная регрессия всех факторов. Для
оценки применимости каждой построенной эмпирической модели для
последующего прогнозирования и управления было использовано три
статистических показателя: статистика Фишера, статистика Стьюдента, ошибка
аппроксимации. После проведения всех расчетов оказалось, что и линейные
регрессии (независимо от того, по всем факторам или только по информативным), и
мультипликативные модели вполне применимы.
Оценена стабильность структурных изменений с помощью критерия Грегори
Чоу. У всех факторов структурные изменения являются значимыми, то есть
F табл> F расч.
23
БИБЛИОГРАФИЧЕСКИЙ СПИСОК
1. Васнев, С. А. Статистика: Учебное пособие / С. А. Васнев. – Москва:
МГУП, 2001. – 170 с.
2. Обработка экспериментальных данных на ЭВМ: учебник / О. С. Логунова,
П. Ю. Романов, Е. А. Ильина [и др.]. – Москва: ИНФРА-М, 2019. – 326 с. –
Текст: электронный. – URL: https://znanium.com/catalog/product/1025509
(дата обращения: 23.10.2020). – Режим доступа: по подписке.
3. Гмурман, В. Е. Теория вероятностей и математическая статистика: учебное
пособие для вузов / В. Е. Гмурман. – М.: Высшая школа, 1977. – 479 с.
4. Боровиков, В. П. Программа STATISTICA для студентов и инженеров / В.
П. Боровиков. – М.: КомпьютерПресс, 2001. – 301 с.
24
ПРИЛОЖЕНИЕ
25
Рисунок 21 – Диаграмма рассеяния для зависимости остатков от потребления
углерода
26
Рисунок 23 – Гистограмма эмпирических и теоретических частот остатков
27