Вы находитесь на странице: 1из 23

Министерство образования и науки Российской Федерации

ИРКУТСКИЙ ГОСУДАРСТВЕННЫЙ ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ

Кафедра Технологии Машиностроения

Отчет по лабораторной работе №8


по дисциплине:
Математическая статистика и прогнозирование
Линейный регрессионный анализ
наименование темы

Выполнил студент ИСМбо-11-1 Власов Д.И.


шифргруппы подпись ФамилияИмяОтчество

Проверил Доцент Казимиров Д.Ю.


должность подпись ФамилияИмяОтчество

Иркутск, 2013 г.
1. Основные понятия
В линейный регрессионный анализ входит широкий круг задач, связанных с
построением (восстановлением) зависимостей между группами числовых
переменных
X  (x1 , ..., xp) и Y = (y1 ,..., ym).
Предполагается, что Х - независимые переменные (факторы, объясняющие
переменные) влияют на значения Y - зависимых переменных (откликов,
объясняемых переменных). По имеющимся эмпирическим данным (Xi , Yi), i
= 1, ..., n требуется построить функцию f (X), которая приближенно
описывала бы изменение Y при изменении X:
Y  f (X).
Предполагается, что множество допустимых функций, из которого
подбирается f (X), является параметрическим:
f (X) = f (X, ),
где  - неизвестный параметр (вообще говоря, многомерный). При
построении f (X) будем считать, что
Y = f (X, ) + , (1)
где первое слагаемое - закономерное изменение Y от X, а второе -  -
случайная составляющая с нулевым средним; f (X, ) является условным
математическим ожиданием Y при условии известного X и называется
регрессией Y по X.
1.1. Простая линейная регрессия
Задание: В табл. 1 приведены данные по 45 предприятиям легкой
промышленности по статистической связи между стоимостью основных
фондов (fonds, млн руб.) и средней выработкой на 1 работника (product, тыс.
руб.); z - вспомогательный признак: z = 1 - федеральное подчинение, z = 2 -
муниципальное (файл Product. Sta.).
Таблица 1
fonds product z fonds product z fonds product z
6,5 18,3 1 9,3 17,2 2 10,4 21,4 2
10,3 31,1 1 5,7 19,0 2 10,2 23,5 2
7,7 27,0 1 12,9 24,8 2 18,0 31,1 2
15,8 37,9 1 5,1 21,5 2 13,8 43,2 2
7,4 20,3 1 3,8 14,5 2 6,0 19,5 2
14,3 32,4 1 17,1 33,7 2 11,9 42,1 2
15,4 31,2 1 8,2 19,3 2 9,4 18,1 2
21,1 39,7 1 8,1 23,9 2 13,7 31,6 2
22,1 46,6 1 11,7 28,0 2 12,0 21,3 2
12,0 33,1 1 13,0 30,9 2 11,6 26,5 2
9,5 26,9 1 15,3 27,2 2 9,1 31,6 2
8,1 24,0 1 13,5 29,9 2 6,6 12,6 2
8,4 24,2 1 10,5 34,9 2 7,6 28,4 2
15,3 33,7 1 7,3 24,4 2 9,9 22,4 2
4,3 18,5 1 13,8 37,4 2 14,7 27,7 2
Выполнение:

Рис1. Диаграмма рассеяния по 45 предприятиям легкой промышленности по


статистической связи между стоимостью основных фондов (Х) и средней выработкой на 1
работника (У)

Рис2. Регрессионный анализ


Рис3. Диаграмма рассеяния выработки по фондами для предприятий федерального
подчинения (z=1)

Рис4. Регрессионный анализ для предприятий федерального подчинения (z=1)


Рис5. Диаграмма рассеяния выработки по фондами для предприятий муниципального
подчинения (z=2)

Рис6. Регрессионный анализ для предприятий муниципального подчинения(z=2)

Вывод: Проанализировав регрессионный анализ по всем предприятиям


можно сказать, что поскольку значения p-level очень малы (меньше 10-4),
гипотезы о нулевых значениях коэффициентов отклоняются с высокой
значимостью. Итак, имеем регрессию:
product = 11.5 + 1.43 fonds,
соответствующие стандартные ошибки коэффициентов на рисунке 2: 2.1 и
0.18; значение ошибки прогноза выработки s = 5. Значение коэффициента
детерминации R2 = RI = 0.597 достаточно велико. Уравнение регрессии
показывает, что увеличение основных фондов на 1 млн руб. приводит к
увеличению выработки 1 работника в среднем на 1 = 1.43 тыс. руб. Построив
регрессию выработки по фондам для более однородной совокупности
 для предприятий федерального подчинения (z=1), получили
результаты:
Product = 12.55 + 1.44 fonds,
R2 = RI = 0.897, S = 2.68.
Коэффициент детерминации увеличился с 0.597 до 0.897, значение s
уменьшилось с 5.01 до 2.68, подгонка улучшилась.
 Для предприятий муниципального подчинения (z=2), получили
результаты:
Product = 11,66 + 1,37 fonds,
R2 = RI = 0,398, S = 5,84.
Коэффициент детерминации уменьшилась с 0.597 до 0,398, значение s
увеличилось с 5.01 до 5,84, подгонка ухудшилась.

1.2. Множественная регрессия


Задание: Исследуется зависимость урожайности y зерновых культур ( ц/га )
от ряда факторов (переменных) сельскохозяйственного производства, а
именно,
х1 - число тракторов на 100 га;
х2 - число зерноуборочных комбайнов на 100 га;
х3 - число орудий поверхностной обработки почвы на 100 га;
х4 - количество удобрений, расходуемых на гектар (т/га);
х5 - количество химических средств защиты растений, расходуемых на
гектар (ц/га).
Исходные данные для 20 районов области приведены в табл. 2.
Таблица 2
y x1 x2 x3 x4 x5
1 9.7 1.59 .26 2.05 .32 .14
2 8.4 .34 .28 .46 .59 .66
3 9.0 2.53 .31 2.46 .30 .31
4 9.9 4.63 .40 6.44 .43 .59
5 9.6 2.16 .26 2.16 .39 .16
6 8.6 2.16 .30 2.69 .32 .17
7 12.5 .68 .29 .73 .42 .23
8 7.6 .35 .26 .42 .21 .08
9 6.9 .52 .24 .49 .20 .08
10 13.5 3.42 .31 3.02 1.37 .73
11 9.7 1.78 .30 3.19 .73 .17
12 10.7 2.40 .32 3.30 .25 .14
13 12.1 9.36 .40 11.51 .39 .38
14 9.7 1.72 .28 2.26 .82 .17
15 7.0 .59 .29 .60 .13 .35
16 7.2 .28 .26 .30 .09 .15
17 8.2 1.64 .29 1.44 .20 .08
18 8.4 .09 .22 .05 .43 .20
19 13.1 .08 .25 .03 .73 .20
20 8.7 1.36 .26 .17 .99 .42
Выполнение:

Рис7. Диаграмма рассеяния зависимости урожайности от числа тракторов на 100 га (x1)

Рис7. Диаграмма рассеяния зависимости урожайности от числа зерноуборочных


комбайнов на 100 га (x2)
Рис8. Диаграмма рассеяния зависимости урожайности от числа орудий поверхностной
обработки почвы на 100 га (x3)

Рис9. Диаграмма рассеяния зависимости урожайности от количества удобрений,


расходуемых на гектар (т/га) (x4)
Рис10. Диаграмма рассеяния зависимости урожайности от количества химических средств
защиты растений, расходуемых на гектар (ц/га) (т/га) (x5)

Рис11. Регрессионный анализ

Рис12. Матрица парных корреляций для всех факторов


Рис13. Матрица парных корреляций для всех факторов и зависимости урожайности

Рис14. Регрессионный анализ с х4.

Рис15. Регрессионный анализ с x4, x1

Рис16. Регрессионный анализ с x4, x2

Рис17. Регрессионный анализ с x4, x3


Рис18. Регрессионный анализ с x4, x5

Рис19. Регрессионный анализ с x4, x3, x1

Рис20. Регрессионный анализ с x4, x3, x2

Рис21. Регрессионный анализ с x4, x3, x5

Вывод: Проанализировав регрессионный анализ, получаем оценку (x)


неизвестной функции регрессии f (x) в данном случае:
(x) = 3.51  0.06 x1 + 15.5 x2 + 0.11 x3 + 4.47 x4  2.93 x5
Так же наблюдаем, что стандартные ошибки в оценке всех коэффициентов,
кроме 4 , превышают значения самих коэффициентов, что говорит о
статистической ненадежности данных коэффициентов. Из рис11. также
видим, что p-level достаточно мал (0.01) этот уровень является только для
коэффициента при x4 . Только переменная x4 - количество удобрений,
подтвердила свое право на включение в модель. При продолжении проверки
гипотезы из рисунка 13 видно, что х1 , х2 и х3 (оснащенность техникой)
сильно коррелированы (парные коэффициенты корреляции 0.854, 0.882 и
0.978), т.е. имеет место дублирование информации, и потому, есть
возможность перехода от исходного числа признаков к меньшему. Из
матрицы корреляций находим:
r2 (y, xj) = r2 (y, x4) = (0.577)2 = 0.333
Из регрессионных анализов всевозможных пар (рис15 –рис18) наиболее
информативной парой является (х4 , х3 ), которая дает:
(2) = (х4 , хj) = 0.421
Получаем оценку уравнения регрессии урожайности по факторам х3 и х4
имеет вид: (х3 , х4) = 7.29 + 0.28 х3 + 3.47 х4
Так же из регрессионных анализов всевозможных троек выбираем наиболее
информативную: (х4 , х3 ,х5), которая дает (3) = 0.404,
что меньше, чем (2) = 0.421; это означает, что третью переменную в
модель включать нецелесообразно, т.к. она уменьшает значение . Итак,
результатом анализа является (2).

1.3. Нелинейная зависимость


Задание: Имеются эмпирические данные о зависимости y - выработки на
одного работника доменного производства от x - температуры дутья; данные
приведены в табл. 3 в условных единицах.
Таблица 3
№ X Y № X Y
1 1.01 8.8 11 5.80 11.8
2 1.15 9.2 12 6.14 12.2
3 1.91 8.7 13 6.64 13.1
4 2.47 10.2 14 6.85 14.4
5 2.66 9.3 15 8.11 17.5
6 2.74 9.4 16 8.47 18.6
7 2.93 10.7 17 9.09 18.6
8 4.04 8.5 18 9.23 18.0
9 4.50 8.9 19 9.59 23.8
10 4.64 8.0 20 9.96 18.4

Выполнение:
Рис22. Диаграмма рассеяния

Рис23. Регрессионный анализ первой степени: y = о + 1 x

Рис24. Регрессионный анализ второй степени: y = о + 1 x + 2 x2


Рис25. Регрессионный анализ третьей степени: y = о + 1 x + 2 x2 + 3 x3

Рис26. Регрессионный анализ без линейного члена: y = о + 2 x2

Вывод: Из регрессионного анализа первой степени получаем:


y = 5.36 + 1.40 x
= 0.798, s = 2.09.
Из регрессионного анализа второй степени получаем:
y = 9.9 - 0.88 x + 0.21 x2
= 0.892, s = 1.53
Данная регрессия лучше предыдущей, т.к. =0.892 больше чем =
0.798 и s меньше, чем в первом случае.
Из регрессионного анализа третьей степени получаем:
y = 11.6 - 2.35 х + 0.53 х2 - 0.02 х3
= 0.890, s = 1.53
Поскольку степень увеличилась без увеличения , от регрессии третьей
степени отказываемся в пользу второй степени.
Из регрессионного анализа без линейного члена получаем:
y = 8.02 + 0.13 x2
= 0.884, s = 1.6
Сравнивая ее по и s со второй степенью, отдаем предпочтение второй,
поскольку ошибка прогноза s меньше. Из всего вышеперечисленного можно
сказать, что регрессионный анализ второй степени более предпочтителен.

1.4. Нелинейная зависимость (обобщение)


Задание: Имеется 20 наблюдений по некоторому технологическому процессу
химического производства; x, y - изменяемое содержание двух веществ , z -
контролируемый параметр получаемого продукта. Полагая, что
z = P (x, y) +  ,
где P (x, y) = о + 1 x + 2 y + 3 x2 + 4 xy + 5 y2 - многочлен второй
степени,  - случайная составляющая, М = 0, D = 2, необходимо оценить
функцию P(x, y) и найти точку ее минимума. Данные приведены в табл. 4.
Таблица 4
i x y 1 2 3 4 5 6 7 8
i i zi zi zi zi zi zi zi zi
1 -3 -2 68 222.3 260 17.1 168 122.3 160 117.1
2 -3 1 89.4 146.8 161.4 114.8 189.4 46.8 61.4 214.8
3 -3 3 148.5 155.4 60.5 155.4 248.5 55.4 0.5 255.4
4 -2 -3 56.8 205.2 248.8 7.7 156.8 105.2 148.8 107.7
5 -2 0 18.5 148.4 186.5 116.4 118.5 48.4 86.5 216.4
6 -2 2 73 145.5 145 145.5 173 45.5 45 245.5
7 -1 -2 29.2 141.4 221.2 53.6 129.2 41.4 121.2 153.6
8 -1 3 46 175.1 118 143.1 146 75.1 18 243.1
9 0 -3 46.2 134 174.2 60.9 146.2 34 74.2 160.9
10 0 -1 18.2 100.6 210.2 94 118.2 0.6 110.2 194
11 0 2 31.6 118.5 199.6 86.5 131.6 18.5 99.6 186.5
12 1 -1 8.6 108.4 207.9 94.5 108.6 8.4 107.9 194.5
13 1 1 8.4 121.3 194.5 89.3 108.4 21.3 94.5 189.3
14 1 3 1.9 189.4 215.4 61.4 101.9 89.4 115.4 161.4
15 2 -3 122.3 107.5 117.1 112.2 222.3 7.5 17.1 212.2
16 2 1 8.1 125.8 205.4 53.8 108.1 25.8 105.4 153.8
17 2 -3 20.8 205.9 186.9 5.9 120.8 105.9 86.9 105.9
18 3 -2 105.2 120.8 107.7 86.9 205.2 20.8 7.7 186.9
19 3 0 34 133 160.9 61 134 33 60.9 161
20 3 2 7.5 200.4 212.2 0.4 107.5 100.4 112.2 100.4
Выполнение:

Рис27. Регрессионный анализ всех независимых переменных

Рис28. Регрессионный анализ без У2


Рис29. Регрессионный анализ без ХУ

Рис30. Регрессионный анализ без X2

Рис31. Регрессионный анализ без У

Рис32. Регрессионный анализ без Х

Рис33. Регрессионный анализ без ХУ и У2


Рис34. Регрессионный анализ без Х2 и У2

Рис35. Регрессионный анализ без У2 и У

Рис36. Регрессионный анализ без У2 и Х

Рис37. Регрессионный анализ без ХУ и Х2

Рис38. Регрессионный анализ без ХУ и У


Рис39. Регрессионный анализ без ХУ и Х

Рис40. Регрессионный анализ без Х и Х2

Рис41. Регрессионный анализ без У и Х2

Рис42. Регрессионный анализ без Х и У

Рис43. Регрессионный анализ без Х, У и Х2


Рис44. Регрессионный анализ без Х, У, ХУ

Рис45. Регрессионный анализ без Х,У и У2

Рис46. Регрессионный анализ без Х, Х2 и ХУ

Рис47. Регрессионный анализ без Х, Х2 и У2

Рис48. Регрессионный анализ без Х, ХУ и У2


Рис49. Регрессионный анализ без У, ХУ, У2

Рис250. Регрессионный анализ без У, Х2, У2

Рис51. Регрессионный анализ без У, Х2, ХУ

Рис52. Регрессионный анализ с Х

Рис53. Регрессионный анализ с У

Рис54. Регрессионный анализ с Х2


Рис55. Регрессионный анализ с ХУ

Рис56. Регрессионный анализ с У2

Рис57. Трехмерный график, виден минимум


Рис58. Контурный график.

Вывод: Из всех различных регрессионных анализов (рис35, рис45 и рис56)


выбираем тот, у которого коэффициент детерминации выше, чем у
остальных и ошибка прогноза выработки наименьшая.
Выбираем регрессионный анализ без У2 и У (рис35) с данными:
=0,63 и S=25,534
И получаем функцию: f=22,84-6,834х+5,1219х2-5,6ху
Построены трехмерные графики данной функции, на которых
виден минимум.

Вам также может понравиться