Вы находитесь на странице: 1из 7

1

Регрессионный анализ.
Назначение регрессионного анализа. Общий вид регрессионного уравнения. Связь коэффициента регрессии
с коэффициентом корреляции. Оценка параметров регрессионного уравнения по выборке с помощью ме-
тода наименьших квадратов. Статистическая значимость регрессии. Проверка нулевой гипотезы о ра-
венстве коэффициента регрессии нулю. Стандартные ошибки параметров регрессионного уравнения.
Коэффициент детерминации. Анализ остатков. Оценка величины остаточной дисперсии с помощью F-
критерия. Нахождение доверительной области для линии регрессии. Понятие о нелинейной и множе-
ственной регрессионной зависимости.

Известно много различных форм и видов корреляционных связей. Достаточно ча-


сто связь между признаками носит линейный характер или может быть аппроксимиро-
вана к линейной. Регрессио́нный анализ (линейный) – статистический метод исследова-
ния зависимости между зависимой переменной Y и одной или несколькими независи-
мыми переменными X1, X2, ..., Xm описывается уравнением общего вида:
y x =а + bx1 + сх2 + dx3 + ... nxm.,
где а, b, c, d, …n – параметры уравнения, определяющие соотношения между аргумен-
тами x1 x2, x3, .., xm и функцией y x .
На практике учитывают не все возможные, а лишь некоторые аргументы, в про-
стейшем случае – всего один – x. Линейная зависимость между переменными Y и Х в
генеральной совокупности описывается уравнением:
y x =α + βx
где α – свободный член уравнения, а параметр β называется угловым коэффициентом
или коэффициентом регрессии. Поскольку показатели регрессии выражают корреляци-
онную связь двусторонне, полное уравнение регрессии для генеральной совокупности
состоит из двух уравнений:
y x = αyx + βyxx; x y = αxy + βxyy
Задача регрессионного анализа сводится к тому, чтобы в каждом конкретном
случае выявить форму связи и выразить ее соответствующим уравнением. Это позволяет
предвидеть возможные изменения одного признака Y на основании известных измене-
ний другого признака X, связанного с первым корреляционно. Регрессионный анализ
нельзя использовать для определения наличия связи между переменными, поскольку
наличие такой связи и есть предпосылка для применения анализа.
Для выборки уравнения имеют вид:
y x = ayx + byxx; x y = axy + bxyy
2
По первой формуле определяют усредненные значения y x при изменении при-

знака X на единицу меры, по второй – усредненные значения x y , при изменении на

единицу меры признака Y.


График корреляционной зависимости функции y x = f(x) или x y = f(у) получил

название регрессии. y x и x y – это условные средние арифметические. Коэффициент

регрессии b определяет наклон линии регрессии по отношению к осям прямоугольных


координат, а свободный член регрессионного уравнения a – отрезок, который линия
регрессии отсекает на оси ОY. Линии регрессии (CD и EG) пересекаются в точке О( x

, y ), соответствующей средним арифметическим значениям корреляционно связанных

друг с другом признаков Y и X (рис.). Линия АВ, проходящая через точку О( x , y ),

соответствует полной (функциональной) зависимости между переменными X и Y, когда


коэффициент корреляции равен rxy = 1. Чем сильнее связь между Y и X, тем ближе линии
регрессии к АВ и наоборот, чем слабее связь между этими величинами, тем более уда-
ленными оказываются линии регрессии от АВ. При отсутствии связи между признаками
линии регрессии оказываются под прямым углом по отношению друг к другу и rxy =0.

Рис. График корреляции


Оценки генеральных параметров коэффициентов уравнения α и β получают с по-
мощью метода наименьших квадратов (МНК), который позволяет рассчитать такие вы-
борочные коэффициенты а и b, при которых сумма квадратов отклонений фактических
(наблюдаемых) значений результативного признака (у) от расчетных (предсказанных ре-
грессией) минимальна. Иными словами, из всего множества линий линия регрессии на
графике выбирается так, чтобы сумма квадратов расстояний по вертикали между точ-
ками и этой линией (residuals) была бы минимальной, и проходила бы через точку О( x

, y ), соответствующую средним обеих переменных.


3

Рис. График корреляции


Требования к выборке для построения линии регрессии:
1. Ожидаемая зависимость переменной Y от X должна быть линейной.
2. Для любого значения xi Y должна иметь нормальное распределение.
3. Для любого значения xi выборки для Y должны иметь одинаковую дисперсию
4. Для любого значения xi выборки для Y должны быть независимы друг от друга.
Коэффициенты уравнения регрессии рассчитывают по следующим формулам,
если известны коэффициент корреляции r и СКО обоих признаков:
𝑆 𝑆𝑦
𝑏𝑥𝑦 = 𝑟 ∙ 𝑆𝑥 𝑏𝑦𝑥 = 𝑟 ∙ 𝑆 𝑟 = √𝑏𝑥𝑦 ∙ 𝑏𝑦𝑥
𝑦 𝑥

Коэффициент регрессии характеризует только линейную связь и сопровождается


знаком плюс при положительной и знаком минус при отрицательной связи.
Коэффициент а рассчитывают:
ayx = y – byx  x ; axy = x – bxy  y

Выборочные показатели регрессии сопровождаются статистическими ошибками:

𝒃𝒙𝒚 (𝟏−𝒓𝟐 ) 𝒃𝒚𝒙 (𝟏−𝒓𝟐 )


𝑺𝒃𝒙𝒚 = ∙ √ (𝒏−𝟐) 𝑺𝒃𝒚𝒙 = ∙ √ (𝒏−𝟐)
𝒓 𝒓

Достоверность выборочных коэффициентов регрессии оценивают с помощью t-


критерия Стьюдента.
Гипотезы:
Н0: в генеральной совокупности коэффициент регрессии равен нулю, признак-
фактор не влияет на признак-результат.
Н1: в генеральной совокупности коэффициент регрессии не равен нулю, признак-
фактор влияет на признак-результат.
Вывод: если фактически установленная величина tфакт – отношения выборочного
коэффициента регрессии к своей ошибке – больше tst. для чисел степеней свободы k = n
4
– 2 на принятом уровне значимости , нулевую гипотезу отвергают. Иначе нулевую ги-
потезу отвергнуть нельзя.

𝒃𝒙𝒚
𝒕факт = ≥ 𝒕𝒔𝒕
𝑺𝒃𝒙𝒚

Для оценки качества подбора линейной функции к выборочным данным прово-


дится дисперсионный анализ, и оценка значимости полученного уравнения регрессии
дается с помощью F-критерия Фишера. В основе проверки значимости регрессии ле-
жит идея разложения общей дисперсии (Total) результативного признака на факторную
(Regress) и остаточную дисперсии (Residual), т.е. объясненную (за счет независимых
факторов) часть дисперсии и часть, оставшуюся необъясненной в рамках данной модели.
Предварительно рассчитываются девиаты, степени свободы, а потом и соответствующие
дисперсии. Гипотезы такие же, как в случае проверки достоверности коэффициента
регрессии, а выводы различаются.
Гипотезы:
Н0: в генеральной совокупности коэффициент регрессии равен нулю, признак-
фактор не влияет на признак-результат.
Н1: в генеральной совокупности коэффициент регрессии не равен нулю, признак-
фактор влияет на признак-результат.
Общая девиата, ответственная за общую изменчивость признака-результата
(Total), находится как сумма квадратов разности наблюдаемых значений признака и
среднего значения:
𝑛

𝐷общ = ∑(𝑦𝑖 − 𝑦)2


𝑖=1

Факторная девиата, ответственная за изменчивость признака-результата только


под действием признака-фактора (Regress), находится как сумма квадратов разности
предсказанных значений признака и среднего значения:
𝑛

𝐷регр = ∑(𝑦𝑖𝑒𝑥𝑝 − 𝑦)2


𝑖=1

Остаточная девиата, ответственная за изменчивость признака-результата под


действием других факторов, исключая признак-фактор (Residual), находится как сумма
квадратов разности наблюдаемых значений признака и предсказанных значений при-
знака:
𝑛

𝐷остат = ∑(𝑦𝑖 − 𝑦𝑖𝑒𝑥𝑝 )2


𝑖=1
5
Степени свободы:
𝒌общ = 𝒏 − 𝟏 𝒌регр = количество переменных − 𝟏 𝒌остат = 𝒌общ − 𝒌регр
Соответствующие дисперсии:
𝑫общ 𝑫регр 𝑫остат
𝑺𝟐общ = 𝑺𝟐регр = 𝑺𝟐остат =
𝒌общ 𝒌регр 𝒌остат

Чем меньше величина остаточной дисперсии, тем лучше уравнение регрессии


подходит к исходным данным. С помощью F – критерия определяют значимость всего
уравнения регрессии.
2
𝑆регр
𝐹факт = 2
𝑆остат
Вывод: если фактически установленная величина F факт больше F st. для степеней
свободы регрессии и остатков на принятом уровне значимости , нулевую гипотезу
отвергают. Иначе нулевую гипотезу отвергнуть нельзя.

Анализ остатков.
Остатки - это разности между наблюдаемыми и предсказанными значениями за-
висимой переменной в построенной регрессионной модели.
Для выявления нестабильности дисперсии ошибки уравнения строят график зави-
симости регрессионных остатков от предсказанного значения зависимой переменной.
Анализ остатков позволяет выявить выбросы. Выбросы – это остатки, которые значи-
тельно превосходят по абсолютной величине остальные. Выбросы показывают опытные
данные, которые являются не типичными по отношению к остальным данным, и требует
выяснения причин их возникновения. Выбросы должны исключаться из обработки, если
они вызваны ошибками измерения. Внимательный анализ остатков позволяет оценить
адекватность модели. Остатки должны быть нормально распределены, со средним зна-
чением равным нулю и постоянной, независимо от величин зависимой и независимой
переменных, дисперсией.

Нелинейная регрессия. Виды моделей


Если между биологическими явлениями существуют нелинейные соотношения,
то они выражаются с помощью соответствующих нелинейных функций: например, рав-
носторонней гиперболы, параболы второй степени и д.р.
Различают два класса нелинейных регрессий:
 регрессии, нелинейные относительно включенных в анализ объясняющих
переменных, но линейные по оцениваемым параметрам;
 регрессии, нелинейные по оцениваемым параметрам.
К первой группе относятся, например, следующие виды функций:
6
y = a + bx + cx2 + ε - полином 2-й степени
y = a + bx + cx2 dx3 + ε - полином 3-й степени;
𝑏
𝑦 =𝑎+𝑥+𝜀 - гипербола

Ко второй группе относятся:


y = axb ε - степенная;
y = abx ε - показательная;
y = ea+bx ε - - экспоненциальная и др. виды функций
Первая группа нелинейных функций легко может быть приведена к линейному
виду с помощью операций подстановки. Для оценки параметров нелинейных функций
первой группы используют обычный МНК, как и в случае линейных функций.

Множественная корреляция и регрессия


Обычно на зависимую переменную действуют сразу несколько факторов, среди
которых трудно выделить единственный или главный.
При этом факторы, влияющие на зависимую переменную, как правило, не явля-
ются независимыми друг от друга. Нельзя просто суммировать влияние нескольких фак-
торов, необходимо учитывать и влияние независимых факторов друг на друга. При этом
каждый фактор влияет на результат как непосредственно, так и опосредованно, через
связь с другими факторами. Это совокупное влияние факторов на признак находится бо-
лее сложным методом – методом множественной регрессии.
Смысл коэффициента регрессии в уравнении множественной регрессии состоит в
том, что он показывает, как в среднем изменится значение результативного признака,
если соответствующий факторный признак увеличится на единицу при фиксированных
значениях всех остальных факторов.
мат доч предсказ_Y общая факторн остаточн
№ X Y Yiexp (Yi-Ysr)2 (Yiexp - Ysr)2 (Yi - Yiexp)2
1 3770 2991 3804,7 563192,5 3995,3 662059
2 3817 4593 3816,3 725117,8 5604,4 603226
3 2450 3529 3477,4 45139,9 69742,1 2665,2
4 3463 4274 3728,5 283597,2 166,7 297516,8
5 3500 3103 3737,7 407633,1 14,0 402873,5
6 5544 3949 4244,5 43072,2 253083,7 87341,39
7 3112 3491 3641,5 62731,0 9988,7 22655,7
8 3150 3559 3650,9 33292,2 8194,1 8453,0
9 3118 2916 3643,0 681386,8 9693,5 528537,4
10 3018 4580 3618,2 703146,8 15190,8 925038,8
11 4291 4510 3933,9 590651,4 37014,4 331945,7
12 3463 4144 3728,5 162037,2 166,7 172599,5
13 3000 3000 3613,7 549765,2 16310,9 376686
summy 4850763,2 429165,3 4421598
xsr 3515,08 Sr 0,29 k 12 1 11
ysr 3741,46 tф 1,03 S2 404230,27 429165,3 401963,5
Sx 762,70 tst 2,20
Sy 635,79 r 0,30 Fфакт 1,0676723
7
r2 0,09 p 0,32

Коэффиц Ст ошибка t-стат P-Знач Нижн 95% Верх 95% Нижн 95,0% Верх 95,0%
a 2869,89 861,63 3,33 0,01 973,46 4766,32 973,46 4766,32
b 0,25 0,24 1,03 0,32 -0,28 0,78 -0,28 0,78
Xy доверительные_интервалы
Коэффиц Ст ошибка t-стат P-Знач Нижн 95% Верх 95% Нижн 95,0% Верх 95,0%
a 2180,05 1309,13 1,67 0,12 -701,32 5061,43 -701,32 5061,43
b 0,36 0,35 1,03 0,32 -0,40 1,12 -0,40 1,12
y x = ayx + byxx; y x = 2869,89+ 0,25x;
Это означает, что увеличение годового надоя молока коров-матерей на 1 кг вы-
зывает увеличение годового надоя молока у дочерей-коров на 0,25 кг. Подставляя в
формулу для y x годовой надой молока коров-матерей вместо x, можно рассчитать про-
гнозируемый годовой надой молока коров-дочерей.
И второе уравнение:
x y = axy + bxyy x y = 2180,05+ 0,36y

 Рекомендуемая литература по теме:

1. Лакин Г.Ф. Биометрия. М., Высшая школа, 1990. с. 254 – 262; с. 264 – 266; 298 –
306.
2. Рокицкий П.Ф. Биологическая статистика., Минск, «Вышэйш.школа», 1973. с.
141- 168.

Вопросы для самопроверки

1. Как выглядит полное уравнение регрессии для генеральной совокупности?


2. Как выглядит полное уравнение регрессии для выборки?
3. Как найти коэффициент регрессии?
4. Как определить свободный член уравнения регрессии?
5. Сформулируйте нулевую гипотезу регрессионного анализа.
6. Какой критерий используют в выводах регрессионного анализа?
7. Какой критерий используют для оценки качества подбора линейной функции к выбо-
рочным данным?