Вы находитесь на странице: 1из 6

План:

Назначение регрессионного анализа. Общий вид регрессионного


уравнения. Связь коэффициента регрессии с коэффициентом корреляции.
Оценка параметров регрессионного уравнения по выборке с помощью метода
наименьших квадратов. Статистическая значимость регрессии. Проверка
нулевой гипотезы о равенстве коэффициента регрессии нулю. Стандартные
ошибки параметров регрессионного уравнения. Коэффициент детерминации.
Оценка величины остаточной дисперсии с помощью F-критерия. Нахождение
доверительной области для линии регрессии. Понятие о нелинейной и
множественной регрессионной зависимости.

Зависимость между переменными величинами X и У может быть


описана разными способами. В частности, любую форму связи можно
выразить уравнением общего вида y = f (x), где у рассматривают в качестве
зависимой переменной, или функции от другой — независимой переменной
величины х, называемой аргументом. Соответствие между аргументом и
функцией может быть задано таблицей, формулой, графиком и т.д.
Изменение функции в зависимости от изменений одного или нескольких
аргументов называется регрессией.

Термин «регрессия» (от лат. regressio — движение назад) ввел в


биологию Ф. Гальтон, изучавший наследование количественных признаков.
Он обнаружил, что потомство высокорослых и низкорослых родителей
возвращается (регрессирует) на 1/3 в сторону среднего уровня этого признака
в данной популяции. С развитием биометрии этот термин утратил свое
буквальное значение и стал применяться для обозначения и корреляционной
зависимости между переменными величинами Y и X.

Известно много различных форм и видов корреляционных связей,


которые можно разделить на линейные и нелинейные. Если между
биологическими явлениями существуют нелинейные соотношения, то они
выражаются с помощью соответствующих нелинейных функций: например,
равносторонней гиперболы, параболы второй степени и др. Но достаточно
часто связь между признаками носит линейный характер или может быть
аппроксимирована к линейной.

Регрессиомнный анализ (линейный) – статистический метод


исследования зависимости между зависимой переменной Y и одной или
несколькими независимыми переменными X1, X2, ..., Xm описывается
уравнением общего вида:
где а, b, c, d, ...n – параметры уравнения, определяющие соотношения
между аргументами x1, x2, x3, ..., xm и функцией .

На практике учитывают не все возможные, а лишь некоторые


аргументы, в простейшем случае всего один – x. Линейная зависимость
между переменными Y и Х в генеральной совокупности описывается
уравнением:

где – свободный член уравнения, а параметр β называется угловым


коэффициентом или коэффициентом регрессии. Коэффициент регрессии
характеризует только линейную связь и сопровождается знаком плюс при
положительной и знаком минус при отрицательной связи. Поскольку
показатели регрессии выражают корреляционную связь двусторонне, полное
уравнение регрессии для генеральной совокупности состоит из двух
уравнений:

Задача регрессионного анализа сводится к тому, чтобы в каждом


конкретном случае выявить форму связи и выразить ее соответствующим
уравнением. Это позволяет предвидеть возможные изменения одного
признака Y на основании известных изменений другого признака X,
связанного с первым корреляционно. Регрессионный анализ нельзя
использовать для определения наличия связи между переменными,
поскольку наличие такой связи и есть предпосылка для применения анализа.

Для выборки уравнения имеют вид:


По первой формуле определяют усредненные значения при изменении
признака X на единицу меры, по второй – усредненные значения , при
изменении на единицу меры признака Y. и – это условные средние
арифметические.

График корреляционной зависимости функции = f(x) или = f(у)


получил название регрессии (рисунок 1 и рисунок 2). Коэффициент
регрессии b определяет наклон линии регрессии по отношению к осям
прямоугольных координат, а свободный член регрессионного уравнения a –
отрезок, который линия регрессии отсекает на оси Y. Линии регрессии (CD и
EG) пересекаются в точке О (,), соответствующей средним арифметическим
значениям корреляционно связанных друг с другом признаков Y и X
(рисунок 2). Линия АВ, проходящая через точку О (,), соответствует полной
(функциональной) зависимости между переменными X и Y (rxy = 1). Чем
сильнее связь между Y и X, тем ближе линии регрессии к АВ и наоборот, чем
слабее связь между этими величинами, тем более удаленными оказываются
линии регрессии от АВ. При отсутствии связи между признаками линии
регрессии оказываются под прямым углом по отношению друг к другу и rxy
= 0.
Рисунок 1. – Регрессия
Оценки генеральных параметров коэффициентов уравнения β и β
получают с помощью метода наименьших квадратов (МНК), который
позволяет рассчитать такие выборочные коэффициенты а и b, при которых
сумма квадратов отклонений фактических (наблюдаемых) значений
результативного признака от расчетных (предсказанных регрессией)
минимальна. Иными словами, из всего множества линий линия регрессии на
графике выбирается так, чтобы сумма квадратов расстояний по вертикали
между точками и этой линией (residuals) была бы минимальной, и проходила
бы через точку О( x , y ), соответствующую средним обеих переменных.

Требования к выборке для построения линии регрессии:

1. Ожидаемая зависимость переменной Y от X должна быть линейной.

2. Для любого значения xi Y должна иметь нормальное распределение.

3. Для любого значения xi выборки для Y должны иметь одинаковую


дисперсию

4. Для любого значения xi выборки для Y должны быть независимы


друг от друга.

Коэффициенты уравнения регрессии рассчитывают по следующим


формулам, если известны коэффициент корреляции r и СКО обоих
признаков:

Свободный член регрессионного уравнения а рассчитывают


следующим образом:
Выборочные показатели регрессии сопровождаются статистическими
ошибками:

Достоверность выборочных коэффициентов регрессии оценивают с


помощью t-критерия Стьюдента.

Гипотезы:

Н0: в генеральной совокупности коэффициент регрессии равен нулю,


признак-фактор не влияет на признак-результат.

Н1: в генеральной совокупности коэффициент регрессии не равен


нулю, признак-фактор влияет на признак-результат.

Вывод: если фактически установленная величина tфакт – отношения


выборочного коэффициента регрессии к своей ошибке больше tst для чисел
степеней свободы k = n – 2 на принятом уровне значимости ß, нулевую
гипотезу отвергают. Иначе нулевую гипотезу отвергнуть нельзя.

Для оценки качества подбора линейной функции к выборочным


данным проводится дисперсионный анализ, и оценка значимости
полученного уравнения регрессии дается с помощью F-критерия Фишера. В
основе проверки значимости регрессии лежит идея разложения общей
дисперсии (Total) результативного признака на факторную (Regress) и
остаточную дисперсии (Residual), т.е. объясненную (за счет независимых
факторов) часть дисперсии и часть, оставшуюся необъясненной в рамках
данной модели. Предварительно рассчитываются девиаты, степени свободы,
а потом и соответствующие дисперсии. Гипотезы такие же, как в случае
проверки достоверности коэффициента регрессии, а выводы различаются.

Гипотезы:

Н0: в генеральной совокупности коэффициент регрессии равен нулю,


признак-фактор не влияет на признак-результат.
Н1: в генеральной совокупности коэффициент регрессии не равен
нулю, признак-фактор влияет на признак-результат.

Общая девиата, ответственная за общую изменчивость признака-


результата, находится как сумма квадратов разности наблюдаемых значений
признака и среднего значения:

Факторная девиата, ответственная за изменчивость признака-


результата под действием признака-фактора, находится как сумма квадратов
разности предсказанных значений признака и среднего значения:

Остаточная девиата, ответственная за изменчивость признака-


результата под действием других факторов, исключая признак-фактор,
находится как сумма квадратов разности наблюдаемых значений признака и
предсказанных значений признака:

Степени свободы:

kобщ = n – kрегр = количество переменных –1, kостат = kобщ – kрегр.

Соответствующие дисперсии:

Чем меньше величина остаточной дисперсии, тем лучше уравнение


регрессии подходит к исходным данным. С помощью F-критерия определяют
значимость всего уравнения регрессии:

Вывод: если фактически установленная величина Fфакт больше Fst.


для степеней свободы регрессии и остатков на принятом уровне значимости
β, нулевую гипотезу отвергают. Иначе нулевую гипотезу отвергнуть нельзя.

Множественная корреляция и регрессия


Обычно на зависимую переменную действуют сразу несколько
факторов, среди которых трудно выделить единственный или главный.

При этом факторы, влияющие на зависимую переменную, как правило,


не являются независимыми друг от друга. Нельзя просто суммировать
влияние нескольких факторов, необходимо учитывать и влияние
независимых факторов друг на друга. При этом каждый фактор влияет на
результат как непосредственно, так и опосредованно, через связь с другими
факторами. Это совокупное влияние факторов на признак находится более
сложным методом – методом множественной регрессии.

Смысл коэффициента регрессии в уравнении множественной регрессии


состоит в том, что он показывает, как в среднем изменится значение
результативного признака, если соответствующий факторный признак
увеличится на единицу при фиксированных значениях всех остальных
факторов.