Вы находитесь на странице: 1из 57

Курс «Компьютерная

поддержка
прогнозирования»

Заходякин Глеб Викторович,


кафедра Информационных систем
и технологий в логистике
e-mail: postlogist@gmail.com
В заметках к некоторым слайдам содержатся примечания. Смотрите в режиме
редактирования.
Построение и анализ моделей
линейной регрессии
1. Оценка степени линейной связи между
переменными
2. Средства построения регрессионных
моделей в SPSS
3. Статистическая модель линейной
регрессии, условия ее применения
4. Оценка качества регрессионной модели

2
Диаграммы рассеяния
o Диаграммы рассеяния (Scatter Plot) позволяют визуально
оценить наличие связи между двумя переменными
o Связь между переменными предполагает, что увеличение
одной из них приводит к увеличению/уменьшению второй
Положительная Отрицательная

8 8

6 6
Совершенная
Y

Y
4 4

2 2

0 0
0 2 4 6 8 10 0 2 4 6 8 10

X X

8 8

Несовершенная 6 6

(стохастическая)
Y

4 4

2 2

0 0
0 2 4 6 8 10 0 2 4 6 8 10
3
X X
Диаграммы рассеяния
o Связь между переменными может быть нелинейной
o Связь может отсутствовать

8 8

6 6
Y

Y
4 4

2 2

0 0
0 2 4 6 8 10 0 2 4 6 8 10

X X

Нелинейная связь Отсутствие связи X-Y

4
Теснота связи и коэффициент
корреляции r
o Теснота связи – близость ее к «совершенной»
(точки, лежащие на прямой Y= f (X))

8 8

6 6
Y

Y
4 4

2 2
r1 = 0.788 r2 = 0.974

0 0
0 2 4 6 8 10 0 2 4 6 8 10

X X

o Теснота линейной связи характеризуется коэффициентом корреляции


Пирсона:

r=
cov( X ,Y )
=
∑( X − X ) ( Y − Y )
σ xσ y
∑( X − X ) ∑( Y − Y )
2 2
5
Свойства r
o Пределы изменения: -1 ≤ r ≤ 1

8 8 8

6 6 6
Y

Y
4 4 4

2 2 2
r1 = 0.788 r2 = −0.8 r3 = −0.027

0 0 0
0 2 4 6 8 10 0 2 4 6 8 10 0 2 4 6 8 10

X X X

o Характеризует наличие корреляции, а не причинной зависимости


o Характеризует линейную зависимость, для сильной нелинейной
зависимости r может быть небольшим

6
Примеры
o Сильная положительная корреляция

r = 0.8

7
Примеры
o Слабая корреляция

r = 0.27

8
Примеры
o Отрицательная корреляция

r = -0.553

9
Исследование корреляций в SPSS
o Для исследования корреляций между переменными в SPSS используются
два метода:
– Построение корреляционной матрицы (Analyze>Correlate>Bivariate)
– Графический анализ корреляций (специальный вид диаграммы – Matrix Scatter)

Sales of Men's Sales of Sales of Jewelry Number of Number of Pages


Clothing Women's Catalogs Mailed in Catalog
Clothing

Sales of Men's Clothing Pearson Correlation 1 ,802** ,701** ,803** ,259**

Sig. (2-tailed) .000 .000 .000 .004

N 120 120 120 120 120

Sales of Women's Clothing Pearson Correlation ,802** 1 ,705** ,681** ,301**

Sig. (2-tailed) .000 .000 .000 .001

N 120 120 120 120 120

Sales of Jewelry Pearson Correlation ,701** ,705** 1 ,453** .110

Sig. (2-tailed) .000 .000 .000 .231

N 120 120 120 120 120

Number of Catalogs Mailed Pearson Correlation ,803** ,681** ,453** 1 .140

Sig. (2-tailed) .000 .000 .000 .127

N 120 120 120 120 120

Number of Pages in Catalog Pearson Correlation ,259 **


,301 **
.110 .140 1

Sig. (2-tailed) .004 .001 .231 .127

N 120 120 120 120 120


10
Прямая регрессии
o Для определения наилучшего приближения зависимости
используется метод наименьших квадратов

( ) = ∑( Y − b
2
SSE = ∑ Y − Yˆ + b1 X )
2
0 Yˆ = b0 + b1 X
o Коэффициенты r и b1
взаимосвязаны:
Y = 32.1 – 9.68X
(Y −Y )
2

b1 = r
(X −X)
2

r = - 0.863

11
Статистическая модель для линейной регрессии
o Данные для построения уравнения регрессии представляют собой выборку из генеральной совокупности связей X-Y
o Статистическая модель линейной регрессии позволяет определить математическое ожидание Y для каждого значения X, по уравнению прямой:

o Фактическое значение будет отличаться от ожидаемого на величину ошибки ε , которая отражает вклад ненаблюдаемых факторов

o
Распределение ошибки ε – нормальное, с мат. ожиданием µ Y
µY = β 0 + β1 X
и постоянным СКО σ для любого значения X

Y = β 0 + β1 X + ε

o Уравнение регрессионной прямой совокупности: Допущения модели:


• ошибки независимы
• ошибки случайны
• mε =0
• σ ε = const 12
Стандартная ошибка оценки
o Построенное по выборке уравнение прямой регрессии можно
рассматривать как оценку регрессионной прямой совокупности, а
остатки модели – как оценки погрешности ε :

– Совокупность Y = β 0 + β1 X + ε ε = Y − µY - ошибка

– Выборка
Y = b0 + b1 X + e e = Y − Yˆ - остаток модели
o Стандартная ошибка оценки показывает среднее отклонение точек
данных от прямой регрессии:

∑( )
2
Y − Yˆ
s y⋅ x =
n−2
o Для больших выборок (N>30) можно ожидать 67% остатков в пределах
+/- syx и 95% остатков в пределах +/- 2syx

13
Выборочные распределения
o Выборочное распределение – множество всех возможных значений выборочной статистики,
полученной для выборки данного объема (N) из генеральной совокупности. Например, можно
говорить о распределении выборочного среднего.

mX = µ σX =σ / N

o Свойства выборочного распределения описываются центральной предельной теоремой. При


N -> +inf справедливо:
– распределение выборочного среднего – нормальное
– выборочное среднее -> генеральное:

E ( X ) = µX
– СКО выборочного среднего:

σ σ
= / N - стандартная ошибка выборочного среднего
– Эти свойства проявляются независимо от распределения генеральной совокупности, из
которой
X получена выборка

14
Доверительные интервалы
для выборочного среднего (σ известна)
o При известном σ (генеральном СКО) можно построить доверительный интервал
для выборочного среднего, пользуясь свойствами выборочного распределения

mX = µ σX =σ / N

o Ширина интервала ∆ выбирается из условия:

σ
P ( X − ∆ ≤ µ ≤ X + ∆) = P = 1 − α ∆ = Zα
o Соответствующие площади можно вычислить при помощи таблиц N
или функций,
в т.ч. Excel

15
Определение вероятности попадания
случайной величины в интервал
o Вероятность попадания в заданный интервал для непрерывной
Для нормального распределения справедливо:
случайной величины может быть определена при помощи
( − x ) = 1 − или
Fплотности F ( xфункции
) распределения

1 − α = F ( b ) − F ( a ) = F ( b ) b− ( 1 − F ( b) ) = 2 F ( b) − 1
P ( a ≤ X ≤ b ) = ∫ f ( x ) dx = F ( b ) − F ( a )
2 F ( b ) = 2 − α ⇒ F ( b) = 1 −aα / 2

0
2 1 0

 f ( x) dx = 0.954

−2
F( 2) − F( −2) = 0.954
0.3

fd( x, − 2 , 2)
0.2 F( x) 0.5
f ( x)

0.1

0
−4 −2 0 2 4
0 x
−4 −2 0 2 4
x
16
Интервальная оценка среднего при неизвестном
σ
o Если неизвестно σ , то в качестве его оценки принимается s
o В случае небольшой (N<30) выборки из нормальной совокупности
используется распределение Стьюдента (t-распределение):
s
Z или t
∆ = tα ,df
N
Квантили t- и Z-распределения для α = 5%
(двухсторонний интервал)
o При N > 30 можно использовать нормальное выборочное распределение:
s
∆ = Zα
N
0.4
Нормальная
кривая N=30
0.3
dnorm( X , 0 , 1)

dt( X , 1)
0.2
dt( X , 5)
N=1 N=5
dt( X , 30)
0.1
Число степеней свободы (t-распределения)

− 10 −5 0 5 10
X

Сходимость t-распределения к нормальному при N->inf 17


Источники неопределенности при
прогнозировании по уравнению регрессии
o Прогноз, полученный по уравнению регрессии, подвержен двум видам
неопределенности:
– В статистической модели содержится слагаемое ошибки ε :
Y = β 0 + β1 X + ε
– Уравнение регрессии построено по случайной выборке, поэтому
расположение регрессионной прямой также случайно и не совпадает
с регрессионной прямой генеральной совокупности

18
Интервальный прогноз
o Стандартная ошибка прогноза позволяет оценить меру вариативности
предсказанного значения Y, учитывающую оба вида неопределенности

1 ( )  (X −X)
2 2
X − X 1
s f = s y⋅ x 2 + s y ⋅ x 2 ⋅  +  = s ⋅ 1 + +
 n ∑( X − X )  ∑( X − X )
2 y⋅ x 2
n
 

вклад ошибки ε вклад отклонения от прямой генеральной совокупности


o Стандартная ошибка прогноза минимальна при X = Xср и нелинейно увеличивается при
увеличении отклонения от среднего
o Для построения интервального прогноза используется t-распределение Стьюдента с df
= N – 2 степенями свободы

∆ = t1−α /2, N −2 ⋅ s f
o При N >= 30 можно использовать стандартное нормальное распределение

∆ = Z1−α /2 ⋅ s f Z1−5%/2 = 1.96 ≈ 2


19
Разложение дисперсии
o Из статистической модели регрессии следует: Объясненное
линейной
Y = b0 + b1 X + e = Yˆ + (Y − Yˆ ) зависимостью

Наблюдаемое значение Y Остаток

o Это равенство
можно преобразовать:

Y − Y = Yˆ + (Y − Yˆ ) − Y ⇒
( ) (
Y − Y = Y − Yˆ + Yˆ − Y )
o И далее:

∑( Y − Y ) =
2

Yˆ − Y

∑ ( Y − Yˆ ) + ∑ ( Yˆ − Y )
2 2 Y −Y
Y − Yˆ

20
Формула разложения дисперсии

∑( Y − Y ) = ∑( ) + ∑( )
2 2 2
Y − Yˆ Yˆ − Y

o В статистических пакетах приняты обозначения:

SST = ∑ ( Y − Y ) ( ) ( )
2 2
SSE = ∑ SSR = ∑
2
Y − Yˆ Yˆ − Y
SS = Sum of Squares, T - Total, R – Regression, E – Error (полная,
объясненная, остаточная суммы квадратов соответственно)

o С учетом этих обозначений формула разложения дисперсии:

SST = SSR + SSE


o Равенство справедливо и для числа степеней свободы:

df ( SST ) = df ( SSR ) + df ( SSE )


( n − 1) = 1 + ( n − 2 )
21
Таблица дисперсионного анализа
o При выполнении процедуры линейной регрессии можно вывести таблицу
дисперсионного анализа (Analysis of Variance, ANOVA)

o В таблице дисперсионного анализа содержатся суммы квадратов, степени


свободы и средние квадраты (Mean Squares), получаемые делением сумм
на число степеней свободы
o При этом средний квадрат ошибки связан со стандартной ошибкой оценки:

( )
2

MSE =
∑ Y − Yˆ
= sy2⋅x
n−2 22
Коэффициент детерминации
o Коэффициент детерминации обозначает долю объясненной дисперсии в общей

( ˆ −Y )
дисперсии: 2

R2 =
SSR
=
∑ Y
SST ∑ ( Y − Y ) 2

o Поскольку остаточная сумма квадратов обычно все равно вычисляется, удобнее


пользоваться формулой: SSE

( )
2 R2 = 1 −

R =1−
2 SSE
=1−
∑ Y − Yˆ SST

∑( Y − Y )
2
SST
o Для простой линейной регрессии коэффициент детерминации связан с
коэффициентом корреляции:

R2 = r 2
o Тем не менее, R2 и r необходимо рассматривать отдельно, т.к. они несут разную
информацию: r – о направлении и тесноте связи X-Y, а R2 – о том, насколько хорошо
модель объясняет изменчивость Y
o Коэффициент детерминации применяется и для многофакторной регрессии, для
которой r не определен

23
Диапазон значений R2
o Если модель полностью объясняет Y, то SSE = 0 => R2 = 1
o Если связи между переменными нет, то SSE = SST => R2 = 0

Нет корреляции Совершенная связь X-Y

o Возможна ситуация, когда SSE > SST, поэтому нижней границы у области
значений R2 не существует

24
Проверка значимости коэффициентов регрессии
o Коэффициенты уравнения регрессионной прямой:
Y = β 0 + β1 X + ε
оцениваются по ограниченной выборке, поэтому они являются
случайными величинами, в т.ч. b1 <> 0 - может объясняться чисто
случайными причинами
o Значимость коэффициентов регрессии проверяется через проверку
гипотезы о равенстве коэффициента 0:
H 0 : β1 = 0

25
Проверка статистических гипотез
o Проверка утверждения о выборке или генеральной совокупности
(статистической гипотезы) включает этапы:

1. Формулируется проверяемая гипотеза H0 и альтернативная


гипотеза H1, которая принимается если отвергается H0
2. Выполняется случайная выборка из генеральной совокупности,
для выборки вычисляются требуемая выборочная статистика
3. Рассматривается распределение выборочной статистики в
предположении что H0 верна
4. Вычисляется вероятность того, что подобная выборочная
статистика может быть получена из этого выборочного
распределения
5. Если эта вероятность высока, то H0 принимается, в противном
случае – отвергается и принимается H1 При этом предполагается
заданная малая вероятность ошибки, называемая уровнем
значимости

26
Ошибки при проверке гипотез
Выбор аналитикаH0 принимается H0 отвергается

Действительное
состояние

H0 справедлива Ошибка I рода,


вероятность α
(уровень
значимости)

H0 несправедлива Ошибка II рода,


вероятность β
(мощность
критерия)

27
Пример проверки гипотезы
(2-сторонний критерий)
o Задача:
Проверить, верно ли, что средний вес деталей, производимых на оборудовании по-прежнему
равен 50 г. СКО веса деталей известно и равно 5 г
o Гипотезы: H0: средний вес деталей = 50 г, H1: средний вес деталей <> 50 г
o Для проверки H0 сделана выборка из N=100 деталей, Xср = 51.3 г
o Схема проверки:
– строим выборочное распределение в предположении истинности H0
– определяем критические значения X из условия P(| µ - Xcp | > dx) = a
– если | µ – Xcp | > dx,
то H0 отвергается µ := 50 N := 100 σ := 5
на уровне
dx := qnorm 1 − , 0 , σXcp 
σ α
значимости α , σXcp := = 0.5 α := 5% dx = 0.98
иначе - нет N  2 
оснований ее
отвергнуть µ− dx µ+ dx

– В данном случае: 0.6


Xcp - µ = 1.3 г > dx, µ − dx = 49.02 µ + dx = 50.98
H0 – отвергаем, (
dcrit x, µ , σ Xcp , α )
принимаем H1 (
dnorm x, µ , σ Xcp ) 0.4

0.2 α α
2.5% 2.5%
2 dx dx 2

0
48 49 50 51 52
28
x
p-значения
o p-значение – это вероятность того, что выборочная статистика, полученная из
распределения, окажется не меньше найденной по выборке
o В предыдущем примере – вероятность того, что отклонение от среднего dx
превысит найденное по выборке значение | 51.3 – 50 | = 1.3
o Малое значение p свидетельствует о низком правдоподобии H0, в примере p =
0.0093, поэтому с вероятностью 1-p ~ 1 мы не ошибемся, отвергнув H0.
o Равносильное утверждение: p – минимальный уровень значимости, с которым
может быть отвергнута гипотеза H0.
o p-значения очень удобны, поскольку не требуют использования таблиц
критических значений для проверочных статистик

− dx dx 0.8
p ( dx, σ) := 2⋅ ( 1 − pnorm( dx, 0 , σ) )
0.6 0.6
(
dcrit x, 0 , σ Xcp , α ) (
p dx, σ Xcp )
( )
p 1.3, σXcp = 0.0093
(
dnorm x, 0 , σ Xcp ) 0.4 0.4

0.2 P ( 1 − F( dx) ) ⋅ 2 0.2

0
−2 −1 0 1 2 0 1 2 3
x dx

29
Пример проверки гипотезы
(1-сторонний критерий)
o Задача:
Проверить, верно ли, что среднее суммы баллов студентов на вступительных экзаменах по-прежнему равно
500, или оно меньше. СКО совокупности неизвестно и оценивается по выборке
o Гипотезы: H0: средняя сумма баллов >= 500, H1: средняя сумма баллов < 500
o Для проверки H0 сделана выборка из N=15 студентов, Xср = 475, S = 35.
o Предполагая распределение совокупности нормальным, для описания выборочного распределения
используется t-распределение. Статистика критерия:

X −µ X − µ 475 − 500
t= = = = −2.766
σ/ N S/ N 35 / 15
o Критическое значение
t-критерия определяется для t t crit t-статистика –
α = 5% и df = N-1 = 14, нормализованное
tкрит = -1.761 t = −2.766 t crit = −1.761 отклонение от
0.4 среднего
o p-значение – вероятность (
tcrit t , N − 1 , α ) p ( t , N ) := pt ( t , N )
получить из t-распределения
отклонение от 0 больше
(
dt t , N − 1 ) p ( t , N − 1) = 0.008

полученной по выборке (
dnorm t , 0 , 1 )
t-статистики 0.2

p = 0.008, H0 - отвергаем

−4 −2 0 2 4
t
30
Проверка гипотез о значимости
коэффициентов регрессии
o Задача: по выборке, представленной таблицей наблюдений, проверить гипотезу
о равенстве нулю углового коэффициента регрессионной прямой совокупности:
Y = β 0 + β1 X + ε
o Гипотезы:
H 0 : β1 = 0 H1 : β1 ≠ 0
o Выборочная статистика: b1 s y⋅ x
t= sb =
sb ( X −X)
2
o В примере: b1 −0.969
t= = = − 4.842
o sb для α0.2
Критическое значение = 1%, df = 10-2 = 8: t0.005=3.355
o |t| > tкрит => гипотеза H0 отвергается, коэффициент регрессии значим
o Проверка с использованием p-значения (Sig.) p = 0.001 => гипотеза H0
отвергается на уровне значимости 0.1%

31
Проверка значимости регрессии
при помощи таблицы ANOVA
o Гипотезы: H 0 : β1 = 0 H1 : β1 ≠ 0

MSR
o Выборочная статистика: β1 = 0 ⇒ F =
MSE
o При справедливости H0 имеет F-распределение с числом степеней свободы:

df ( MSR ) , df ( MSE )
o при β 1=0 MSR и MSE оценивают дисперсию ошибки ε , если β 1<>0, то MSR>MSE
o При уровне значимости a гипотеза отклоняется при F > Fα и dfMSR, dfMSE

F.95 =5.3
F.99 =11.3

32
Допущения модели линейной регрессии
o Статистическая модель линейной регрессии основана на следующих
допущениях:
– Для заданного X генеральная совокупность значений Y нормально
распределена относительно регрессионной прямой совокупности,
параметры распределения (µ Y,σ )
– СКО генеральной совокупности относительно регрессионной
прямой совокупности всюду постоянно (σ =const), нарушение этого
предположения - гетероскедастичность
– Слагаемые ошибок ε независимы между собой. Это
предположение часто нарушается, если точки данных
записывались в течение нескольких периодов времени (серийная
корреляция)
– В генеральной совокупности существует линейная зависимость
между X и Y

33
Схема анализа остатков модели
o Для проверки справедливости допущений статистической модели
регрессии выполняется анализ остатков:
1. Проверить нормальность (гистограмма, график P-P или Q-Q)
2. Проверить независимость остатков от X (график остатки – X)
3. Проверить независимость остатков от прогнозируемой величины Yˆ

Дисперсия остатков увеличивается с ростом Yˆ


– Для данных временного ряда требуются дополнительные проверки:
– независимость остатков от времени (график остатки – t)
– независимость остатков между собой (АКФ, тест Дарбина-Уотсона на
серийную корреляцию)

34
Построение модели простой линейной
регрессии в SPSS
o Подготовка набора данных, проверка типов и шкал измерения
переменных
• Для построения модели данные должны
иметь количественный тип (Numeric) и
интервальную шкалу (Scale).
• Двоичные (1-0) переменные в
номинальной шкале также могут
использоваться как факторы в
регрессионной модели (фиктивные
переменные)

35
Отбор наблюдений
o Если переменная содержит данные для нескольких объектов, то данные
можно:
– отобрать (Data>Select Cases>[задать условие отбора]

– расщепить (Data>Split File)>[выбрать переменную или набор переменных,


для каждого значения которой будет создана отдельная группа]

36
Исследование корреляций
o Корреляционная матрица (Analysis>Correlate>Bivariate)

o Данные в таблице
– Pearson Correlation – коэффициент корреляции Пирсона r
– Sig – p-значение для проверки гипотезы о r = 0
– N – число наблюдений, по которым производился расчет
– * - корреляции, значимые на уровне 5%, ** - значимые на уровне 1%

37
Исследование корреляций
o Матрица диаграмм рассеяния (Graphs>…>Matrix Scatter)
o Диаграмма рассеяния (Graphs> … > Simple Scatter)

38
Построение уравнения регрессии
o Analyze>Regression>Linear
– Отобрать зависимую (Dependent) и независимые (Independents) переменные
– Method – метод включения независимых переменных (Enter = принудительное
включение)
– Case Labels – метки
наблюдений: если есть
идентификаторы объектов,
можно пометить ими
наблюдения (в таблицах
и на графиках)

39
Настройка вывода статистик
o [Statistics…] Linear Regression>Statistics – настройка выводимых в отчет
таблиц со статистическими характеристиками модели
o Regression Coefficients
– [x] Estimates – выводить оценки коэффициентов уравнения
– [x] Confidence intervals / Level – выводить доверительные интервалы для
коэффициентов, доверительная вероятность
o Residuals
– [x] Casewise diagnostics –
обнаружение выбросов
(за пределами n стандартных
отклонений)

40
Анализ модели
o Model Summary - Сводка о статистических характеристиках модели
• R – коэфициент корреляции
• R Square – коэффициент
детерминации R2
Std. Error of the Estimate – стандартная
ошибка оценки, syx

o ANOVA – Таблица дисперсионного анализа

• Sum of Squares - суммы квадратов: объясненная (Regression), необъясненная


(Residual) и общая (Total) суммы квадратов (разложение дисперсии)
• df - Число степеней свободы
• Meand Square - Средний квадрат = SSx/dfx, для остатков M.S.Residual = syx 2
• F – статистика для проверки значимости регрессии = MSR/MSE, степени свободы - df
• Sig. – p-значение для проверки гипотезы о незначимости регрессии (угловой
коэффициент равен нулю => нет связи между переменными). Регрессия в примере
41
значима на уровне p=0.6%, следует отвергнуть гипотезу об отсутствии связи
Коэффициенты уравнения регрессии
o Coefficients – коэффициенты модели и их статистические характеристики

o Model – константа + список переменных, включенных в модель, коэффициенты в строках таблицы


соответствуют этим переменным
o Unstandardized Coefficients – непреобразованные коэффициенты (в таком виде они включаются в
уравнение)
– B – значение коэффициента
– Std. error – стандартная ошибка
o Standardized Coefficients – коэффициенты для уравнения с нормализованными факторами
(Z = (x-xcp )/sx) – используются для сопоставления степени влияния отдельных переменных
o t – статистика для проверки значимости коэффициента, t = b/sb
o Sig – p-значение для проверки гипотезы о незначимости коэффициента (bi = 0), в данном примере b0
незначим, коэффициент b1 значим на уровне 0.06%
o P% Confidence interval for B – границы доверительного интервала для коэффициента bi. Если интервал
включает 0, то коэффициент незначим, в данном случае b0 незначим

42
Уточнение модели
o Если константа b0 незначима, можно построить модель без ее учета
– [Options…] в диалоге Linear Regression
– [ ] Include constant in equation
o Результаты оценки модели без учета b0

43
Сохранение результатов
o [Save…] Сохранить оценки, полученные по уравнению, доверительный интервал и остатки в
переменные
o Prediction Values - оценки
– Unstandardized – непреобразованные
(полученные из уравнения для независимых
переменных, для каждого наблюдения)
– Standardized – нормализованные
– Adjusted – прогноз для данного наблюдения
по модели, не учитывающей это наблюдение
– S.E. of mean predictions – стандартная
ошибка прогноза для данного значения
зависимой переменной
o Residuals – Остатки
– Unstandardized - непреобразованные
– Standardized – нормализованные с учетом syx
– Studentized – нормализованные с учетом sf
– Deleted – полученные по модели,
не учитывающей данное наблюдение
– Studentized deleted – то же, + нормализация
o Prediction Intervals – доверительные интервалы
– Mean – полученный на основе стандартной sf
– Confidence Interval – уровень значимости

44
Вывод графиков для остатков модели
o [Plots…] Вывести в отчет графики для анализа остатков модели
o Standartized Residual Plot
– [x] Histogram – гистограмма остатков
– [x] Normal Probability Plot – график P-P для проверки нормальности остатков
o Scatter _ of _ - диаграмма рассеяния для оценки дисперсии остатков
– ось X: ZPRED – нормализованное значение оценки
– ось Y: ZRESID или SRESID – нормализованный или стьюдентизированный
остаток

45
Диаграммы рассеяния для модели
o Качество модели можно визуально оценить по диаграмме рассеяния

< Модель без константы

Модель с константой >


46
Анализ остатков
o Проверка нормальности с помощью гистограммы

Модель без константы Модель с константой

47
Анализ остатков
o Проверка нормальности с помощью P-P графика

Модель без константы Модель с константой

48
Анализ остатков
o Проверка равенства дисперсий (отсутствия
гетероскедастичности) с помощью графика Остаток-Оценка

Модель без константы Модель с константой

49
Анализ остатков
o Проверка равенства дисперсий (отсутствия
гетероскедастичности) с помощью графика
Остаток-Независимая переменная

50
Анализ остатков
o Проверка независимости остатков с помощью графика
Остаток-Номер наблюдения

51
Преобразование переменных
o Для исключения нелинейной зависимости между переменными можно
строить уравнение регрессии для преобразованных переменных:

– ln Y = b0+b1 X
– X -> 1/X , log(X),
sqrt(X), X2

52
Анализ остатков

до после
преобразования преобразования

53
Пример преобразования переменных
Исходные данные

54
Пример преобразования переменных
X -> sqrt(X)

55
Пример преобразования переменных
X -> lg(X)

56
Пример преобразования переменных
X -> 1/X

y = 4.3 – 12.7 / X

57