Открыть Электронные книги
Категории
Открыть Аудиокниги
Категории
Открыть Журналы
Категории
Открыть Документы
Категории
330.43 (075.8)
ББК 65в631я73
В19
Рецензенты:
кандидат технических наук, доцент Н. В. Лапицкая;
кандидат экономических наук, доцент А. Б. Гедранович
Васенкова, Е. И.
В19 Практикум по эконометрике : учеб.-метод. пособие / Е. И. Васен-
кова, Ю. Г. Абакумова, С. Ю. Бокова. – Минск : БГУ, 2015. – 139 c.
ISBN 978-985-566-206-9.
© Васенкова Е. И.,
Абакумова Ю. Г.,
Бокова С. Ю., 2015
ISBN 978-985-566-206-9 © БГУ, 2015
ПРЕДИСЛОВИЕ
3
Основой для изучения эконометрики являются дисциплины «Теория
вероятностей и математическая статистика», «Статистика», «Макроэко-
номика», «Международная экономика», «Экономическая теория», «Ми-
кроэкономика».
Данное учебно-методическое пособие знакомит студента с базовыми
понятиями и методами современной эконометрики. В первой главе рас-
сматриваются линейные регрессионные модели, их построение, оценка
и возможности применения в экономике. Вторая глава посвящена мето-
дам оценки и построения регрессионных моделей в условиях нарушения
стандартных предположений линейной модели регрессии, встречающих-
ся при моделировании экономических ситуаций и при анализе эконо-
мических данных, обсуждаются корректировки регрессионной модели
для описания таких ситуаций. В издании представлены тестовые задания
для самоконтроля пройденного материала по всем темам курса и прак-
тические задания, составленные с учетом проблем экономики и стати-
стических данных, решение которых, как и проведение небольших са-
мостоятельных исследований, должно стимулировать интерес студентов
к предмету и быть неотъемлемым компонентом современного экономи-
ческого образования.
1.
КЛАССИЧЕСКАЯ ЛИНЕЙНАЯ
РЕГРЕССИОННАЯ
МОДЕЛЬ
5
Модель классической линейной регрессии строится в предположе-
нии линейности функции f по следующим параметрам:
y = β0 + β1 x1 + β2 x2 + ... + βm xm + εt , (1.2)
где y – эндогенная (зависимая, объясняемая) переменная; x = ( x1; x2 ; ...;
x = ( x1; x2 ; ...; xm ) – экзогенные (независимые, объясняющие, регрессоры)
переменные; x – вектор регрессоров; et – случайные отклонения (остат-
ки, ошибки) модели; θ = (β0 ; β1; β2 ; ...; βm ) – параметры (коэффициенты)
модели множественной линейной регрессии (МЛР).
Пусть дана выборка объемом n наблюдений переменных y и
x = ( x1; x2 ; ...; xm ). Тогда в каждом наблюдении t имеет место линейная
регрессионная зависимость согласно (1.2):
yt = b0 + b1 x1t + b2 x2t + ... + bm xmt + et , (1.3)
7
•• объясненная сумма квадратов отклонений (explained sum of squares)
n
ESS = ∑ ( y^t − y )2 и соответствующая ей объясненная дисперсия с учетом
t =1
степеней свободы νESS = m;
•• остаточная, или необъясненная, сумма квадратов отклонений (residual
n n
sum of squares) RSS = ∑ ( yt − y^t )2 = ∑ et2 и соответствующая ей необъяс-
t =1 t =1
ненная дисперсия с учетом степеней свободы νRSS = n − m −1.
Для квадратичных сумм выполняется тождество TSS = ESS + RSS.
Остаточная, или необъясненная, дисперсия является выборочной не-
смещенной оценкой S2 дисперсии случайных отклонений регрессии, а
величина, получаемая после извлечения квадратного корня, называется
стандартной ошибкой регрессии:
n n
∑( yt − ^yt )2 ∑ et2 RSS
t =1 t =1
S2 = = = . (1.4)
n − m −1 n − m −1 n − m −1
По определению коэффициент детерминации как доля объясненной
дисперсии находится по формуле
n
ESS RSS
∑( yt − ^yt )2
t =1
R2 = =1− =1− n
. (1.5)
TSS TSS
∑( yt − y ) 2
t =1
Коэффициент детерминации для регрессионной модели со свобод-
ным членом принимает значения от 0 до 1. Чем ближе значение R2 к еди-
нице, тем сильнее зависимость и выше общее качество модели. В случае
парной линейной регрессии коэффициент детерминации равен квадрату
коэффициента парной корреляции между переменными.
В случае парной линейной регрессии (m = 1) оценки параметров урав-
нения (1.2) с помощью метода наименьших квадратов могут быть полу-
чены по формулам
xy − xy
b1 = 2 ;
x − x2 (1.6)
b = y − b x .
0 1
8
xy − xy cov( x; y)
b1 = 2 =
x − x 2 S x2 Sy
⇒ b1 = corr( x; y) . (1.7)
cov( x; y) Sx
corr( x; y) =
S S
x y
2
D(b=
0 ) S=
b0 Sb21 x 2 , (1.9)
где по аналогии со стандартной ошибкой регрессии Sb0 , Sb1 называют
стандартными ошибками коэффициентов.
В случае рассмотрения множественной линейной регрессии целесо-
образно использовать методы матричного исчисления. Матричное пред-
ставление модели (1.2) может быть получено введением следующих обо-
значений:
β0
y1 β 1 x11 x21 … xm1 ε1
y 1
1 x x … x ε
y = 2 ; B = β2 ; x= 12 22 m2
; ε = 2 .
y
1 x1n x2 n … xmn ε
n β n
m
B = ( X T X )−1 X T Y . (1.10)
9
Sb20 cov(b0 ; b1 ) … cov(b0 ; bm )
cov(b0 ; b1 ) Sb21 … cov(b1; bm )
Z = S 2 ( X T X )−1 = . (1.11)
cov(b0 ; bm ) cov(b1; bm ) … Sb2m
10
чение t-статистики гипотезы; tкрит = t (α 2; n − m − 1) – значение критиче-
ской точки распределения Стьюдента при уровне значимости a и значе-
нии степеней свободы n = n – m – 1.
Если tbi < tкрит , то нулевая гипотеза не отклоняется и соответствую-
щий параметр считается статистически незначимым, в противном случае
если tbi ≥ tкрит – нулевая гипотеза отклоняется в пользу альтернативной
и параметр модели bi является статистически значимым.
В том случае, когда нулевая гипотеза не отклоняется, делается вывод,
что соответствующий коэффициент bi не отличается значимо от нуля, а
значит, фактор xi линейно не связан с результирующей переменной y.
Не оказывая значимого влияния на зависимую переменную, он может
искажать реальную картину взаимосвязи. Поэтому после выявления ста-
тистической незначимости коэффициента bi переменную xi предлагается
исключить из уравнения линейной регрессии, так как это не приведет к
существенному искажению качества модели, а сделает ее более точной.
При достаточном количестве наблюдений в выборке проверку гипо-
тезы о статистической незначимости коэффициентов с помощью точек
распределения Стьюдента можно заменить так называемым «грубым пра-
вилом», основанным на простом сравнительном анализе:
•• если t ″≤11, т. е. bi < Sb , то коэффициент можно считать статистиче-
i
ски незначимым. Доверительная вероятность при двусторонней альтер-
нативной гипотезе не будет превышать в таком случае P = 0,70;
•• если 1 < t ≤ 2 , т. е. bi < 2Sbi , то коэффициент можно считать отно-
сительно (слабо) значимым. В данном случае рекомендуется воспользо-
ваться таблицей критических точек распределения Стьюдента, коэффи-
циент bi может оказаться статистически значимым при уровне α = 0,10:
доверительная вероятность 0,70 < P < 0,95;
•• если 2 < t ≤ 3, то коэффициент статистически значим. Это утверж-
дение является гарантированным при условии n − m − 1 > 20 и для α ≥ 0,05:
доверительная вероятность 0,95 < P < 0,99;
•• если t > 3, то коэффициент считается сильно статистически значи-
мым (при α ≥ 0,01). Вероятность ошибки в данном случае при достаточ-
ном числе наблюдений не превосходит 0,001.
К анализу значимости коэффициента bi можно подойти по-другому,
используя его интервальную оценку, или доверительный интервал. Дове-
рительные интервалы коэффициентов bi, которые с надежностью (1 – a)
накрывают определяемые параметры bi, находятся по формуле
(b − t(α 2; n − m − 1)S ;
i bi )
bi + t (α 2; n − m − 1)Sbi . (1.13)
11
Для того чтобы определить, при какой переменной коэффициент
оказывает наибольшее влияние на изменение эндогенной переменной y,
используют стандартизированные коэффициенты регрессии bi , характе-
ризующие, насколько изменится стандартное отклонение переменной y
при изменении xi на одно стандартное отклонение. Очевидно, что стан-
дартизированные коэффициенты регрессии bi связаны с понятием эла-
стичности фактора y по фактору xi в средней точке:
S xi
bi = bi , (1.14)
Sy
xi
=
Эi Э=
yxi bi , (1.15)
y
где bi показывает, на сколько величин отклонений Sy изменится в среднем
эндогенная переменная y при увеличении i-й экзогенной переменной xi на
одно стандартное отклонение S xi . Коэффициент эластичности в средней
точке Эi показывает, на сколько процентов от своей средней величины из-
менится значение эндогенной переменной y при увеличении экзогенной
переменной xi на один процент относительно своего среднего значения.
Гипотеза о равенстве коэффициента уравнения регрессии некоторому
заданному числу. Нулевая гипотеза H0 формулируется в предположении о
том, что теоретический коэффициент регрессионной модели βi , i = 0, m ,
может принимать некоторое ожидаемое значение a = const, альтернатив-
ная гипотеза H1 может быть как двусторонней, так и односторонней (пра-
восторонней, левосторонней):
H 0 : βi = α;
H1 : βi ≠ α (βi > α, βi < α).
Гипотеза, как и в случае проверки статистической незначимости па-
раметров, проверяется на основе t-статистики (статистика Стьюдента):
b − a bi − a
tbi = i = , (1.16)
Sbi − a Sbi
значение которой в случае двусторонней альтернативной гипотезы срав-
нивается со значением критической точки tкрит = t (α 2; n − m − 1) , в случае
односторонней гипотезы – с tкрит = t (α; n − m − 1) и tкрит = t (1 − α; n − m − 1) = −t (α; n − m
− α; n − m − 1) = −t (α; n − m − 1) соответственно.
Гипотеза о линейном ограничении, или линейной комбинации, коэффи-
циентов. Нулевая гипотеза H0 формулируется в предположении о том,
что существует линейная комбинация коэффициентов регрессии bi и bj
i ≠ j; i = 0, m; j = 0, m, т. е. для модели выполняется линейное ограничение
12
cβi + dβ j = a, {c, d , a} = const, альтернативная гипотеза H1, как правило,
формулируется двусторонней:
H 0 : cβi + dβ j = α ;
H1 : cβi + dβ j ≠ α ;
cbi + db j − a cbi + db j − a
t= = ~ tкрит = t (α 2; n − m − 1), (1.17)
Scbi + db j − a Scbi + db j
2
где Scbi + db j = Scbi + db j
= c 2 Sb2i + d 2 Sb2j + 2cd cov(bi ; b j ) находится с помо-
щью свойств дисперсии и ковариации.
Например, с помощью гипотезы о линейном ограничении может быть
проверено предположение о равенстве двух коэффициентов регрессии:
H 0 : β1 = β2 ⇔ β1 − β2 = 0;
H1 : β1 ≠ β2 ;
b1 + b2 b1 + b2
t= = ~ tкрит = t (α 2; n − m − 1) . (1.18)
Sb1 + b2 Sb21 + Sb22 + 2 cov(b1; b2 )
13
Статистическая значимость коэффициента детерминации модели
линейной регрессии с m факторами проверяется на основе F-статистики
(статистика Фишера):
R2 m
F= ~ F (m; n − m − 1), (1.19)
(1 − R 2 ) (n − m − 1)
которая сравнивается с критической точкой Fкрит = F (α; m; n − m − 1) –
значение критической точки распределения Фишера при уровне значи-
мости α и значениях степеней свободы ν1 = m, ν2 = n − m − 1.
Если справедлива нулевая гипотеза, то это свидетельствует о совокуп-
ной статистической незначимости коэффициентов при экзогенных пере-
менных, т. е. β1 = β2 = ... = β m = 0, модель не может быть признана адекват-
ной, ее дальнейший анализ и применение нецелесообразны. В противном
случае, если справедлива гипотеза H1, построенная модель статистически
адекватна и ее общее качество может быть охарактеризовано непосред-
ственно значением R2.
Используя определение коэффициента детерминации, статистику
можно переписать для проверки гипотезы о равенстве объясненной и не-
объясненной дисперсий:
ESS ESS
m m
R2 m TSS TSS
F= = = =
(1 − R 2 ) (n − m − 1) 1 − ESS (n − m − 1) TSS − ESS (n − m − 1)
TSS TSS
ESS
m
TSS ESS m
= = . (1.20)
RSS RSS RSS (n − m − 1)
(n − m − 1)
TSS TSS
Для множественной регрессии R2 является неубывающей функци-
ей числа экзогенных переменных. При добавлении новой объясняющей
переменной значение R2 не уменьшается. Каждая следующая добавлен-
ная в рассмотрение экзогенная переменная может лишь дополнить, но
никак не сократить информацию, объясняющую поведение зависимой
переменной.
При расчете коэффициента детерминации используется остаточная
дисперсия RSS, которая имеет систематическую ошибку, уменьшающую-
ся при большем количестве факторов в уравнении регрессии при задан-
ном объеме наблюдений n. Если число параметров (m + 1) приближается
к n, то остаточная дисперсия будет стремиться к нулю и значение коэф-
фициента детерминации приблизится к единице даже при слабой связи
14
факторов. Это явилось основанием для рассмотрения такой числовой ха-
рактеристики, как скорректированный, или исправленный, коэффици-
ент детерминации R 2 , отличающийся поправкой на число степеней сво-
боды остаточной и общей дисперсий соответственно:
n
∑ et2 (n − m − 1)
RSS (n − m − 1)
2 t =1
R =1− =1− . (1.21)
n TSS (n − 1)
∑( yt − y ) 2
(n − 1)
t =1
15
ется лишь как один из показателей, который нужен для анализа адекват-
ности модели, например чтобы обосновать необходимость изменения
спецификации.
Гипотеза о равенстве двух коэффициентов детерминации вложенных
моделей. Данная гипотеза позволяет сравнить эконометрические модели,
каждая из которых может быть получена путем наложения ограничений
на параметры другой модели. Такой тест применяется при проверке ги-
потезы об одновременном (совокупном) равенстве нулю не всех коэффи-
циентов регрессии одновременно, а только некоторых из них. Это позво-
ляет на практике оценить обоснованность исключения или добавления в
уравнение регрессии некоторых наборов факторов, что особенно важно
при усовершенствовании линейной регрессионной модели.
Пусть для выборки из n наблюдений получено уравнение регрессии
вида
A: yt = b0 + b1 x1t + b2 x2 t + ... + bm xmt + ut ,
20
(0,913; 0,953).
Длина доверительного интервала 0,04.
(0,139; 1,145).
Длина доверительного интервала 1,006.
21
Все коэффициенты в модели статистически незначимы для любо-
го уровня значимости.
В модели статистически значимы на 3 % уровне коэффициенты
при переменных Inc, Aged и Tobc.
22
Нулевая гипотеза о том, что коэффициент при переменной Pov
в 10 раз больше, чем коэффициент при Alc, взятый с противо-
положным знаком, не отклоняется, так как соответствующая
F-статистика равна 1,987 и сравнима с нулем.
Нулевая гипотеза о том, что коэффициент при переменной Pov
в 10 раз больше, чем коэффициент при Alc, взятый с противо-
положным знаком, не отклоняется, так как соответствующая
t-статистика равна –0,0987 и сравнима с нулем.
Нулевая гипотеза о том, что коэффициент при переменной Pov в
10 раз больше, чем коэффициент при Alc, взятый с противополож-
ным знаком, отклоняется, так как только один из этих коэффици-
ентов является статистически значимым.
Поскольку коэффициент при переменной Pov незначим, то для
проверки гипотезы о том, что коэффициент при переменной Pov
в 10 раз больше, чем коэффициент при Alc, взятый с противопо-
ложным знаком, корректно было бы использовать F-статистику,
построив соответствующую модель с линейным ограничением.
24
18. C какой целью можно использовать приведенные фиктивные пе-
ременные в модели множественной линейной регрессии, построенной по
квартальным данным (k – номер некоторого наблюдения из выборки)?
1, если t ≥ tk ; 1, если t = 2,6,10,14,18 ...;
F1t = F2 t =
0, если t < tk ; 0, для остальных значений t .
Для моделирования сезонности в первом квартале.
Для моделирования аддитивных выбросов.
Для моделирования структурных сдвигов.
Для моделирования изменений линии тренда.
Для моделирования сезонности во втором квартале.
25
Для модели зависимости расходов на питание от доходов харак-
терна сезонность в I квартале, так как соответствующая фиктив-
ная переменная, при введении ее в модель, статистически значи-
ма на 1 % уровне.
Для модели зависимости расходов на питание от доходов характер-
на сезонность в I квартале, так как значение F-статистики, сравни-
вающей коэффициенты детерминации этих моделей, равно 31,25
и превосходит критическое значение F(0,05) = 4,04.
Для модели зависимости расходов на питание от доходов харак-
терна сезонность в I квартале, так как при введении соответству-
ющей фиктивной переменной в модель увеличивается статистиче-
ская значимость переменной доходов (уменьшается Р-вероятность
коэффициента).
Для модели зависимости расходов на питание от доходов харак-
терна сезонность в I квартале, так как при введении соответству-
ющей фиктивной переменной в модель увеличивается коэффи-
циент детерминации.
Практические задания
= 0,3505 = 0,592.
Нулевая гипотеза не отклоняется, следовательно, предположение о
равенстве коэффициентов при переменных Save и Pay является верным.
Возможно рассмотреть новую модель регрессии при данном линейном
ограничении.
29
Foodt = −96, 45 + 0, 684Waget − 0,34Savet + et ; R 2 = 0,813;
(t ) (−4,71) (21,1) (−2, 97)
t (0, 025; 96) = 1, 985;
F (0, 05; k; n − m − 1) = F (0, 05; 1; 96) = 3, 94.
Соответствующая статистика и вывод по проверяемой гипотезе:
H 0 : R12 = R22 ;
0,818 − 0,813 96
F= = 2,64 < F (0, 05; 1; 96) = 3, 94 ⇒ H 0 .
1 − 0,818 1
Исключение переменной Pay было обоснованным, так как общее ка-
чество модели, характеризуемое величиной коэффициента детермина-
ции, не ухудшилось.
Foodt = −96, 45 + 0, 684Waget − 0, 45Payt + et ; R 2 = 0,784;
(t ) (−4,71) (21,1) (−1, 27)
t (0, 025; 96) = 1,985;
F (0, 05; k; n − m − 1) = F (0, 05; 1; 96) = 3, 94.
Соответствующая статистика и вывод по проверяемой гипотезе:
H 0 : R12 = R32 ;
0,818 − 0,784 96
F= = 17,934 > F (0, 05; 1; 96) = 3, 94 ⇒ H1 .
1 − 0,818 1
Исключение переменной Save было необоснованным, так как общее
качество модели, характеризуемое величиной коэффициента детерми-
нации, ухудшилось.
30
1. Проверьте значимость вектора β ′ = (β1, β2 , β3 ) в регрессии без огра-
ничений.
2. Проверьте гипотезу β1 = β3 при условии, что cov(β1; β3 ) = −1.
3. Можно ли проверить ограничение β1 = β3, используя F-статистику?
Задание 1.4. Для изучения динамики объема производства (y, k, l – на-
туральные логарифмы выпуска, трудозатрат и капиталовложений фирм
некоторой отрасли соответственно) построены по годовым данным с
1975 г. две модели:
A : Y^ = 1,5229 + 0, 425k;
t R 2 = 0,84;
(S ) (0,162)
Экзогенные Регрессии
переменные 1 2 3 4
константа 5,165 5,111 5,124 5,166
(2,083) (2,052) (2,042) (2,074)
X1 0,094 0,097 0,101 0,103
(0,026) (0,028) (0,031) (0,033)
X2 0,146 0,142 0,132 0,121
(0,036) (0,030) (0,028) (0,033)
D _ 2,34 _ 1,317
(1,562) (1,008)
32
Окончание табл. 1.1
Экзогенные Регрессии
переменные 1 2 3 4
DX1 – – 0,033 0,025
(0,009) (0,011)
DX2 – – 0,077 0,069
(0,039) (0,036)
R2 0,321 0,322 0,361 0,362
RSS 714,5 706,9 672,5 672,5
n 1755 1755 1755 1755
Fнабл =
( )
RSS(1) − RSS(5) + RSS(6) (m + 1)
~ F ( m + 1; n − 2(m + 1)).
(RSS(5) + RSS(6) ) (n − 2(m + 1))
Значения остаточных сумм согласно таблице условия: RSS(1) = 714,5;
RSS(5) = 411; RSS(6) = 261,6.
714,5 − (411 + 261,6) (2 + 1) 13,96(6)
Fнабл = = = 36,3183;
(411 + 261,6) (1755 − 2(2 + 1)) 0,38456
Fкрит = F (0, 05; 3; 1749) = 2,61.
Поскольку Fнабл > Fкрит, то нулевая гипотеза отклоняется в пользу аль-
тернативной, что подтверждает предположение о том, что регрессионные
модели логарифма недельной оплаты труда различаются для занятых в
частном и государственном секторах экономики.
36
Задание 1.7. Проведено исследование сельскохозяйственной произ-
водственной функции Кобба – Дугласа Y = A × K α × Lβ × e ε в виде ре-
грессионной модели lnY = β0 + β1lnK + β2 lnL + εt , где Y – объем выпуска
продукции, L – трудозатраты и K – капиталовложения. Оцененное урав-
нение регрессии имеет вид
1 : lnY = 0,65 + 0,33 ln K + 0, 68 lnL; R 2 = 0, 750; n = 50;
(S ) (0,14) (0,13) (0,32) RSS = 400.
Для проверки ограничения β1 + β2 = 1 оценили регрессию вида
Переход к переменной вида ln(L /K) возможен в том случае, если ко-
эффициенты при экзогенных переменных имеют противоположные зна-
ки, т. е. β1 − 1 = −β2 или β1 + β2 = 1:
ln(Y K ) = β0 + (β1 − 1)ln K + β2 ln L + e ⇔
⇔ ln(Y K ) = β0 − β2 ln K + β2 ln L + e ⇔
⇔ ln(Y K ) = β0 + β2 ln( L K ) + e – модели регрессии 2 в общем виде,
из модели регрессии 1 при выполнении условия β1 + β2 = 1, которое явля-
ется линейным ограничением.
Все сельскохозяйственные предприятия были разбиты на две группы
по определенному признаку. Для каждой группы предприятий были оце-
нены уравнения регрессии.
Первая группа предприятий:
3 : lnY = 0,50 + 0,30 ln K + 0, 65 ln L; R 2 = 0,88; n = 20;
(S ) (0,12) (0,14) (0,30) TSS = 1100; cov(b1, b2 ) = −0, 010.
37
Вторая группа предприятий:
4 : lnY = 0,70 + 0,35 ln K + 0,75 ln L; R 2 = 0,85; n = 30;
(S ) (0,16) (0,15) (0,31) TSS = 1500; cov(b1, b2 ) = −0, 058.
2. Проверьте предположение о том, что производственные функции
двух групп предприятий различны при a = 0,10.
Для проверки предположения будем использовать тест Чоу (Chow):
H 0 : RSS(1) = RSS(3) + RSS(4) ⇔ между ПФ нет различий;
H1 : RSS(1) > RSS(3) + RSS(4) ⇔ есть различия между ПФ.
F=
(
RSS(1) − RSS(3) + RSS(4) ) (m + 1)
~ F ( m + 1; n − 2(m + 1)).
(RSS(3) + RSS(4) ) (n − 2(m + 1))
Для модели регрессии 1: RSS(1) = 400, найдем остальные значения
остаточных сумм для моделей регрессий 3 и 4:
( )
RSS(3) = 1 − R(23) TSS(3) = (1 − 0,88)1100 = 132;
RSS(4) = (1 − R )TSS
2
(4) (4) = (1 − 0,85)1500 = 225.
39
дели в части статистической значимости коэффициентов. Проверьте ги-
потезу о равенстве старшего коэффициента регрессии числу 10.
3. Спрогнозируйте по модели показатель выполнения норм выработ-
ки при условии x = 755. Оцените ошибку такого прогноза.
Как будет изменяться рассмотренный показатель, если заработная
плата снизится на 7 у. е.?
На сколько процентов относительно своего среднего значения изме-
нится выполнение нормы выработки, если заработная плата будет уве-
личена на 12 % относительно своего среднего значения?
4. Используя полученные оценки коэффициентов, найдите опти-
мальный уровень заработной платы в смысле максимума выполнения
нормы выработки.
Таблица 1.4
t xt yt t xt yt
1 960 102,8 7 777 104,6
2 285 72,6 8 470 87,6
3 512 84,9 9 917 148,3
4 755 108,2 10 594 95,2
5 559 93,3 11 855 122,9
6 867 115,5 12 689 104,4
40
Окончание табл. 1.5
Объем Объем
Доход Доход
Год Квартал продаж Год Квартал продаж
VOL INC VOL INC
1978 I 340,2 16 1979 I 406,2 22,6
II 377,5 22,1 II 436,4 26,8
III 376,9 20,4 III 437,5 24,8
IV 401,8 22,6 – – –
Рис. 1.1
Используя принятые в таблице обозначения, оценим параметры ре-
∧
грессии INCt = β0 + β1 VOLt .
Модель 1
Зависимая (эндогенная) переменная INC
Количество наблюдений 23
Переменная Коэффициент Ст. ошибка t-стат. P-вероятн.
Константа C –5,055748 1,682014 –3,005770 0,0067
Независимая (экзогенная)
переменная VOL 0,069185 0,005124 13,50296 0,0000
Коэффициент детерминации 0,896720 F-статистика 182,3300
41
Полученные результаты подтверждают предварительный вывод: при
относительно небольшом числе наблюдений статистическая значимость
коэффициентов высокая.
Визуальный анализ графиков переменных INC и VOL позволил вы-
явить некоторую закономерность – повторяющиеся из года в год изме-
нения показателей в определенные промежутки времени, т. е. сезонные
колебания (рис. 1.2). Самые значительные сезонные колебания наблюда-
ются у переменной показателя INC во втором квартале каждого года (за
исключением 1975 г.). Исходя из этого введем сезонные фиктивные пе-
ременные и подтвердим наличие сезонных колебаний.
Рис. 1.2
Обозначим фиктивные квартальные переменные: Qit = 1, если наблю-
дение t относится к i-му кварталу, Qi = 0 в противном случае (i = 1, 2, 3, 4).
Оценим регрессию INC = β0 + β1 VOL + δ1 Q1 + δ 2 Q 2 + δ3 Q3 (фиктив-
ная переменная Q4 не включается в регрессию, чтобы избежать ситуа-
ции «dummy trap», или «ловушки фиктивных переменных», поскольку
Q1 + Q 2 + Q3 + Q 4 ≡ 1).
Модель 2
Зависимая (эндогенная) переменная INC
Количество наблюдений 23
Переменная Коэффициент Ст. ошибка t-стат. P-вероятн.
Константа C –4,874204 1,567747 –3,109051 0,0061
Независимая (экзогенная)
переменная VOL 0,067181 0,004542 14,79099 0,0000
Фиктивная переменная Q1 –0,329401 0,749311 –0,439605 0,6655
Фиктивная переменная Q2 1,766536 0,746032 2,367910 0,0293
Фиктивная переменная Q3 0,350255 0,745846 0,469607 0,6443
Коэффициент детерминации 0,933091 F-статистика 62,75527
42
Очевидно, что статистически значимым, т. е. отличным от нуля, яв-
ляется лишь коэффициент d2 при переменной Q2. Чтобы убедиться в
этом, можно использовать критические точки распределения Стью-
дента при уровне значимости a = 0,05 и значении степеней свободы
ν = n − m − 1 = 23 − 4 − 1 = 18, t крит = t (α 2; n − m − 1) = 2,101. Статистически
значимыми являются коэффициенты уравнения регрессии, для кото-
рых наблюдаемые значения t-статистик по модулю больше критическо-
го значения. При использовании значений доверительной вероятности,
или Р-вероятности, для статистической значимости коэффициента не-
обходимо, чтобы полученное значение Р-вероятности было меньше, чем
заданный уровень значимости a. Проведем соответствующий F-тест, что-
бы показать, что коэффициенты d1 и d3 совместно статистически незна-
чимы. Оценим регрессию INC на VOL и Q2.
Модель 3
Зависимая (эндогенная) переменная INC
Количество наблюдений 23
Переменная Коэффициент Ст. ошибка t-стат. P-вероятн.
Константа C –5,095777 1,421227 –3,585477 0,0018
Независимая (экзогенная)
переменная VOL 0,067897 0,004349 15,61037 0,0000
Фиктивная переменная Q2 1,750114 0,570329 3,068602 0,0061
Коэффициент детерминации 0,929780 F-статистика 132,4100
Модель 4
Зависимая (эндогенная) переменная INC
Количество наблюдений 23
Переменная Коэффициент Ст. ошибка t-стат. P-вероятн.
Константа C –4,501444 1,700725 –2,646780 0,0159
Независимая (экзогенная)
переменная VOL 0,066039 0,005237 12,61119 0,0000
Фиктивная переменная Q2 –0,356824 3,249849 –0,109797 0,9137
Фиктивная переменная Q2VOL 0,006406 0,009724 0,658844 0,5179
Коэффициент детерминации 0,931349 F-статистика 85,92022
46
нежели отрицательная. В большинстве случаев положительная автокор-
реляция вызывается направленным постоянным воздействием некоторых
неучтенных в регрессии факторов. Например, Y – спрос на прохладитель-
ные напитки; X – ежемесячный располагаемый доход. Фактические точ-
ки наблюдений и трендовая линейная модель представлены на рис. 2.1.
Рис. 2.1
Точки наблюдений в этом случае будут превышать трендовую линию
в летние периоды и будут ниже ее в зимние (что и видно из графика).
Отрицательная автокорреляция означает, что за положительным от-
клонением следует отрицательное, и наоборот. Такая ситуация может
иметь место, если в рамках того же примера зависимость спроса на про-
хладительные напитки Y от доходов X рассматривать по сезонным дан-
ным (зима – лето). Вариант рассеивания точек при отрицательной авто-
корреляции представлен на рис. 2.2.
Рис. 2.2
Причины автокорреляции
1. Ошибки спецификации. Пропущенная в модели какая-либо важ-
ная объясняющая переменная либо неправильный выбор формы зависи-
мости обычно приводят к системным отклонениям точек наблюдения от
линии регрессии, что может обусловить автокорреляцию.
47
2. Инерция. Многие экономические показатели (инфляция, безра-
ботица, ВНП и т. д.) обладают определенной цикличностью, связанной
с волнообразностью деловой активности. Поэтому изменение показате-
лей довольно инертно.
3. Эффект паутины. Во многих производственных и других сферах
экономические показатели реагируют на изменение экономических ус-
ловий с запаздыванием (временным лагом).
4. Сглаживание данных. Зачастую данные по некоторому продолжи-
тельному временному периоду получают усреднением данных по состав-
ляющим его интервалам. Это может привести к определенному сглажи-
ванию колебаний, которые имелись внутри рассматриваемого периода,
что в свою очередь может служить причиной автокорреляции.
Последствия автокорреляции
1. Оценки параметров модели остаются линейными и несмещенными,
но перестают быть эффективными, т. е. перестают быть BLUE-оценками.
2. Оценка дисперсии случайных отклонений смещена, чаще заниже-
на, поэтому R2 является зависимой оценкой и завышен.
3. Дисперсии оценок смещены, и, как правило, их значения также за-
нижены, что приводит к росту t-статистики и переоценке статистической
значимости параметров модели. Выводы по t- и F-статистикам ненадеж-
ны, ухудшается прогнозное качество модели.
Обнаружение автокорреляции
Существует несколько методов, позволяющих обнаружить автокор-
реляцию.
Графический метод. Есть ряд вариантов графического определения ав-
токорреляции. Один из них увязывает отклонения ei с моментами их по-
лучения i = 1, 2, , n . При этом по оси абсцисс откладывают либо время
получения статистических данных, либо порядковый номер наблюдения,
а по оси ординат – отклонения ei либо оценки отклонений ei.
Естественно предположить, что на рис. 2.3, а–г, имеются определен-
ные связи между отклонениями, т. е. автокорреляция имеет место. От-
сутствие зависимости скорее свидетельствует об отсутствии автокорре-
ляции (рис. 2.3, д).
Для случая, показанного на рис. 2.3, б, отклонения сначала являются
отрицательными, затем положительными, затем снова отрицательными.
Это свидетельствует о наличии между отклонениями определенной за-
висимости, более того, можно утверждать, что в этом случае имеет место
положительная автокорреляция. Она становится более наглядной, если
построить график зависимости ei от ei–1 (рис. 2.4).
48
Рис. 2.3
Рис. 2.4
Большинство точек на этом графике расположено в I и III четвертях
декартовой системы координат, подтверждая положительную зависи-
мость между соседними отклонениями.
Метод рядов, или метод Сведа – Эйзенхарта. Этот метод достаточно
прост: последовательно определяются знаки отклонений et, t = 1, 2, …, T.
Например,
(− − − − −)(+ + + + + + +)(− − −)(+ + ++)(−),
т. е. 5 «–», 7 «+», 3 «–», 4 «+», 1 «–» при 20 наблюдениях.
49
Ряд определяется как непрерывная последовательность одинаковых
знаков. Количество знаков в ряду называется длиной ряда. Визуальное
распределение знаков свидетельствует о неслучайном характере связей
между отклонениями. Если рядов слишком мало по сравнению с коли-
чеством наблюдений n, то вполне вероятна положительная автокорре-
ляция. Если же рядов слишком много, то вероятна отрицательная авто-
корреляция.
Критерий Дарбина – Уотсона. Наиболее известным критерием обна-
ружения автокорреляции первого порядка является статистика (крите-
рий) Дарбина – Уотсона (DW):
n
∑(et − et −1 )2
DW = t = 2 n
. (2.1)
∑ et2
t =1
50
ям числовой промежуток [0; 4] разбивают на пять отрезков. Принятие
или отклонение каждой из гипотез с вероятностью (1 – a) рассматрива-
ется на рис. 2.5.
Рис. 2.5
На практике в некоторых случаях, если фактическое значение крите-
рия DW попадает в зону неопределенности, предполагают существование
автокорреляции остатков, т. е. отклоняют гипотезу H0. Таким образом,
статистика Дарбина – Уотсона DW имеет определенные ограничения в
применении, которые можно определить как ее недостатки:
а) статистика имеет зоны неопределенности, при попадании в кото-
рые в общем случае сделать вывод не представляется возможным;
б) статистика неприменима к моделям, включающим в качестве не-
зависимых переменных лаговые значения результативного признака, т. е.
к моделям авторегрессии;
в) методика расчета и использования критерия Дарбина – Уотсона
направлена только на выявление автокорреляции первого порядка. При
проверке остатков на автокорреляцию более высоких порядков следует
применять другие методы;
г) статистика Дарбина – Уотсона дает достоверные результаты толь-
ко для больших выборок.
Тест серий (тест Бреуша – Годфри). Используется для больших вы-
борок и выявления автокорреляции высоких порядков. Тест основан на
следующей идее: если имеется корреляция между соседними наблюдени-
ями, то естественно ожидать, что в уравнении
et = ρ1et −1 + ρ2 et − 2 + ... + ρk et − k + vt , t = 1, n, (2.3)
где et – случайные отклонения исходной модели регрессии, которая те-
стируется на автокорреляцию, коэффициент rk окажется значительно
отличающимся от нуля. Таким образом, гипотеза формулируется следу-
ющим образом:
H0 : r1 = r2 = ... = rk = 0 (отсутствует автокорреляция);
H1 : rk ≠ 0 (присутствует автокорреляция порядка k).
51
Практическое применение теста для проверки гипотезы заключается
в оценивании методом наименьших квадратов вспомогательной регрес-
сии, а общая схема теста выглядит следующим образом:
1) оценка исходной регрессии и выделение ряда случайных откло-
нений et;
2) оценка вспомогательной регрессии et на все экзогенные факторы
исходной модели, а также лаги отклонений et по проверяемый порядок k
включительно:
et = α 0 + α1 x1t + ... + α m xmt + ρ1et −1 + ρ2 et − 2 + ... + ρk et − k + vt ; (2.4)
53
На практике значение коэффициента ρ обычно неизвестно и его не-
обходимо оценивать. Существует несколько методов оценивания.
1. Определение ρ на основе статистики Дарбина – Уотсона DW. Выше
уже отмечалось, что статистика Дарбина – Уотсона тесно связана с коэф-
фициентом корреляции между соседними отклонениями через соотно-
шение DW ≈ 2 (1 − corr(et ; et −1 )). Тогда в качестве оценки коэффициента r
может быть взят коэффициент r = corr(et ; et −1 ) или r ≈ 1 − DW 2.
Этот метод оценивания рекомендуется применять при большом числе
наблюдений. В этом случае оценка r параметра r будет достаточно точной.
2. В случае, когда автокорреляция отклонений очень велика, исполь-
зуется метод первых разностей. При высокой положительной автокорре-
ляции полагают, что r = 1, следовательно
yt − yt −1 = β1 ( xt − xt −1 ) + (εt − εt −1 ) (2.11)
или
yt − yt −1 = β1 ( xt − xt −1 ) + vt . (2.12)
54
2. Какие из методов используются для коррекции автокорреляции?
Метод первых разностей.
Авторегрессионная схема.
Метод рядов.
Метод Хилдрета – Лу.
55
В модели присутствует положительная автокорреляция, так как
значение DW-статистики меньше коэффициента детерминации.
В модели присутствует положительная автокорреляция, так как
значение DW-статистики меньше значения критической точки
D(L) = 1,5086, полученной для n = 51, m = 1.
В модели присутствует отрицательная автокорреляция, так как со-
гласно «грубому правилу» значение DW-статистики меньше зна-
чения 1,5.
В модели присутствует отрицательная автокорреляция, так как
значение DW-статистики меньше значения критической точки
D(L) = 1,498, полученной для степеней свободы n – 2 = 49, m = 1.
56
Практические задания
57
Модель 1
Зависимая (эндогенная) переменная CN
Количество наблюдений 44
Переменная Коэффициент Ст. ошибка t-стат. P-вероятн.
Константа C –54,24070 46,86539 –1,157372 0,2537
Независимая (экзогенная)
переменная GDP 0,663393 0,008719 76,08230 0,0000
Коэффициент детерминации 0,992797 F-статистика 5788,516
58
Рис. 2.6
Рис. 2.7
59
Модель: LM-тест Бреуша – Годфри (Breusch – Godfrey), лаг k = 1
H0 : случайные отклонения модели не коррелированы;
H1 : присутствует автокорреляция первого порядка случайных отклонений модели.
60
гипотезы определяется по количеству наблюдений для вспомогательной
модели, т. е. n ′ = n − l = n − 1 = 43). Поскольку Fнабл > Fкрит, то есть основания
для отклонения нулевой (основной) гипотезы, согласно которой R12 = R22 ,
т. е. введение лага et–1 повышает качество вспомогательной модели, дру-
гими словами, присутствует автокорреляция первого порядка случайных
отклонений исходной модели.
Аналогичным образом построив вспомогательную модель вида
∧
e t = β0 + β1GDPt + δ1et −1 + δ 2 et − 2 , отклоняем гипотезу об отсутствии авто-
корреляции второго порядка случайных отклонений исходной модели.
61
Метод рядов. Дополним исследование случайных отклонений модели
(табл. 2.2) на автокорреляцию методом рядов, или методом Сведа – Эй-
зенхарта (Swed – Eisenhart).
Таблица 2.2
Год Год Год
et et et
Квартал Квартал Квартал
1980 I –30,895 1984 I –36,708 1988 I 18,776
II –15,512 II –54,829 II 12,971
III 32,980 III –63,834 III 22,070
IV 3,452 IV –50,654 IV 15,558
1981 I –47,538 1985 I –20,995 1989 I –1,059
II –23,054 II –32,232 II –0,741
III –47,805 III –20,394 III 12,180
IV –39,222 IV –43,085 IV 17,161
1982 I 26,328 1986 I –37,497 1990 I 8,231
II 26,728 II –24,893 II 10,839
III 41,016 III 1,191 III 29,971
IV 89,064 IV 12,893 IV 50,402
1983 I 80,710 1987 I –8,386 – – –
II 57,143 II 1,221 – – –
III 36,548 III 15,881 – – –
IV 15,936 IV –39,920 – – –
62
распределения (используем функцию Лапласа, u0,05/ 2 = 1, 96 ); [.] – опе-
рация взятия целой части числа.
Вычислим значения числовых характеристик и найдем k1, k2:
2n1n2 2 ⋅ 24 ⋅ 20
M (k ) = +1 = + 1 = 22,8182;
n1 + n2 24 + 20
2n1n2 (2n1n2 − n1 − n2 ) 2 ⋅ 24 ⋅ 20 ⋅ (2 ⋅ 24 ⋅ 20 − 24 − 20)
D( k ) = 2
= = 10,5631;
(n1 + n2 ) (n1 + n2 − 1) (24 + 20)2 (24 + 20 − 1)
63
LM-тест Бреуша – Годфри (Breusch – Godfrey), лаг k = 1
H0 : случайные отклонения модели не коррелированы;
H1 : присутствует автокорреляция первого порядка случайных отклонений модели.
64
Найдем значение критической точки в таблице распределения Фи-
шера для уровня значимости a = 0,05 и значений степеней свободы
ν1 = k = 1, ν2 = n − m − 1 = 38, Fкрит = 4,098. Поскольку Fнабл < Fкрит, то нет
оснований для отклонения нулевой (основной) гипотезы, согласно ко-
торой R12 = R22, т. е. введение лага et–1 не улучшает качество вспомогатель-
ной модели, другими словами, автокорреляция первого порядка случай-
ных отклонений исходной модели 2 отсутствует.
Аналогичным образом построив вспомогательную модель вида
∧
e t = β0 + β1CN t −1 + β2 GDPt + δ1et −1 + δ 2 et − 2 , примем гипотезу об отсутствии
автокорреляции второго порядка случайных отклонений исходной моде-
ли при a = 0,05 и отклоним ее при a = 0,10.
65
Убедиться в том, что в скорректированной модели отсутствует ав-
токорреляция более высоких порядков, можно самостоятельно, ис-
пользуя соответствующие коэффициенты детерминации вспомогатель-
ных моделей: для BG (3) ⇒ R 2 = 0,1761, для BG (4) ⇒ R 2 = 0, 2074 , для
BG (5) ⇒ R 2 = 0,3095 и т. д.
Таким образом, преобразование модели 1, заключавшееся во введе-
нии в состав экзогенных факторов авторегрессионной переменной, по-
зволило скорректировать автокорреляцию первого и второго порядка при
принятом уровне значимости a = 0,05.
66
Окончание табл. 2.3
Год Квартал M0 WAGE Год Квартал M0 WAGE
1999 I 32014 130890,4 2003 III 785813,4 3232437
II 55026,2 215836,2 IV 926438,1 3661062
III 69880,6 285939,1 2004 I 888593,3 3462540
IV 86852,2 401810,3 II 1113487 4130800
2000 I 108243,6 502671,5 III 1211160 4376577
II 157165,4 685448 IV 1339437 4822651
III 187566,3 822549,7 2005 I 1373900 4771897
IV 238796 1037231 II 1680500 5395320
2001 I 246660,3 1122275 III 1806800 5779655
II 364294,5 1526310 IV 2016400 6129530
III 406838,9 1797634 2006 I 2065800 6297050
IV 512211,3 2012563 II 2485900 6926839
2002 I 488880,4 2002981 III 2688600 7302356
II 583247,7 2447019 IV 2818300 7513698
III 568307,1 2588101 2007 I 2637600 7495417
IV 650019,7 2894736 II 3030200 8354182
2003 I 602122,1 2602969 III 3149100 8828253
II 737678,6 3011318 IV 3323200 8981285
67
критических точек сделайте вывод относительно отсутствия автокорре-
ляции первого и второго порядка отклонений исходной модели;
3) примените к выбранной модели схему AR(1): для этого оце-
ните модель Lft * = α 0 + α1GNI t* + ut , в которой Lft * = Lft − ρLft −1,
GNI t* = GNI t − ρGNI t −1, ρ = 1 − DW 2 . Оцените статистическую значи-
мость преобразованной модели и проверьте, как изменятся ваши выво-
ды относительно отсутствия автокорреляции первого и второго поряд-
ков отклонений.
Таблица 2.4
Год Lf GNI Год Lf GNI Год Lf GNI
1993 66,7268 6820 2000 65,5171 7170 2007 66,5049 15230
1994 65,6732 6160 2001 65,7683 8460 2008 67,0220 15460
1995 64,9195 5860 2002 65,9683 9530 2009 68,4293 15990
1996 64,1098 6070 2003 65,8659 10470 2010 68,2954 16710
1997 64,4634 6350 2004 65,8878 11580 2011 68,98 17710
1998 64,5610 6410 2005 65,9098 12570 2012 69,61 18860
1999 65,5195 6610 2006 66,1610 13900 2013 70,3 20570
68
•• введите лаг эндогенной переменной
INFLt = β0 + β1WGGR t + β2 INFLt −1 + et ;
•• перейдите к первым разностям переменных
∆INFLt = β0 + β1∆WGGRt + et .
Таблица 2.5
69
Если необходимо применить схему AR(2), то получите оценку
для коэффициентов ρ1, ρ2 на основе авторегрессионной зависимости
et = ρ1et −1 + ρ2 et − 2 + ut (для этого оценив с помощью МНК модель et исходной
модели на et −1, et − 2 без константы) и с помощью МНК оцените модель,
используя переменные, преобразованные следующим образом:
Z t* = Z t − ρ1 Z t −1 − ρ2 Z t − 2 .
Для схемы AR(3) используйте оценку ρ1, ρ2, ρ3 из et = ρ1et −1 + ρ2 et − 2 + ρ3 et −3 + ut ,
ρ1et −1 + ρ2 et − 2 + ρ3 et −3 + ut , преобразование для переменных Z t* = Z t − ρ1 Z t −1 − ρ2 Z t − 2 − ρ3 Z t −3
Z t −1 − ρ2 Z t − 2 − ρ3 Z t −3 и т. д. (уравнения оценки коэффициентов авторегрессии и преобра-
зования для переменных даны в общем виде, при необходимости исключайте
промежуточные лаги при коррекции автокорреляции порядков k ≥ 2).
Проверьте результаты коррекции удобным вам способом. Удалось ли
скорректировать автокорреляцию? Смягчить ее?
70
Окончание табл. 2.6
Год, месяц CPI BEZR Год, месяц CPI BEZR
2012M01 2,320983 30,6 2013M01 2,854992 26,5
2012M02 2,355797 31,5 2013M02 2,889252 26,2
2012M03 2,391134 31 2013M03 2,921033 25,3
2012M04 2,431784 30,6 2013M04 2,935639 25,7
2012M05 2,470692 29,7 2013M05 2,956188 23,9
2012M06 2,515165 27,9 2013M06 2,965057 22,6
2012M07 2,547862 27,3 2013M07 2,994707 22,3
2012M08 2,606463 27,8 2013M08 2,997702 21,9
2012M09 2,640347 26,3 2013M09 3,048663 20,9
2012M10 2,687873 26,5 – – –
2012M11 2,733567 26 – – –
2012M12 2,771837 24,9 – – –
2.2. Гетероскедастичность
случайных отклонений
71
Гетероскедастичность в основном характерна для пространственных
или перекрестных данных, реже во временных рядах. Во временных ря-
дах рассматриваются одни и те же показатели в разные моменты времени,
поэтому при одновременном росте (или снижении) показателей за опре-
деленный период времени может возникнуть гетероскедастичность. При
пространственных (перекрестных) данных учитываются различные субъ-
екты, имеющие разные доходы, расходы и т. д.
В качестве примера явной гетероскедастичности можно сказать, что
люди с большим доходом не только тратят в среднем больше, чем люди с
меньшим доходом, но и разброс в их потреблении также больше, посколь-
ку они имеют больше простора для распределения дохода.
При гетероскедастичности последствия применения МНК будут сле-
дующими:
1) оценки параметров останутся по-прежнему несмещенными и ли-
нейными, но перестанут быть эффективными (потеряют свойство BLUE-
оценок). Увеличение дисперсии оценок снижает вероятность получения
максимально точных оценок;
2) дисперсии оценок параметров будут рассчитываться со смещени-
ем. Поэтому все выводы, получаемые на основе соответствующих t- и
F-статистик, а также интервальные оценки будут ненадежными. Впол-
не вероятно, что стандартные ошибки коэффициентов будут занижены,
а t-статистики завышены. Это может привести к признанию статисти-
чески значимыми коэффициентов, которые таковыми на самом деле не
являются.
Методы выявления гетероскедастичности случайных отклонений
В ряде случаев, зная характер исходных данных, можно предвидеть
гетероскедастичность и попытаться устранить проблему еще на стадии
спецификации. Однако чаще всего ее приходится решать после построе-
ния уравнения регрессии. Не существует однозначного способа для опре-
деления гетероскедастичности.
Графический метод. Графическое построение отклонений от эмпи-
рического уравнения регрессии позволяет визуально определить нали-
чие гетероскедастичности. В этом случае по оси абсцисс откладываются
значения объясняющей переменной xi (для парной регрессии) либо ли-
нейная комбинация объясняющих переменных:
y^i = a + b1 xi1 + ... + bp xip , i = 1, n (2.15)
72
Если все точки, соответствующие значениям квадратов отклонений
et2, находятся внутри горизонтальной полосы постоянной ширины, то это
свидетельствует о постоянстве дисперсии et2 , т. е. о ее независимости от
каких-либо других факторов – предпосылка о гомоскедастичности слу-
чайных отклонений модели регрессии выполняется (рис. 2.8).
Рис. 2.8
В других случаях, когда наблюдаются систематические изменения в
соотношениях между значениями y^t и значениями квадратов отклоне-
ний et2 (рис. 2.9, а и б), можно говорить о непостоянстве дисперсии от-
клонений и наличии зависимости между случайными отклонениями и
линейной комбинацией экзогенных переменных – предпосылка о гомо-
скедастичности отклонений модели не выполняется, в модели присут-
ствует гетероскедастичность.
Рис. 2.9
Графический анализ последних двух графиков отражает ситуации, в
которых присутствует большая вероятность наличия гетероскедастично-
сти для рассматриваемых статистических данных. Естественно, графиче-
ский анализ должен быть дополнен специальными тестами. В настоящее
73
время для определения гетероскедастичности разработан широкий круг
специальных тестов и критериев.
Тест ранговой корреляции Спирмена. В рамках теста предполагается,
что дисперсия отклонений будет либо увеличиваться, либо уменьшать-
ся с увеличением значений хt. Поэтому для регрессии, построенной по
МНК, абсолютные величины отклонений |et| и значения xit будут в не-
котором смысле коррелировать (при этом предполагается, что значения
экзогенной переменной также положительны). Корреляция в смысле
пропорциональности роста абсолютных величин отклонений при росте
значений экзогенной переменной приводит к понятию ранговой корре-
ляции: коррелируют между собой не сами значения |et| и значения xit, а их
ранги. Определяется коэффициент ранговой корреляции:
n
∑ dt2
t =1
re; x = r (rank et ; rank( x jt ) = 1 − 6 , (2.16)
n(n2 − 1)
где dt – разность между рангами xi и |ei|, n – число наблюдений. Напри-
мер, если х20 является 25-м по величине среди всех значений хj, а e20 –
32- м, то d20 = 25 – 32 = –7.
Доказано, что если коэффициент корреляции для генеральной сово-
купности равен нулю, т. е. выполняется гипотеза H 0 : re; x = 0, статистика
re; x n − 2
tнабл = (2.17)
1 − re2; x
74
а) вся выборка, т. е. входящие в нее переменные, упорядочивается по
величине xt;
б) упорядоченная выборка разбивается на три подвыборки размерно-
стей k, n – 2k и k соответственно. Идея теста состоит в том, что оценки
дисперсии отклонений в случае первой и в случае последней подвыбор-
ки значительно отличаются в случае невыполнения нулевой гипотезы,
т. е. при гетероскедастичности;
в) для получения оценок дисперсий оцениваются отдельные регрес-
сии для первой подвыборки (k первых наблюдений) и для третьей подвы-
борки (k последних наблюдений). Поскольку оценка регрессий происхо-
дит по выборкам с одинаковым количеством наблюдений, то сравнивать
фактически можно значения остаточных сумм квадратов. Если предполо-
жение о пропорциональности дисперсий отклонений значениям xj вер-
но, то остаточная сумма квадратов отклонений по первой регрессии RSS1
будет существенно меньше остаточной суммы квадратов отклонений по
третьей регрессии RSS3;
г) для сравнения соответствующих дисперсий выдвигается нулевая
гипотеза в формулировке:
H 0 : σ12 = σ 22 = ... = σ 2n (случайные отклонения гомоскедастичны).
Для проверки гипотезы строится следующая статистика
(F-наблюдаемое):
RSS3 (k − m − 1) RSS3
F= = , (2.18)
RSS1 (k − m − 1) RSS1
которая при справедливости нулевой гипотезы имеет распределение
Фишера с (k − m − 1, k − m − 1) степенями свободы. Если Fнабл > Fкрит =
= Fα; k − m−1; k − m−1, то гипотеза об отсутствии гетероскедастичности откло-
няется на уровне значимости α.
По рекомендациям специалистов, объем исключаемых данных k дол-
жен быть примерно равен четверти общего объема выборки n. Этот же тест
может быть использован и при предположении об обратной пропорцио-
нальности между дисперсией и значениями объясняющей переменной.
При установлении гетероскедастичности возникает необходимость
преобразования модели с целью устранить данный недостаток. Вид пре-
образования зависит от того, известны или нет дисперсии отклонений s i2.
Тест Парка. Предполагается, что дисперсия s t2 является функцией
t-го значения экзогенной переменной xj. Р. Парк предложил следующую
функциональную зависимость: σ t2 = σ 2 xtk e ut , прологарифмировав кото-
рую, получим в линейном виде
ln σ t2 = ln σ 2 + k ln x jt + ut . (2.19)
75
Таким образом, задачу проверки предположения о постоянстве дис-
персии отклонений s t2 можно свести к проверке значимости зависимо-
сти между lns t2 и ln x jt . В случае если гипотеза о постоянстве дисперсии
отклоняется и отклонения гетероскедастичны, параллельно также реша-
ется задача определения значения k.
Так как дисперсии s t2 обычно не известны, то на практике их заме-
няют оценками квадратов отклонений et2.
Критерий Парка включает следующие этапы:
•• оценивается исходное уравнение регрессии, например yt = β0 + β1 xt + εt ,
+ εt, выделяется ряд эмпирических значений остатков et;
•• оценивается уравнение вспомогательной регрессии ln et2 = λ 0 + λ1 ln xt + ut
2
ln et = λ 0 + λ1 ln xt + ut (в случае рассмотрения множественной регрессии вспомога-
тельная модель теста строится для каждой объясняющей переменной xj);
•• проверяется статистическая значимость коэффициента l1 на основе
t-статистики. Если коэффициент l1 статистически значим, то это озна-
чает наличие связи между ln et2 и ln xt , т. е. гетероскедастичность в остат-
ках исходной модели.
К недостаткам теста можно отнести то, что на принятие гипотезы мо-
гут влиять свойства отклонений вспомогательной модели ut, невыпол-
нение предпосылок МНК для которых ведет к искажению результатов
(ложно принимается предположение о гетероскедастичности). Кроме
того, сформулированная форма зависимости предполагает однозначное
определение k, а значит и самой формы на основе МНК, т. е. гетероске-
дастичность может существовать в другой функциональной форме, ко-
торая не будет выявлена в тесте Парка.
Тест Глейзера. Тест Глейзера аналогичен тесту Парка и основывает-
ся на более общих представлениях о зависимости стандартной ошибки
случайного члена от значений объясняющей переменной, т. е. в каком-
то смысле дополняет тест Парка.
Зависимость между случайными отклонениями тестируемой модели
и экзогенной переменной представляется в виде
et = λ 0 + λ1 xtl + vt . (2.20)
76
максимального значения при оптимальном значении аргумента l. В ото-
бранной модели тестируется статистическая значимость коэффициента
l1, что фактически означает наличие гетероскедастичности.
Нужно отметить, что так же, как и в тесте Парка, в тесте Глейзера для
отклонений vt условие гомоскедастичности может нарушаться. Однако во
многих случаях предложенные модели являются достаточно хорошими
для определения гетероскедастичности. Форма гетероскедастичности в
тесте Глейзера может быть определена как σ t2 = σ 2 xt2l .
Тест Вайта. В тесте не высказывается никаких предположений о
свойствах случайных отклонений, однако он не дает ответа на вопрос о
точной форме гетероскедастичности. Для проверки нулевой гипотезы о
гомоскедастичности случайных отклонений регрессионной модели не-
обходимо:
•• оценить исходную модель и определить остатки модели et;
•• оценить вспомогательную модель регрессии квадратов остатков ис-
ходной модели на все ее экзогенные переменные, их квадраты и пере-
крестные произведения:
et2 = λ 0 + λ1 x1t + λ 22t + ... + λ m xmt + δ1 x12t + δ 2 x22t + ... +
2
+ δ m xmt + α12 x1t x2t + α13 x1t x3t + ... + α1m x1t xmt +
+ α 23 x2t x3t + ... + α m−1m xm−1t xmt + vt . (2.21)
77
зависимости от нескольких экзогенных переменных, их линейных ком-
бинаций, или когда функция зависимости отличается от степенной (ли-
нейной, квадратичной и т. п.), как в предыдущих тестах.
Для проверки нулевой гипотезы о гомоскедастичности случайных от-
клонений регрессионной модели необходимо:
•• оценить исходную модель и определить остатки модели et, а также
1 n
среднюю величину их квадратов σ^ = ∑ et2 ;
n t =1
•• оценить вспомогательную модель регрессии квадратов остатков ис-
ходной модели, деленных на величину s, ^ на некоторые экзогенные пере-
менные Z1t , Z 2t , ..., полученные использованием элементарных алгебраи-
ческих функций или различных комбинаций из экзогенных переменных
исходной модели:
et2
= λ 0 + λ1 Z1t + λ 2 Z 2t + ... + λ m Z mt + vt . (2.22)
σ^
78
Разделим обе части уравнения на известное:
σ t = σ t2 , (2.24)
yt 1 x ε
= β0 + β1 t + t , (2.25)
σt σt σt σt
yt 1 x ε
yt* = , zt = , xt* = t , ut = t . (2.27)
σt σt σt σt
yt 1 x1t xmt εt
= β0 + β1 + ... + β m + . (2.28)
x kjt x kjt x kjt x kjt x kjt
79
Применим обычный МНК к новой регрессии в преобразованных пе-
ременных:
yt 1 x1t xmt εt
yt* = , zt = , x1*t = *
, …, xmt = , ut = . (2.29)
x kjt x kjt x kjt x kjt x kjt
81
Для диагностики гетероскедастичности использовался тест Глей-
зера.
Согласно результатам теста в модели присутствует гетероскеда-
стичность на 3 % уровне значимости, при условии гомоскедастич-
ности остатков u.
Для диагностики гетероскедастичности использовался тест Парка.
Согласно результатам теста в модели присутствует гетероскеда-
стичность на любом уровне значимости.
Согласно результатам теста в модели отсутствует гетероскедастич-
ность на 3 % уровне значимости.
82
Модель 1
Зависимая (эндогенная) переменная R&D
Количество наблюдений 18
Переменная Коэффициент Ст. ошибка t-стат. P-вероятн.
Константа C 114,3906 959,0376 0,1193 0,9065
Независимая (экзогенная)
переменная Profits 0,3632 0,0892 4,0735 0,0009
Коэффициент детерминации 0,509102 F-статистика 16,5933