Вы находитесь на странице: 1из 140

УДК

330.43 (075.8)
ББК 65в631я73
В19

Рецензенты:
кандидат технических наук, доцент Н. В. Лапицкая;
кандидат экономических наук, доцент А. Б. Гедранович

Васенкова, Е. И.
В19 Практикум по эконометрике : учеб.-метод. пособие / Е. И. Васен-
кова, Ю. Г. Абакумова, С. Ю. Бокова. – Минск : БГУ, 2015. – 139 c.
ISBN 978-985-566-206-9.

Учебно-методическое пособие содержит теоретический и практический


материал по курсу «Эконометрика», задания для самоконтроля, практиче-
ские задания и методические указания по их выполнению.
Для студентов учреждений высшего образования, обучающихся по спе-
циальности I ступени получения высшего образования 1-25 01 01 «Эконо-
мическая теория».

УДК 330.43 (075.8)


ББК 65в631я73

© Васенкова Е. И.,
Абакумова Ю. Г.,
Бокова С. Ю., 2015
ISBN 978-985-566-206-9 © БГУ, 2015
ПРЕДИСЛОВИЕ

Большая часть современных методов анализа экономики опирается


на эконометрические модели и концепции, и без глубоких знаний в об-
ласти эконометрики невозможно научиться их использовать. Особенно-
стью деятельности современного экономиста является работа в условиях
неопределенности и недостатка информации, необходимой для приня-
тия правильных решений. Для анализа такой информации нужно знать
специальные методы и приемы, которые основываются на использова-
нии моделей экономической теории и экономической статистики, ста-
тистических моделей пространственных данных и временных рядов, ме-
тодов статистического оценивания параметров, методов статистической
проверки гипотез, а также методов статистического прогнозирования и
имитационного моделирования.
Эконометрика – наука, находящаяся на «стыке» экономических и
математических дисциплин, которая на основе установленных экономи-
ческой теорией качественных зависимостей с помощью статистических
методов анализа данных разрабатывает модели исследуемых экономиче-
ских процессов. Эконометрика позволяет изучать конкретные количе-
ственные и качественные взаимосвязи экономических объектов и про-
цессов с помощью математических и статистических методов и моделей,
дает инструментарий для экономических измерений, а также методоло-
гию оценки параметров моделей микро- и макроэкономики. Кроме того,
данная наука активно используется для прогнозирования экономических
процессов как в масштабах экономики в целом, так и на уровне отдель-
ных предприятий.
Изучение эконометрики преследует две основные цели:
•• дать студентам теоретические и практические основы эконометри-
ческого моделирования, анализа и прогнозирования;
•• сформировать навыки построения и использования эконометриче-
ских моделей по реальным данным с помощью стандартного эконометри-
ческого программного обеспечения.

3
Основой для изучения эконометрики являются дисциплины «Теория
вероятностей и математическая статистика», «Статистика», «Макроэко-
номика», «Международная экономика», «Экономическая теория», «Ми-
кроэкономика».
Данное учебно-методическое пособие знакомит студента с базовыми
понятиями и методами современной эконометрики. В первой главе рас-
сматриваются линейные регрессионные модели, их построение, оценка
и возможности применения в экономике. Вторая глава посвящена мето-
дам оценки и построения регрессионных моделей в условиях нарушения
стандартных предположений линейной модели регрессии, встречающих-
ся при моделировании экономических ситуаций и при анализе эконо-
мических данных, обсуждаются корректировки регрессионной модели
для описания таких ситуаций. В издании представлены тестовые задания
для самоконтроля пройденного материала по всем темам курса и прак-
тические задания, составленные с учетом проблем экономики и стати-
стических данных, решение которых, как и проведение небольших са-
мостоятельных исследований, должно стимулировать интерес студентов
к предмету и быть неотъемлемым компонентом современного экономи-
ческого образования.
1.
КЛАССИЧЕСКАЯ ЛИНЕЙНАЯ
РЕГРЕССИОННАЯ
МОДЕЛЬ

1.1. Общие сведения о линейной


регрессионной модели

Ключевые понятия: корреляция (корреляционное поле, коэффициент корре-


ляции), парная линейная регрессия, метод наименьших квадратов, множе-
ственная линейная регрессия, ковариационно-дисперсионная матрица, ли-
неаризация с помощью замены или логарифмирования.

Пусть состояние исследуемого экономического процесса в момент


или период времени t характеризуется значением yt, которое называется
эндогенным показателем. Значения эндогенного показателя yt форми-
руются под воздействием различных факторов, которые условно можно
разделить на систематические (контролируемые, наблюдаемые) факторы
x1t , x2t , x3t , ..., xmt , значения которых известны к моменту времени t, и
случайные (неконтролируемые, ненаблюдаемые), приводящие к случай-
ным отклонениям et значений эндогенного показателя yt от ожидаемых
значений. Систематические факторы принято называть экзогенными по-
казателями, характеризующими воздействие внешних факторов, отно-
ся к ним также и лаговые (предопределенные) значения как эндогенно-
го показателя yt −1, yt − 2 , ..., yt − k (авторегрессионные переменные), так и
экзогенных (распределенные лаги).
Целью эконометрического исследования является построение по
наблюдаемым эмпирическим данным экономических показателей
{ yt }, {x1t }, {x2t }, ... статистической модели зависимости
yt = f ( x1t , x2 t , ..., xmt , θ) + εt , (1.1)
где функция f определена с точностью до неизвестных параметров q.

5
Модель классической линейной регрессии строится в предположе-
нии линейности функции f по следующим параметрам:
y = β0 + β1 x1 + β2 x2 + ... + βm xm + εt , (1.2)
где y  – эндогенная (зависимая, объясняемая) переменная; x =  ( x1; x2 ; ...;
x = ( x1; x2 ; ...; xm ) – экзогенные (независимые, объясняющие, регрессоры)
переменные; x – вектор регрессоров; et – случайные отклонения (остат-
ки, ошибки) модели; θ = (β0 ; β1; β2 ; ...; βm )  – параметры (коэффициенты)
модели множественной линейной регрессии (МЛР).
Пусть дана выборка объемом n наблюдений переменных y и
x = ( x1; x2 ; ...; xm ). Тогда в каждом наблюдении t имеет место линейная
регрессионная зависимость согласно (1.2):
yt = b0 + b1 x1t + b2 x2t + ... + bm xmt + et , (1.3)

где θ^ = (b ; b ; b ; ...; b ) является точечной оценкой вектора параме-


0 1 2 m
тров q, а et являются эмпирическими (выборочными) отклонениями мо-
дели МЛР (1.3).
Для получения значений точечных оценок параметров модели МЛР
(1.3) используются различные методы. Наиболее известны из них следу-
ющие:
1) метод наименьших модулей (МНМ), состоящий в нахождении оце-
нок исходя из минимизации функции Q, представляющей собой сумму
модулей отклонений модели МЛР (1.2), т. е. отклонений реальных зна-
чений эндогенной переменной от ее значений, рассчитанных по модели;
2) метод наименьших квадратов (МНК), состоящий в нахождении
оценок исходя из минимизации функции Q, представляющей собой сум-
му квадратов отклонений модели МЛР;
3) метод моментов (ММ), основанный на предполагаемых свойствах
моментов. При условии ортогональности регрессоров и случайных оши-
бок метод наименьших квадратов (МНК) представляет собой частный
случай метода моментов (ММ), т. е. полученные с помощью этих мето-
дов оценки параметров будут совпадать;
4) метод максимального правдоподобия (ММП) – оценки определя-
ются из условия максимизации функции правдоподобия исходя из пред-
положения, что функция правдоподобия содержит всю информацию о
статистической выборке (построение функции требует, таким образом,
знания законов распределения случайных величин x = ( x1; x2 ; ...; xm )). При
выполнении допущений, накладываемых на метод наименьших квадратов
(МНК), оценки параметров, полученные с помощью этих двух методов,
достаточно близки или совпадают (как в случае МНМ, так и в других).
6
Выбор метода оценивания неизвестных параметров зависит, как пра-
вило, от априорной информации о переменных модели, доступной ис-
следователю. Базовым методом для построения моделей множественной
линейной регрессии можно назвать метод наименьших квадратов. Это
объяснимо простотой получения оценок параметров с помощью данно-
го метода, при этом полученные оценки при наложении определенных
условий на случайные отклонения модели не отличаются от оценок, ко-
торые могут быть получены с помощью других методов.
Для того чтобы оценки параметров, получаемых по методу наимень-
ших квадратов (МНК), обладали оптимальными свойствами, необходи-
мо выполнение ряда условий, называемых предпосылками МНК или ус-
ловиями Гаусса – Маркова:
1) модель является линейной по параметрам;
2) отсутствуют систематические ошибки наблюдений, т. е. математи-
ческое ожидание случайных отклонений равно нулю для всех наблюде-
ний: M (εt ) = 0 ∀t = 1, n;
3) наблюдения производятся с одинаковой точностью, другими слова-
ми, дисперсия случайных отклонений постоянна: D(εt ) = σ 2 = const, t = 1, n ;
4) наблюдения организованы так, чтобы случайные отклонения не
коррелировали между собой, т. е. случайные отклонения ei и ej являются
независимыми друг от друга: cov(εi ; ε j ) = 0 для i ≠ j;
5) случайное отклонение должно быть независимо от экзогенных пе-
ременных cov(εi ; xi ) = 0;
6) между экзогенными переменными отсутствует строгая (сильная)
линейная зависимость;
7) cлучайные отклонения имеют нормальное распределение:
εi ~ N (0; σ).
При выполнении предпосылок (1–7) оценки параметров модели (1.2),
полученные по МНК, являются эффективными в классе линейных не-
смещенных оценок (BLUE-оценками) в соответствии с теоремой Гаус-
са – Маркова.
Мера общего качества уравнения регрессии – коэффициент детер-
минации R2, характеризующий долю вариации эндогенной переменной,
объясняемую построенной моделью регрессии. При оценке вариации
эндогенной переменной используются следующие определения квадра-
тичных сумм:
•• общая сумма квадратов отклонений (total sum of squares)
n
TSS = ∑ ( yt − y )2 и соответствующая ей общая дисперсия с учетом степе-
t =1
ней свободы νTSS = n −1;

7
•• объясненная сумма квадратов отклонений (explained sum of squares)
n
ESS = ∑ ( y^t − y )2 и соответствующая ей объясненная дисперсия с учетом
t =1
степеней свободы νESS = m;
•• остаточная, или необъясненная, сумма квадратов отклонений (residual
n n
sum of squares) RSS = ∑ ( yt − y^t )2 = ∑ et2 и соответствующая ей необъяс-
t =1 t =1
ненная дисперсия с учетом степеней свободы νRSS = n − m −1.
Для квадратичных сумм выполняется тождество TSS = ESS + RSS.
Остаточная, или необъясненная, дисперсия является выборочной не-
смещенной оценкой S2 дисперсии случайных отклонений регрессии, а
величина, получаемая после извлечения квадратного корня, называется
стандартной ошибкой регрессии:
n n
∑( yt − ^yt )2 ∑ et2 RSS
t =1 t =1
S2 = = = . (1.4)
n − m −1 n − m −1 n − m −1
По определению коэффициент детерминации как доля объясненной
дисперсии находится по формуле
n

ESS RSS
∑( yt − ^yt )2
t =1
R2 = =1− =1− n
. (1.5)
TSS TSS
∑( yt − y ) 2

t =1
Коэффициент детерминации для регрессионной модели со свобод-
ным членом принимает значения от 0 до 1. Чем ближе значение R2 к еди-
нице, тем сильнее зависимость и выше общее качество модели. В случае
парной линейной регрессии коэффициент детерминации равен квадрату
коэффициента парной корреляции между переменными.
В случае парной линейной регрессии (m = 1) оценки параметров урав-
нения (1.2) с помощью метода наименьших квадратов могут быть полу-
чены по формулам
 xy − xy
b1 = 2 ;
 x − x2 (1.6)
b = y − b x .
 0 1

Очевидно, что коэффициент при переменной угла наклона регрессии


b1 напрямую связан с коэффициентом корреляции между y и x:

8
xy − xy cov( x; y)

b1 = 2 =
 x − x 2 S x2 Sy
⇒ b1 = corr( x; y) . (1.7)
 cov( x; y) Sx
corr( x; y) =
 S S
x y

В силу случайного отбора наблюдений в выборку случайными также


являются и оценки b0 и b1 коэффициентов b0 и b1 теоретического урав-
нения регрессии (1.2). Их математические ожидания при выполнении
предпосылок об отклонениях регрессионной модели равны соответствен-
но M (b0 ) = β0 , M (b1 ) = β1, а точность и надежность оценок, определяемая
мерами разброса, т. е. дисперсиями D(b0) и D(b1), связана с дисперсией
случайных отклонений модели:
S2
D(b1 ) = Sb21 = n ; (1.8)
∑( xt − x )2
t =1

2
D(b=
0 ) S=
b0 Sb21 x 2 , (1.9)
где по аналогии со стандартной ошибкой регрессии Sb0 , Sb1 называют
стандартными ошибками коэффициентов.
В случае рассмотрения множественной линейной регрессии целесо-
образно использовать методы матричного исчисления. Матричное пред-
ставление модели (1.2) может быть получено введением следующих обо-
значений:
 β0 
 y1  β  1 x11 x21 … xm1   ε1 
y   1
 1 x x … x  ε 
y =  2 ; B =  β2  ; x= 12 22 m2
; ε =  2 .
             
 y    
1 x1n x2 n … xmn    ε 
n  β  n
m

Учитывая введенные обозначения, модель множественной линейной ре-


грессии примет вид Y = BX + ε, а оценки параметров в рамках метода на­
именьших квадратов могут быть найдены по формуле

B = ( X T X )−1 X T Y . (1.10)

Стандартные ошибки коэффициентов при оценке коэффициентов


регрессии в матричном виде могут быть найдены с помощью дисперси-
онно-ковариационной матрицы:

9
 Sb20 cov(b0 ; b1 ) … cov(b0 ; bm ) 
 
 cov(b0 ; b1 ) Sb21 … cov(b1; bm ) 
Z = S 2 ( X T X )−1 =   . (1.11)
     
 
 cov(b0 ; bm ) cov(b1; bm ) … Sb2m 

Анализ качества построенного уравнения регрессии (верификация


модели) включает в себя:
•• оценку статистической значимости параметров уравнения регрес-
сии, а также оценку общего качества модели, проверку различных гипо-
тез относительно коэффициентов модели, состава экзогенных перемен-
ных, однородности выборки и т. п.;
•• проверку выполнения предпосылок МНК или условий Гаусса  –
Маркова (эти вопросы рассматриваются во второй главе).

1.2. Проверка гипотез относительно


параметров линейной регрессии

Ключевые понятия: гипотеза о статистической незначимости коэффициен-


тов, доверительные интервалы для коэффициентов регрессии, коэффици-
ент эластичности в средней точке.

Гипотеза о статистической значимости коэффициентов уравнения ре-


грессии. Нулевая гипотеза H0 формулируется в предположении о том, что
теоретический коэффициент регрессионной модели βi , i = 0, m, является
статистически незначимым, альтернативная гипотеза H1 – коэффициент
модели bi является статистически значимым:
H 0 : βi = 0;
H1 : βi ≠ 0.
Статистическая значимость параметров линейной регрессии с m фак-
торами проверяется на основе t-статистики (статистика Стьюдента):
bi
tbi = ~ tкрит = t (α 2; n − m − 1), (1.12)
Sbi
где bi – коэффициент уравнения регрессии; Sbi = Sb2i  – стандартная
ошибка коэффициента bi уравнения регрессии; tbi  – наблюдаемое зна-

10
чение t-статистики гипотезы; tкрит = t (α 2; n − m − 1)  – значение критиче-
ской точки распределения Стьюдента при уровне значимости a и значе-
нии степеней свободы n = n – m – 1.
Если tbi < tкрит , то нулевая гипотеза не отклоняется и соответствую-
щий параметр считается статистически незначимым, в противном случае
если tbi ≥ tкрит  – нулевая гипотеза отклоняется в пользу альтернативной
и параметр модели bi является статистически значимым.
В том случае, когда нулевая гипотеза не отклоняется, делается вывод,
что соответствующий коэффициент bi не отличается значимо от нуля, а
значит, фактор xi линейно не связан с результирующей переменной y.
Не оказывая значимого влияния на зависимую переменную, он может
искажать реальную картину взаимосвязи. Поэтому после выявления ста-
тистической незначимости коэффициента bi переменную xi предлагается
исключить из уравнения линейной регрессии, так как это не приведет к
существенному искажению качества модели, а сделает ее более точной.
При достаточном количестве наблюдений в выборке проверку гипо-
тезы о статистической незначимости коэффициентов с помощью точек
распределения Стьюдента можно заменить так называемым «грубым пра-
вилом», основанным на простом сравнительном анализе:
•• если t ″≤11, т. е. bi < Sb , то коэффициент можно считать статистиче-
i
ски незначимым. Доверительная вероятность при двусторонней альтер-
нативной гипотезе не будет превышать в таком случае P = 0,70;
•• если 1 < t ≤ 2 , т. е. bi < 2Sbi , то коэффициент можно считать отно-
сительно (слабо) значимым. В данном случае рекомендуется воспользо-
ваться таблицей критических точек распределения Стьюдента, коэффи-
циент bi может оказаться статистически значимым при уровне α = 0,10:
доверительная вероятность 0,70 < P < 0,95;
•• если 2 < t ≤ 3, то коэффициент статистически значим. Это утверж-
дение является гарантированным при условии n − m − 1 > 20 и для α ≥ 0,05:
доверительная вероятность 0,95 < P < 0,99;
•• если t > 3, то коэффициент считается сильно статистически значи-
мым (при α ≥ 0,01). Вероятность ошибки в данном случае при достаточ-
ном числе наблюдений не превосходит 0,001.
К анализу значимости коэффициента bi можно подойти по-другому,
используя его интервальную оценку, или доверительный интервал. Дове-
рительные интервалы коэффициентов bi, которые с надежностью (1 – a)
накрывают определяемые параметры bi, находятся по формуле

(b − t(α 2; n − m − 1)S ;
i bi )
bi + t (α 2; n − m − 1)Sbi . (1.13)

11
Для того чтобы определить, при какой переменной коэффициент
оказывает наибольшее влияние на изменение эндогенной переменной y,
используют стандартизированные коэффициенты регрессии bi , характе-
ризующие, насколько изменится стандартное отклонение переменной y
при изменении xi на одно стандартное отклонение. Очевидно, что стан-
дартизированные коэффициенты регрессии bi связаны с понятием эла-
стичности фактора y по фактору xi в средней точке:
S xi
bi = bi , (1.14)
Sy
xi
=
Эi Э=
yxi bi , (1.15)
y
где bi показывает, на сколько величин отклонений Sy изменится в среднем
эндогенная переменная y при увеличении i-й экзогенной переменной xi на
одно стандартное отклонение S xi . Коэффициент эластичности в средней
точке Эi показывает, на сколько процентов от своей средней величины из-
менится значение эндогенной переменной y при увеличении экзогенной
переменной xi на один процент относительно своего среднего значения.
Гипотеза о равенстве коэффициента уравнения регрессии некоторому
заданному числу. Нулевая гипотеза H0 формулируется в предположении о
том, что теоретический коэффициент регрессионной модели βi , i = 0, m ,
может принимать некоторое ожидаемое значение a = const, альтернатив-
ная гипотеза H1 может быть как двусторонней, так и односторонней (пра-
восторонней, левосторонней):
H 0 : βi = α;
H1 : βi ≠ α (βi > α, βi < α).
Гипотеза, как и в случае проверки статистической незначимости па-
раметров, проверяется на основе t-статистики (статистика Стьюдента):
b − a bi − a
tbi = i = , (1.16)
Sbi − a Sbi
значение которой в случае двусторонней альтернативной гипотезы срав-
нивается со значением критической точки tкрит = t (α 2; n − m − 1) , в случае
односторонней гипотезы – с tкрит = t (α; n − m − 1) и tкрит = t (1 − α; n − m − 1) = −t (α; n − m
− α; n − m − 1) = −t (α; n − m − 1) соответственно.
Гипотеза о линейном ограничении, или линейной комбинации, коэффи-
циентов. Нулевая гипотеза H0 формулируется в предположении о том,
что существует линейная комбинация коэффициентов регрессии bi и bj
i ≠ j; i = 0, m; j = 0, m, т. е. для модели выполняется линейное ограничение

12
cβi + dβ j = a, {c, d , a} = const, альтернативная гипотеза H1, как правило,
формулируется двусторонней:
H 0 : cβi + dβ j = α ;
H1 : cβi + dβ j ≠ α ;
cbi + db j − a cbi + db j − a
t= = ~ tкрит = t (α 2; n − m − 1), (1.17)
Scbi + db j − a Scbi + db j

2
где Scbi + db j = Scbi + db j
= c 2 Sb2i + d 2 Sb2j + 2cd cov(bi ; b j ) находится с помо-
щью свойств дисперсии и ковариации.
Например, с помощью гипотезы о линейном ограничении может быть
проверено предположение о равенстве двух коэффициентов регрессии:
H 0 : β1 = β2 ⇔ β1 − β2 = 0;
H1 : β1 ≠ β2 ;
b1 + b2 b1 + b2
t= = ~ tкрит = t (α 2; n − m − 1) . (1.18)
Sb1 + b2 Sb21 + Sb22 + 2 cov(b1; b2 )

Нулевая гипотеза принимается, если t < tкрит .

1.3. Проверка гипотез об общем


статистическом качестве
модели линейной регрессии

Ключевые понятия: квадратичные суммы и коэффициент детерминации, ги-


потезы относительно общего качества регрессионной модели, «вложенные»
модели.

Гипотеза о статистической значимости коэффициента детермина-


ции R2. Нулевая гипотеза H0 формулируется в предположении о том, что
коэффициент детерминации R2 регрессионной модели является стати-
стически незначимым, альтернативная гипотеза H1 – коэффициент де-
терминации статистически значим:
H 0 : R 2 = 0;
H1 : R 2 > 0.

13
Статистическая значимость коэффициента детерминации модели
линейной регрессии с m факторами проверяется на основе F-статистики
(статистика Фишера):
R2 m
F= ~ F (m; n − m − 1), (1.19)
(1 − R 2 ) (n − m − 1)
которая сравнивается с критической точкой Fкрит = F (α; m; n − m − 1)  –
значение критической точки распределения Фишера при уровне значи-
мости α и значениях степеней свободы ν1 = m, ν2 = n − m − 1.
Если справедлива нулевая гипотеза, то это свидетельствует о совокуп-
ной статистической незначимости коэффициентов при экзогенных пере-
менных, т. е. β1 = β2 = ... = β m = 0, модель не может быть признана адекват-
ной, ее дальнейший анализ и применение нецелесообразны. В противном
случае, если справедлива гипотеза H1, построенная модель статистически
адекватна и ее общее качество может быть охарактеризовано непосред-
ственно значением R2.
Используя определение коэффициента детерминации, статистику
можно переписать для проверки гипотезы о равенстве объясненной и не-
объясненной дисперсий:
ESS ESS
m m
R2 m TSS TSS
F= = = =
(1 − R 2 ) (n − m − 1) 1 − ESS  (n − m − 1)  TSS − ESS  (n − m − 1)
   
TSS  TSS
ESS
m
TSS ESS m
= = . (1.20)
RSS RSS RSS (n − m − 1)
(n − m − 1)
TSS TSS
Для множественной регрессии R2 является неубывающей функци-
ей числа экзогенных переменных. При добавлении новой объясняющей
переменной значение R2 не уменьшается. Каждая следующая добавлен-
ная в рассмотрение экзогенная переменная может лишь дополнить, но
никак не сократить информацию, объясняющую поведение зависимой
переменной.
При расчете коэффициента детерминации используется остаточная
дисперсия RSS, которая имеет систематическую ошибку, уменьшающую-
ся при большем количестве факторов в уравнении регрессии при задан-
ном объеме наблюдений n. Если число параметров (m + 1) приближается
к n, то остаточная дисперсия будет стремиться к нулю и значение коэф-
фициента детерминации приблизится к единице даже при слабой связи

14
факторов. Это явилось основанием для рассмотрения такой числовой ха-
рактеристики, как скорректированный, или исправленный, коэффици-
ент детерминации R 2 , отличающийся поправкой на число степеней сво-
боды остаточной и общей дисперсий соответственно:
n
∑ et2 (n − m − 1)
RSS (n − m − 1)
2 t =1
R =1− =1− . (1.21)
n TSS (n − 1)
∑( yt − y ) 2
(n − 1)
t =1

Другими словами, при расчете обычного коэффициента детермина-


ции R2 используются значения остаточной и общей квадратичных сумм,
а при расчете скорректированного коэффициента детерминации R 2  –
значения остаточной и общей дисперсий.
Поскольку, как было сказано ранее, значение R2 увеличивается при
введении новой объясняющей переменной в уравнение регрессии даже
без достаточных на то оснований, скорректированный коэффициент R 2
компенсирует это увеличение путем наложения «штрафа» за увеличе-
ние числа экзогенных переменных. Зависимость между скорректиро-
ванным и обычным коэффициентом детерминации показывает, что при
m ≥ 2 выполняется неравенство R 2 < R 2 , за исключением случая, когда
2 2
R= R= 1:
RSS (n − m − 1) RSS n − 1  ESS  n − 1
R2 = 1− =1− = 1 − 1 − =
TSS (n − 1) TSS n − m − 1  TSS  n − m − 1
n −1
= 1 − (1 − R 2 ) . (1.22)
n − m −1
Также при добавлении новой экзогенной переменной R 2 увеличи-
вается тогда и только тогда, когда t-статистика для этой переменной по
модулю больше единицы. Однако из этого не следует, что увеличение R 2
означает улучшение спецификации уравнения регрессии. Тем не менее
добавление в модель новых факторов осуществляется до тех пор, пока
растет скорректированный коэффициент детерминации.
Обычно приводятся данные как по значению R2, так и по R 2, явля-
ющихся суммарными мерами общего статистического качества уравне-
ния регрессии. Однако не следует абсолютизировать значимость коэф-
фициентов детерминации. Существует немало примеров неправильно
построенных моделей, имеющих высокие коэффициенты детерминации
(ложная регрессия). Поэтому коэффициент детерминации рассматрива-

15
ется лишь как один из показателей, который нужен для анализа адекват-
ности модели, например чтобы обосновать необходимость изменения
спецификации.
Гипотеза о равенстве двух коэффициентов детерминации вложенных
моделей. Данная гипотеза позволяет сравнить эконометрические модели,
каждая из которых может быть получена путем наложения ограничений
на параметры другой модели. Такой тест применяется при проверке ги-
потезы об одновременном (совокупном) равенстве нулю не всех коэффи-
циентов регрессии одновременно, а только некоторых из них. Это позво-
ляет на практике оценить обоснованность исключения или добавления в
уравнение регрессии некоторых наборов факторов, что особенно важно
при усовершенствовании линейной регрессионной модели.
Пусть для выборки из n наблюдений получено уравнение регрессии
вида
A: yt = b0 + b1 x1t + b2 x2 t + ... + bm xmt + ut ,

и коэффициент детерминации для этой модели равен RA2. Исключим из


рассмотрения k экзогенных переменных, предположив, не нарушая общ-
ности, что это переменные при последних k коэффициентах. Другими
словами, наложим на коэффициенты модели (А) следующее ограниче-
ние: bm− k +1 = bm− k + 2 = ... = bm = 0 и получим уравнение регрессии (В) с ко-
эффициентом детерминации, равным RB2 :

B: yt = b0 + b1 x1t + b2 x2 t + ... + bm− k xm− kt + vt .

Очевидно, RA2 ≥ RB2 , так как каждая экзогенная переменная объясня-


ет хотя бы незначительную часть рассеивания зависимой переменной.
Для того чтобы проверить, значительно ли ухудшилось статистическое
качество модели после исключения переменных, сформулируем и про-
верим гипотезы:
H 0 : RA2 = RB2 ;
H1 : RA2 > RB2 .
Нулевая гипотеза H0 формулируется в предположении о том, что ко-
эффициенты детерминации вложенных моделей совпадают, в таком слу-
чае исключение k экзогенных переменных было обосновано, и для даль-
нейшего анализа используется модель с ограничениями (В); отклонение
нулевой гипотезы в пользу альтернативной гипотезы H1 свидетельствует
о некорректности и нецелесообразности исключения k экзогенных пе-
ременных из модели.
16
Наблюдаемое значение F-статистики определяется соотношением
(RA2 − RB2 ) k
F= . (1.23)
(1 − RA2 ) (n − m − 1)

Здесь RA2 − RB2  – оценка потери качества уравнения в результате от-


брасывания k экзогенных переменных; k – число исключенных экзоген-
ных переменных (степеней свободы); (1 − RA2 ) (n − m − 1)  – необъясненная
дисперсия модели без ограничений (А). Приведенная статистика имеет
распределение Фишера с числом степеней свободы ν1 = k и ν2 = n − m − 1 ,
т. е. F ~ F (k ; n − m −1).
В случае принятия нулевой гипотезы, когда F набл   <  F крит = 
= F (α; k ; n − m − 1), можно сделать вывод о целесообразности одновре-
менного отбрасывания k факторов, поскольку это не привело к суще-
ственному ухудшению общего качества уравнения регрессии.
Если Fнабл > Fкрит и нулевая гипотеза должна быть отклонена, то в
этом случае одновременное исключение из рассмотрения k объясняю-
щих переменных некорректно. Это означает, что общее качество перво-
начального уравнения регрессии существенно лучше качества уравнения
регрессии с отброшенными переменными, так как первоначальное урав-
нение объясняет гораздо большую долю разброса зависимой переменной.
Аналогичные рассуждения можно использовать и для проверки обо-
снованности включения новых k факторов. В этом случае моделью с огра-
ничениями является исходная модель регрессии, бывшая до того, как в
нее были включены новые экзогенные переменные, а выводы делаются
относительно целесообразности включения новых факторов.
Гипотеза об однородности рассматриваемой выборки, т. е. отсутствии
«точек разрыва», или структурной устойчивости. Процедуру проверки ги-
потезы об однородности выборки принято называть также F-тестом Чоу
на структурное изменение (Chow’s breakpoint test). Тест может быть исполь-
зован при построении регрессионных моделей при рассмотрении воздей-
ствия качественных признаков, когда имеется возможность разделения
совокупности наблюдений по степени воздействия этого фактора на от-
дельные группы и требуется установить возможность использования еди-
ной модели регрессии. В случае моделей временных рядов речь идет об
определении момента времени, подозреваемого на «структурный сдвиг».
В обоих случаях исходная выборка объема n разбивается на две под-
выборки с объемами n1 и n2 соответственно: n = n1 + n2 . Оцениваются мо-
дели регрессии по всей выборке и по двум подвыборкам, выписываются
остаточные квадратичные суммы и формулируются гипотезы:
17
H 0 : RSS = RSS1 + RSS2 ;
H1 : RSS > RSS1 + RSS2 ,

где RSS – остаточная сумма квадратов по всей выборке объема n; RSS1 и


RSS2 – соответственно остаточные суммы квадратов по двум подвыбор-
кам с объемами n1 и n2.
Нулевая гипотеза H0 формулируется в предположении о том, что вы-
борка однородная и разбивать ее на подвыборки нецелесообразно, так
как получаемое значение суммарной ошибки моделей регрессий для под-
выборок статистически не отличается от ошибки исходной. Отклонение
нулевой гипотезы в пользу альтернативной гипотезы H1 свидетельствует
о целесообразности разбиения исходной выборки на подвыборки в силу
неоднородности исходной выборки, так как в случае разбиения суммар-
ная ошибка регрессий уменьшается.
Наблюдаемое значение F-статистики находится по формуле

(RSS − (RSS1 + RSS2 )) (m + 1)


F= . (1.24)
(RSS1 + RSS2 ) ( n − 2(m + 1))

В случае принятия нулевой гипотезы, т.  е. когда Fнабл  <  Fкрит = 


= F (α; m + 1; n − 2(m + 1)), в исходной выборке отсутствует «точка разры-
ва», выборка однородна и рассмотрение подвыборок нецелесообразно.
В противном случае нулевая гипотеза должна быть отклонена, нежела-
тельно рассматривать регрессию по всей выборке и совокупность следу-
ет разбить. В случае модели по временным рядам также следует учесть
наличие «структурного сдвига», например с помощью соответствующих
фиктивных переменных.

Задания для самоконтроля

1. Какие из утверждений не являются условиями Гаусса – Маркова?


†† Случайное отклонение должно иметь постоянное ненулевое ма-
тематическое ожидание.
†† Случайное отклонение должно зависеть от объясняющих пере-
менных.
†† Для любых двух наблюдений не должно быть систематической свя-
зи между значениями случайных отклонений.
†† Дисперсия случайного отклонения постоянна для всех наблюде-
ний.
18
2. Выберите неверное суждение.
†† Близость к нулю (0) коэффициента детерминации эконометриче-
ской модели означает его статистическую незначимость.
†† Для проверки статистической значимости коэффициента модели
используется F-статистика, или распределение Фишера.
†† С помощью коэффициента детерминации проверяется гипотеза о
силе связи между экзогенными переменными.
†† Близость к единице (1) коэффициента эконометрической модели
означает его статистическую значимость.
†† Значение скорректированного коэффициента детерминации всег-
да меньше, чем значение коэффициента детерминации.
3. Выберите верное суждение.
†† Коэффициент регрессии можно считать статистически незначи-
мым, если его стандартная ошибка больше самого значения ко-
эффициента.
†† Согласно «грубому правилу», если t-статистика коэффициента
не превышает по модулю 3, коэффициент может считаться зна-
чимым.
†† Для проверки гипотезы о равенстве между собой коэффициентов
одной эконометрической модели используется DW-статистика,
или статистика Дарбина – Уотсона.
†† Коэффициент детерминации парной линейной регрессии равен
коэффициенту корреляции между эндогенной и экзогенной пе-
ременными.
†† Коэффициент детерминации и исправленный коэффициент де-
терминации совпадают только если оба они равны единице (1).
4. Укажите утверждения, истинные для эконометрической модели с
учетом ее статистических характеристик.
Cons – уровень доходов на душу населения, тыс. долл. в год; Inc – уро-
вень доходов на душу населения, тыс. долл. в год; n = 36 (1959–1994 гг.);
Const = −384,105 + 0,933Inct + et ; R 2 = 0,995F (R 2 ) = 7603,7;
(S ) (151,33) (0, 012).
†† Все переменные в модели статистически значимы для любого
уровня значимости.
†† Переменная Inc статистически значима на 5 % уровне, так как зна-
чение соответствующей t-статистики по модулю превосходит кри-
тическое значение распределения Стьюдента t(0,025; 34) = 2,03.
†† Коэффициент детерминации модели статистически незначим для
любого уровня значимости.
19
†† Свободный член модели статистически незначим на 1 % уров-
не, так как значение соответствующей t-статистики по модулю
не превосходит критическое значение распределения Стьюдента­
t(0,005; 34) = 2,73.
†† Переменная Inc статистически значима на 1 % уровне, так как
значение соответствующей t-статистики по модулю превосходит
критическое значение распределения Стьюдента t(0,01; 34) = 2,44.
5. Укажите утверждения, истинные для приведенной в задании 4 эко-
нометрической модели.
†† При увеличении доходов домашнего хозяйства на 100 тыс. долл.
расходы домашнего хозяйства также увеличиваются  почти  на
100 тыс. долл.
†† При уменьшении доходов домашнего хозяйства на 100 тыс. долл.
расходы домашнего хозяйства уменьшаются почти на 100 тыс. долл.
†† При увеличении доходов домашнего хозяйства расходы домашне-
го хозяйства увеличиваются.
†† Если доходы домашнего хозяйства составят 478 тыс. долл., то его
расходы будут равняться 61,87 тыс. долл.
†† Если доходы домашнего хозяйства составят 478 тыс. долл., то его
расходы будут равняться 445,97 тыс. долл.

6. Найдите значение коэффициента эластичности расходов по уровню


доходов в средней точке для приведенной в задании 4 эконометрической
модели, если среднее значение переменной доходов равно 835 тыс. долл.,
и укажите верные, на ваш взгляд, варианты ответов:
†† При увеличении доходов домашнего хозяйства на 1 % относитель-
но среднего значения расходы домашнего хозяйства вырастут на
11,75 % относительно среднего значения расходов.
†† При увеличении доходов домашнего хозяйства на 1 % относитель-
но среднего значения расходы домашнего хозяйства вырастут при-
мерно на 1,97 % относительно среднего значения расходов.
†† Значение эластичности в средней точке равно 11,75.
†† Значение эластичности в средней точке равно 1,9725.
†† Значение эластичности в средней точке равно 0,933.

7. Укажите, какой из интервалов является 90 % доверительным ин-


тервалом коэффициента при переменной Inc модели, приведенной в за-
дании 4, если t(0,05; 34) = 1,68; t(0,025; 34) = 2,01.
†† (0,909; 0,957).
†† Длина доверительного интервала 0,048.

20
†† (0,913; 0,953).
†† Длина доверительного интервала 0,04.
†† (0,139; 1,145).
†† Длина доверительного интервала 1,006.

8. Найдите значение коэффициента эластичности продаж по цене в


средней точке для приведенной ниже эконометрической модели, если
среднее значение переменной цены равно 15 тыс. р., а количество заня-
тых на предприятии – 700 чел.:
Sales – объем продаж консервов, тыс. условных банок в месяц; Price –
средняя цена стандартной условной банки, тыс. р.; Empl – среднее ежеме-
сячное количество работников предприятия, тыс. чел.; n = 36 (перекрест-
ные данные по предприятиям);
Salest = 900,15 − 0,32Pricet + 0, 25Emplt + et ; R 2 = 0,795.
(S ) (300,1) (0
0,16) (0, 09)
†† Значение коэффициента эластичности равно – 0,0054.
†† Значение коэффициента эластичности равно – 0,54.
†† Значение коэффициента эластичности равно – 0,0069.
†† Продажи являются эластичными по цене.
†† При увеличении цен в 2 раза продажи снизятся примерно на пол-
процента.

9. Укажите утверждения, истинные для приведенной ниже экономе-


трической модели с учетом ее статистических характеристик:
MRate – уровень смертности среди населения, на 100 000 чел.; Inc –
средний уровень доходов на душу населения, тыс. долл. в год; Aged – доля
населения старше 65 лет, %; Tobc – объем потребления сигарет, пачек в
год на человека; n = 51 (перекрестные данные, штаты США);
MRatet = −12, 45 + 0, 003Inct + 5502, 44 Agedt + 1, 458Tobct + et ;
(P ) (0, 44) (0, 25) (0, 00) (0, 01)
2
R = 0,818.
†† Все коэффициенты в модели статистически значимы для любого
уровня значимости.
†† В модели статистически значимы на 1 % уровне коэффициенты
при переменных Aged и Tobc.
†† В модели статистически незначимы на 10 % уровне коэффициен-
ты при переменной Inc и свободный член.

21
†† Все коэффициенты в модели статистически незначимы для любо-
го уровня значимости.
†† В модели статистически значимы на 3 % уровне коэффициенты
при переменных Inc, Aged и Tobc.

10. Укажите утверждения, истинные для приведенной ниже экономе-


трической модели с учетом ее статистических характеристик:
MRate – уровень смертности среди населения, на 100 000 чел.; Pov –
доля населения с доходами ниже прожиточного минимума, %; Alc – объем
потребления алкогольных напитков, галлонов в год на человека; Health –
средний уровень расходов на медицину на душу населения, тыс. долл.
в год; n = 51 (перекрестные данные, штаты США);
MRatet = 577, 079 + 643,78Povt − 69, 69 Alct + 0, 22Healtht + et ;
(S ) (103, 05) (476,87) (24,98) (0, 05)
2
R = 0,36.
†† Все коэффициенты в модели статистически значимы для любого
уровня значимости.
†† В модели статистически значимы на 1 % уровне коэффициенты
при переменных Alc и Health, так как значения соответствующих
t-статистик по модулю превосходят критическое значение распре-
деления Стьюдента t(0,005; 47) = 2,68.
†† В модели статистически значим на 1 % уровне коэффициент при
переменной Pov, так как значение соответствующей t-статистики
по модулю превосходит критическое значение распределения
Стьюдента t(0,005; 47) = 2,68.
†† В модели статистически незначим на 1 % уровне коэффициент при
переменной Pov, так как значение соответствующей t-статистики
по модулю не превосходит критическое значение распределения
Стьюдента t(0,005; 47) = 2,68.
†† В модели статистически значим на 1 % уровне свободный член,
так как значение соответствующей t-статистики по модулю не
превосходит критическое значение распределения Стьюдента
t(0,05; 47) = 1,68.

11. На основе представленной в задании 10 эконометрической модели


проверьте гипотезу о том, что коэффициент при переменной Pov в 10 раз
больше, чем коэффициент при Alc, взятый с противоположным знаком,
используя то, что cov между ними равна –0,3. Используя результат про-
верки гипотезы, укажите истинные, на ваш взгляд, утверждения.

22
†† Нулевая гипотеза о том, что коэффициент при переменной Pov
в 10 раз больше, чем коэффициент при Alc, взятый с противо-
положным знаком, не отклоняется, так как соответствующая
F-статистика равна 1,987 и сравнима с нулем.
†† Нулевая гипотеза о том, что коэффициент при переменной Pov
в 10 раз больше, чем коэффициент при Alc, взятый с противо-
положным знаком, не отклоняется, так как соответствующая
t-статистика равна –0,0987 и сравнима с нулем.
†† Нулевая гипотеза о том, что коэффициент при переменной Pov в
10 раз больше, чем коэффициент при Alc, взятый с противополож-
ным знаком, отклоняется, так как только один из этих коэффици-
ентов является статистически значимым.
†† Поскольку коэффициент при переменной Pov незначим, то для
проверки гипотезы о том, что коэффициент при переменной Pov
в 10 раз больше, чем коэффициент при Alc, взятый с противопо-
ложным знаком, корректно было бы использовать F-статистику,
построив соответствующую модель с линейным ограничением.

12. Укажите утверждения, истинные для приведенной ниже экономе-


трической модели с учетом ее статистических характеристик и приняв од-
ностороннюю вероятность равной a = 0,05 (для справки t(0,025; 47) = 2,01;
t(0,05; 47) = 1,68):
AgeRate – продолжительность жизни, лет; Inc – средний уровень до-
ходов, тыс. долл. в год; Tobc – потребление сигарет (1 – да; 0 – нет); Alc –
потребление алкогольных напитков (1 – да; 0 – нет); Sex – пол (1 – ж;
0 – м); n = 51 (перекрестные данные, количество опрошенных человек);
AgeRatet = 62, 45 + 0, 03Inct + 0,5Tobct − 8, 4 Alct + 10,1Sext + et ;
(t ) (2,14) (0, 09) (1, 21) (−2,6) (1,93)
2 2
R = 0,818; F (R ) = 107,87.

†† Продолжительность жизни существенно зависит от наличия таких


вредных привычек, как курение и употребление алкоголя.
†† Согласно модели, является истинным утверждение, что женщины
живут дольше мужчин почти на 10 лет.
†† Отказ от курения продлевает жизнь более чем на 8 лет.
†† Средняя продолжительность жизни курящей женщины с годовым
доходом в 25 000 долларов составляет 74 года.
†† Разность между продолжительностью жизни женщины и мужчины
с одинаковым доходом, если она курит, а он пьет, составляет 19 лет.
23
13. Укажите, какой из интервалов, приведенных ниже, является 93 %
доверительным интервалом коэффициента b2 эконометрической моде-
ли, приведенной в задании 12, если t(0,035; 46) = 1,89; t(0,035; 47) = 1,85.
†† (–0,281; 1,281).
†† Длина интервала составляет 1,53.
†† (–0,212; 0,464).
†† Длина интервала составляет 1,56.
†† (–0,264; 1,264).
†† Длина интервала составляет 0,676.

14. Укажите тесты, которые используются для диагностики наличия


ошибок спецификации.
†† Тест Рамсея.
†† Тест Парка.
†† Тест Хаусмана.
†† Тест Сведа – Эйзенхарта.
†† Тест Дарбина.

15. Сколько фиктивных переменных необходимо задать для каче-


ственной переменной с четырьмя значениями (например, для сезона)?
†† Две.
†† Три.
†† Одну.
†† Четыре.
†† На одну меньше, чем число сезонов.

16. Какие из следующих факторов отражаются в моделях через коли-


чественные переменные?
†† Объем экспорта стран, входящих в торговый союз.
†† Налог на определенный вид торговых операций.
†† Дата вступления страны в торговый союз.
†† Индекс потребительских цен.
†† Введение налога на определенную деятельность в конкретные пе-
риоды времени.

17. Какие из следующих факторов отражаются в моделях через каче-


ственные (фиктивные) переменные?
†† Наличие у семьи квартиры в собственности.
†† Стоимость квартиры, находящейся у семьи в собственности.
†† Выплаты по кредиту, взятому на приобретение квартиры.
†† Кредит, взятый на приобретение квартиры.
†† Процент по кредиту, взятому на приобретение квартиры.

24
18. C какой целью можно использовать приведенные фиктивные пе-
ременные в модели множественной линейной регрессии, построенной по
квартальным данным (k – номер некоторого наблюдения из выборки)?
1, если t ≥ tk ; 1, если t = 2,6,10,14,18 ...;
F1t =  F2 t = 
0, если t < tk ; 0, для остальных значений t .
†† Для моделирования сезонности в первом квартале.
†† Для моделирования аддитивных выбросов.
†† Для моделирования структурных сдвигов.
†† Для моделирования изменений линии тренда.
†† Для моделирования сезонности во втором квартале.

19. С какой целью можно использовать приведенные фиктивные пе-


ременные в модели множественной линейной регрессии, построенной по
квартальным данным (k – номер некоторого наблюдения из выборки)?
t, если t ≥ tk ; 1, если t = tk ;
F1t =  F2t = 
0, если t < tk ; 0, для остальных значений t.
†† Для моделирования сезонности.
†† Для моделирования аддитивных выбросов.
†† Для моделирования структурных сдвигов.
†† Для моделирования изменений линии тренда.

20. Укажите правильные, на ваш взгляд, выводы, полученные при


сравнении приведенных ниже эконометрических моделей:
Expfood – средний уровень расходов домашнего хозяйства на пита-
ние, долл./мес.; Inc – средний уровень доходов домашнего хозяйства,
долл./ мес.; Q1 – сезонная фиктивная переменная первого квартала; n = 51
(перекрестные данные по штатам США);
Expfoodt = 0,126 + 0, 42Inct + et ; R 2 = 0,74.
(P ) (0, 04) (0, 06)
Expfoodt = 0,124 + 0,52 Inct + 0, 09Q1t + et ; R 2 = 0,84.
(P ) (0, 04) (0, 03) (0, 01)
†† Для модели зависимости расходов на питание от доходов характер-
на сезонность в первом квартале, так как значение F-статистики,
сравнивающей коэффициенты детерминации этих моделей, рав-
но 30 и превосходит критическое значение F(0,05) = 4,04.

25
†† Для модели зависимости расходов на питание от доходов харак-
терна сезонность в I квартале, так как соответствующая фиктив-
ная переменная, при введении ее в модель, статистически значи-
ма на 1 % уровне.
†† Для модели зависимости расходов на питание от доходов характер-
на сезонность в I квартале, так как значение F-статистики, сравни-
вающей коэффициенты детерминации этих моделей, равно 31,25
и превосходит критическое значение F(0,05) = 4,04.
†† Для модели зависимости расходов на питание от доходов харак-
терна сезонность в I квартале, так как при введении соответству-
ющей фиктивной переменной в модель увеличивается статистиче-
ская значимость переменной доходов (уменьшается Р-вероятность
коэффициента).
†† Для модели зависимости расходов на питание от доходов харак-
терна сезонность в I квартале, так как при введении соответству-
ющей фиктивной переменной в модель увеличивается коэффи-
циент детерминации.

21. Укажите правильные, на ваш взгляд, выводы относительно сезон-


ности, полученные при сравнении приведенных ниже моделей:
A : Yt = β0 + β1 X 1t + β2 X 1t Q1 + β3 Q1 + et ; R 2 = 0,3312;
(P ) (0, 0) (0, 06) (0, 099) (0,11)
B : Yt = β0 + β1 X 1t + β3 Q1 + et ; R 2 = 0, 2996;
(P ) (0, 0) (0, 06) (0, 04)
C : Yt = β0 + β1 X 1t + β2 X 1t Q1 + et ; R 2 = 0, 2892;
(P ) (0, 0) (0, 05) (0, 06)
D : Yt = β0 + β1 X 1t + et ; R 2 = 0, 23;
(P ) (0, 01) (0, 07)
= =
n 44; F (0, 05; 1; 42) 4,=
07; F (0, 05; 1; 41) 4=
, 08; F (0, 05; 1; 40) 4, 09.

†† Оптимальной является модель (А), и для исследуемой зависимо-


сти характерна и мультипликативная, и аддитивная сезонности.
†† Оптимальной является модель (B), и для исследуемой зависимо-
сти характерна аддитивная сезонность.
†† Оптимальной является модель (C), и для исследуемой зависимо-
сти характерна мультипликативная сезонность.
26
†† Для исследуемой зависимости для 5 % уровня значимости невоз-
можно выбрать удовлетворительную модель.
†† Для исследуемой зависимости и мультипликативная, и аддитив-
ная сезонность оказались недостаточно значимыми. Оптималь-
ной является модель (D).

Практические задания

Задание 1.1. Для показателей, подробное описание которых дано


ниже, с помощью МНК оценена регрессионная зависимость и получе-
ны соответствующие значения статистических характеристик уравнения.
Эти показатели далее использованы для выводов относительно значимо-
сти взаимосвязи и проверки некоторых гипотез:
Food – расходы на питание, тыс. р.; Wage – размер заработной платы,
тыс. р.; Save – сбережения, тыс. р.; Pay – обязательные платежи, тыс. р.;
n = 100 (перекрестные данные, количество обследованных домохозяйств);
Foodt = −97, 45 + 0, 724Waget − 0,14Savet − 0,358Payt + et ;
(S ) (45,93) (0
0, 04) (0, 08) (0, 29)
(t ) (−2,12) (18,1) (−1,75) (−1, 23)
(P ) (0, 037) (0, 00) (0, 083) (0, 22)
2 2
R = 0,818; F (R ) = 143,824;
t (α 2; n − m − 1) = t (0, 025; 96) = 1,985;
F (α; m; n − m − 1) = F (0, 05; 3; 96) = 2,699.

Трактовка коэффициентов модели


При увеличении размера заработной платы на 100 тыс. р. расходы на
питание возрастут на 7 тыс. 240 р. При уменьшении обязательных плате-
жей на 20 тыс. р. расходы на питание увеличатся на 7 тыс. 160 р. При ро-
сте сбережений на 70 тыс. р. расходы на питание снизятся на 9 тыс. 800 р.
При сравнении семей А и Б: если в семье А размер заработной платы
выше на 300 тыс. р., в семье Б размер обязательных платежей выше на 50
тыс. р. и отсутствуют сбережения, в отличие от семьи А, где откладыва-
ют около 70 тыс. р., – в семье А тратят на питание больше, чем в семье Б
на 225 тыс. 300 р.
Эластичность эндогенного показателя в средней точке по каждому из
экзогенных показателей находится по следующим формулам (при задан-
ных значениях средних значений переменных 560; 70; 240 соответственно):
27
β2 – статистически значим при уровне значимости начиная с a = 0,09
(т. е. и для большего уровня a = 0,10), так как a = 0,09 > P = 0,08. При уров-
нях значимости a = 0,01 и a = 0,05 коэффициент β2 статистически незна-
чим, так как a = 0,05 < P = 0,08 и тем более a = 0,01 < P = 0,08;
β3 – статистически незначим, так как может считаться значимым
при уровне значимости с a = 0,22, т. е. для уровней значимости a = 0,01,
a = 0,05 и a = 0,10 – коэффициент статистически незначим.

Проверка гипотезы о равенстве коэффициента регрессии заданному числу:


H 0 : β1 = 1;
b1 − 1 0,724 − 1
T= = = 6,9 ⇒ T > t (0, 025; 96) = 1,985 ⇒ H1 .
Sb1 0, 04
Нулевая гипотеза отклоняется в пользу альтернативной, т. е. пред-
положение о равенстве коэффициента при переменной Wage не являет-
ся верным.

Проверка гипотезы о равенстве двух коэффициентов регрессии, или о


равенстве нулю их линейной комбинации:
H 0 : β2 = β3 , если cov (b2 ; b3 ) = −0,13;
b2 − b3 −0,14 + 0,358
T= = = 0,368 ⇒ T < t (0, 025; 96) = 1, 985 ⇒ H 0 ;
Sb2 − b3 0,592

Sb2 + b3 = Sb22 + Sb23 − 2 cov (b2 ; b3 ) = 0, 0064 + 0, 0841 + 2 ⋅ 0,13 =

= 0,3505 = 0,592.
Нулевая гипотеза не отклоняется, следовательно, предположение о
равенстве коэффициентов при переменных Save и Pay является верным.
Возможно рассмотреть новую модель регрессии при данном линейном
ограничении.

Проверка гипотезы о равенстве коэффициентов детерминации двух вло-


женных моделей
Пусть рассматривается модель регрессии, вложенная в исходную, по-
скольку может быть получена из нее исключением экзогенной перемен-
ной Pay (или Save). Рассмотрим два возможных варианта с различными
выводами, используя статистику для проверки гипотезы о равенстве ко-
эффициентов детерминации:
R2 − R2 n − m − 1
Fнабл = 1 22 ~ F (k; n − m − 1);
1 − R1 k

29
Foodt = −96, 45 + 0, 684Waget − 0,34Savet + et ; R 2 = 0,813;
(t ) (−4,71) (21,1) (−2, 97)
t (0, 025; 96) = 1, 985;
F (0, 05; k; n − m − 1) = F (0, 05; 1; 96) = 3, 94.
Соответствующая статистика и вывод по проверяемой гипотезе:
H 0 : R12 = R22 ;
0,818 − 0,813 96
F= = 2,64 < F (0, 05; 1; 96) = 3, 94 ⇒ H 0 .
1 − 0,818 1
Исключение переменной Pay было обоснованным, так как общее ка-
чество модели, характеризуемое величиной коэффициента детермина-
ции, не ухудшилось.
Foodt = −96, 45 + 0, 684Waget − 0, 45Payt + et ; R 2 = 0,784;
(t ) (−4,71) (21,1) (−1, 27)
t (0, 025; 96) = 1,985;
F (0, 05; k; n − m − 1) = F (0, 05; 1; 96) = 3, 94.
Соответствующая статистика и вывод по проверяемой гипотезе:
H 0 : R12 = R32 ;
0,818 − 0,784 96
F= = 17,934 > F (0, 05; 1; 96) = 3, 94 ⇒ H1 .
1 − 0,818 1
Исключение переменной Save было необоснованным, так как общее
качество модели, характеризуемое величиной коэффициента детерми-
нации, ухудшилось.

Задание 1.2. Оценивание модели yt = β0 + β1 xt1 + β2 xt 2 + β3 xt 3 + εt ме-


тодом наименьших квадратов по 26 наблюдениям дало следующие ре-
зультаты:
yt = 2 + 3,5 xt1 − 0,7 xt 2 + 2, 0 xt 3 + et ; R 2 = 0,882.
(t ) (1, 9) (−2, 2) (1,5)
Оценивание той же модели при ограничении β1 = β3 дало следующие
результаты:
yt = 1,5 + 3, 0 ( xt1 + xt 3 ) − 0,6 xt 2 + ut ; R 2 = 0,876.
(t ) (2,7) (−2, 4)

30
1. Проверьте значимость вектора β ′ = (β1, β2 , β3 ) в регрессии без огра-
ничений.
2. Проверьте гипотезу β1 = β3 при условии, что cov(β1; β3 ) = −1.
3. Можно ли проверить ограничение β1 = β3, используя F-статистику?

Задание 1.3. Следующие результаты были получены при построении


модели множественной линейной регрессии: Q (натуральный логарифм
объема продаж яблок в килограммах) на P (натуральный логарифм стои-
мости яблок за килограмм в рублях) и константу. По n = 22 наблюдениям
построено уравнение регрессии Qt = 5, 2 − 1, 48 Pt + et . Оцененное значение
дисперсии отклонений S2 = 0,05 и обратная матрица к матрице перекрест-
ных произведений экзогенной переменной P:
−1
 22 
 22 ∑ Pt   2,13 −1, 936 
 t =1  = .
 22 22   −1, 936 1,8 
 ∑ Pt ∑ Pt 
2
 t =1 t =1

1. Проверьте гипотезу о статистической значимости коэффициен-


тов. Используйте при проверке гипотезы то, что P (t20 < −1,72) = 0, 05 и
P (t20 < −1,32) = 0,10 .
2. Спрогнозируйте величину Q при P = 1. Постройте 90 % доверитель-
ный интервал для величины Q при P = 1.

Задание 1.4. Для изучения динамики объема производства (y, k, l – на-
туральные логарифмы выпуска, трудозатрат и капиталовложений фирм
некоторой отрасли соответственно) построены по годовым данным с
1975 г. две модели:
A : Y^ = 1,5229 + 0, 425k;
t R 2 = 0,84;
(S ) (0,162)

B : Y^t = 3, 4786 + 0, 447k + 0,553l ; R 2 = 0, 92.


(S ) (0,125) (0,137)
Сравните полученные модели, оцените их качество, сделайте выво-
ды, обосновав их в том числе с точки зрения экономической теории. Ис-
пользуйте для этого также тот факт, что статистика Фишера для гипотезы
о равенстве коэффициентов R2 этих моделей равна 22, определив перед
этим по ней объем выборки n.
31
Задание 1.5. Для регрессионной модели с четырьмя объясняющими
переменными на основе n = 25 наблюдений имеется следующая инфор-
мация:
Значение Степени свободы Дисперсия
RSS 7776
ESS
TSS

1. Заполните в таблице отсутствующие данные, учитывая, что коэф-


фициент детерминации R2 = 0,9.
2. Проверьте гипотезу о статистической значимости коэффициента
детерминации.
3. Что можно сказать об индивидуальном влиянии каждой из объяс-
няющих переменных на эндогенную переменную Y?

Задание 1.6. По выборке из 1755 чел., из которых 1669 чел. занято в


частном секторе, а 86 чел. – в государственном секторе экономики, по-
строена регрессионная модель зависимости недельной оплаты труда Y от
количества лет, потраченных на образование X1 и продолжительности ра-
бочей недели X2: Y = β0 + β1 X 1 + β2 X 2 + ε. Введем фиктивную переменную
D – человек работает в частном секторе экономики. Рассмотрим обобще-
ние регрессионной модели с вводом фиктивной переменной в свободный
член (модель 2) и с вводом с помощью фиктивных переменных аддитив-
ного и мультипликативного слагаемого (модели 3–4).
В качестве зависимой переменной используется логарифм недельной
оплаты труда. Результаты моделей регрессий представлены в табл.  1.1.
В скобках под коэффициентами записаны их стандартные ошибки.
Таблица 1.1

Экзогенные Регрессии
переменные 1 2 3 4
константа 5,165 5,111 5,124 5,166
(2,083) (2,052) (2,042) (2,074)
X1 0,094 0,097 0,101 0,103
(0,026) (0,028) (0,031) (0,033)
X2 0,146 0,142 0,132 0,121
(0,036) (0,030) (0,028) (0,033)
D _ 2,34 _ 1,317
(1,562) (1,008)

32
Окончание табл. 1.1

Экзогенные Регрессии
переменные 1 2 3 4
DX1 – – 0,033 0,025
(0,009) (0,011)
DX2 – – 0,077 0,069
(0,039) (0,036)
R2 0,321 0,322 0,361 0,362
RSS 714,5 706,9 672,5 672,5
n 1755 1755 1755 1755

Исследователь предположил, что регрессионные модели логариф-


ма недельной оплаты труда различаются для занятых в частном и госу-
дарственном секторах экономики. Проверьте это предположение при
a = 0,05.
1. Используя только модели регрессий 2, 3 и 4 по отдельности.
Наборы экзогенных переменных в моделях регрессий 2, 3 и 4 отли-
чаются включением либо аддитивной фиктивной переменной D, либо
мультипликативных переменных, либо фиктивных переменных в обе-
их формах.
При проверке гипотезы о различии функции недельной оплаты труда
для занятых в частном и государственном секторах экономики с помощью
модели регрессии 2, очевидно, достаточно проверить гипотезу о статисти-
ческой значимости коэффициента b3 при аддитивной фиктивной пере-
менной D. Коэффициент b3 статистически значим, т. е. отличен от нуля.
Проверяем гипотезу H 0 : β3 = 0 при альтернативной H1 : β3 ≠ 0. Для
проверки гипотезы необходимо сравнить значение наблюдаемой стати-
стики tb3 = b3 Sb3 с критическими значениями распределения Стьюдента
при уровне значимости α = 0,05 (по условию) и значении степени свобо-
ды ν = n − m − 1 = 1755 − 3 − 1 = 1751, tкрит = tα/ 2; n − m−1 = 1,961. Поскольку для
коэффициента при аддитивной фиктивной переменной D значение ста-
2,34
тистики tb3 = = 1, 498 < 1,961 = t (0, 025; 1751), то H0 принимается при
1,562
этом уровне значимости, и коэффициент b3 статистически незначим. Ко-
эффициент β3 статистически незначим и при уровне значимости a = 0,1.
Статистически значимыми являются коэффициенты b1, b2 при количе-
33
ственных переменных уравнения регрессии, для которых наблюдаемые
значения t-статистик по модулю больше критического значения.
Аналогичным образом проверяется статистическая значимость коэф-
фициентов при фиктивных переменных в моделях регрессий 3 и 4. Для
этого проверим статистическую значимость коэффициентов при фиктив-
ных переменных аддитивного и мультипликативного слагаемого в моде-
лях регрессий 3–4 с помощью t-статистики.
Модель 3:
0, 033 0, 077
t DX1 = = 3,6(6); t DX 2 = = 1,974 ~
0, 009 0, 039
~ tкрит = t (0, 025; 1755 − 4 − 1) = 1, 961.
Поскольку значения наблюдаемых t-статистик превосходят значе-
ние критической точки распределения Стьюдента, можно сделать вы-
вод о статистической значимости соответствующих коэффициентов при
фиктивных переменных мультипликативного слагаемого. Такой вывод
позволяет признать верным предположение о наличии различий между
моделями оплаты труда для занятых в частном и государственном секто-
рах экономики.
Модель 4:
1,317 0, 025 0, 069
tD = = 1,307; t DX1 = = 2,(27); t DX 2 = = 1, 91(6) ~
1, 008 0, 011 0, 036
~ tкрит = t (0, 025; 1755 − 5 − 1) = 1, 961.
Исходя из значений t-статистик фиктивных переменных модели ре-
грессии 4 подтверждается вывод, сделанный при анализе модели регрес-
сии 2 о статистической незначимости фиктивной переменной аддитивно-
го слагаемого. Коэффициент при переменной DX1 статистически значим,
что уже подтверждает наличие различий между моделями оплаты труда
для занятых в частном и государственном секторах экономики. Коэффи-
циент при переменной DX2 слабо статистически значим (соответствую-
=
щее критическое значение tкрит t(=
0, 05; 1749) 1,646), однако его диспер-
сия может быть смещена в силу присутствия в модели трех фиктивных
переменных, коррелирующих между собой и с коэффициентом свобод-
ного члена модели.
Из анализа, проведенного для каждой из моделей, можно сделать об-
щий вывод о том, что фиктивные переменные мультипликативного сла-
гаемого статистически значимы, а следовательно, предположение иссле-
дователя выполняется.
34
2. Сравнивая модели регрессий 1 и 3, 3 и 4.
Сравнивая между собой регрессионные модели 1 и 3, проверяем пред-
положение о необходимости учесть фиктивные переменные мультипли-
кативного слагаемого, поскольку фиктивная переменная аддитивного
слагаемого оказалась статистически незначимой. Для этого проведем
соответствующий F-тест, сравнивающий коэффициенты детерминации
моделей 1 и 3.
Вычислим значение соответствующей F-статистики (наблюдаемой):
R12 − R32 n − m − 1 0,361 − 0,321 1755 − 4 − 1
Fнабл = = = 54,773.
1 − R12 k 1 − 0,361 2
Найдем значение критической точки в таблице распределения Фи-
шера для уровня значимости a  =  0,05 и значений степеней свободы
ν1 = k = 2; ν2 = n − m − 1 = 1750, Fкрит = 3,001. Поскольку Fнабл > Fкрит, то ну-
левая гипотеза может быть отклонена, фиктивные переменные мульти-
пликативного слагаемого совместно статистически значимы. Это также
свидетельствует о том, что существуют различия между регрессионными
моделями логарифма недельной оплаты труда для занятых в частном и
государственном секторах экономики.
Сравнивая между собой регрессионные модели 3 и 4, можно убедить-
ся в отсутствии необходимости учесть фиктивные переменные аддитивно-
го слагаемого, на что указывает соответствующее значение F-статистики:
R12 − R32 n − m − 1 0,362 − 0,361 1755 − 5 − 1
Fнабл = = = 2, 741.
1 − R12 k 1 − 0,362 1
Найдем значение критической точки в таблице распределения Фи-
шера для уровня значимости a  =  0,05 и значений степеней свободы
ν1 = k = 1; ν2 = n − m − 1 = 1749, Fкрит = 3,847. Поскольку Fнабл < Fкрит, то нет
оснований отвергать нулевую гипотезу и при объяснении зависимости
недельной оплаты труда Y нет необходимости учитывать фиктивные пе-
ременные аддитивного слагаемого. При выборе оптимальной модели ре-
грессии из представленных 1–4 следует выбрать, очевидно, модель ре-
грессии 3.
Другой исследователь предположил, что вместо сравнения моделей 2,
3 и 4 можно использовать тест Чоу по оцененным уравнениям регрес-
сий 5–6. Поясните, прав ли исследователь. Если да, то проверьте пред-
положение о различии функции недельной оплаты труда для занятых в
частном и государственном секторах экономики, используя тест Чоу при
a = 0,05 (табл. 1.2).
35
Таблица 1.2

Экзогенные Регрессия Тест Чоу


переменные 1 5 6
константа 5,165 5,283 5,166
(2,083) (2,085) (2,064)
X1 0,094 0,099 0,094
(0,026) (0,024) (0,025)
X2 0,146 0,143 0,138
(0,036) (0,041) (0,032)
D – – –
DX1 – – –
DX2 – – –
R2 0,321 0,277 0,363
RSS 714,5 411,0 261,6
n 1755 1669 86

При проверке предположения о наличии различий в оплате труда вы-


яснилось, что для групп, занятых в частном и государственном секторах
экономики, возможно как использовать подход, связанный с введением
фиктивных переменных, так и тестировать однородность исходной вы-
борки с помощью теста Чоу (Chow):
H 0 : RSS(1) = RSS(5) + RSS(6) ⇔ между моделями нет различий;
H1 : RSS(1) > RSS(5) + RSS(6) ⇔ есть различия между моделями.
Соответствующая F-статистика (Fнабл) имеет вид

Fнабл =
( )
RSS(1) − RSS(5) + RSS(6) (m + 1)
~ F ( m + 1; n − 2(m + 1)).
(RSS(5) + RSS(6) ) (n − 2(m + 1))
Значения остаточных сумм согласно таблице условия: RSS(1) = 714,5;
RSS(5) = 411; RSS(6) = 261,6.
714,5 − (411 + 261,6) (2 + 1) 13,96(6)
Fнабл = = = 36,3183;
(411 + 261,6) (1755 − 2(2 + 1)) 0,38456
Fкрит = F (0, 05; 3; 1749) = 2,61.
Поскольку Fнабл > Fкрит, то нулевая гипотеза отклоняется в пользу аль-
тернативной, что подтверждает предположение о том, что регрессионные
модели логарифма недельной оплаты труда различаются для занятых в
частном и государственном секторах экономики.

36
Задание 1.7. Проведено исследование сельскохозяйственной произ-
водственной функции Кобба – Дугласа Y = A × K α × Lβ × e ε в виде ре-
грессионной модели lnY = β0 + β1lnK + β2 lnL + εt , где Y – объем выпуска
продукции, L – трудозатраты и K – капиталовложения. Оцененное урав-
нение регрессии имеет вид
1 : lnY = 0,65 + 0,33 ln K + 0, 68 lnL; R 2 = 0, 750; n = 50;
(S ) (0,14) (0,13) (0,32) RSS = 400.
Для проверки ограничения β1 + β2 = 1 оценили регрессию вида

2 : ln (Y K ) = 1,7086 + 0, 6129 ln(Y K ); R 2 = 0,768; n = 50;


(S ) (0, 4159) (0, 0939) RSS = 527.

1. Покажите, что модель регрессии 2 является моделью с ограниче-


нием β1 + β2 = 1 регрессии 1.
Для того чтобы перейти от модели регрессии 1 к модели 2, очевидно,
необходимо использовать свойства логарифмической функции, чтобы
преобразовать переменные:
lnY = β0 + β1 ln K + β2 ln L + e ⇔
⇔ lnY − ln K = β0 + β1 ln K − ln K + β2 ln L + e ⇔
⇔ ln(Y K ) = β0 + (β1 − 1)ln K + β2 ln L + e.

Переход к переменной вида ln(L /K) возможен в том случае, если ко-
эффициенты при экзогенных переменных имеют противоположные зна-
ки, т. е. β1 − 1 = −β2 или β1 + β2 = 1:
ln(Y K ) = β0 + (β1 − 1)ln K + β2 ln L + e ⇔
⇔ ln(Y K ) = β0 − β2 ln K + β2 ln L + e ⇔
⇔ ln(Y K ) = β0 + β2 ln( L K ) + e  – модели регрессии 2 в общем виде,
из модели регрессии 1 при выполнении условия β1 + β2 = 1, которое явля-
ется линейным ограничением.
Все сельскохозяйственные предприятия были разбиты на две группы
по определенному признаку. Для каждой группы предприятий были оце-
нены уравнения регрессии.
Первая группа предприятий:
3 : lnY = 0,50 + 0,30 ln K + 0, 65 ln L; R 2 = 0,88; n = 20;
(S ) (0,12) (0,14) (0,30) TSS = 1100; cov(b1, b2 ) = −0, 010.

37
Вторая группа предприятий:
4 : lnY = 0,70 + 0,35 ln K + 0,75 ln L; R 2 = 0,85; n = 30;
(S ) (0,16) (0,15) (0,31) TSS = 1500; cov(b1, b2 ) = −0, 058.
2. Проверьте предположение о том, что производственные функции
двух групп предприятий различны при a = 0,10.
Для проверки предположения будем использовать тест Чоу (Chow):
H 0 : RSS(1) = RSS(3) + RSS(4) ⇔ между ПФ нет различий;
H1 : RSS(1) > RSS(3) + RSS(4) ⇔ есть различия между ПФ.

Cоответствующая F-статистика (Fнабл) имеет вид

F=
(
RSS(1) − RSS(3) + RSS(4) ) (m + 1)
~ F ( m + 1; n − 2(m + 1)).
(RSS(3) + RSS(4) ) (n − 2(m + 1))
Для модели регрессии 1: RSS(1) = 400, найдем остальные значения
остаточных сумм для моделей регрессий 3 и 4:
( )
RSS(3) = 1 − R(23) TSS(3) = (1 − 0,88)1100 = 132;

RSS(4) = (1 − R )TSS
2
(4) (4) = (1 − 0,85)1500 = 225.

400 − (132 + 225) (2 + 1) 14,33(3)


Fнабл = = = 1,7666;
(132 + 225) (50 − 2(2 + 1)) 8,11(3
36)
Fкрит = F (0,10; 3; 44) = 2, 213.

Поскольку Fнабл > Fкрит, то нет оснований для отклонения нулевой


(основной) гипотезы и различия между производственными функциями
двух групп предприятий отсутствуют.
3. Проверьте, действует ли ограничение β1 + β2 = 1 для первой груп-
пы предприятий при a = 0,05. Сформулируйте предположения, которые
будете проверять, в виде статистических гипотез.
Сформулируем предположение в виде гипотезы о равенстве заданно-
му числу линейной комбинации коэффициентов регрессионной модели
3 и найдем значение соответствующей статистики:
H 0 : β1 + β2 = 1; cov (b1; b2 ) = −0, 01;
H1 : β1 + β2 ≠ 1;
b1 + b2 − 1 0,3 + 0,65 − 1
T= = = −0,167,
Sb1 + b2 0, 2993
2 2 2 2
38 где Sb1 + b2 = Sb1 + Sb2 + 2 cov(b1; b2 ) = 0,14 + 0,30 + 2 ⋅ (−0, 01) =
= 0, 0896 = 0, 2993.
где Sb1 + b2 = Sb21 + Sb22 + 2 cov(b1; b2 ) = 0,142 + 0,302 + 2(−0, 01) = 0, 0896 =
= 0, 2993.
Поскольку
Tнабл = 0,167 < tкрит = t (α 2; N − m − 1) = t (0, 025; 20 − 2 − 1) = 2,11,
то нет оснований для отклонения нулевой (основной) гипотезы и для пер-
вой группы предприятий выполняется линейное ограничение β1 + β2 = 1.

Задание 1.8. Приведены годовые данные о персональном доходе X


(тыс. фунтов) и сбережениях Y (тыс. фунтов) (табл. 1.3). Проанализиро-
вав динамику сбережений, сформулируйте и проверьте выполнение ги-
потезы о наличии точки разрыва, т. е. определите два периода, характер
поведения ряда показателя сбережений на которых различен, аргументи-
руйте свои выводы, обратившись к экономической истории.
Таблица 1.3
Год Y X Год Y X
1946 36 880 1955 59 1550
1947 21 940 1956 90 1670
1948 8 1000 1957 95 1770
1949 20 1060 1958 82 1860
1950 10 1100 1959 104 1970
1951 12 1190 1960 153 2110
1952 41 1270 1961 194 2280
1953 50 1350 1962 175 2390
1954 43 1430 1963 199 2520

Задание 1.9. Руководство промышленного предприятия исследовало


влияние уровня заработной платы на выполнение норм выработки. По-
лученные данные приведены в табл. 1.4 (t – номер месяца, yt – выполне-
ние норм выработки (%), xt – средняя заработная плата рабочего пред-
приятия (у. е.)).
1. Постройте корреляционное поле и установите тесноту связи меж-
ду выполнением нормы и заработной платой. Выдвиньте предположение
о форме зависимости между показателями. Оцените параметры модели
yt = β0 + β1 xt + εt с помощью методов матричного исчисления.
2. Определите значения стандартной ошибки регрессии и стандарт-
ных ошибок коэффициентов. Оцените адекватность регрессионной мо-

39
дели в части статистической значимости коэффициентов. Проверьте ги-
потезу о равенстве старшего коэффициента регрессии числу 10.
3. Спрогнозируйте по модели показатель выполнения норм выработ-
ки при условии x = 755. Оцените ошибку такого прогноза.
Как будет изменяться рассмотренный показатель, если заработная
плата снизится на 7 у. е.?
На сколько процентов относительно своего среднего значения изме-
нится выполнение нормы выработки, если заработная плата будет уве-
личена на 12 % относительно своего среднего значения?
4. Используя полученные оценки коэффициентов, найдите опти-
мальный уровень заработной платы в смысле максимума выполнения
нормы выработки.
Таблица 1.4
t xt yt t xt yt
1 960 102,8 7 777 104,6
2 285 72,6 8 470 87,6
3 512 84,9 9 917 148,3
4 755 108,2 10 594 95,2
5 559 93,3 11 855 122,9
6 867 115,5 12 689 104,4

Задание 1.10. Даны квартальные данные об объемах продаж и доходах


текстильных корпораций США в определенный период (табл. 1.5). Вве-
дите сезонные фиктивные переменные и с помощью регрессии дохода на
объем продаж исследуйте наличие или отсутствие сезонных колебаний.
Таблица 1.5
Объем Объем
Доход Доход
Год Квартал продаж Год Квартал продаж
VOL INC VOL INC
1974 I 242 13,5 1976 I 284,2 14,8
II 269,4 16,3 II 307,6 18,1
III 272,1 15,5 III 301,6 16
IV 277 13,4 IV 309,8 15,6
1975 I 247,1 9,3 1977 I 311,5 15,6
II 265,8 12,4 II 338,6 19,7
III 271 13,2 III 331,7 16,7
IV 281,3 14,2 IV 346,2 18,4

40
Окончание табл. 1.5
Объем Объем
Доход Доход
Год Квартал продаж Год Квартал продаж
VOL INC VOL INC
1978 I 340,2 16 1979 I 406,2 22,6
II 377,5 22,1 II 436,4 26,8
III 376,9 20,4 III 437,5 24,8
IV 401,8 22,6 – – –

Визуальный анализ графика зависимости дохода от объема продаж


показывает целесообразность использования линейной регрессионной
модели (рис. 1.1).

Рис. 1.1
Используя принятые в таблице обозначения, оценим параметры ре-

грессии INCt = β0 + β1 VOLt .
Модель 1
Зависимая (эндогенная) переменная INC
Количество наблюдений 23
Переменная Коэффициент Ст. ошибка t-стат. P-вероятн.
Константа C –5,055748 1,682014 –3,005770 0,0067
Независимая (экзогенная)
переменная VOL 0,069185 0,005124 13,50296 0,0000
Коэффициент детерминации 0,896720 F-статистика 182,3300

41
Полученные результаты подтверждают предварительный вывод: при
относительно небольшом числе наблюдений статистическая значимость
коэффициентов высокая.
Визуальный анализ графиков переменных INC и VOL позволил вы-
явить некоторую закономерность – повторяющиеся из года в год изме-
нения показателей в определенные промежутки времени, т. е. сезонные
колебания (рис. 1.2). Самые значительные сезонные колебания наблюда-
ются у переменной показателя INC во втором квартале каждого года (за
исключением 1975 г.). Исходя из этого введем сезонные фиктивные пе-
ременные и подтвердим наличие сезонных колебаний.

Рис. 1.2
Обозначим фиктивные квартальные переменные: Qit = 1, если наблю-
дение t относится к i-му кварталу, Qi = 0 в противном случае (i = 1, 2, 3, 4).
Оценим регрессию INC = β0 + β1 VOL + δ1 Q1 + δ 2 Q 2 + δ3 Q3 (фиктив-
ная переменная Q4 не включается в регрессию, чтобы избежать ситуа-
ции «dummy trap», или «ловушки фиктивных переменных», поскольку
Q1 + Q 2 + Q3 + Q 4 ≡ 1).
Модель 2
Зависимая (эндогенная) переменная INC
Количество наблюдений 23
Переменная Коэффициент Ст. ошибка t-стат. P-вероятн.
Константа C –4,874204 1,567747 –3,109051 0,0061
Независимая (экзогенная)
переменная VOL 0,067181 0,004542 14,79099 0,0000
Фиктивная переменная Q1 –0,329401 0,749311 –0,439605 0,6655
Фиктивная переменная Q2 1,766536 0,746032 2,367910 0,0293
Фиктивная переменная Q3 0,350255 0,745846 0,469607 0,6443
Коэффициент детерминации 0,933091 F-статистика 62,75527

42
Очевидно, что статистически значимым, т. е. отличным от нуля, яв-
ляется лишь коэффициент d2 при переменной Q2. Чтобы убедиться в
этом, можно использовать критические точки распределения Стью-
дента при уровне значимости a  =  0,05 и значении степеней свободы
ν = n − m − 1 = 23 − 4 − 1 = 18, t крит = t (α 2; n − m − 1) = 2,101. Статистически
значимыми являются коэффициенты уравнения регрессии, для кото-
рых наблюдаемые значения t-статистик по модулю больше критическо-
го значения. При использовании значений доверительной вероятности,
или Р-вероятности, для статистической значимости коэффициента не-
обходимо, чтобы полученное значение Р-вероятности было меньше, чем
заданный уровень значимости a. Проведем соответствующий F-тест, что-
бы показать, что коэффициенты d1 и d3 совместно статистически незна-
чимы. Оценим регрессию INC на VOL и Q2.

Модель 3
Зависимая (эндогенная) переменная INC
Количество наблюдений 23
Переменная Коэффициент Ст. ошибка t-стат. P-вероятн.
Константа C –5,095777 1,421227 –3,585477 0,0018
Независимая (экзогенная)
переменная VOL 0,067897 0,004349 15,61037 0,0000
Фиктивная переменная Q2 1,750114 0,570329 3,068602 0,0061
Коэффициент детерминации 0,929780 F-статистика 132,4100

Вычислим значение соответствующей F-статистики:

R12 − R22 n − m − 1 0,933091 − 0,929780 23 − 4 − 1


Fнабл = = = 0, 445366.
1 − R12 k 1 − 0,933091 2

Найдем значение критической точки в таблице распределения Фи-


шера для уровня значимости a  =  0,05 и значений степеней свободы
ν1 = k = 2; ν2 = n − m − 1 = 18, Fкрит = 3,55.
Поскольку Fнабл < Fкрит, то нет оснований для отклонения нулевой
(основной) гипотезы, согласно которой R12 = R22 , и следовательно, од-
новременное исключение из модели 2 с тремя фиктивными переменны-
ми переменных Q1 и Q3 не ухудшило ее качества – d1 и d3 совместно ста-
тистически незначимы. Таким образом, статистически значимое среднее
отклонение дохода происходит лишь во втором квартале.
43
В построенных моделях фиктивные переменные использова-
лись только в аддитивном виде. Чтобы установить, оказывает ли влия-
ние второй квартал на коэффициент b2 при переменной VOL, рассмо-
трим переменную Q2 в мультипликативном виде и оценим регрессию:
INC = β0 + β1 VOL + δ 2 Q 2 + γ 2 (Q 2VOL).

Модель 4
Зависимая (эндогенная) переменная INC
Количество наблюдений 23
Переменная Коэффициент Ст. ошибка t-стат. P-вероятн.
Константа C –4,501444 1,700725 –2,646780 0,0159
Независимая (экзогенная)
переменная VOL 0,066039 0,005237 12,61119 0,0000
Фиктивная переменная Q2 –0,356824 3,249849 –0,109797 0,9137
Фиктивная переменная Q2VOL 0,006406 0,009724 0,658844 0,5179
Коэффициент детерминации 0,931349 F-статистика 85,92022

Видим, что каждый из коэффициентов d2 и g2 статистически незна-


чим. Однако при проверке гипотезы H 0 : δ 2 = γ 2 = 0 (сравниваем с по-
мощью F-теста модель 1 и модель 4) полученные значения Fнабл и Fкрит
подтверждают совокупную статистическую значимость коэффициен-
тов d2 и g2.
Вычислим значение соответствующей F-статистики (Fнабл):

R12 − R22 n − m − 1 0,931349 − 0,896720 23 − 3 − 1


Fнабл = = = 4, 791999.
1 − R12 k 1 − 0,931349 2

Найдем значение критической точки в таблице распределения Фи-


шера для уровня значимости a  =  0,05 и значений степеней свободы
ν1 = k = 2; ν2 = n − m − 1 = 19, Fкрит = 3,52.
Если провести регрессию INC на переменные VOL и (VOLQ2), то мож-
но убедиться в статистической значимости коэффициента при фиктивной
переменной в мультипликативной форме (дифференциального углово-
го коэффициента). Поэтому можно утверждать, что второй квартал ока-
зывает влияние как на константу, так и на коэффициент при экзогенной
переменной VOL в регрессии INC на VOL.
44
Модель 5
Зависимая (эндогенная) переменная INC
Количество наблюдений 23

Переменная Коэффициент Ст. ошибка t-стат. P-вероятн.


Константа C –4,599167 1,412997 –3,254902 0,0040
Независимая (экзогенная)
переменная VOL 0,066335 0,004375 15,16203 0,0000
Фиктивная переменная Q2VOL 0,005356 0,001688 3,173214 0,0048
Коэффициент детерминации 0,931305 F-статистика 135,5711

Выбор правильной формы регрессионной модели является достаточ-


но серьезной проблемой, так как возможны ошибки спецификации. Бо-
лее рациональным считается способ рассмотреть вначале модель, вклю-
чающую дифференциальные свободные члены и дифференциальные
угловые коэффициенты (фиктивные переменные в аддитивной и муль-
типликативной форме). Если дифференциальные угловые коэффици-
енты окажутся статистически незначимыми, то можно перейти к моде-
ли, содержащей только дифференциальные свободные члены. Если они,
в свою очередь, окажутся статистически незначимыми, то делают вывод
о том, что сезонные изменения для рассматриваемой зависимости несу-
щественны.
2.
ОЦЕНКА ЭКОНОМЕТРИЧЕСКИХ МОДЕЛЕЙ
ПРИ НАРУШЕНИИ ПРЕДПОСЫЛОК МЕТОДА
НАИМЕНЬШИХ КВАДРАТОВ

2.1. Автокорреляция случайных отклонений

Ключевые понятия: предпосылки МНК, автокорреляция и ее последствия;


графический метод, статистика Дарбина – Уотсона DW, метод рядов, авто-
корреляционные функции, тест Бреуша – Годфри BG(k); динамические мо-
дели, распределенные лаги, авторегрессия, метод первых разностей; авто-
регрессионная схема AR(k).

Общие сведения об автокорреляции случайных отклонений

Важной предпосылкой построения качественной регрессионной мо-


дели по МНК является независимость значений случайных отклонений
εi от значений отклонений во всех других наблюдениях, что гарантирует
отсутствие коррелированности между любыми отклонениями и, в част-
ности, между соседними отклонениями.
Автокорреляция (последовательная корреляция) определяется как
корреляция между наблюдаемыми показателями, упорядоченными во
времени (временные ряды) или в пространстве (перекрестные ряды).
Понятие автокорреляции остатков (случайных отклонений) встречает-
ся в регрессионном анализе при построении моделей на основе времен-
ных рядов и очень редко – при использовании перекрестных данных для
проверки возможных ошибок спецификации (однако в общем случае та-
кая проверка для моделей пространственных данных смысла не имеет).
Различают положительную и отрицательную автокорреляцию. Для
случайных отклонений в регрессионных моделях для экономических
показателей, как правило, характерна положительная автокорреляция,

46
нежели отрицательная. В большинстве случаев положительная автокор-
реляция вызывается направленным постоянным воздействием некоторых
неучтенных в регрессии факторов. Например, Y – спрос на прохладитель-
ные напитки; X – ежемесячный располагаемый доход. Фактические точ-
ки наблюдений и трендовая линейная модель представлены на рис. 2.1.

Рис. 2.1
Точки наблюдений в этом случае будут превышать трендовую линию
в летние периоды и будут ниже ее в зимние (что и видно из графика).
Отрицательная автокорреляция означает, что за положительным от-
клонением следует отрицательное, и наоборот. Такая ситуация может
иметь место, если в рамках того же примера зависимость спроса на про-
хладительные напитки Y от доходов X рассматривать по сезонным дан-
ным (зима – лето). Вариант рассеивания точек при отрицательной авто-
корреляции представлен на рис. 2.2.

Рис. 2.2
Причины автокорреляции
1. Ошибки спецификации. Пропущенная в модели какая-либо важ-
ная объясняющая переменная либо неправильный выбор формы зависи-
мости обычно приводят к системным отклонениям точек наблюдения от
линии регрессии, что может обусловить автокорреляцию.

47
2. Инерция. Многие экономические показатели (инфляция, безра-
ботица, ВНП и т. д.) обладают определенной цикличностью, связанной
с волнообразностью деловой активности. Поэтому изменение показате-
лей довольно инертно.
3. Эффект паутины. Во многих производственных и других сферах
экономические показатели реагируют на изменение экономических ус-
ловий с запаздыванием (временным лагом).
4. Сглаживание данных. Зачастую данные по некоторому продолжи-
тельному временному периоду получают усреднением данных по состав-
ляющим его интервалам. Это может привести к определенному сглажи-
ванию колебаний, которые имелись внутри рассматриваемого периода,
что в свою очередь может служить причиной автокорреляции.
Последствия автокорреляции
1. Оценки параметров модели остаются линейными и несмещенными,
но перестают быть эффективными, т. е. перестают быть BLUE-оценками.
2. Оценка дисперсии случайных отклонений смещена, чаще заниже-
на, поэтому R2 является зависимой оценкой и завышен.
3. Дисперсии оценок смещены, и, как правило, их значения также за-
нижены, что приводит к росту t-статистики и переоценке статистической
значимости параметров модели. Выводы по t- и F-статистикам ненадеж-
ны, ухудшается прогнозное качество модели.
Обнаружение автокорреляции
Существует несколько методов, позволяющих обнаружить автокор-
реляцию.
Графический метод. Есть ряд вариантов графического определения ав-
токорреляции. Один из них увязывает отклонения ei с моментами их по-
лучения i = 1, 2, , n . При этом по оси абсцисс откладывают либо время
получения статистических данных, либо порядковый номер наблюдения,
а по оси ординат – отклонения ei либо оценки отклонений ei.
Естественно предположить, что на рис. 2.3, а–г, имеются определен-
ные связи между отклонениями, т. е. автокорреляция имеет место. От-
сутствие зависимости скорее свидетельствует об отсутствии автокорре-
ляции (рис. 2.3, д).
Для случая, показанного на рис. 2.3, б, отклонения сначала являются
отрицательными, затем положительными, затем снова отрицательными.
Это свидетельствует о наличии между отклонениями определенной за-
висимости, более того, можно утверждать, что в этом случае имеет место
положительная автокорреляция. Она становится более наглядной, если
построить график зависимости ei от ei–1 (рис. 2.4).

48
Рис. 2.3

Рис. 2.4
Большинство точек на этом графике расположено в I и III четвертях
декартовой системы координат, подтверждая положительную зависи-
мость между соседними отклонениями.
Метод рядов, или метод Сведа – Эйзенхарта. Этот метод достаточно
прост: последовательно определяются знаки отклонений et, t = 1, 2, …, T.
Например,
(− − − − −)(+ + + + + + +)(− − −)(+ + ++)(−),
т. е. 5 «–», 7 «+», 3 «–», 4 «+», 1 «–» при 20 наблюдениях.

49
Ряд определяется как непрерывная последовательность одинаковых
знаков. Количество знаков в ряду называется длиной ряда. Визуальное
распределение знаков свидетельствует о неслучайном характере связей
между отклонениями. Если рядов слишком мало по сравнению с коли-
чеством наблюдений n, то вполне вероятна положительная автокорре-
ляция. Если же рядов слишком много, то вероятна отрицательная авто-
корреляция.
Критерий Дарбина – Уотсона. Наиболее известным критерием обна-
ружения автокорреляции первого порядка является статистика (крите-
рий) Дарбина – Уотсона (DW):
n
∑(et − et −1 )2
DW = t = 2 n
. (2.1)
∑ et2
t =1

Между критерием Дарбина – Уотсона и коэффициентом автокорре-


ляции остатков первого порядка имеет место следующее соотношение:
DW ≈ 2 (1 − corr(et ; et −1 )). (2.2)
При проверке отсутствия автокорреляции случайных отклонений мо-
делей с помощью статистики Дарбина – Уотсона согласно общей схеме
проверки гипотез формулируют:
Н0 : отсутствие автокорреляции остатков;
Н1 : наличие автокорреляции остатков.
Учитывая свойства коэффициента корреляции, получаем, что зна-
чение критерия Дарбина – Уотсона изменяется в пределах 0 ≤ DW ≤ 4;
при corr(et ; et −1 ) = 0, т.  е. DW = 2, автокорреляция отсутствует; при
corr(et ; et −1 ) = 1, т. е. DW = 0, присутствует положительная автокорреля-
ция; при corr(et ; et −1 ) = −1, т. е. DW = 4, присутствует отрицательная авто-
корреляция. Статистика DW характеризуется наличием так называемых
зон неопределенности, или «мертвых зон», разделяющих область приня-
тия гипотезы H0 и критические области. При попадании значения стати-
стики Дарбина – Уотсона в такую зону вывод на основе DW не определен
и необходимо использовать другие методы выявления автокорреляции.
Алгоритм выявления автокорреляции остатков на основе критерия Дар-
бина – Уотсона следующий: после вычисления значения статистики DW,
по таблице критических точек для распределения Дарбина – Уотсона для
заданного числа наблюдений n, числа независимых переменных моде-
ли m и уровня значимости a находят значения двух границ интервалов,
определяющих «мертвые зоны»: dL (low) и dU (upper). По этим значени-

50
ям числовой промежуток [0; 4] разбивают на пять отрезков. Принятие
или отклонение каждой из гипотез с вероятностью (1 – a) рассматрива-
ется на рис. 2.5.

Рис. 2.5
На практике в некоторых случаях, если фактическое значение крите-
рия DW попадает в зону неопределенности, предполагают существование
автокорреляции остатков, т. е. отклоняют гипотезу H0. Таким образом,
статистика Дарбина – Уотсона DW имеет определенные ограничения в
применении, которые можно определить как ее недостатки:
а) статистика имеет зоны неопределенности, при попадании в кото-
рые в общем случае сделать вывод не представляется возможным;
б) статистика неприменима к моделям, включающим в качестве не-
зависимых переменных лаговые значения результативного признака, т. е.
к моделям авторегрессии;
в) методика расчета и использования критерия Дарбина – Уотсона
направлена только на выявление автокорреляции первого порядка. При
проверке остатков на автокорреляцию более высоких порядков следует
применять другие методы;
г) статистика Дарбина – Уотсона дает достоверные результаты толь-
ко для больших выборок.
Тест серий (тест Бреуша – Годфри). Используется для больших вы-
борок и выявления автокорреляции высоких порядков. Тест основан на
следующей идее: если имеется корреляция между соседними наблюдени-
ями, то естественно ожидать, что в уравнении
et = ρ1et −1 + ρ2 et − 2 + ... + ρk et − k + vt , t = 1, n, (2.3)
где et – случайные отклонения исходной модели регрессии, которая те-
стируется на автокорреляцию, коэффициент rk окажется значительно
отличающимся от нуля. Таким образом, гипотеза формулируется следу-
ющим образом:
H0 : r1 = r2 = ... = rk = 0 (отсутствует автокорреляция);
H1 : rk ≠  0 (присутствует автокорреляция порядка k).

51
Практическое применение теста для проверки гипотезы заключается
в оценивании методом наименьших квадратов вспомогательной регрес-
сии, а общая схема теста выглядит следующим образом:
1) оценка исходной регрессии и выделение ряда случайных откло-
нений et;
2) оценка вспомогательной регрессии et на все экзогенные факторы
исходной модели, а также лаги отклонений et по проверяемый порядок k
включительно:
et = α 0 + α1 x1t + ... + α m xmt + ρ1et −1 + ρ2 et − 2 + ... + ρk et − k + vt ; (2.4)

3) расчет статистики теста BG(k) на основе коэффициента детерми-


нации R2 вспомогательной модели:
BG (k ) = (n − k )R 2 ~ χ 2k . (2.5)
Нулевая гипотеза об отсутствии автокорреляции k-го порядка при-
нимается при условии, что BG (k ) < χ 2α; k .
Для проверки гипотезы можно использовать также F-статистику,
сравнивающую между собой коэффициенты детерминации вспомога-
тельной модели теста и этой же модели без лагов случайных отклонений:
et = α 0 + α1 x1t + ... + α m xmt + ut . (2.6)

При выполнении предпосылки МНК об отсутствии линейной зави-


симости между случайными отклонениями и экзогенными переменными
коэффициент детерминации последней модели сравним с нулем.
Методы устранения автокорреляции
Основными причинами наличия случайного члена в модели являются
несовершенные знания о причинах и взаимосвязях, определяющих то или
иное значение зависимой переменной. Поэтому свойства случайных от-
клонений, в том числе и автокорреляция, в первую очередь зависят от вы-
бора формулы зависимости и состава объясняющих переменных. Так как
автокорреляция чаще всего вызывается неправильной спецификациeй
модели, то сначала нужно скорректировать саму модель. Возможно, в
модели не хватает некоторой объясняющей переменной. Следует опре-
делить данный фактор и учесть его в модели.
Если причина кроется в таких сформулированных выше свойствах,
как инерция и «эффект паутины», то имеет смысл переход от статической
модели регрессии к динамической: авторегрессионной, с лагами эндо-
генной переменной, или модели с распределенными лагами, т. е. лагами
экзогенных факторов.
52
С точки зрения коррекции автокорреляции имеет смысл изменение
периодичности рассмотренных временных данных, а также переход от
экономических показателей в уровнях к приростам, темпам роста (ин-
дексам). Также можно изменить форму зависимости (например, перей-
ти от линейной формы к логарифмической и т. д.).
Однако если изменения спецификации модели не дают результатов и
автокорреляция имеет место, то можно предположить, что она обуслов-
лена какими-то внутренними свойствами ряда et. В таких случаях реко-
мендуется воспользоваться авторегрессионной схемой порядка AR(k),
т. е. авторегрессионным преобразованием переменных исходной модели.
Для простоты изложения рассмотрим пример применения схемы
AR(1) к модели парной линейной регрессии. Предположим, что случай-
ные отклонения εt модели характеризуются свойством автокорреляции
первого порядка, тогда имеет смысл зависимость
εt = ρεt −1 + vt , (2.7)
где vt, t = 2, n  – случайные отклонения, удовлетворяющие всем предпо-
сылкам МНК, включая отсутствие автокорреляции; коэффициент r на-
зывается коэффициентом авторегрессии, значение которого известно.
Регрессионное соотношение выполняется для любого номера на-
блюдения, т. е. yt = β0 + β1 xt + εt , yt −1 = β0 + β1 xt −1 + εt −1 . Вычтем из пер-
вого соотношения второе, умноженное на ρ, предполагая, что ρ ≠ 0 для
коррелированных et:
( yt − ρyt −1 ) = β0 (1 − ρ) + β1 ( xt − ρxt −1 ) + (εt − ρεt −1 ). (2.8)
Случайные отклонения модели εt − ρεt −1 некоррелированы. Примем
yt* = yt − ρyt −1, xt* = xt − ρxt −1, β*0 = β0 (1 − ρ) и с учетом ограничения получим:
yt* = β*0 + β1 xt* + vt . (2.9)
Так как по предположению коэффициент ρ известен, то, очевидно,
yt* ,
xt*, vt вычисляются достаточно просто. Рассмотренное авторегресси-
онное преобразование может быть обобщено на произвольное число объ-
ясняющих переменных, т. е. использовано для уравнения множествен-
ной регрессии.
Способ вычисления yt* и xt* приводит к потере первого наблюдения.
Число степеней свободы уменьшится на единицу, что при больших вы-
борках не так существенно, но при малых выборках может привести к по-
тере эффективности. Эта проблема обычно преодолевается с помощью
поправки Прайса – Винстена:

x1* = x1 1 − ρ2 ; y1* = y1 1 − ρ2 . (2.10)

53
На практике значение коэффициента ρ обычно неизвестно и его не-
обходимо оценивать. Существует несколько методов оценивания.
1. Определение ρ на основе статистики Дарбина – Уотсона DW. Выше
уже отмечалось, что статистика Дарбина – Уотсона тесно связана с коэф-
фициентом корреляции между соседними отклонениями через соотно-
шение DW ≈ 2 (1 − corr(et ; et −1 )). Тогда в качестве оценки коэффициента r
может быть взят коэффициент r = corr(et ; et −1 ) или r ≈ 1 − DW 2.
Этот метод оценивания рекомендуется применять при большом числе
наблюдений. В этом случае оценка r параметра r будет достаточно точной.
2. В случае, когда автокорреляция отклонений очень велика, исполь-
зуется метод первых разностей. При высокой положительной автокорре-
ляции полагают, что r = 1, следовательно
yt − yt −1 = β1 ( xt − xt −1 ) + (εt − εt −1 ) (2.11)
или
yt − yt −1 = β1 ( xt − xt −1 ) + vt . (2.12)

Обозначив ∆yt = yt − yt −1; ∆xt = xt − xt −1, из предыдущего уравнения


получим:
∆yt = β1∆xt + vt . (2.13)

Из данного уравнения по МНК оценивается коэффициент b1. Ко-


эффициент b0 в данном случае не определяется непосредственно. Но из
МНК известно, что β0 = y − β1 x . Недостатком этого метода является то,
что он предполагает слишком большое упрощение (ρ = ±1), поэтому бо-
лее предпочтительными являются другие методы. Также в общем случае
метод первых разностей можно реализовать переходом от показателей в
уровнях к приростам, т. е. рассмотреть преобразование переменных, не
прибегая к формальной авторегрессионной схеме.
Для оценки значений r возможно использовать также итерацион-
ную процедуру Кохрана – Оркатта (Cochrane – Orcutt) и Хилдрета – Лу
(Hildreth – Lu).

Задания для самоконтроля

1. Какой критерий, статистика или функция используются для диа-


гностики автокорреляции только первого порядка?
†† Метод рядов.
†† Автокорреляционные функции.
†† Статистика Дарбина – Уотсона.
†† Тест Бреуша – Годфри.

54
2. Какие из методов используются для коррекции автокорреляции?
†† Метод первых разностей.
†† Авторегрессионная схема.
†† Метод рядов.
†† Метод Хилдрета – Лу.

3. При наличии автокорреляции в регрессионной модели (укажите


истинные утверждения):
†† оценки параметров регрессии, полученные по МНК, являются
смещенными;
†† дисперсии оценок рассчитываются со смещением и, вероятнее
всего, будут занижены;
†† t-статистики коэффициентов, вероятнее всего, будут занижены;
†† коэффициент детерминации, вероятнее всего, будет завышен.

4. Какой критерий, статистика или функция используются для диа-


гностики автокорреляции второго и более высоких порядков?
†† h-Статистика Дарбина.
†† Автокорреляционные функции.
†† Статистика Дарбина – Уотсона.
†† Тест Бреуша – Годфри.

5. Авторегрессионная модель – это:


†† модель регрессии, в которую в качестве экзогенной переменной
входит лаг эндогенной переменной;
†† модель регрессии, в которую входит лаг экзогенной переменной;
†† модель регрессии, построенная по временным рядам данных;
†† модель регрессии, в которой присутствует автокорреляция остат-
ков;
†† модель регрессии, полученная с помощью схемы AR(1).

6. Укажите ответы, верные при диагностике остатков представленной


ниже модели на наличие автокорреляции.
Exphealth – средний уровень расходов домашнего хозяйства на ме-
дицину, тыс. долл. в год; Inc – средний уровень доходов домашнего хо-
зяйства, тыс. долл. в год; n = 51 (перекрестные данные по штатам США);

Exphealtht = 0,326 + 0,142Inct + et ; R 2 = 0,99;


(S ) (0,32) (0, 002) DW = 0, 91.

55
†† В модели присутствует положительная автокорреляция, так как
значение DW-статистики меньше коэффициента детерминации.
†† В модели присутствует положительная автокорреляция, так как
значение DW-статистики меньше значения критической точки
D(L) = 1,5086, полученной для n = 51, m = 1.
†† В модели присутствует отрицательная автокорреляция, так как со-
гласно «грубому правилу» значение DW-статистики меньше зна-
чения 1,5.
†† В модели присутствует отрицательная автокорреляция, так как
значение DW-статистики меньше значения критической точки
D(L) = 1,498, полученной для степеней свободы n – 2 = 49, m = 1.

7. Укажите ответы, верные при диагностике остатков представленной


выше модели на наличие автокорреляции.
Cons – уровень доходов на душу населения, тыс. долл. в год; Inc – уро-
вень доходов на душу населения, тыс. долл. в год; n = 36 (1959–1994 гг.);
Const = −384,105 + 0,933Inct + et ; R 2 = 0,995;
(t ) (−2,54) (87, 2)
et = −56, 07 + 0, 005Inct + 0,82et −1 + ut ; R 2 = 0,55.
(P ) (0, 4) (0, 01) (0, 04)

†† Для диагностики автокорреляции использовался тест Бреуша –


Годфри.
†† Для диагностики автокорреляции использовался тест Бреуша –
Пагана.
†† В модели присутствует автокорреляция, так как значение стати-
стики в тесте 19,25 превосходит критическое значение распреде-
ления c2 для двух степеней свободы, равное 9,21 (при уровне зна-
чимости 0,01).
†† В модели присутствует автокорреляция, так как значение стати-
стики в тесте 19,25 превосходит критическое значение распреде-
ления c2 для одной степени свободы, равное 6,63 (при уровне зна-
чимости 0,01).
†† Согласно результатам теста в модели присутствует автокорреляция
не только первого, но и более высоких порядков.

56
Практические задания

Задание 2.1. Даны поквартальные данные об объеме валового про-


дукта (переменная GDP – Gross Domestic Product less Net Exports, billions of
dollars) и потребительских расходах продукта (переменная CN – Person-
al consumption expend, billions of dollars) в США в период с 1980 по 1990 г.
(табл. 2.1). Оцените линейную регрессионную зависимость расходов от
объема валового продукта, проверьте гипотезу о некоррелированности
случайных отклонений полученной модели.
Используя принятые в табл. 2.1 обозначения, оценим параметры ре-

грессии CN t = β0 + β1GDPt .
Таблица 2.1

Год Квартал GDP CN Год Квартал GDP CN


1980 I 4578,95 2952,51 1985 III 5444,98 3537,53
II 4454,66 2885,44 IV 5497,56 3549,72
III 4425,76 2914,76 1986 I 5535,67 3580,59
IV 4523,03 2949,76 II 5575,37 3619,53
1981 I 4618,81 2962,31 III 5631,77 3683,03
II 4585,22 2964,51 IV 5651,56 3707,86
III 4643,24 2978,25 1987 I 5687,69 3710,55
IV 4595,09 2954,89 II 5744,75 3758,01
1982 I 4522,93 2972,57 III 5785,45 3799,67
II 4534,90 2980,91 IV 5880,99 3807,25
III 4542,65 3000,34 1988 I 5892,92 3873,86
IV 4546,18 3050,73 II 5941,45 3900,25
1983 I 4600,89 3078,67 III 5975,76 3932,11
II 4733,10 3142,81 IV 6054,45 3977,80
III 4839,56 3192,84 1989 I 6101,13 3992,15
IV 4950,04 3245,52 II 6125,10 4008,37
1984 I 5081,19 3279,88 III 6159,00 4043,78
II 5175,63 3324,41 IV 6173,56 4058,42
III 5224,01 3347,50 1990 I 6237,52 4091,92
IV 5269,61 3390,93 II 6251,30 4103,67
1985 I 5302,11 3442,15 III 6245,69 4119,08
II 5366,97 3473,94 IV 6162,51 4084,33

57
Модель 1
Зависимая (эндогенная) переменная CN
Количество наблюдений 44
Переменная Коэффициент Ст. ошибка t-стат. P-вероятн.
Константа C –54,24070 46,86539 –1,157372 0,2537
Независимая (экзогенная)
переменная GDP 0,663393 0,008719 76,08230 0,0000
Коэффициент детерминации 0,992797 F-статистика 5788,516

Полученные результаты указывают на статистическую значимость ко-


эффициента при экзогенной переменной; в то же время, исходя из чрез-
мерно высоких значений коэффициента детерминации и t-статистики
коэффициента при экзогенной переменной, по формальным призна-
кам можно сделать предварительный вывод о наличии коррелированно-
сти случайных отклонений модели. В этом случае полученные значения
дисперсий смещены (стандартная ошибка регрессии, стандартные ошиб-
ки коэффициентов) и могут быть сделаны ложные выводы о качестве по-
строенной модели.
Статистика Дарбина – Уотсона (Durbin – Watson). Найдем значение
статистики DW для того, чтобы проверить гипотезу об отсутствии кор-
релированности случайных отклонений модели (автокорреляции пер-
вого порядка).
Вычислим соответствующие значения сумм:
44 44
∑ et2 = 55476,5627; ∑(et − et −1 )2 = 30468, 4316.
t =1 t =2

Найдем значение статистики Дарбина – Уотсона:


44
∑(et − et −1 )2 30468, 4316
DW = t = 2 44
= = 0,549213..
55476,5627
∑ et2
t =1

Найдем критические точки в таблице распределения DW для уровня


значимости a = 0,05 и значений объема выборки n = 44, количества объ-
ясняющих переменных в модели m = 1, определим
= и dL 1,= 475; dU 1,566
и сделаем вывод о наличии положительной автокорреляции случайных
отклонений (рис. 2.6).

58
Рис. 2.6

Графический метод. Визуальный анализ корреляционного поля слу-


чайных отклонений et и их лаговых значений et–1 (рис. 2.7) также указы-
вает на закономерность в распределении точек (et −1; et ) и наличие меж-
ду случайными отклонениями положительной линейной зависимости
(автокорреляции). Коэффициент парной корреляции между ними равен
corr(et −1; et ) = 0,71776 и является статистически значимым.

Рис. 2.7

Тест Бреуша  – Годфри (Breusch  – Godfrey). Для проверки гипо-


тезы об отсутствии автокорреляции первого порядка случайных от-
клонений исходной модели построим вспомогательную модель вида

e t = β0 + β1GDPt + δ1et −1 .

59
Модель: LM-тест Бреуша – Годфри (Breusch – Godfrey), лаг k = 1
H0 : случайные отклонения модели не коррелированы;
H1 : присутствует автокорреляция первого порядка случайных отклонений модели.

F-статистика теста 42,5352 F0,05 (1,40) = 4,085 P-вероятность 0,0000


2
Статистика (n – 1)R 22,1604 χ 20,05 (1) = 3, 84 P-вероятность 0,0000

Вспомогательное регрессионное уравнение


Зависимая (эндогенная) переменная et
Количество наблюдений 43
Переменная Коэффициент Ст. ошибка t-стат. P-вероятн.
C 5,6300 33,8229 0,1665 0,8686
GDP –0,0008 0,0063 –0,1208 0,9045
et–1 0,7285 0,1118 6,5179 0,0000
Коэффициент детерминации 0,515358 F-статистика 21,2676

Для проверки гипотезы о некоррелированности случайных отклоне-


ний модели в тесте Бреуша – Годфри используем значение статистики
BG (1) = (n − 1)R 2 , где n – число наблюдений, которое было использова-
но при построении исходной модели; R2 – коэффициент детерминации
вспомогательной модели. С помощью таблицы критических значений
c2-распределения найдем критическую точку χ 20,05 (1) = 3,84 . Поскольку
значение статистики (n − 1)R 2 = 22,1604 > 3,84 = χ 20,05 (1), то H0 отклоняется
при этом уровне значимости. Следовательно, предпосылка Гаусса – Мар-
кова о некоррелированности случайных отклонений модели не выполня-
ется, в модели присутствует автокорреляция первого порядка случайных
отклонений. Р-вероятность для статистики (n −1)R 2 также показывает,
что гипотеза H0 отклоняется.
Для проверки гипотезы можно использовать F-статистику, сравни-
вающую между собой коэффициенты детерминации вспомогательной
модели и модели e^t = β0 + β1GDPt , коэффициент детерминации которой
предполагается равным нулю:
R21 − R22 n ′ − m − 1 0,515358 − 0 43 − 2 − 1
Fнабл = = = 42,5352.
1 − R21 k 1 − 0,515358 1
Найдем значение критической точки в таблице распределения Фи-
шера для уровня значимости α  =  0,05 и значений степеней свободы
ν1 = k = 1, ν2 = n ′ − m − 1 = 40, Fкрит = 4,085 (объем выборки при проверке

60
гипотезы определяется по количеству наблюдений для вспомогательной
модели, т. е. n ′ = n − l = n − 1 = 43). Поскольку Fнабл > Fкрит, то есть основания
для отклонения нулевой (основной) гипотезы, согласно которой R12 = R22 ,
т. е. введение лага et–1 повышает качество вспомогательной модели, дру-
гими словами, присутствует автокорреляция первого порядка случайных
отклонений исходной модели.
Аналогичным образом построив вспомогательную модель вида

e t = β0 + β1GDPt + δ1et −1 + δ 2 et − 2 , отклоняем гипотезу об отсутствии авто-
корреляции второго порядка случайных отклонений исходной модели.

Модель: LM-тест Бреуша – Годфри (Breusch – Godfrey), лаг k = 2


H0 : случайные отклонения модели не коррелированы;
H1 : присутствует автокорреляция второго порядка случайных отклонений модели.

F-статистика теста 21,0009 F0,05 (2,39) = 3,238 P-вероятность 0,0000


2
Статистика (n – 1)R 21,7782 χ 20,05 (2) = 5, 99 P-вероятность 0,0000

Вспомогательное регрессионное уравнение


Зависимая (эндогенная) переменная et
Количество наблюдений 42
Переменная Коэффициент Ст. ошибка t-стат. P-вероятн.
C 3,2851 35,5745 0,0923 0,9269
GDP –0,0004 0,0066 –0,0567 0,9550
et–1 0,8056 0,1638 4,9172 0,0000
et–2 –0,1042 0,1638 –0,6361 0,5285
Коэффициент детерминации 0,518529 F-статистика 13,6416

Для проверки гипотезы об отсутствии автокорреляции второго по-


рядка найдем значение статистики BG (2) = (n − 2)R 2 . С помощью та-
блицы критических значений c2-распределения найдем критическую
точку χ 20,05 (2) = 5,99. Поскольку значение статистики BG (2) = (n − 2)R 2 = 21,7782 > 5,9
2
= (n − 2)R = 21,7782 > 5,99 = χ 20,05 (2), то Н0 отклоняется, и в исходной модели при-
сутствует автокорреляция второго порядка случайных отклонений.
Используя для проверки гипотезы F-статистику, получим Fнабл =
= 21,0009. Найдем значение критической точки в таблице распределения
Фишера для уровня значимости α = 0,05 и значений степеней свободы
ν1 = k = 2; ν2 = n − m − 1 = 39, Fкрит = 3,238. Поскольку Fнабл > Fкрит, то под-
тверждается наличие у исходной модели автокорреляции второго поряд-
ка случайных отклонений.

61
Метод рядов. Дополним исследование случайных отклонений модели
(табл. 2.2) на автокорреляцию методом рядов, или методом Сведа – Эй-
зенхарта (Swed – Eisenhart).
Таблица 2.2
Год Год Год
et et et
Квартал Квартал Квартал
1980 I –30,895 1984 I –36,708 1988 I 18,776
II –15,512 II –54,829 II 12,971
III 32,980 III –63,834 III 22,070
IV 3,452 IV –50,654 IV 15,558
1981 I –47,538 1985 I –20,995 1989 I –1,059
II –23,054 II –32,232 II –0,741
III –47,805 III –20,394 III 12,180
IV –39,222 IV –43,085 IV 17,161
1982 I 26,328 1986 I –37,497 1990 I 8,231
II 26,728 II –24,893 II 10,839
III 41,016 III 1,191 III 29,971
IV 89,064 IV 12,893 IV 50,402
1983 I 80,710 1987 I –8,386 – – –
II 57,143 II 1,221 – – –
III 36,548 III 15,881 – – –
IV 15,936 IV –39,920 – – –

Найдем n1 – количество случайных отклонений с положительным


знаком, n2 – с отрицательным знаком и k – количество рядов (последова-
тельностей случайных отклонений одного знака):= =
n1 24 , n2 20, k = 12.
При объеме выборки n < 40 для определения критических значений
количества рядов можно воспользоваться соответствующей таблицей
критических значений для уровня значимости a = 0,05. По значениям
n1 и n2 определяют нижнюю k1 и верхнюю k2 границы области принятия
нулевой гипотезы об отсутствии коррелированности случайных откло-
нений модели. В данном случае воспользуемся следующими формулами
для расчета нижней и верхней границ:

k1 =  M (k ) − uα / 2 D(k )  , k2 =  M (k ) + uα / 2 D(k )  , (2.14)

где M(k) – соответствующее математическое ожидание; D(k) – диспер-


сия; ua/2  – критическое значение нормального стандартизированного

62
распределения (используем функцию Лапласа, u0,05/ 2 = 1, 96 ); [.] – опе-
рация взятия целой части числа.
Вычислим значения числовых характеристик и найдем k1, k2:
2n1n2 2 ⋅ 24 ⋅ 20
M (k ) = +1 = + 1 = 22,8182;
n1 + n2 24 + 20
2n1n2 (2n1n2 − n1 − n2 ) 2 ⋅ 24 ⋅ 20 ⋅ (2 ⋅ 24 ⋅ 20 − 24 − 20)
D( k ) = 2
= = 10,5631;
(n1 + n2 ) (n1 + n2 − 1) (24 + 20)2 (24 + 20 − 1)

k1 =  22,8182 − 1,96 10,5631  = [16, 448] = 16;

k2 = 22,8182 + 1,96 10,5631  = [29,1884] = 29.

Поскольку k = 12 < k1 = 16, то нулевая гипотеза о некоррелированно-


сти случайных отклонений модели отвергается в пользу альтернативно-
го утверждения о том, что в исходной модели присутствует положитель-
ная автокорреляция первого порядка.
Таким образом, обобщив полученные результаты верификации мо-
дели 1, можно сделать общий вывод о наличии автокорреляции случай-
ных отклонений как первого, так и более высоких порядков. Изменим
исходную модель 1 в целях коррекции автокорреляции случайных откло-
нений, введя в рассмотрение в качестве экзогенной переменной лаг пе-
ременной CN, т. е. преобразуя исходную модель в модель авторегрессии.
Модель 2
Зависимая (эндогенная) переменная CN
Количество наблюдений 43
Переменная Коэффициент Ст. ошибка t-стат. P-вероятн.
Константа C –11,39092 30,59176 –0,372352 0,7116
Независимая (экзогенная)
переменная CNt–1 0,683044 0,086131 7,930272 0,0000
Независимая (экзогенная)
переменная GDP 0,212583 0,056944 3,733176 0,0006
Коэффициент детерминации 0,997142 F-статистика 6978,156

Тест Бреуша  –  Годфри (Breusch  –  Godfrey). Для проверки гипо-


тезы об отсутствии автокорреляции первого порядка случайных от-
клонений исходной модели построим вспомогательную модель вида

e t = β0 + β1CN t −1 + β2 GDPt + δ1et −1 .

63
LM-тест Бреуша – Годфри (Breusch – Godfrey), лаг k = 1
H0 : случайные отклонения модели не коррелированы;
H1 : присутствует автокорреляция первого порядка случайных отклонений модели.

F-статистика теста 3,4614 F0,05 (1,38) = 4,098 P-вероятность 0,0706


2
Статистика (n – 1)R 3,5063 χ 20,05 (1) = 3, 84 P-вероятность 0,0611

Вспомогательное регрессионное уравнение


Зависимая (эндогенная) переменная et
Количество наблюдений 42
Переменная Коэффициент Ст. ошибка t-стат. P-вероятн.
C 30,0964 27,7646 1,08398 0,2852
CNt–1 0,06269 0,07897 0,79382 0,4322
GDP –0,04596 0,05246 –0,87608 0,3865
et–1 0,19302 0,14235 1,35594 0,1831
Коэффициент детерминации 0,083484 F-статистика 1,1537

Для проверки гипотезы о коррелированности случайных отклонений


модели 2 используем значение статистики BG (1) = (n − 1)R 2 , где n – чис-
ло наблюдений для модели регрессии 2. Фактически из объема исходной
выборки вычитается два наблюдения, на которые сократилась выборка
вследствие перехода к авторегрессии в модели 2 и спецификации вспо-
могательной регрессии теста Бреуша – Годфри, R2 – коэффициент де-
терминации вспомогательной модели. С помощью таблицы критических
значений c2-распределения находим критическую точку χ 20,05 (1) = 3,84  .
Поскольку значение статистики BG(1) = 3,50633 < 3,84 = χ 20,05 (1), то H0 при
этом уровне значимости не отклоняется, следовательно, предпосылка
Гаусса – Маркова об отсутствии автокорреляции случайных отклоне-
ний модели выполняется. Р-вероятность для статистики BG(1) показы-
вает, что гипотеза H0 будет приниматься при уровне значимости a = 0,10,
т. е. в этом случае можно считать, что случайные отклонения являются
автокоррелированными.
Для проверки гипотезы можно использовать также F-статистику,
сравнивающую между собой коэффициенты детерминации вспомога-
тельной модели и модели e^t = β0 + β1GDPt + β2 CN t −1, коэффициент детер-
минации которой предполагается равным нулю:
R12 − R22 n − m − 1 0, 083484 − 0 42 − 3 − 1
Fнабл = = = 3, 46136.
1 − R12 k 1 − 0, 083484 1

64
Найдем значение критической точки в таблице распределения Фи-
шера для уровня значимости a = 0,05 и значений степеней свободы
ν1 = k = 1, ν2 = n − m − 1 = 38, Fкрит = 4,098. Поскольку Fнабл < Fкрит, то нет
оснований для отклонения нулевой (основной) гипотезы, согласно ко-
торой R12 = R22, т. е. введение лага et–1 не улучшает качество вспомогатель-
ной модели, другими словами, автокорреляция первого порядка случай-
ных отклонений исходной модели 2 отсутствует.
Аналогичным образом построив вспомогательную модель вида

e t = β0 + β1CN t −1 + β2 GDPt + δ1et −1 + δ 2 et − 2 , примем гипотезу об отсутствии
автокорреляции второго порядка случайных отклонений исходной моде-
ли при a = 0,05 и отклоним ее при a = 0,10.

LM-тест Бреуша – Годфри (Breusch – Godfrey), лаг k = 2


H0 : случайные отклонения модели не коррелированы;
H1 : присутствует автокорреляция второго порядка случайных отклонений модели.

F-статистика теста 2,8743 F0,05 (2,36) = 3,259 P-вероятность 0,0695


2
Статистика (n – 1)R 5,6455 χ 20,05 (2) = 5, 99 P-вероятность 0,0594

Вспомогательное регрессионное уравнение


Зависимая (эндогенная) переменная et
Количество наблюдений 41
Переменная Коэффициент Ст. ошибка t-стат. P-вероятн.
C 25,1195 29,1453 0,8619 0,3945
CNt–1 0,0536 0,0811 0,6605 0,5131
GDP –0,0393 0,0543 –0,7238 0,4739
et–1 0,2443 0,1689 1,4462 0,1568
et–2 0,1587 0,1453 1,0921 0,2820
Коэффициент детерминации 0,137694 F-статистика 1,4371

Для проверки гипотезы об отсутствии автокорреляции второ-


го порядка найдем значение статистики BG (2) = (n − 2)R 2 . С помо-
щью таблицы критических значений c2-распределения найдем кри-
тическую точку χ 20,05 (2) = 5,99 . Поскольку значение статистики
BG(2) = 5, 6455 < 5, 99 = χ 20,05 (2) , то H0 отклоняется и в исходной модели
отсутствует автокорреляция второго порядка случайных отклонений.
Р-вероятность для статистики BG(2) показывает, что гипотеза H0 будет
отклоняться при уровне значимости a = 0,10, т. е. в этом случае можно
будет считать случайные отклонения автокоррелированными.

65
Убедиться в том, что в скорректированной модели отсутствует ав-
токорреляция более высоких порядков, можно самостоятельно, ис-
пользуя соответствующие коэффициенты детерминации вспомогатель-
ных моделей: для BG (3) ⇒ R 2 = 0,1761, для BG (4) ⇒ R 2 = 0, 2074 , для
BG (5) ⇒ R 2 = 0,3095 и т. д.
Таким образом, преобразование модели 1, заключавшееся во введе-
нии в состав экзогенных факторов авторегрессионной переменной, по-
зволило скорректировать автокорреляцию первого и второго порядка при
принятом уровне значимости a = 0,05.

Задание 2.2. По представленным статистическим квартальным дан-


ным с 1997 по 2007 г. для показателей объема наличных денег в обраще-
нии (переменная M0 – денежный агрегат M0, млрд р.) и оплаты труда
(переменная WAGE, млрд р.) (табл. 2.3) убедитесь в наличии между ними
линейной зависимости, постройте регрессию M0 на WAGE и выполните
стандартную схему анализа и коррекции регрессионной модели:
1) оцените статистическую значимость модели M 0t = β0 + β1WAGEt + et ;
2) убедитесь в наличии автокорреляции случайных отклонений мо-
дели первого порядка с помощью статистики Дарбина – Уотсона. Для
этого: подсчитайте по значениям случайных отклонений модели et необ-
44 44
ходимые для расчетов суммы ∑ et2 , ∑(et − et −1 )2 ; вычислите по форму-
t =1 t =2
ле значение статистики DW; найдите в таблице критических точек зна-
чения dL, dU при n = 44, m = 1; на основании значений статистики DW и
критических точек сделайте вывод относительно отсутствия корреляции
первого порядка отклонений модели;
3) перейдите к авторегрессионной модели, введя лаг эндогенной пе-
ременной M 0t −1 : M 0t = β0 + β1WAGEt + β2 M 0t −1 + et . Оцените статисти-
ческую адекватность преобразованной модели, найдите значение ста-
тистики Дарбина – Уотсона и сделайте вывод относительно коррекции
автокорреляции первого порядка (учитывая изменение спецификации,
значения критических точек dL, dU в таблице определяйте по n = 43, m = 2).
Таблица 2.3
Год Квартал M0 WAGE Год Квартал M0 WAGE
1997 I 7030,5 22745,4 1998 I 12235,9 43171
II 8832,1 29672,7 II 16152 53429,1
III 10002,1 33893,2 III 18237,7 64179,5
IV 12299,8 43881,2 IV 27073,6 92419,8

66
Окончание табл. 2.3
Год Квартал M0 WAGE Год Квартал M0 WAGE
1999 I 32014 130890,4 2003 III 785813,4 3232437
II 55026,2 215836,2 IV 926438,1 3661062
III 69880,6 285939,1 2004 I 888593,3 3462540
IV 86852,2 401810,3 II 1113487 4130800
2000 I 108243,6 502671,5 III 1211160 4376577
II 157165,4 685448 IV 1339437 4822651
III 187566,3 822549,7 2005 I 1373900 4771897
IV 238796 1037231 II 1680500 5395320
2001 I 246660,3 1122275 III 1806800 5779655
II 364294,5 1526310 IV 2016400 6129530
III 406838,9 1797634 2006 I 2065800 6297050
IV 512211,3 2012563 II 2485900 6926839
2002 I 488880,4 2002981 III 2688600 7302356
II 583247,7 2447019 IV 2818300 7513698
III 568307,1 2588101 2007 I 2637600 7495417
IV 650019,7 2894736 II 3030200 8354182
2003 I 602122,1 2602969 III 3149100 8828253
II 737678,6 3011318 IV 3323200 8981285

Задание 2.3. По представленным статистическим данным с 1993 по


2013 г. для показателей средней продолжительности жизни (переменная
Lf – Life expectancy at birth, years) и ВНД на душу населения по паритету
покупательской способности (переменная GNI – GNI per capita, PPP, dol-
lars) (табл. 2.4) убедитесь в наличии между ними линейной зависимости,
постройте регрессию Lf на GNI и выполните стандартную схему анализа
и коррекции регрессионной модели:
1) оцените статистическую значимость модели Lft = β0 + β1GNI t + et ;
2) проверьте гипотезу об отсутствии автокорреляции первого и вто-
рого порядков с помощью теста Бреуша – Годфри.
Для этого постройте вспомогательные модели регрессии вида:
1) k = 1 : e^t = γ 0 + γ1GNI t + δ1et −1 + ut ;
2) k = 2 : e^t = γ 0 + γ1GNI t + δ1et −1 + δ 2 et − 2 + ut .
Выпишите для каждой из вспомогательных моделей ее коэффициент
детерминации, обозначив их R(21) и R(22); вычислите значения соответству-
ющих статистик BG (k ) = (n − k )R(2k ) (k = 1; 2); найдите в таблице критиче-
ских точек значения c 20,05 (1) и c 20,05 (2); на основании значений BG(k) и

67
критических точек сделайте вывод относительно отсутствия автокорре-
ляции первого и второго порядка отклонений исходной модели;
3) примените к выбранной модели схему AR(1): для этого оце-
ните модель Lft * = α 0 + α1GNI t* + ut , в которой Lft * = Lft − ρLft −1,
GNI t* = GNI t − ρGNI t −1, ρ = 1 − DW 2 . Оцените статистическую значи-
мость преобразованной модели и проверьте, как изменятся ваши выво-
ды относительно отсутствия автокорреляции первого и второго поряд-
ков отклонений.
Таблица 2.4
Год Lf GNI Год Lf GNI Год Lf GNI
1993 66,7268 6820 2000 65,5171 7170 2007 66,5049 15230
1994 65,6732 6160 2001 65,7683 8460 2008 67,0220 15460
1995 64,9195 5860 2002 65,9683 9530 2009 68,4293 15990
1996 64,1098 6070 2003 65,8659 10470 2010 68,2954 16710
1997 64,4634 6350 2004 65,8878 11580 2011 68,98 17710
1998 64,5610 6410 2005 65,9098 12570 2012 69,61 18860
1999 65,5195 6610 2006 66,1610 13900 2013 70,3 20570

Задание 2.4. По представленным статистическим данным с 1959 по


1995 г. для показателей индекса потребительских цен (переменная INFL –
Percent change in CPI, inflation rate) и оплаты труда (переменная WGGR –
Percent change in avg weekly earnings, current dollars) (табл. 2.5) убедитесь в
наличии между ними линейной зависимости, постройте регрессию INFL
на WGGR и выполните стандартную схему анализа и коррекции регрес-
сионной модели:
1) оцените статистическую значимость модели INFLt = β0 + β1WGGRt +
INFLt = β0 + β1WGGRt + et ;
2) убедитесь в наличии автокорреляции случайных отклонений моде-
ли первого порядка с помощью статистики Дарбина – Уотсона;
3) проверьте с помощью теста Бреуша – Годфри и анализа автокор-
реляционных функций выполнение гипотезы об отсутствии коррелиро-
ванности случайных отклонений модели, построенной в п. 1 до порядка
k = 4 включительно, сделайте выводы о наличии автокорреляции не толь-
ко первого порядка, но и более высоких порядков;
4) попытайтесь скорректировать ее, изменив форму модели:
•• перейдите к лагу по экзогенной переменной
INFLt = β0 + β1WGGRt −1 + et ;

68
•• введите лаг эндогенной переменной
INFLt = β0 + β1WGGR t + β2 INFLt −1 + et ;
•• перейдите к первым разностям переменных
∆INFLt = β0 + β1∆WGGRt + et .
Таблица 2.5

Год INFL WGGR Год INFL WGGR Год INFL WGGR


1959 0,69 4,9 1972 3,21 7,5 1985 3,56 2,1
1960 1,72 2,4 1973 6,22 6,2 1986 1,86 1,9
1961 1,01 2,4 1974 11,04 6,4 1987 3,65 2,5
1962 1 4 1975 9,13 5,7 1988 4,14 3
1963 1,32 3 1976 5,76 7,3 1989 4,82 3,8
1964 1,31 3,2 1977 6,5 7,7 1990 5,4 3,3
1965 1,61 4,5 1978 7,59 7,8 1991 4,21 2,5
1966 2,86 3,5 1979 11,35 8 1992 3,01 2,7
1967 3,09 3,1 1980 13,5 6,9 1993 2,99 2,8
1968 4,19 5,8 1981 10,32 8,5 1994 2,56 3,4
1969 5,46 6,4 1982 6,16 4,7 1995 2,83 2,4
1970 5,72 4,6 1983 3,21 5 – – –
1971 4,38 6,2 1984 4,32 4,3 – – –

Как и в предыдущих пунктах, оцените статистическую адекватность


моделей, проанализируйте значения статистики Дарбина – Уотсона и ав-
токорреляционных функций. Сделайте выводы относительно коррекции
или смягчения автокорреляции первого и более высоких порядков в по-
строенных моделях;
5) выберите из трех моделей, построенных в предыдущем пункте, наи-
лучшую с точки зрения статистической значимости и выполнения пред-
посылки МНК об отсутствии автокорреляции. Подтвердите выводы, сде-
ланные в п. 1, с помощью теста Бреуша – Годфри (если сделали вывод о
наличии автокорреляции третьего порядка, то проверьте гипотезу с помо-
щью теста при k = 3);
6) примените к выбранной модели схему AR для того порядка, кото-
рый определили.
В случае если речь идет о схеме AR(1), используйте оценку
ρ = 1 − DW 2 и с помощью МНК оцените модель регрессии, используя
переменные, преобразованные следующим образом: Z t* = Z t − ρZ t −1 .

69
Если необходимо применить схему AR(2), то получите оценку
для коэффициентов ρ1, ρ2 на основе авторегрессионной зависимости
et = ρ1et −1 + ρ2 et − 2 + ut (для этого оценив с помощью МНК модель et исходной
модели на et −1, et − 2 без константы) и с помощью МНК оцените модель,
используя переменные, преобразованные следующим образом:
Z t* = Z t − ρ1 Z t −1 − ρ2 Z t − 2 .
Для схемы AR(3) используйте оценку ρ1, ρ2, ρ3 из et = ρ1et −1 + ρ2 et − 2 + ρ3 et −3 + ut ,
ρ1et −1 + ρ2 et − 2 + ρ3 et −3 + ut , преобразование для переменных Z t* = Z t − ρ1 Z t −1 − ρ2 Z t − 2 − ρ3 Z t −3
Z t −1 − ρ2 Z t − 2 − ρ3 Z t −3 и т. д. (уравнения оценки коэффициентов авторегрессии и преобра-
зования для переменных даны в общем виде, при необходимости исключайте
промежуточные лаги при коррекции автокорреляции порядков k ≥ 2).
Проверьте результаты коррекции удобным вам способом. Удалось ли
скорректировать автокорреляцию? Смягчить ее?

Задание 2.5. Даны помесячные статистические данные об уровне без-


работицы (переменная BEZR, %) и инфляции (переменная CPI, %, в це-
нах января 2010 г.) (табл. 2.6):
1) оцените базовую модель инфляции по безработице;
2) проверьте с помощью теста Бреуша – Годфри и анализа автокор-
реляционных функций выполнение гипотезы об отсутствии коррелиро-
ванности случайных отклонений модели, построенной в п. 1 до порядка
k = 4 включительно, сделайте выводы о наличии автокорреляции не толь-
ко первого порядка, но и более высоких порядков;
Таблица 2.6

Год, месяц CPI BEZR Год, месяц CPI BEZR


2010M01 1 42,5 2011M01 1,1068 34,4
2010M02 1,005 43,5 2011M02 1,136684 34,1
2010M03 1,016055 43,8 2011M03 1,158281 33,6
2010M04 1,023167 43,1 2011M04 1,210403 32,7
2010M05 1,031353 40,8 2011M05 1,368966 31,3
2010M06 1,033415 38,9 2011M06 1,486697 30,6
2010M07 1,036516 37,8 2011M07 1,538732 30,5
2010M08 1,042735 38,6 2011M08 1,675679 31,5
2010M09 1,059419 35,9 2011M09 1,903571 30,1
2010M10 1,071072 35,2 2011M10 2,059664 29,6
2010M11 1,080712 34,1 2011M11 2,226497 29,7
2010M12 1,091519 33,1 2011M12 2,277706 28,2

70
Окончание табл. 2.6
Год, месяц CPI BEZR Год, месяц CPI BEZR
2012M01 2,320983 30,6 2013M01 2,854992 26,5
2012M02 2,355797 31,5 2013M02 2,889252 26,2
2012M03 2,391134 31 2013M03 2,921033 25,3
2012M04 2,431784 30,6 2013M04 2,935639 25,7
2012M05 2,470692 29,7 2013M05 2,956188 23,9
2012M06 2,515165 27,9 2013M06 2,965057 22,6
2012M07 2,547862 27,3 2013M07 2,994707 22,3
2012M08 2,606463 27,8 2013M08 2,997702 21,9
2012M09 2,640347 26,3 2013M09 3,048663 20,9
2012M10 2,687873 26,5 – – –
2012M11 2,733567 26 – – –
2012M12 2,771837 24,9 – – –

3) предложите меры по улучшению спецификации модели, подраз-


умевающие: введение распределенных лагов и переменных авторегрес-
сии (до порядка l = 2); переход к первым разностям показателей. Оцени-
те статистическую адекватность модифицированных моделей. Сделайте
выводы относительно отсутствия автокорреляции первого и более высо-
ких порядков в построенных моделях.

2.2. Гетероскедастичность
случайных отклонений

Ключевые понятия: предпосылки МНК, гомоскедастичность, гетероскеда-


стичность и ее последствия; графический метод, тесты Спирмена, Парка,
Глейзера, Голдфельда – Квандта, Вайта, Бреуша – Пагана; ошибки специ­
фикации; метод взвешенных наименьших квадратов (обобщенный метод
наименьших квадратов).

Общие сведения о гетероскедастичности случайных отклонений


Одной из ключевых предпосылок МНК, обеспечивающих свойство
BLUE-оценок, является условие постоянства дисперсий случайных от-
клонений для любых наблюдений. D(εi ) = σ 2 – нарушение предпосылки
приводит к изменению свойств оценок, полученных при МНК. Выпол-
нимость данной предпосылки называется гомоскедастичностью; невы-
полнимость – гетероскедастичностью.

71
Гетероскедастичность в основном характерна для пространственных
или перекрестных данных, реже во временных рядах. Во временных ря-
дах рассматриваются одни и те же показатели в разные моменты времени,
поэтому при одновременном росте (или снижении) показателей за опре-
деленный период времени может возникнуть гетероскедастичность. При
пространственных (перекрестных) данных учитываются различные субъ-
екты, имеющие разные доходы, расходы и т. д.
В качестве примера явной гетероскедастичности можно сказать, что
люди с большим доходом не только тратят в среднем больше, чем люди с
меньшим доходом, но и разброс в их потреблении также больше, посколь-
ку они имеют больше простора для распределения дохода.
При гетероскедастичности последствия применения МНК будут сле-
дующими:
1) оценки параметров останутся по-прежнему несмещенными и ли-
нейными, но перестанут быть эффективными (потеряют свойство BLUE-
оценок). Увеличение дисперсии оценок снижает вероятность получения
максимально точных оценок;
2) дисперсии оценок параметров будут рассчитываться со смещени-
ем. Поэтому все выводы, получаемые на основе соответствующих t- и
F-статистик, а также интервальные оценки будут ненадежными. Впол-
не вероятно, что стандартные ошибки коэффициентов будут занижены,
а t-статистики завышены. Это может привести к признанию статисти-
чески значимыми коэффициентов, которые таковыми на самом деле не
являются.
Методы выявления гетероскедастичности случайных отклонений
В ряде случаев, зная характер исходных данных, можно предвидеть
гетероскедастичность и попытаться устранить проблему еще на стадии
спецификации. Однако чаще всего ее приходится решать после построе-
ния уравнения регрессии. Не существует однозначного способа для опре-
деления гетероскедастичности.
Графический метод. Графическое построение отклонений от эмпи-
рического уравнения регрессии позволяет визуально определить нали-
чие гетероскедастичности. В этом случае по оси абсцисс откладываются
значения объясняющей переменной xi (для парной регрессии) либо ли-
нейная комбинация объясняющих переменных:
y^i = a + b1 xi1 + ... + bp xip , i = 1, n (2.15)

(для множественной регрессии), а по оси ординат либо отклонения ei,


либо их квадраты et2 , t = 1, n.

72
Если все точки, соответствующие значениям квадратов отклонений
et2, находятся внутри горизонтальной полосы постоянной ширины, то это
свидетельствует о постоянстве дисперсии et2 , т. е. о ее независимости от
каких-либо других факторов – предпосылка о гомоскедастичности слу-
чайных отклонений модели регрессии выполняется (рис. 2.8).

Рис. 2.8
В других случаях, когда наблюдаются систематические изменения в
соотношениях между значениями y^t и значениями квадратов отклоне-
ний et2 (рис. 2.9, а и б), можно говорить о непостоянстве дисперсии от-
клонений и наличии зависимости между случайными отклонениями и
линейной комбинацией экзогенных переменных – предпосылка о гомо-
скедастичности отклонений модели не выполняется, в модели присут-
ствует гетероскедастичность.

Рис. 2.9
Графический анализ последних двух графиков отражает ситуации, в
которых присутствует большая вероятность наличия гетероскедастично-
сти для рассматриваемых статистических данных. Естественно, графиче-
ский анализ должен быть дополнен специальными тестами. В настоящее

73
время для определения гетероскедастичности разработан широкий круг
специальных тестов и критериев.
Тест ранговой корреляции Спирмена. В рамках теста предполагается,
что дисперсия отклонений будет либо увеличиваться, либо уменьшать-
ся с увеличением значений хt. Поэтому для регрессии, построенной по
МНК, абсолютные величины отклонений |et| и значения xit будут в не-
котором смысле коррелировать (при этом предполагается, что значения
экзогенной переменной также положительны). Корреляция в смысле
пропорциональности роста абсолютных величин отклонений при росте
значений экзогенной переменной приводит к понятию ранговой корре-
ляции: коррелируют между собой не сами значения |et| и значения xit, а их
ранги. Определяется коэффициент ранговой корреляции:
n
∑ dt2
t =1
re; x = r (rank et ; rank( x jt ) = 1 − 6 , (2.16)
n(n2 − 1)
где dt – разность между рангами xi и |ei|, n – число наблюдений. Напри-
мер, если х20 является 25-м по величине среди всех значений хj, а e20 –
32- м, то d20 = 25 – 32 = –7.
Доказано, что если коэффициент корреляции для генеральной сово-
купности равен нулю, т. е. выполняется гипотеза H 0 : re; x = 0, статистика

re; x n − 2
tнабл = (2.17)
1 − re2; x

имеет распределение Стьюдента с числом степеней свободы (n – 2). По-


этому если наблюдаемое значение t-статистики превышает критическое
tкрит = tα/ 2; n − 2 , вычисленное по таблице критических точек распределе-
ния Стьюдента, то гипотезу о равенстве нулю коэффициента корреля-
ции следует отклонить, т. е. признать наличие гетероскедастичности от-
клонений et. В противном случае нулевая гипотеза, которая соответствует
отсутствию гетероскедастичности, принимается.
В модели множественной регрессии проверка гипотезы может осущест-
вляться с помощью t-статистики по каждому фактору отдельно. Представ-
ленная форма теста может использоваться в случае несвязанных рангов.
Тест Голдфельда – Квандта. Предполагается, что стандартное откло-
нение пропорционально значению переменной xj, т. е. σ t2 = σ 2 x 2jt , t = 1, n,
а остатки исходной модели et имеют нормальное распределение и отсут-
ствует автокорреляция остатков. Далее согласно схеме теста:

74
а) вся выборка, т. е. входящие в нее переменные, упорядочивается по
величине xt;
б) упорядоченная выборка разбивается на три подвыборки размерно-
стей k, n – 2k и k соответственно. Идея теста состоит в том, что оценки
дисперсии отклонений в случае первой и в случае последней подвыбор-
ки значительно отличаются в случае невыполнения нулевой гипотезы,
т. е. при гетероскедастичности;
в) для получения оценок дисперсий оцениваются отдельные регрес-
сии для первой подвыборки (k первых наблюдений) и для третьей подвы-
борки (k последних наблюдений). Поскольку оценка регрессий происхо-
дит по выборкам с одинаковым количеством наблюдений, то сравнивать
фактически можно значения остаточных сумм квадратов. Если предполо-
жение о пропорциональности дисперсий отклонений значениям xj вер-
но, то остаточная сумма квадратов отклонений по первой регрессии RSS1
будет существенно меньше остаточной суммы квадратов отклонений по
третьей регрессии RSS3;
г) для сравнения соответствующих дисперсий выдвигается нулевая
гипотеза в формулировке:
H 0 : σ12 = σ 22 = ... = σ 2n (случайные отклонения гомоскедастичны).
Для проверки гипотезы строится следующая статистика
(F-наблюдаемое):
RSS3 (k − m − 1) RSS3
F= = , (2.18)
RSS1 (k − m − 1) RSS1
которая при справедливости нулевой гипотезы имеет распределение
Фишера с (k − m − 1, k − m − 1) степенями свободы. Если Fнабл  >  Fкрит  =
= Fα; k − m−1; k − m−1, то гипотеза об отсутствии гетероскедастичности откло-
няется на уровне значимости α.
По рекомендациям специалистов, объем исключаемых данных k дол-
жен быть примерно равен четверти общего объема выборки n. Этот же тест
может быть использован и при предположении об обратной пропорцио-
нальности между дисперсией и значениями объясняющей переменной.
При установлении гетероскедастичности возникает необходимость
преобразования модели с целью устранить данный недостаток. Вид пре-
образования зависит от того, известны или нет дисперсии отклонений s i2.
Тест Парка. Предполагается, что дисперсия s t2 является функцией
t-го значения экзогенной переменной xj. Р. Парк предложил следующую
функциональную зависимость: σ t2 = σ 2 xtk e ut , прологарифмировав кото-
рую, получим в линейном виде
ln σ t2 = ln σ 2 + k ln x jt + ut . (2.19)

75
Таким образом, задачу проверки предположения о постоянстве дис-
персии отклонений s t2 можно свести к проверке значимости зависимо-
сти между lns t2 и ln x jt . В случае если гипотеза о постоянстве дисперсии
отклоняется и отклонения гетероскедастичны, параллельно также реша-
ется задача определения значения k.
Так как дисперсии s t2 обычно не известны, то на практике их заме-
няют оценками квадратов отклонений et2.
Критерий Парка включает следующие этапы:
•• оценивается исходное уравнение регрессии, например yt = β0 + β1 xt + εt ,
+ εt, выделяется ряд эмпирических значений остатков et;
•• оценивается уравнение вспомогательной регрессии ln et2 = λ 0 + λ1 ln xt + ut
2
ln et = λ 0 + λ1 ln xt + ut (в случае рассмотрения множественной регрессии вспомога-
тельная модель теста строится для каждой объясняющей переменной xj);
•• проверяется статистическая значимость коэффициента l1 на основе
t-статистики. Если коэффициент l1 статистически значим, то это озна-
чает наличие связи между ln et2 и ln xt , т. е. гетероскедастичность в остат-
ках исходной модели.
К недостаткам теста можно отнести то, что на принятие гипотезы мо-
гут влиять свойства отклонений вспомогательной модели ut, невыпол-
нение предпосылок МНК для которых ведет к искажению результатов
(ложно принимается предположение о гетероскедастичности). Кроме
того, сформулированная форма зависимости предполагает однозначное
определение k, а значит и самой формы на основе МНК, т. е. гетероске-
дастичность может существовать в другой функциональной форме, ко-
торая не будет выявлена в тесте Парка.
Тест Глейзера. Тест Глейзера аналогичен тесту Парка и основывает-
ся на более общих представлениях о зависимости стандартной ошибки
случайного члена от значений объясняющей переменной, т. е. в каком-
то смысле дополняет тест Парка.
Зависимость между случайными отклонениями тестируемой модели
и экзогенной переменной представляется в виде

et = λ 0 + λ1 xtl + vt . (2.20)

Изменяя значение l, можно построить множество регрессий, опре-


деляющих разную форму гетероскедастичности. Рекомендуют переби-
рать значения параметра следующим образом: l = ..., –2, –1, –0,5, 0,5, 1, 
2, .... Из общего числа построенных моделей выбирают регрессию с мак-
симальным значением коэффициента детерминации: в общем случае R2
представляет в тесте функцию от l, для которой возможно определение

76
максимального значения при оптимальном значении аргумента l. В ото-
бранной модели тестируется статистическая значимость коэффициента
l1, что фактически означает наличие гетероскедастичности.
Нужно отметить, что так же, как и в тесте Парка, в тесте Глейзера для
отклонений vt условие гомоскедастичности может нарушаться. Однако во
многих случаях предложенные модели являются достаточно хорошими
для определения гетероскедастичности. Форма гетероскедастичности в
тесте Глейзера может быть определена как σ t2 = σ 2 xt2l .
Тест Вайта. В тесте не высказывается никаких предположений о
свойствах случайных отклонений, однако он не дает ответа на вопрос о
точной форме гетероскедастичности. Для проверки нулевой гипотезы о
гомоскедастичности случайных отклонений регрессионной модели не-
обходимо:
•• оценить исходную модель и определить остатки модели et;
•• оценить вспомогательную модель регрессии квадратов остатков ис-
ходной модели на все ее экзогенные переменные, их квадраты и пере-
крестные произведения:
et2 = λ 0 + λ1 x1t + λ 22t + ... + λ m xmt + δ1 x12t + δ 2 x22t + ... +
2
+ δ m xmt + α12 x1t x2t + α13 x1t x3t + ... + α1m x1t xmt +
+ α 23 x2t x3t + ... + α m−1m xm−1t xmt + vt . (2.21)

Определяется R2 вспомогательного уравнения регрессии и находится


значение статистики Wh = nR 2 ~ χ 2α; k , где k – количество экзогенных фак-
торов во вспомогательной модели (или количество параметров, умень-
шенное на единицу). Если Wh = nR 2 < χ 2α; k , то в остатках модели присут-
ствует гомоскедастичность; в противном случае если Wh = nR 2 > χ 2α; k , то
нулевая гипотеза отклоняется и в исходной модели присутствует гетеро-
скедастичность.
Возможно использовать форму теста Вайта без перекрестных произ-
ведений (no-cross), например при большом количестве параметров в ис-
ходной модели. Также, поскольку использование статистики c2 предпола-
гает большой объем выборки, при недостаточном количестве наблюдений
возможно использовать F-статистику, сведя проверку нулевой гипотезы о
гомоскедастичности отклонений к проверке гипотезы о статистической
незначимости коэффициента детерминации вспомогательной модели.
Тест Бреуша – Пагана. Тест, не накладывая никаких ограничений на
случайные отклонения, позволяет диагностировать гетероскедастичность
в тех случаях, когда она присутствует не только в виде зависимости слу-
чайных отклонений от конкретной экзогенной переменной, но и в виде

77
зависимости от нескольких экзогенных переменных, их линейных ком-
бинаций, или когда функция зависимости отличается от степенной (ли-
нейной, квадратичной и т. п.), как в предыдущих тестах.
Для проверки нулевой гипотезы о гомоскедастичности случайных от-
клонений регрессионной модели необходимо:
•• оценить исходную модель и определить остатки модели et, а также
1 n
среднюю величину их квадратов σ^ = ∑ et2 ;
n t =1
•• оценить вспомогательную модель регрессии квадратов остатков ис-
ходной модели, деленных на величину s, ^ на некоторые экзогенные пере-
менные Z1t , Z 2t , ..., полученные использованием элементарных алгебраи-
ческих функций или различных комбинаций из экзогенных переменных
исходной модели:
et2
= λ 0 + λ1 Z1t + λ 2 Z 2t + ... + λ m Z mt + vt . (2.22)
σ^

Определяется значение объясненной суммы квадратов ESS вспо-


могательного уравнения регрессии и находится значение статистики
BP = ESS 2 ~ χ 2α; k , где k – количество экзогенных факторов во вспомо-
гательной модели (или количество параметров, уменьшенное на едини-
цу). Если BP < χ 2α; k , то в остатках модели присутствует гомоскедастич-
ность; если же BP > χ 2α; k , то нулевая гипотеза отклоняется и в исходной
модели присутствует гетероскедастичность. Можно использовать также
значение остаточной суммы RSS вспомогательной модели, выводы при
этом меняются на противоположные.
Метод устранения гетероскедастичности
В случае если дисперсии отклонений известны для каждого наблюде-
ния, применяется метод взвешенных наименьших квадратов (ВМНК). Суть
метода состоит во «взвешивании» дисперсий: наблюдения с наименьши-
ми дисперсиями получают наибольшие «веса», а наблюдения с наиболь-
шими дисперсиями – наименьшие. Поэтому наблюдения с меньшими
дисперсиями отклонений будут более значимыми при оценке параметров
регрессии, чем наблюдения с большими дисперсиями. При этом повы-
шается вероятность получения более точных оценок.
Гетероскедастичность устраняется, если разделить каждое наблюдае-
мое значение на соответствующее ему значение дисперсии.
Рассмотрим для простоты ВМНК на примере парной регрессии:
yt = β0 + β1 xt + εt . (2.23)

78
Разделим обе части уравнения на известное:

σ t = σ t2 , (2.24)

yt 1 x ε
= β0 + β1 t + t , (2.25)
σt σt σt σt

которое может быть преобразовано в уравнение

yt* = β0 zt + β1 xt* + ut (2.26)

при применении следующих обозначений:

yt 1 x ε
yt* = , zt = , xt* = t , ut = t . (2.27)
σt σt σt σt

Можно показать, что для ut выполняется условие гомоскедастично-


сти. Таким образом, для преобразованной модели выполняются все пред-
посылки МНК, и полученные оценки будут наилучшими линейными не-
смещенными оценками. Полученные по МНК оценки параметров новой
модели можно использовать в первоначальной модели.
Для применения ВМНК необходимо знать фактические значения
дисперсий отклонений s t2 . На практике такие значения известны край-
не редко. Поэтому, чтобы применить ВМНК, необходимо сделать реали-
стические предположения о значениях s t2 . При тестировании гипотезы
о гомоскедастичности с помощью различных тестов можно выдвинуть
предположение о форме гетероскедастичности σ t2 = σ 2 x kjt , тогда остат-
ки в виде et x kjt будут пропорциональны константе σ = σ 2 , а значит
гомоскедастичны (при условии корректного определения формы гете-
роскедастичности). В случае если форма гетероскедастичности точно не
определена, предполагается, что дисперсии отклонений пропорциональ-
ны или значениям xjt, или значениям x 2jt .
Зная форму гетероскедастичности, т. е. форму зависимости между от-
клонениями и некоторой экзогенной переменной xj, уравнение преобра-
зуют делением его левой и правой частей на x kjt :

yt 1 x1t xmt εt
= β0 + β1 + ... + β m + . (2.28)
x kjt x kjt x kjt x kjt x kjt

79
Применим обычный МНК к новой регрессии в преобразованных пе-
ременных:
yt 1 x1t xmt εt
yt* = , zt = , x1*t = *
, …, xmt = , ut = . (2.29)
x kjt x kjt x kjt x kjt x kjt

Для отклонений ut, как отмечалось выше, выполняется предположе-


ние об их гомоскедастичности. Оценив для новой модели по МНК эмпи-
рические коэффициенты b0 , b1, ..., bm , возвращаемся к первоначальному
уравнению регрессии (перенося значения коэффициентов в том же по-
рядке). Следует отметить, что модель регрессии, оцениваемая в подходе
ВМНК, в общем виде не имеет свободного члена, за исключением слу-
чая k = 2.
Если в уравнении регрессии присутствует несколько объясняющих
переменных, а гетероскедастичность выявлена по нескольким из них,
возможно использование в качестве «веса» их линейной комбинации,
или, в самом общем случае, в качестве линейной комбинации могут вы-
ступать регрессионные значения, полученные в исходной модели, т. е. y^t .

Задания для самоконтроля

1. Какие из тестов и статистик можно использовать для диагности-


ки гетероскедастичности случайных отклонений регрессионной модели?
†† Тест Парка.
†† Тест Вайта.
†† Тест Бреуша – Годфри.
†† Статистика Жака – Берра.

2. Какие из тестов включают в себя процедуру ранжирования?


†† Тест Спирмена.
†† Тест Бреуша – Пагана.
†† Тест Вайта.
†† Тест Голдфельда – Квандта.

3. Какие из методов используются для коррекции гетероскедастич-


ности?
†† Метод взвешенных наименьших квадратов.
†† Авторегрессионная схема.
†† Изменение спецификации модели.
†† Исключение экзогенных переменных.
80
4. Укажите ответы, верные при диагностике остатков представленной
модели на наличие гетероскедастичности.
Exphealth – средний уровень расходов домашнего хозяйства на ме-
дицину, тыс. долл. в год; Inc – средний уровень доходов хозяйства, тыс.
долл. в год; n = 51 (перекрестные данные, штаты США);

Exphealtht = 0,326 + 0,142 Inct + et ; R 2 = 0,99;


(t ) (1, 02) (72, 27)
et2 = −1, 4 + 0, 06 Inct − 0, 00006 Inct2 + ut ; R 2 = 0, 4212.
(P ) (0, 2) (0, 00) (0, 00)

†† Для диагностики гетероскедастичности использовался тест Вайта.


†† Для диагности гетероскедастичности использовался тест Бреу-
ша – Пагана.
†† В модели присутствует гетероскедастичность, так как значение
статистики в тесте 21,48 превосходит критическое значение c2- рас-
пределения для двух степеней свободы, равное 5,99 (при уровне
значимости 0,05).
†† В модели отсутствует гетероскедастичность, так как значение ста-
тистики в тесте 21,48 превосходит критическое значение c2- рас-
пределения для трех степеней свободы, равное 7,81 (при уровне
значимости 0,05).
†† В модели присутствует гетероскедастичность, так как значение
статистики в тесте 21,48 превосходит критическое значение c2- рас-
пределения для трех степеней свободы, равное 7,81 (при уровне
значимости 0,05).

5. Укажите ответы, верные при диагностике остатков представленной


модели на наличие гетероскедастичности.
Cons – уровень доходов на душу населения, тыс. долл. в год; Inc – уро-
вень доходов на душу населения, тыс. долл. в год; n = 36 (1959–1994 гг.);

Const = −384,105 + 0,933Inct + et ; R 2 = 0,995;


(t ) (−2,54) (87, 2)
ln et2 = 0, 03 + 0, 45 ln Inct + ut ; R 2 = 0, 49.
(P ) (0, 4) (0, 02)

81
†† Для диагностики гетероскедастичности использовался тест Глей-
зера.
†† Согласно результатам теста в модели присутствует гетероскеда-
стичность на 3 % уровне значимости, при условии гомоскедастич-
ности остатков u.
†† Для диагностики гетероскедастичности использовался тест Парка.
†† Согласно результатам теста в модели присутствует гетероскеда-
стичность на любом уровне значимости.
†† Согласно результатам теста в модели отсутствует гетероскедастич-
ность на 3 % уровне значимости.

6. Укажите ответы, верные при диагностике остатков представленной


модели на наличие гетероскедастичности.
MRate – уровень смертности среди населения, на 100 000 чел.; Pov –
доля населения с доходами ниже прожиточного минимума, %; Alc – объем
потребления алкогольных напитков, галлонов в год на человека; Health –
средний уровень расходов на медицину на душу населения, тыс. долл.
в год; n = 51 (перекрестные данные, штаты США);

MRatet = 577, 079 + 643,78Povt − 69,69 Alct + 0, 22Healtht + et ;


(P ) (0, 00) (0,18) (0, 01) (0, 00)
R 2 = 0,36; F (R 2 ) = 8,84;
et = 0, 24 + 0,98Povt + ut ; R 2 = 0,51;
(P ) (0,1) (0, 7)
et = 1, 03 + 2,75 Alct + ut ; R 2 = 0,17;
(P ) (0,11) (0,14)
et = 3, 21 + 1, 05Healtht + ut ; R 2 = 0,77.
(P ) (0, 2) (0,1)

†† Согласно результатам теста Парка на 14 % уровне значимости дис-


персия отклонений пропорциональна переменной Alc, возведен-
ной в куб.
†† Согласно результатам тестирования дисперсия отклонений пропор-
циональна всем трем экзогенным переменным исходной модели.
†† Согласно результатам теста на 5 % уровне значимости диспер-
сия отклонений пропорциональна переменной Pov, возведенной
в квадрат.

82
Модель 1
Зависимая (эндогенная) переменная R&D
Количество наблюдений 18
Переменная Коэффициент Ст. ошибка t-стат. P-вероятн.
Константа C 114,3906 959,0376 0,1193 0,9065
Независимая (экзогенная)
переменная Profits 0,3632 0,0892 4,0735 0,0009
Коэффициент детерминации 0,509102 F-статистика 16,5933

Полученные результаты указывают на статистическую значимость


коэффициента при экзогенной переменной и статистическую значи-
мость коэффициента детерминации R2, несмотря на относительно не-
большое абсолютное значение (значение соответствующей статистики
Fнабл = 16,5933 превышает значение критической точки распределения
=
Фишера Fкрит  F=(0, 05; 1; 16) 4, 494). По формальным признакам нет ос-
нований предположить невыполнение для случайных отклонений мо-
дели 1 какой-либо из предпосылок МНК, поэтому принимаем решение
провести дополнительно анализ отклонений модели с помощью теста
Голдфельда – Квандта, а также с помощью теста Вайта, считающегося
универсальным, поскольку процедура не имеет ограничений на структу-
ру гетероскедастичности.
Тест Голдфельда – Квандта (Goldfeld – Quandt). Прежде всего про-
ранжируем выборку по значениям экзогенной переменной Profits и ис-
ключим из нее примерно четверть центральных наблюдений (получив
18 : 4 = 4,5, для удобства округляем полученное число в меньшую сторо-
ну, чтобы получить одинаковое количество наблюдений со значениями
меньше и больше исключенных: n ′ = 7  – объем подвыборок) (табл. 2.8).
Таблица 2.8
Номер R&D Номер R&D
Profits Profits
группы Expenditure группы Expenditure
1 185,1 62,5 9 5036,4 509,2
5 225,9 494,7 13 8787,3 6107,5
3 276,8 178,3 15 9761,4 3163,8
2 1569,5 92,9