Вы находитесь на странице: 1из 102

Государственное казенное образовательное учреждение

высшего профессионального образования


«РОССИЙСКАЯ ТАМОЖЕННАЯ АКАДЕМИЯ»
Владивостокский филиал

Кафедра информатики и информационных таможенных технологий

КОНСПЕКТ ЛЕКЦИИ

на тему: «Классическая линейная модель множественной регрессии. »

Дисциплина: «ЭКОНОМЕТРИКА (ПРОДВИНУТЫЙ УРОВЕНЬ)»

Автор: М.М. Цвиль, доцент кафедры информационных таможенных


технологий и информатики Ростовского филиала Российской таможенной
академии, кандидат физико-математических наук, доцент

Владивосток
2012
Учебные вопросы
1. Матричная форма линейной модели множественной регрессии.
2. Оценка параметров классической регрессионной модели методом
наименьших квадратов.
3. Предпосылки для множественного регрессионного анализа.
4. Стандартизированное уравнение линейной множественной регрессии.
5. Множественная линейная корреляционная зависимость.
6. Частные коэффициенты корреляции.
7. Коэффициенты множественной корреляции.
8. Отбор факторов в случае линейной множественной регрессии
Введение
Экономические явления, как правило, определяются большим
числом одновременно и совокупно действующих факторов. Возникает
задача исследования зависимости одной зависимой переменной Y от
нескольких объясняющих переменных: Х1, Х2, …, ХР. Эта задача решается с
помощью множественного регрессионного анализа.
Множественная регрессия представляет собой регрессию
результативного признака с двумя или большим числом независимых
переменных вида
Y  f ( X 1 , X 2 ,..., X p ) .

В уравнении регрессии случайная величина Y зависит не только от


значений независимых переменных X 1 , X 2 ,..., X p , но и от ряда других
факторов, влияющих на Y , которые не могут быть проконтролированы. В
связи с этим будем использовать запись вида
Y  f ( X 1 , X 2 ,..., X p )   ,
где  - случайная величина, характеризующая отклонение результативного
признака от теоретического, найденного по уравнению регрессии.
Статистический анализ случайной ошибки является одной из основных
задач эконометрики.

2
При исследовании зависимости результативного признака Y от ряда
факторов X 1 , X 2 ,..., X p необходимо решать такие же задачи, что и при
парной связи двух переменных X и Y :
 определение вида регрессии;
 оценка параметров;
 определение тесноты связи, если переменные X и Y - случайные
величины.
Однако наряду с этими задачами необходимо рассматривать и ряд
задач, характерных лишь для множественной регрессии и корреляции. К
таким задачам относится отбор факторов X 1 , X 2 ,..., X p , существенно
влияющих на фактор Y , при наличии возможностей внутренней
взаимосвязи между переменными X 1 , X 2 ,..., X p . Такой отбор требует
прежде всего глубокого теоретического и практического знания
качественной стороны рассматриваемых экономических явлений.
Особенностью множественной регрессии и корреляции является
необходимость различать случаи корреляционной множественной связи,
когда переменные x1 , x2 ,..., x p являются случайные величинами;
регрессионной, если переменные x1 , x2 ,..., x p – неслучайными величинами,
а также смешанный случай, когда некоторые из переменных – случайные
величины, а другие – неслучайные.
Отбор факторов x1 , x2 ,..., x p , существенно влияющих на фактор y
при наличии возможностей внутренней взаимосвязи между переменными
x1 , x2 ,..., x p осуществляется обычно в несколько этапов. Сначала
отбираются факторы, связанные с изучаемым явлением на основе данных
теоретического исследования (экономическая теория, заключения
специалиста и т.д.). При этом для построения множественной регрессии и
корреляции отбираются факторы, которые могут быть количественно
измеримы.
Далее отобранные факторы подвергаются проверке существенности
их влияния на изучаемый показатель с использованием методов

3
математической статистики. Такая проверка, как правило, включает анализ
матрицы парных коэффициентов корреляции, частных корреляций,
проверку существенности (значимости) коэффициентов регрессии на
основе t –критерия, анализ остатков (отклонений) и т.д.
1. Матричная форма линейной модели множественной регрессии.
Обозначим: i-ое наблюдение зависимой переменной – уi, а
объясняющих переменных – xi1, xi2, … , xip. Тогда модель множественной
линейной регрессии можно представить в виде:
yi   0  1 xi1   2 xi 2     p xip   i (1.1)
i  1, 2,..., n – объем выборки;
i удовлетворяет предпосылкам регрессионного анализа:
1.  i – случайная величина, а объясняющие переменные – неслучайные
величины;
2. M ( i )  0 ;

3. D ( i )   2 – постоянная для любого i (условие гомоскедастичности);


4. M ( i j )  0 , (i  j ) ;

5. Возмущение  i есть нормально распределенная случайная величина.


Определение:
Модель (1.1), в которой зависимая переменная уi , возмущения  i и
объясняющие переменные удовлетворяют предпосылкам регрессионного
анализа и, кроме того, предпосылке о невырожденности матрицы значений
объясняющих переменных (независимых столбцов) называется
классической нормальной линейной моделью множественной регрессии.
Перейдем к матричному описанию регрессий (это облегчает расчеты).
Введем обозначения:

4
 y1 
 
y 
Yn1  2 – матрица-столбец, или вектор значений зависимой переменной
...
 
y 
 n

1 x11 x12 ... x1 p 


 
1 x21 x22 ... x2 p 
размера n; X n ( p 1)  – матрица значений
... ... ... ... ... 
 
1 xn1 xn 2 ... xnp 

объясняющих переменных, или матрица плана (размера n  ( p  1) ). В


матрицу X дополнительно введен столбец, все элементы которого равны
1, т.е. условно предполагается, что в модели (1.1) свободный член  0
умножается на фиктивную переменную xi 0 , принимающую значение 1 для
всех i: xi 0  1  i  1,2,..., n  ;
 0 
 
 1 
  
... – матрица-столбец, или вектор параметров размера  p  1 ;
 
 
 p

 1 
 
 
  2 – матрица-столбец, или вектор возмущений (случайных ошибок,
...
 
 
 n

остатков) размера n.
Тогда в матричной форме модель (1.1) примет вид:
Y  X   . (1.2)
Оценкой этой модели по выборке является уравнение
Y  Xb  e , (1.3)
 b0   e1 
   
 b1  e 
где b(p + 1)  1 bp1  
... , en1   2,
...
eT 1n   e1 e2 ... en 
   
b  e 
 p  n

2. Оценка параметров классической регрессионной модели


методом наименьших квадратов

5
Для оценки вектора неизвестных параметров  применим метод
наименьших квадратов. Так как произведение транспонированной
матрицы eT на саму матрицу e
 e1 
 
e  n
eT  e   e1 e2 ... en    2   e12  e22  ...  en2   ei2 ,
...
  i 1
e 
 n

то условие минимизации остаточной суммы квадратов запишется в виде:


2

 
n n
S   y xi  yi   ei2  eT e   Y  Xb  Y  Xb   min .
 T

i 1 i 1

Учитывая, что при транспонировании произведения матриц


получается произведение транспонированных матриц, взятых в обратном
порядке, т.е.  Xb  T  bT X T , после раскрытия скобок получим:
   
S  Y T  bT X T   Y  Xb   Y T  Y  Y T  Xb   bT X T  Y  bT X T  Xb   
Произведение Y T  Xb  есть матрица размерности
1 n  n   p  1     p  1  1  1 1 , т.е. величина скалярная, следовательно,
оно не меняется при транспонировании, т.е.
Y T  Xb   Y T  Xb     Xb  Y  bT X T Y
T T

Поэтому условие минимизации примет вид:


S  Y T Y  2bT X T Y  bT X T Xb  min

На основании необходимого условия экстремума функции


нескольких переменных S S   b0 , b1 ,..., b p  , необходимо приравнять к нулю

S S S
частные производные по этим переменным  0,  0, ... 0
b0 b1 b p

S  S S 
или в матричной форме – вектор частных производных  ,..., 
b  b0 bp 

S
должен быть ноль-вектором  , т.е. b
0.

6
 b1 
 
Известно (из алгебры матриц) для векторов: b   b1 , b2 ,..., bn  , T
b   ...  ,
b 
 n

 с1 
 
с   ...  .
с 
 n

 c1 
 
b  c   b1 ,..., bn    ...   b1c1  b2 c2  ...  bn cn .
T

c 
 n

b

bT c  c 
 a11 a12 ... a1n 
 
 a a 22 ... a 2 n 
 
b T Ab  2 Ab , где A   12 – симметрическая матрица, в
b ... ... ... ... 
 
a a2n ... a nn 
 1n

которой элементы, расположенные симметрично главной диагонали,


равны.
Поэтому, полагая c  X TY , а матрица A  X T X (она является
симметрической), найдем
S
 2 X T Y  2 X T Xb  0  ,
b

откуда получаем систему нормальных уравнений в матричной форме для


определения вектора b :
X T Xb  X T Y . (1.4)

Найдем матрицы, входящие в это уравнение.

7
 1 1 ... 1   1 x11 x12 ... x1 p 
   
 x11 x21 ... xn1   1 x21 x22 ... x2 p 
XTX    
... ... ... ...   ... ... ... ... ... 
   
x x2 p ... xnp   1 xn1 xn 2 ... xnp 
 1p
 n n n

 n

 xi1
i 1
 xi 2
i 1
... x
i 1


ip

 n n n n

  x x
xi1 2
i1
x
i1 i 2 ...  xi1 xip 
 i 1 i 1 i 1 i 1

 n ... ... ... ... ... 
 n n

  xip x x
i1 ip .... ...  x ip2 
 i1 i 1 i 1 
Матрица X T Y есть вектор произведений n наблюдений объясняющих и
зависимой переменных:
 1 1 ... 1   y1    yi 
     
 x11 x21 ... xn1   y2    xi1  yi 
X TY    
... ... ... ...   ...   ... 
     
x
 1p x2 p ... xnp   yn    xip  yi 

  x b  ...   x b   y
nb0 
 x b    x  b  ...   x x b   x
i1 1 ip p i
 2
 i1 0 i1 1 i1 ip p i1 yi
 (1.5)
 ...

   x b   
ip 0 
xi1 xip b1  ...    x  b   x
ip
2
p ip yi

При p 1 получим систему нормальных уравнений:


 na  b xi   y i

a  xi  b  x i   x i y i
2

Для решения системы (3.5) или матричного уравнения (3.4) нужна еще
одна предпосылка: X T X - невырожденная матрица, т.е. XTX  0 . Тогда
решение имеет вид:
b  ( X T X ) 1  ( X T Y ) . (1.6)

В модели (1.2)  - случайный вектор, Х – неслучайная матрица.


3. Предпосылки для множественного регрессионного анализа.
Модель
Y  X  

8
1 x11 x12 ... x1 p   0 
   
1 x21 x22 ... x2 p   1 
X n( p 1)   ,    .
... ... ... ... ... ...
   
1 xn1 xn 2 ... xnp   
  p

1.  – случайный вектор, X - неслучайная матрица;


2. M ( )  n ;

3. M ( T )   2 En ;

4.  - нормально распределенный случайный вектор, т.е.  ~ N n (0;  2 En )

;
5. r( X )  p 1  n .

Модель, удовлетворяющая указанным предпосылкам называется


классической нормальной линейной моделью множественной регрессии.
Если п.4 не выполняется, то модель называется просто классической
линейной моделью множественной регрессии.
Теорема Гаусса-Маркова. Если предпосылки (1)-(5)
множественного регрессионного анализа выполняются, то оценка
b  ( X T X ) 1  ( X T Y ) метода наименьших квадратов является эффективной,
т.е. обладает наименьшей дисперсией в классе линейных несмещенных
оценок.
Зная вектор b, выборочное уравнение множественной регрессии
имеет вид:
yˆ  X 0T b (1.6)

 b0 
 
 b1 
X 0T  (1, x10 , x20 ,..., x p 0 ) *    b0  b1 x10  ...  b p x p 0
...
 
b 
 p

Пример.
Имеются данные о сменной добыче угля на одного рабочего Y (m) ,

мощности пласта X 1 ( m) и уровня механизации работ X 2 (%) ,

характеризующие процесс добычи угля в 10 шахтах.

9
Предполагая, что между переменными Y , X1, X 2 существует линейная
корреляционная зависимость, найти уравнение регрессии Y по X 1, X 2 .

Решение этого примера подробно изложено в учебнике [1] с.88.


В результате вычислений имеем уравнение множественной
регрессии вида:
ŷ  3,54  0,854 x1  0,367 x 2 .

Оно показывает, что при увеличении только мощности пласта Х1


(при неизменном Х2) на 1 м добыча угля на одного рабочего У
увеличивается в среднем на 0,854 т, а при увеличении только уровня
механизации работ Х2 (при неизменном Х1) – в среднем на 0,367 т.

 
i xi1 xi 2 yi x i21 x i22 y i2 xi1 xi 2 yi xi1 yi xi 2 yi ei2  ( yi  yi ) 2

1 8 5 5 64 25 25 40 40 25 5,1 0,016
3
2 11 8 10 121 64 100 88 110 80 8,7 1,464
9
3 12 8 10 144 64 100 96 120 80 9,6 1,127
4
4 9 5 7 81 25 49 45 63 35 5,9 1,038
8
5 8 7 5 64 49 25 56 40 35 5,8 0,741
6
6 8 8 6 64 64 36 64 48 48 6,2 0,052
3
7 9 6 6 81 36 36 54 54 36 6,3 1,121
5
8 9 4 5 81 16 25 36 45 20 5,6 1,377
1
9 8 5 6 64 25 36 40 48 30 5,1 0,762
3
1 12 7 8 144 49 64 84 96 56 9,2 1,631
0 8
 94 63 68 908 417 496 603 664 445 - 6,329

10
4. Стандартизированное уравнение линейной множественной
регрессии
Если коэффициенты линейной множественной регрессии
рассматривать в качестве показателей влияния факторов, то следует иметь
в виду, что коэффициенты регрессии в уравнении
yˆ  b0  b1 x1  b2 x 2  ...  b p x p (1.7)

между собой прямо не сравнимы. Их численные значения зависят от


выбранных единиц измерения каждого фактора.
Чтобы коэффициенты регрессии стали сравнимы, приведем
коэффициенты регрессии к стандартизированному масштабу.
Для этого все переменные выражаются в безразмерных, так
называемых стандартизированных, единицах измерения при помощи
соотношений:
yy x  xi
ty  ; t xi  i ,
y  xi

где ty и t xi – соответствующие значения факторов y и xi в


стандартизированном масштабе. Свободный элемент b0 в
стандартизированном уравнении отсутствует, т.е. уравнение (1.7) можно
записать в виде:
t y   1*t x1   2*t x 2  ...   p* t xp (1.8)

Коэффициенты  1* ,  2* ,...,  p* называются коэффициентами регрессии


в стандартизированном масштабе. Переход от коэффициентов bi к  i* и
обратно можно осуществить по формулам:
 xi
 i*  bi .
y

Коэффициенты регрессии (1.8) показывают влияние изменения каждой


переменной на изменение фактора y . Все коэффициенты выражены в
сравнимых единицах измерения. Чем больше  i* , тем сильнее влияет
соответствующий факторный показатель на результативный.
5. Множественная линейная корреляционная зависимость

11
Рассмотрим отбор факторов для построения множественной
линейной зависимости, когда переменные y , x1 , x2 ,..., x p являются
случайными величинами (обычно предполагается, что их совместное
распределение нормальное).
Наиболее простой формой зависимости, достаточно строго
обоснованной для случая совместного нормального распределения,
является линейная зависимость, т.е. зависимость вида
y  a0  a1 x1  a2 x2  ...  a p x p (2.1)
Такая зависимость во многих случаях довольно хорошо отражает
сложившиеся экономические взаимосвязи. Исходная информация для
построения зависимости (2.1) обычно задается в виде некоторой таблицы.
№ Факторы, для которых получены данные
x1 x2 x3 … xk y
1 x11 x21 x31 … xk1 y1
2 x12 x22 x32 … xk2 y2
3 x13 x23 x33 … xk3 y3
… … … … … … …
n x1n xn x3n xkn yn
Следует определить, все ли переменные следует включать в
уравнение (2.1) или есть переменные, которые существенно не влияют на
величину y и их нецелесообразно включать в (2.1). В первом случае p=k,
втором p<k.
Корреляционная связь может существовать как между двумя
факторами (интеркорреляция), так и между несколькими факторами
(мультиколлинеарность). Существование корреляционной связи между
факторами может быть выявлено с помощью показателей корреляции
между ними, в частности, с помощью парных коэффициентов корреляции,
которые рассчитываются по формулам:
n

(y i  y )( x ji  x j )
ryx j  i 1
, j  1,2,..., k .
n n

(y
i 1
i  y) 2
 (x
i 1
ji  xj) 2

12
n

 (x l  x l )( x ji  x j )
rxl x j  i 1
, j  1,2,..., k
n n

 (x
i 1
l  xl ) 2
 (x
i 1
ji  xj) 2

Составим таблицу из коэффициентов парной корреляции для всех X


факторов. Таблица имеет вид
y x1 … xk x2 x3
y 1 ryx ryx ryx
1
… ryx 2 3 k

x1 rx y 1
1 rx x rx x … rx x 1 2 1 3 1 k

x2 rx y 2
rx x 1 2 1
rx x … rx x 2 3 2 k

x3 rx y 3
rx x rx x 3 1
1 … rx x 3 2 3 k

… … … … … 1 …
xk rx y k
rx x rx x k
…1
… 1 k 2

В клетках таблицы записаны парные коэффициенты корреляции,


например, r31 – парный коэффициент корреляции между переменными х3 и
х1 и др. Коэффициенты rij и rji, а также rxiy и ryxi совпадают, так как теснота
связи между переменными y и хi такая же, как между хi и у, аналогично, для
хi и хj. Поэтому таблицу записывают в упрощенной симметричной форме
(треугольная форма).
y x1 x2 x3 … xk
y 1 ryx1 ryx2 ryx3 … ryxk
x1 - 1 rx1 x2 rx1 x3 … rx1 xk
x2 - - 1 rx2 x3 … rx2 xk
x3 - - - 1 … rx3 xk
… … … … … 1 …
xk - - - … … 1

По данным такой таблицы можно примерно оценить, какие факторы


существенно влияют на переменную у, а какие – несущественно, а также
выявить взаимосвязь между факторами.
Наличие мультиколлинеарности можно подтвердить, найдя
определитель матрицы:

13
 rx1x1 rx1x2 ... rx1x p 
 
 rx x rx2 x2 ... rx2 x p 
rxx   2 1
... ... ... ...  .
 
 rx x rx p x2 ... rx p x p 
 p1

Если связь между факторами полностью отсутствует, то


недиагональные элементы будут равны нулю, а определитель rxx  1 .

Если связь между факторами близка к функциональной, то rxx

близок к нулю.
Пример 1.
Пусть получена таблица
y x1 x2 x3
y 1 0,6 0,5 0,7
x1 - 1 0,04 0,03
x2 - - 1 0,1
x3 - - - 1
На основании указанных в таблице парных коэффициентов
корреляции можно сделать вывод, что связь факторов x1,x2,x3 с фактором y
существенная (коэффициенты корреляции, соответственно, 0,6; 0,5; 0,7).
Теснота связи между факторами x1,x2,x3 незначительная (коэффициенты
корреляции 0,04; 0,03; 0,1) и rxx  0,988 .

Такая информация наиболее благоприятна для построения уравнения


(2.1).
Пример 2.
Рассмотрим следующую таблицу.
y x1 x2 x3 x4
y 1 0,65 0,6 0,5 0,03
x1 - 1 0,5 0,9 0,3
x2 - - 1 0,3 0,2
x3 - - - 1 0,2
x4 - - - - 1

Согласно таблице, величина коэффициента парной корреляции


между у и х4 мала, в связи с этим нецелесообразно включать фактор х4 в
уравнение (2.1). Высок коэффициент парной корреляции между

14
переменными х1 и х3 (коэффициент корреляции 0,9), что показывает их
тесную корреляционную взаимосвязь. В этом случае в уравнение (2.1) не
включают одновременно х1 и х3, а вводят один из них в зависимости от их
смысла и мнения исследователя. Нецелесообразно одновременно включать
в уравнение показатели, представляющие сумму некоторых факторов или
их составных частей, а также характеризующие один и тот же фактор,
выраженный в различных единицах измерения, например, абсолютных и
относительных.
6. Частные коэффициенты корреляции
Обычно кроме анализа таблицы парных коэффициентов корреляции
для отбора существенных факторов вычисляют частные коэффициенты
корреляции, определяют надежность полученных коэффициентов
регрессии по t – критерию и другие методы.
При анализе последней таблицы парных коэффициентов корреляции связи
можно обратить внимание на то, что связи между изучаемыми
переменными довольно сложным образом переплетаются между собой.
Поэтому целесообразно рассмотреть вопрос о взаимосвязи между
факторами при условии, что некоторые или все остальные факторы
остаются неизменными.
Для выявления такой взаимосвязи используются коэффициенты
частной корреляции.
Вычислим коэффициент частной корреляции между факторами у и х1
при условии, что фактор х2 закреплен на постоянном уровне (остается
неизменным), тогда он равен
ryx1  ryx2 rx1 x2
ryx1 ( x2 )  (2.2)
1  ryx2 2 1  rx21 x2

Если закреплен лишь один фактор, то такой коэффициент


корреляции называется частным коэффициентом корреляции первого
порядка. Если закреплены два фактора, то – второго порядка и т.д. Тогда

15
обычный коэффициент парной корреляции можно называть частным
коэффициентом корреляции нулевого порядка.
В выражении (2.2) частный коэффициент первого порядка
(закреплен один фактор х2 в скобках) выражается через коэффициенты
нулевого порядка.
Частные коэффициенты корреляции второго порядка можно
выразить через коэффициенты первого порядка при помощи соотношения
ryx1 ( x2 )  ryx3 ( x2 ) rx1 x3 ( x2 )
ryx1 ( x2 x3 )  (2.3)
1  ryx2 3 ( x2 ) 1  rx21 x3 ( x2 )

Аналогично можно записать соотношения, выражающий частный


коэффициент корреляции k-го порядка через коэффициенты (k-1)-го
порядка. Частные коэффициенты корреляции изменяются по величине от 0
до 1.
Следует отметить, что малость частных коэффициентов корреляции
низших порядков не гарантирует малости коэффициентов более высокого
порядка. Например, ryx1 и rx х могут быть оба малыми, а ryx ( х
1 2 1 2 ) может
быть велик.
Предположим, ryx  0 , тогда (4.2) запишется в виде
2

ryx1
ryx1 ( x2 )  (2.4)
1  rx21x2

2
если ryx мал, а rx х велик, то ryx ( х
1 1 2 1 2 ) может быть также большим.
Пример 3.
Дано ryx  0,095 , rx х  0,994 , ryx  0 вычислить ryx ( х ) .
1 1 2 2 1 2

Решение.
0,095
ryx1 ( x2 )   0,95
1  0,99

После предварительного отбора факторов на основе парных и


частных коэффициентов корреляции производятся оценки параметров
a0 , a1 ,..., a p , обычно они осуществляются по методу наименьших

16
квадратов. Система нормальных уравнений в случае линейной
зависимости (2.1) имеет вид
 a0 n  a1  x1i  a2  x2i  ...  a p  x pi   yi ,

 a0  x1i  a1  x1i  a2  x1i x 2i  ...  a p  x1i x pi   x1i yi ,
2


 ...
a0  x pi  a1  x1i x pi  a2  x 2i x pi  ...  a p  x 2pi   x pi yi ,

Решение такой системы может быть получено по теореме Крамера (с


использованием определителей), методом Гаусса (последовательным
исключением неизвестных) и другими методами.
7. Коэффициент множественной корреляции
Для определения тесноты связи между фактором у и совокупностью
факторов x1 , x 2 ,..., x p в случае линейной зависимости применим
коэффициент множественной корреляции R. Коэффициент изменяется в
интервале от 0 до 1, причем, в отличие от коэффициентов парной
корреляции, он берется по абсолютной величине. Если линейной
корреляционной связи между у и x1 , x 2 ,..., x p нет то R=0. Если R=1, то
связь функциональная. Выражение, по которому вычисляется
коэффициент корреляции, имеет вид
a1ryx1 x1  a 2 ryx2  x 2  ...  a p ryx p  xp
R
y

где ai – коэффициенты регрессии уравнения (2.1); ryx1 – парные


коэффициенты корреляции;  xi – среднее квадратическое отклонение
фактора xi ;  y – среднее квадратическое отклонение у.
Обычно интерпретируется не сам коэффициент корреляции R, а его
квадрат R2, который называется коэффициентом множественной
детерминации. Напомним, что R2 характеризует долю вариации зависимой
переменной, обусловленной регрессией. Чем ближе R2 к единице, тем
лучше регрессия описывает зависимость между объясняющими
переменными и зависимой переменной. Например, если коэффициент
множественной корреляции R=0,7, то коэффициент множественной

17
детерминации R2=0,49, т.е. 49% вариаций объясняется факторами,
включенными в уравнение регрессии, а 51% – прочими факторами.
Существенность отличия от нуля выборочного коэффициента
множественной корреляции проверяется на основе F-критерия (критерий
Фишера). Вычисляется величина

F  R 2 (n  p  1) /(1  R 2 ) p  (2.6)
где R – множественный коэффициент корреляции; p – число факторов
x1 , x 2 ,..., x p ; n – число наблюдений.
Найденное значение критерия F сравнивается с Fтабл при числе
степеней свободы v1  p, v2  n  p  1 и заданном уровне значимости  .
Если расчетное значение F превышает табличное, то гипотеза о равенстве
коэффициента множественной корреляции нулю отвергается и связь
считается существенной.
Пример 4.
Дано: R=0,75, p=4, n=16, определить существенность связи.
Решение.
Вычислим критерий F по формуле (2.6):
F=0,5625∙(16-4-1)/4∙(1-0,5625)=3,53.
Fтабл=3,36 при и уровне значимости 0,95. Расчетное значение F-критерия
превышает табличное, поэтому можно сделать вывод о существенности
связи.
8. Отбор факторов в случае линейной множественной регрессии
Если факторы-аргументы не являются случайными величинами, то
коэффициенты корреляции не могут быть использованы при построении
уравнения регрессии, так как они не могут быть интерпретированы как
показатели тесноты связи.
Существенность вводимых факторов в случае линейной
множественной регрессии может быть проверена одновременно с
существенностью коэффициентов регрессии.
Для проверки существенности вычисляется отношение

18
t i  ai /  i , i  1,2,..., n (2.7)
где ai – коэффициент множественной регрессии;  i – среднее
квадратическое отклонение этого коэффициента.
Если ti<tтабл, взятого по таблицам t-распределения Стьюдента, то с
заданной вероятностью не отвергается гипотеза, что соответствующий
коэффициент регрессии ai в генеральной совокупности (который не
известен и который нужно оценить по данным выборки) равняется нулю.
При этом i-ый фактор в таком случае признается несущественным для
построенного уравнения регрессии.
При проведении исследования может оказаться, что вычисленные
значения t для нескольких факторов не превышают tтабл. В этом случае
несущественные факторы из уравнения регрессии исключаются
поочередно, начиная с наименьшего по абсолютной величине t. Фактор
соответствующий минимальному значению t, из уравнения регрессии
исключается, и заново решается система нормальных уравнений. Затем
вновь вычисляются значения t для всех оставшихся в уравнении
коэффициентов, определяется минимальное значение t, которое
сопоставляется с tтабл. Если окажется, что tmin<tтабл, то фактор, имеющий tmin,
исключается.
Процесс исключения коэффициентов повторяется до тех пор, пока не
будет выполняться соотношение tmin≥tтабл. В этом случае все оставшиеся в
уравнении факторы существенны.
Проводить исключение из уравнения регрессии одновременно
несколько факторов, имеющих t<tтабл, нецелесообразно, так как после
исключения одного несущественного фактора коэффициенты регрессии
других факторов меняются и несущественные факторы после пересчета
могут оказаться существенными.
Аналогичный подход осуществляется и при наличии
корреляционной зависимости, но на последней стадии отбора

19
существенных факторов. Проверка значимости уравнения регрессии
осуществляется по критерию Фишера
F   y2 /  (2.8)
с числом степеней свободы v1  n  1, v 2  n  p  1

где
 y2    yi  y  /  n  1
2
(2.9)
   yi  yˆ i  /  n  p  1
2
 ост
2
(2.10)
ŷi значения у, полученные по данным наблюдений; уi – расчетные
значения у, полученные для соответствующих значений x1 , x 2 ,..., x p .
Полученное значение F сравнивается с Fтабл при выбранном уровне
значимости. Если окажется F>Fтабл, то гипотеза о том, что не имеют
существенного влияния на у , отвергается.
Если F>Fтабл, то следует ввести некоторые другие факторы,
влияющие на показатель у, или перейти к построению нелинейной
множественной регрессии.
При построении регрессионного уравнения весьма существенную
информацию о модели может дать рассмотрение остатков е .
Заключение
Множественная регрессия представляет собой регрессию
результативного признака с двумя или большим числом независимых
переменных вида Y  f ( X 1 , X 2 ,..., X p ) .

В уравнении регрессии случайная величина Y зависит не только от


значений независимых переменных X 1 , X 2 ,..., X p , но и от ряда других
факторов, влияющих на Y , которые не могут быть проконтролированы. В
связи с этим будем использовать запись вида Y  f ( X 1 , X 2 ,..., X p )   , где  -
случайная величина, характеризующая отклонение результативного
признака от теоретического, найденного по уравнению регрессии.
Статистический анализ случайной ошибки является одной из
основных задач эконометрики.

20
При исследовании зависимости результативного признака Y от ряда
факторов X 1 , X 2 ,..., X p необходимо решать такие же задачи, что и при
парной связи двух переменных X и Y : определение вида регрессии;
оценка параметров; определение тесноты связи, если переменные X и Y -
случайные величины.
Однако наряду с этими задачами необходимо рассматривать и ряд
задач, характерных лишь для множественной регрессии и корреляции. К
таким задачам относится отбор факторов X 1 , X 2 ,..., X p , существенно
влияющих на фактор Y , при наличии возможностей внутренней
взаимосвязи между переменными X 1 , X 2 ,..., X p . Такой отбор требует
прежде всего глубокого теоретического и практического знания
качественной стороны рассматриваемых экономических явлений.
Особенностью множественной регрессии и корреляции является
необходимость различать случаи корреляционной множественной связи,
когда переменные x1 , x2 ,..., x p являются случайные величинами;
регрессионной, если переменные x1 , x2 ,..., x p – неслучайными величинами,
а также смешанный случай, когда некоторые из переменных – случайные
величины, а другие – неслучайные.
Контрольные вопросы:
1. Как определяется модель множественной линейной регрессии?
2. Перечислите предпосылки МНК. Каковы последствия их
невыполнимости?
3. Что характеризуют коэффициенты регрессии?
4. В чем суть МНК для построения множественного линейного
уравнения регрессии?
5. Опишите алгоритм определения коэффициентов множественной
линейной регрессии по МНК в матричной форме.
6. Как записывается решение с помощью МНК в матричной форме?
7. Как определяется стандартизированное уравнение линейной
множественной регрессии?

21
8. Чем отличаются уравнения множественной регрессии в натуральном
и стандартизованном масштабе?
9. Каковы свойства стандартизованных переменных?
10.Как оценить значимость модели регрессии в целом?
11.Какие требования предъявляются к объему наблюдений,
необходимому для построения уравнения регрессии?
12.Какие требования предъявляются к факторам, включаемым в
уравнение регрессии?
13.Что такое мультиколлинеарность факторов и как ее выявить?
14.Как вычисляются парные коэффициенты корреляции, частные
коэффициенты корреляции?
15.Какова формула для вычисления коэффициента множественной
детерминации?
16.Какой критерий используется для оценки значимости параметров
уравнения регрессии?
17.Что понимают под значимостью модели регрессии в целом?

22
Государственное казенное образовательное учреждение
высшего профессионального образования
«РОССИЙСКАЯ ТАМОЖЕННАЯ АКАДЕМИЯ»
Владивостокский филиал

Кафедра информатики и информационных таможенных технологий

КОНСПЕКТ ЛЕКЦИИ

на тему: «Линейные регрессионные модели с гетероскедастичными и


автокорреляционными остаткам »

Дисциплина: «ЭКОНОМЕТРИКА (ПРОДВИНУТЫЙ УРОВЕНЬ)»

Автор: М.М. Цвиль, доцент кафедры информационных таможенных


технологий и информатики Ростовского филиала Российской таможенной
академии, кандидат физико-математических наук, доцент

Владивосток
2012

23
Учебные вопросы
1. Суть гетероскедастичности, ее последствия.
2. Тесты, позволяющие выявить наличие гетероскедастичности остатков.
3. Устранение гетероскедастичности.
4. Автокорреляция остатков, ее последствия. Обнаружение
автокорреляции остатков.
Введение
При моделировании реальных экономических процессов мы нередко
сталкиваемся с ситуациями, в которых условия классической линейной
модели регрессии оказываются нарушенными. В частности, могут не
выполняться предпосылки 3 и 4 регрессионного анализа о том, что
случайные возмущения (ошибки) модели имеют постоянную дисперсию и
не коррелированы между собой.
Выполнимость предпосылки: дисперсия случайных отклонений  i
постоянна, называется гомоскедастичностью. Невыполнимость –
гетероскедастичностью.
Важной предпосылкой построения качественной регрессионной
модели по МНК является независимость значений случайных отклонений
i от значений отклонений во всех других наблюдениях. Отсутствие
зависимости гарантирует отсутствие коррелированности между любыми
отклонениями.
Автокорреляция определяется как корреляция между наблюдаемыми
показателями, упорядоченными во времени (временные ряды) или в
пространстве (перекрестные данные).
1. Суть гетероскедастичности, ее последствия
При практическом проведении регрессионного анализа с помощью
МНК следует обратить серьезное внимание на проблемы, связанные с
выполнимостью свойств случайных отклонений моделей. Как отмечалось
ранее, свойства оценок коэффициентов регрессии напрямую зависят от
свойств случайного члена в уравнении регрессии. Для получения

24
качественных оценок необходимо следить за выполнимостью предпосылок
МНК (условий Гаусса - Маркова), так как при их нарушении МНК может
давать оценки с плохими статистическими свойствами.
На практике гетероскедастичность не так уж и редка. Зачастую есть
основания считать, что вероятностные распределения случайных
отклонений  i при различных наблюдениях будут различными. Это не
означает, что случайные отклонения обязательно будут большими при
определенных наблюдениях и малыми – при других, но это означает, что
априорная вероятность этого велика. Поэтому важно понимать суть этого
явления и его последствия.
На рис. 5.1 приведены два примера линейной регрессии –
зависимости потребления С от дохода I: С   0  1 I   .

Рис. 5.1
В обоих случаях с ростом дохода растет среднее значение
потребления. Но если на рис.5.1, а дисперсия потребления остается одной
и той же для различных уровней дохода, то на рис.5.1,б при аналогичной
зависимости среднего потребления от дохода дисперсия потребления не
остается постоянной, а увеличивается с ростом дохода. Фактически это
означает, что во втором случае субъекты с большим доходом в среднем
потребляют больше, чем субъекты с меньшим доходом, и, кроме того,
разброс в их потреблении более существенен для большего уровня дохода.
Люди с большим доходом имеют больший простор для его распределения.

25
Реалистичность данной ситуации не вызывает сомнений. Разброс значений
потребления вызывает разброс точек наблюдения относительно линии
регрессии, что и определяет дисперсию случайных отклонений. При
гомоскедастичности дисперсии  i постоянны, а при гетероскедастичности
дисперсии  i изменяются (в нашем случае увеличиваются).
При гетероскедастичности последствия применения МНК будут
следующими:
1. Оценки коэффициентов по-прежнему останутся несмещенными и
линейными.
2. Оценки не будут эффективными (т.е. они не будут иметь
наименьшую дисперсию по сравнению с другими оценками данного
параметра). Они не будут даже асимптотически эффективными.
Увеличение дисперсии оценок снижает вероятность получения
максимально точных оценок.
3. Дисперсии оценок будут рассчитываться со смещением.
Смещенность появляется вследствие того, что не объясненная уравнением

регрессии дисперсия S  2 e 2
i
(m – число объясняющих переменных),
n  m 1

которая используется при вычислении оценок дисперсий всех


коэффициентов, не является более несмещенной.
4. Вследствие вышесказанного все выводы, получаемые на основе
соответствующих t и F -статистик, а также интервальные оценки будут
ненадежными. Следовательно, статистические выводы, получаемые при
стандартных проверках качества оценок, могут быть ошибочными и
приводить к неверным заключениям по построенной модели. Вполне
вероятно, стандартные ошибки коэффициентов будут занижены, а
следовательно, t -статистики будут завышены. Это может привести к
признанию статистически значимыми коэффициентов, таковыми на самом
деле не являющихся.

26
На рис. 3.2 видно, что для каждого конкретного значения xi СВ Х
переменная Y принимает значение yi из некоторого множества, имеющего
свое распределение, отличное одно от другого в силу непостоянства
дисперсий (сравните распределения для значений y1 и y n ).

Рис. 3.2
По МНК минимизируется сумма квадратов отклонений
e 2
i   ( yi  b0  b1 xi ) 2 .
Но в этом случае каждое конкретное значение ei2 в данной сумме
имеет одинаковый «вес» вне зависимости от того, получено оно из
распределения с маленькой дисперсией (например, e12 ) или с большой
(например, en2 ). но это противоречит логике, так как точка, полученная из
распределения с меньшей дисперсией, более точно определяет
направление линии регрессии. Поэтому она должна иметь больший «вес»,
чем точка из распределения с большей дисперсией. Следовательно, методы
оценивания, учитывающие «веса» точек наблюдений, позволяют получать
более точные (эффективные) оценки. Учет «весов» точек характерен,
например, для метода взвешенных наименьших квадратов, рассмотренного
ниже.
2. Тесты, позволяющие выявить наличие гетероскедастичности
остатков

27
Обнаружение гетероскедастичности в каждом конкретном случае
является довольно сложной задачей, так как для знания дисперсий
отклонений  2 (ei ) необходимо знать распределение СВ Y,
соответствующее выбранному значению xi СВ Х.
Не существует какого-либо однозначного метода определения
гетероскедастичности. Однако к настоящему времени для такой проверки
разработано довольно большое число тестов и критериев для них.
Рассмотрим наиболее популярные и наглядные: графический анализ
отклонений, тест ранговой корреляции Спирмена, тест Парка, тест
Глейзера, тест Гольдфельда-Квандта.
1).Графический анализ остатков.
Использование графического представления отклонений позволяет
определиться с наличием гетероскедастичности. В этом случае по оси
абсцисс откладываются значения xi объясняющей переменной Х (либо
линейной комбинации объясняющих переменных Yˆ  b0  b1 X 1  ...  bm X m , а
по оси ординат либо отклонения ei , либо их квадраты ei2 , i  1,2,..., n .

Примеры таких графиков приведены на рис. 3.3.


На рис. 3.3, а все отклонения ei2 находятся внутри полуполосы
постоянной ширины, параллельной оси абсцисс. Это говорит о
независимости дисперсий ei2 от значений переменной Х и их постоянстве,
т.е. в этом случае выполняются условия гомоскедастичности.
На рис. 3.3, б-д наблюдаются некоторые систематические изменения
в соотношениях между значениями xi переменной Х и квадратами
отклонений ei2 . Рис. 3.3, б соответствует примеру из пункта 1. На рис. 3.3,
в отражена линейная, 3.3, г – квадратичная, 3.3, д – гиперболическая
зависимости между квадратами отклонений и значениями объясняющей
переменной Х. Другими словами, ситуации, представленные на рис. 5.3, в-
д, отражают большую вероятность наличия гетероскедастичности для
рассматриваемых статистических данных.

28
Рис.3.3
2).Тест ранговой корреляции Спирмена
При использовании данного теста предполагается, что дисперсия
отклонения будет либо увеличиваться, либо уменьшаться с увеличением
значений Х. Поэтому для регрессии, построенной по МНК, абсолютные
величины отклонений ei и значения xi СВ Х будут коррелированны.
Значения xi и ei ранжируются (упорядочиваются по величинам). Затем
определяется коэффициент ранговой корреляции:

rx ,e  1  6 
d i
2

, (3.1)
n(n 2  1)

где di - разность между рангами xi и ei , i  1,2,..., n ; n -число наблюдений.


Например, если x 20 является 25-м по величине среди всех
наблюдений Х, а e20 является 32-м, то d i  25  32  7 .

Доказано, что если коэффициент корреляции  x ,e для генеральной


совокупности равен нулю, то статистика
rx , e n  2
t (3.2)
1  rx2,e

имеет распределение Стьюдента с числом степеней свободы v  n  2 .


29
Следовательно, если наблюдаемое значение t -статистики, вычисленное по
t кр  t 
формуле (5.2), превышает 2
,n2 (определяемое по таблице

критических точек распределения Стьюдента), то необходимо отклонить


гипотезу о равенстве нулю коэффициента корреляции  x ,e , а
следовательно, и об отсутствии гетероскедастичности. В противном случае
гипотеза об отсутствии гетероскедастичности принимается.
3).Тест Парка.
Р.Парк предложил критерий определения гетероскедастичности,
дополняющий графический метод некоторыми формальными
зависимостями. Предполагается, что дисперсия  i2   2 (ei ) является
функцией i -го значения xi объясняющей переменной. Парк предложил
следующую функциональную зависимость:
 i2   2 xi e vi . (3.3)
Прологарифмировав (5.3), получим:
ln  i2  ln  2   ln xi  vi . (3.4)
Так как дисперсия  i2 обычно неизвестны, то их заменяют оценками
квадратов отклонений ei2 .

Критерий Парка включает следующие этапы:


1. Строится уравнение регрессии y i  b0  b1 xi  ei .

2. Для каждого наблюдения определяются ln ei2  ln( yi  yˆ i ) 2 .

3. Строится регрессия
ln ei2     ln xi  vi , (3.5)
где   ln  2 . В случае множественной регрессии зависимость (3.5) строится
для каждой объясняющей переменной.
4. Проверяется статистическая значимость коэффициента  уравнения


(3.5) на основе t -статистики t . Если коэффициент  статистически
S

значим, то это означает наличие связи между ln ei2 и ln xi , т.е.


гетероскедастичности в статистических данных.

30
4).Тест Глейзера.
Тест Глейзера по своей сути аналогичен тесту Парка и дополняет его
анализом других (возможно, более подходящих) зависимостей между
дисперсиями отклонений i и значениями переменной xi . По данному
методу оценивается регрессионная зависимость модулей отклонений ei

(тесно связанных с  i2 ) от xi . При этом рассматриваемая зависимость


моделируется следующим уравнением регрессии:
ei     xik  vi . (3.6)
Изменяя значение k , можно построить различные регрессии.
Обычно k  ..., 1,0.5,0.5,1,... Статистическая значимость коэффициента
 в каждом конкретном случае фактически означает наличие
гетероскедастичности. Если для нескольких регрессий (3.6) коэффициент
 оказывается статистически значимым, то при определении характера
зависимости обычно ориентируются на лучшую из них.
5).Тест Гольдфельда-Квандта.
В данном случае также предполагается, что стандартное отклонение
 i   ( i ) пропорционально значению xi переменной Х в этом наблюдении,
т.е.  i2   2 xi2 , i  1,2,..., n . Предполагается, что i имеет нормальное
распределение и отсутствует автокорреляция остатков.
Тест Гольдфельда-Квандта состоит в следующем:
1. Все n наблюдений упорядочиваются по величине Х.
2. Вся упорядоченная выборка после этого разбивается на три
подвыборки размерностей k , ( n  2k ), k соответственно.

3. Оцениваются отдельные регрессии для первой подвыборки ( k


первых наблюдений) и для третьей подвыборки ( k последних
наблюдений). Если предположение о пропорциональности дисперсий
отклонений значениям Х верно, то дисперсия регрессии по первой
k

подвыборке (сумма квадратов отклонений S1   ei ) будет существенно


2

i 1

31
меньше дисперсии регрессии по третьей подвыборке (суммы квадратов
n

отклонений S 3  e
i  n  k 1
i
2
).

4. Для сравнения соответствующих дисперсий строится следующая F -


статистика:
S 3 /(k  m  1) S 3
F  . (3.7)
S1 (k  m  1) S1

Здесь ( k  m  1) - число степеней свободы соответствующих выборочных


дисперсий ( m - количество объясняющих переменных в уравнении
регрессии). При сделанных предположениях относительно случайных
отклонений построенная F -статистика имеет распределение Фишера с
числами степеней свободы v1  v2  k  m  1 .
S3
5. Если Fнабл   Fкр  F ;v1 ;v2 , то гипотеза об отсутствии
S1

гетероскедастичности отклоняется (здесь  - выбранный уровень


значимости).
Естественным является вопрос: какими должны быть размеры
подвыборок для принятия обоснованных решений? Для парной регрессии
Гольдфельд и Квандт предлагают следующие пропорции:
n  30, k  11; n  60, k  22 .

Для множественной регрессии данный тест обычно проводится для


той объясняющей переменной, которая в наибольшей степени связана с  i
. При этом k должно быть больше, чем ( m  1) . Если нет уверенности
относительно выбора переменной X j , то данный тест может
осуществляться для каждой из объясняющих переменных.
Этот же тест может быть использован при предположении об
обратной пропорциональности между  i и значениями объясняющей
переменной. При этом статистика Фишера примет вид: F  S1 / S 3 .

3. Устранение гетероскедастичности

32
При установлении гетероскедастичности возникает необходимость
преобразования модели с целью устранения данного недостатка. Вид
преобразования зависит от того, известны или нет дисперсии  i2
отклонений ei , i  1,2,..., n .

Метод взвешенных наименьших квадратов (ВНК) применяется для


известных для каждого наблюдения значениях  i2 . В этом случае можно
устранить гетероскедастичность, разделив каждое наблюдаемое значение
на соответствующее ему значение среднего квадратического отклонения. В
этом суть метода взвешенных наименьших квадратов.
Для простоты изложения опишем ВНК на примере парной
регрессии:
y i   0   1 xi   i . (3.8)
Разделим обе части (3.8) на известное  i   i2 :
yi 1 x 
  0  1 i  i . (3.9)
i i i i

y x  1
Положив   yi ,   xi ,   vi ,   zi , получим уравнение регрессии без
i * i * i

i i i i

свободного члена, но с дополнительной объясняющей переменной Z и с


«преобразованным» отклонением v :
yi*   0 z i  1 xi*  vi . (3.10)
При этом для vi выполняется условие гомоскедастичности.
Действительно,  2 (vi )  M (vi  M (vi )) 2  M (vi2 )  M 2 (vi ) . Так как по

1
предпосылке 10 МНК M ( i )  0 , то M (vi )   2 M ( i )  0 , и тогда
i

 i2 1 1 1
 (vi )  M (v )  M ( 2 )  2 M ( i2 )  2 M ( i  M ( i )) 2  2  i2  1  const .
2 2
i
i i i i

Следовательно, для преобразованной модели (5.10) выполняются


предпосылки 10-50 МНК. В этом случае оценки, полученные по МНК,
будут наилучшими линейными несмещенными оценками.

33
Для применения ВНК необходимо знать фактические значения
дисперсий  i2 отклонений. На практике такие значения известны крайне
редко. следовательно, чтобы применить ВНК, необходимо сделать
реалистические предположения о значениях  i2 .
Например, может оказаться целесообразным предположить, что
дисперсии  i2 отклонений  i пропорциональны значениям xi (рис. 3.4,а)
или значениям xi2 (рис. 3.4,б).

Рис.3. 4

Дисперсии  i2 пропорциональны xi (рис 3.4,а):


 i2   2 xi (  2 - коэффициент пропорциональности).
Тогда уравнение (3.8) преобразуется делением его левой и правой
частей на xi :
yi 0 x  y 1
  1 i  i  i   0  1 xi  vi . (3.11)
xi xi xi xi xi xi

i
Несложно показать, что для случайных отклонений vi 
xi

выполняется условие гомоскедастичности. Следовательно, в регрессии


(3.11) применим обычный МНК. Действительно, в силу выполнимости
предпосылки  i2   2 ( i )   2 xi имеем:
   1 1
 2 (vi )   2  i    2 ( i )   2 xi   2  const .
 x  xi xi
 i

34
Таким образом, оценив для (3.11) по МНК коэффициенты  0 и 1 ,
затем возвращаются к исходному уравнению регрессии (3.8).
4. Автокорреляция остатков, ее последствия. Обнаружение
автокорреляции остатков
Автокорреляция остатков обычно встречается в регрессионном
анализе при использовании данных временных рядов. Поэтому в
дальнейших выкладках вместо символа i используется символ t,
отражающий момент наблюдения, объем выборки при этом будем
обозначать символом T. В экономических задачах значительно чаще
встречается так называемая положительная автокорреляция (  ( t 1 ,  t )  0
), нежели отрицательная автокорреляция (  ( t 1 ,  t )  0 ).
В большинстве случаев положительная автокорреляция вызывается
направленным постоянным воздействием некоторых неучтенных в модели
факторов.
Среди основных причин, вызывающих появление автокорреляции,
можно выделить ошибки спецификации, инерцию в изменении
экономических показателей, эффект паутины, сглаживание данных.
Последствия автокорреляции в определенной степени сходны с
последствиями гетероскедастичности. Среди них при применении МНК
обычно выделяют следующие:
1. Оценки параметров, оставаясь линейными и несмещенными,
перестают быть эффективными. Следовательно, они перестают обладать
свойствами наилучших линейных несмещенных оценок (BLUE-оценок).
2. Дисперсии оценок являются смещенными. Часто дисперсии,
вычисляемые по стандартным формулам, являются заниженными, что
влечет за собой увеличение t -статистик. Это может привести к признанию
статистически значимыми объясняющие переменные, которые в
действительности таковыми могут и не являться.

35
T
et2
3. Оценка дисперсии регрессии S 2   является смещенной
t 1 T  m  1

оценкой истинного значения  2 , во многих случаях занижая его.


4. В силу вышесказанного выводы по t- и F -статистикам,

определяющим значимость коэффициентов регрессии и коэффициента


детерминации, возможно, будут неверными. Вследствие этого ухудшаются
прогнозные качества модели.
В силу неизвестности значений параметров уравнения регрессии
неизвестными будут также и истинные значения отклонений  t , t  1,2,..., T .
Поэтому выводы об их независимости осуществляются на основе оценок
et , t  1,2,..., T , полученных из эмпирического уравнения регрессии.
Рассмотрим возможные методы определения автокорреляции.
1) Графический метод.
Существует несколько вариантов графического определения
автокорреляции. Один из них, увязывающий отклонения  t с моментами
t их получения (их порядковыми номерами i ), приведен на рис. 5.5. Это
так называемые последовательно-временные графики. В этом случае по
оси абсцисс обычно откладываются либо время (момент) получения
статистических данных, либо порядковый номер наблюдения, а по оси
ординат – отклонения  t (либо оценки отклонений еt ).

36
Рис. 3. 5
Естественно предположить, что на рис. 3.5, а-г имеются
определенные связи между отклонениями, т.е. автокорреляция имеет
место. Отсутствие зависимости на рис. 3.5,д скорее всего свидетельствует
об отсутствии автокорреляции.
Например, на рис. 3.5,б отклонения вначале в основном
отрицательные, затем положительные, потом снова отрицательные. Это
свидетельствует о наличии между отклонениями определенной
зависимости. Более того, можно утверждать, что в этом случае имеет место
положительная автокорреляция остатков. Она становится весьма
наглядной, если график 3.5,б дополнить графиком зависимости еt от еt 1

(рис. 3.6).

37
Рис. 3.6
Подавляющее большинство точек на этом графике расположено в I и
III четвертях декартовой системы координат, подтверждая положительную
зависимость между соседними отклонениями.
Следует заметить, что в современных компьютерных прикладных
программах для решения задач по эконометрике аналитическое выражение
регрессии дополняется графическим представлением результатов. На
график реальных колебаний зависимой переменной накладывается график
колебаний переменной по уравнению регрессии. Сопоставив эти два
графика, можно выдвинуть гипотезу о наличии автокорреляции остатков.
Если эти графики пересекаются редко, то можно предположить наличие
положительной автокорреляции остатков.
2) Метод рядов.
Этот метод достаточно прост: последовательно определяются знаки
отклонений еt , t  1,2,..., T . Например, (-----)(+++++++)(---)(++++)(-), т.е. 5
«-», 7 «+», 3 «-», 4 «+», 1 «-» при 20 наблюдениях.
Ряд определяется как непрерывная последовательность одинаковых
знаков. Количество знаков в ряду называется длиной ряда.
Визуальное распределение знаков свидетельствует о неслучайном
характере связей между отклонениями. Если рядов слишком мало по
сравнению с количеством наблюдений n, то вполне вероятна
положительная автокорреляция. Если же рядов слишком мало, то вероятна
отрицательная автокорреляция. Для более детального анализа предлагается
следующая процедура. Пусть n – объем выборки; n1 – общее количество
знаков «+» при n наблюдениях (количество положительных отклонений
38
еt ); n2 – общее количество знаков «-» при n наблюдениях (количество
положительных отклонений еt ); k – количество рядов.
При достаточно большом количестве наблюдений ( n1  10, n2  10 ) и
отсутствии автокорреляции СВ k имеет асимптотически нормальное
распределение с
2n1n2
M (k )   1;
n1  n2
2n1n2 ( 2n1n2  n1  n2 )
D(k )  .
(n1  n2 ) 2 ( n1  n2  1)

Тогда, если M ( k )  u / 2 D( k )  k  M ( k )  u / 2 D ( k ) , то гипотеза об


отсутствии автокорреляции не отклоняется.
Для небольшого числа наблюдений ( n1  20, n2  20 ) Свед и Эйзенхарт
разработали таблицы критических значений количества рядов при n
наблюдениях . Суть таблиц в следующем.
На пересечении строки n1 и столбца n2 определяются нижнее k1 и
верхнее k2 значения при уровне значимости   0.05 .
Если k1  k  k 2 , то говорят об отсутствии автокорреляции.
Если k  k1 , то говорят о положительной автокорреляции.
Если k  k2 , то говорят об отрицательной автокорреляции.
В нашем примере n  20, n1  11, n2  9, k  5 . По таблицам определяем
k1  6, k 2  16 . Поскольку k  5  6  k1 , то применяется предположение о
наличии положительной автокорреляции при уровне значимости   0.05 .
3) Критерий Дарбина-Уотсона.
Наиболее известным критерием обнаружения автокорреляции
первого порядка является критерий Дарбина-Уотсона. Общая схема
критерия Дарбина-Уотсона изложена в моделях временных рядов.
При установлении автокорреляции необходимо в первую очередь
проанализировать правильность спецификации модели.Если после ряда
усовершенствований регрессии автокорреляция по-прежнему имеет место,
то возможны определенные преобразования, устраняющие

39
автокорреляцию. Среди них выделяется авторегрессионная схема первого
порядка AR(1).
Заключение
При моделировании реальных экономических процессов мы нередко
сталкиваемся с ситуациями, в которых условия классической линейной
модели регрессии оказываются нарушенными. В частности, могут не
выполняться предпосылки 3 и 4 регрессионного анализа о том, что
случайные возмущения (ошибки) модели имеют постоянную дисперсию и
не коррелированы между собой.
Важной предпосылкой построения качественной регрессионной
модели по МНК является независимость значений случайных отклонений
i от значений отклонений во всех других наблюдениях. Отсутствие
зависимости гарантирует отсутствие коррелированности между любыми
отклонениями.
Контрольные вопросы:
1. В чем суть гетероскедастичности?
2. Приведите аргументы в пользу графического теста, теста Парка и
теста Глейзера.
3. Приведите схему теста Голдфельда-Квандта.
4. В чем суть метода взвешенных наименьших квадратов (ВНК)?
5. Что такое автокорреляция?
6. Назовите основные причины автокорреляции.
7. Перечислите основные методы обнаружения автокорреляции.
8. Каковы последствия автокорреляции?

40
Государственное казенное образовательное учреждение
высшего профессионального образования
«РОССИЙСКАЯ ТАМОЖЕННАЯ АКАДЕМИЯ»
Владивостокский филиал

Кафедра информатики и информационных таможенных технологий

КОНСПЕКТ ЛЕКЦИИ

на тему: «Спецификация моделей регрессии с фиктивными независимыми


переменным»

Дисциплина: «ЭКОНОМЕТРИКА (ПРОДВИНУТЫЙ УРОВЕНЬ)»

Автор: М.М. Цвиль, доцент кафедры информационных таможенных


технологий и информатики Ростовского филиала Российской таможенной
академии, кандидат физико-математических наук, доцент

Владивосток
2012

41
Учебные вопросы
1. Фиктивные переменные.
2. Модели регрессии с фиктивными переменными сдвига.
3. Модели регрессии с фиктивными переменными наклона.
4. Критерий Г. Чоу.
Введение
До сих пор мы рассматривали регрессионную модель, в которой в
качестве объясняющих переменных (регрессоров) выступали
количественные переменные (производительность труда, себестоимость
продукции, доход и т. п.). Однако на практике достаточно часто возникает
необходимость исследования влияния качественных признаков, имеющих
два или несколько уровней (градаций). К числу таких признаков можно
отнести: пол (мужской, женский), образование (начальное, среднее,
высшее), фактор сезонности (зима, весна, лето, осень) и т. п.
Качественные признаки могут существенно влиять на структуру
линейных связей между переменными и приводить к скачкообразному
изменению параметров регрессионной модели. В этом случае говорят об
исследовании регрессионных моделей с переменной структурой или
построении регрессионных моделей по неоднородным данным.
1. Фиктивные переменные
Например, нам надо изучить зависимость размера заработной платы
Y работников не только от количественных факторов X 1 , X 2 ,..., X p , но и
от качественного признака Z1 (например, фактора «пол работника»).
В принципе можно было получить оценки регрессионной модели
yi   0  1 xi1   2 xi 2     p xip   i , i  1, 2,..., n (4.1)
для каждого уровня качественного признака (т. е. выборочное уравнение
регрессии отдельно для работников-мужчин и отдельно – для женщин), а
затем изучать различия между ними.
Но есть и другой подход, позволяющий оценивать влияние значений
количественных переменных и уровней качественных признаков с

42
помощью одного уравнения регрессии. Этот подход связан с введением так
называемых фиктивных (манекенных) переменных, или манекенов (dummy
variables).
В качестве фиктивных переменных обычно используются бинарные,
булевы переменные, которые принимают всего два значения: «0» или «1»
(например, значение такой переменной Z1 по фактору «пол»: Z1  0 для
работников-женщин и Z1  1 - для мужчин).
В этом случае первоначальная регрессионная модель (4.1)
заработной платы изменится и примет вид:
yi   0  1 xi1   2 xi 2     p xip  1 zi1   i , i  1,2,..., n , (4.2)
1, если i  й работник мужского пола;
где zi1  
0 если i  й работник женского пола.

Таким образом, принимая модель (6.2), мы считаем, что средняя


заработная плата у мужчин на 1  1  1 выше, чем у женщин, при
неизменных значениях других параметров модели. А проверяя гипотезу
H 0 : 1  0 , мы можем установить существенность влияния фактора «пол»
на размер заработной платы работника.
Следует отметить, что качественное различие можно формализовать
с помощью любой переменной, принимающей два разных значения, не
обязательно «0» или «1». Однако в эконометрической практике почти
всегда используются фиктивные переменные типа «0 - 1», так как при этом
интерпретация полученных результатов выглядит наиболее просто. Если
рассматриваемый качественный признак имеет несколько (k ) уровней
(градаций), то в принципе можно было ввести в регрессионную модель
дискретную переменную, принимающую такое же количество значений
(например, при исследовании зависимости заработной платы Y от уровня
образования Z можно рассматривать k  3 значения: zi1  1 при наличии
начального образования, zi 2  2 – среднего и zi 3  3 при наличии высшего
образования). Однако обычно так не поступают из-за трудности

43
содержательной интерпретации соответствующих коэффициентов
регрессии, а вводят (k  1) бинарных переменных.
При включении в уравнение регрессии фиктивных переменных
возникает вопрос о характере влияния количественных факторов на
результат при различных значениях неколичественного фактора. Далее
будут рассмотрены различные варианты моделей регрессии с фиктивной
переменной.
2. Модели регрессии с фиктивными переменными сдвига
Рассмотрим в качестве формы уравнения регрессии линейную
функцию. Для простоты возьмем в качестве факторов одну
количественную переменную х1 и одну фиктивную переменную z11:
y = a + b1x1 + c11z11 + e. (4.3)
Из этого уравнения следует, что при z11 = 1 результат (у) равен
y = (a + c11)+ b1x1 + e, (4.4)
а при z11 = 0 результат (у) равен:
y = a + b1x1 + e. (4.5)
Сравнивая два полученных уравнения (4.4) и (4.5), видим, что они
различаются величиной свободного члена. То есть для одного уровня
неколичественной переменной уровень результата всегда в среднем будет
на с11 единиц выше и ниже, чем для другого.
Графически эта ситуация соответствует двум параллельным прямым.
Отметим, что коэффициент b1 при количественном факторе остается
неизменным. То есть изменение фактора x1 оказывает одинаковое влияние
на результат при разных значениях неколичественной переменной.
Так как изменение значения фиктивной переменной в модели (4.3)
приводит к изменению значения результата на некую среднюю величину,
не зависящую от значений количественного фактора, такую переменную
еще называют фиктивной переменной сдвига. Изменение ее значения
приводит к переходу от одной параллельной прямой к другой.
3. Модели регрессии с фиктивными переменными наклона

44
Рассмотрим другую ситуацию: коэффициент регрессии при
количественном факторе зависит от значения фиктивной переменной. То
есть можно записать:
yˆ  a  b11 x1 , если z = 0; (4.6)
yˆ  a  b12 x1 , если z = 1; (4.7)
b11  b12.
В таком случае говорят, что имеют место структурные изменения в
исследуемой зависимости. Для их учета в уравнении регрессии фиктивную
переменную вводят как сомножитель при количественной переменной:
yˆ  a  b1 x1  d111 x1 z11 . (4.8)
Так как параметр d объединяет две переменные – х1 и z11, он имеет
тройной индекс – d111.
Действительно, если рассмотреть это уравнение для z11=1 и для z11=0,
получим соответственно
z11 = 0 yˆ  a  b1 x1

z11 = 1 yˆ  a  (b1  d111 ) x1

Следовательно, коэффициент b12 из модели (4.7) будет равен


(b11+d111).
Графически модель можно представить в виде двух прямых с разным
углом наклона, отражающих зависимость результата от количественного
фактора при разных значениях фиктивной переменной. Так как речь идет о
фиктивной переменной, включение которой позволяет изменить угол
наклона прямой, такую переменную называют фиктивной переменной
наклона.
Соответственно параметр b1 интерпретируется как сила влияния
количественного фактора при одном значении неколичественной
переменной (для которой z11 = 0), а параметр d111 – как среднее изменение
силы влияния количественного фактора при переходе от одного значения
неколичественной переменной к другому (при переходе от z11 = 0 к z11 = 1).

45
Модели типа (4.8) используются при исследовании зависимости
объема потребления Y некоторого продукта от дохода потребителя X,
когда качественные признаки (например, уровень доходности домашнего
хозяйства) на параметр b1 при X, интерпретируемый как «склонность к
потреблению».
4. Критерий Г. Чоу
В практике эконометриста нередки случаи, когда имеются две
выборки пар значений зависимой и объясняющих переменных ( xi , yi ) .

Например, одна выборка пар значений переменных объемом n1 получена


при одних условиях, а другая, объемом n2 , – при несколько измененных
условиях. Необходимо выяснить, действительно ли две выборки
однородны в регрессионном смысле? Другими словами, можно ли
объединить две выборки в одну и рассматривать единую модель регрессии
Y по X ?
При достаточных объемах выборок можно было, например,
построить интервальные оценки параметров регрессии по каждой из
выборок и в случае пересечения соответствующих доверительных
интервалов сделать вывод о единой модели регрессии. Возможны и другие
подходы.
В случае, если объем хотя бы одной из выборок незначителен, то
возможности такого подхода резко сужаются из-за невозможности
построения сколько-нибудь надежных оценок.
В критерии (тесте) Г. Чоу эти трудности в существенной степени
преодолеваются. По каждой выборке строятся две линейные
регрессионные модели:
p
yi   0    j xij   i , i  1,2,..., n1 ;
j 1

p
yi   0    jxij   i , i  n1  1,..., n1  n2 .
j 1

Проверяется нулевая гипотеза H 0 :     ; D( )  D ( )   2 , где     


- векторы параметров двух моделей;  ,   – их случайные возмущения.
46
Если нулевая гипотеза H0 верна, то две регрессионные модели
можно объединить в одну объема n  n1  n2 :
p
yi   0    j xij   i , i  1,2,..., n1 .
j 1

Согласно критерию Г. Чоу нулевая гипотеза H0 отвергается на


уровне значимости  , если статистика
 n 2 n1 2 n 2 
  ei   ei   ei  n  2 p  2
 i 1 
F  i 1 i  n1   F ; p 1; n  2 p  2 , (4.9)
 n1 n 
  ei2   ei2  p  1
 i 1 
 i  n1 
n n1 n

где  ei , e , e
2 2 2
i i - остаточные суммы квадратов соответственно для
i 1 i 1 i  n1

объединенной, первой и второй выборок; n  n1  n2 .


Критерий Г. Чоу может быть использован при построении
регрессионных моделей при воздействии качественных признаков, когда
имеется возможность разделения совокупности наблюдений по степени
воздействия этого фактора на отдельные группы и требуется установить
возможность использования единой модели регрессии.
Заключение
На практике достаточно часто возникает необходимость
исследования влияния качественных признаков, имеющих два или
несколько уровней (градаций). Качественные признаки могут существенно
влиять на структуру линейных связей между переменными и приводить к
скачкообразному изменению параметров регрессионной модели.
Контрольные вопросы:
1. Можно ли учесть в уравнении регрессии неколичественные
факторы? Каким образом?
2. Дайте определение фиктивной переменной.
3. Сколько фиктивных переменных нужно ввести, если имеются
два неколичественных фактора, причем один из них имеет три возможных
значения, а другой – два?

47
4. Как интерпретируется коэффициент регрессии при фиктивной
переменной сдвига?
5. Как интерпретируется коэффициент регрессии при фиктивной
переменной наклона?
6. Каков общий вид модели регрессии с одной количественной и
одной фиктивной переменной?
7. Назовите достоинства и недостатки моделей с фиктивными
переменными.
8. Пусть имеется уравнение регрессии с одним количественным и
одним неколичественным фактором, выраженным тремя фиктивными
переменными. Сколько возможных значений у неколичественного
фактора? Как на основе заданного уравнения регрессии найти уравнения
парной регрессии, содержащие только количественный фактор? Сколько
будет таких уравнений и почему?
9. Какова область применения теста Чоу?
10. Какие показатели сравниваются между собой по тесту Чоу?
Какой статистический критерий в этом случае используется?
11. Опишите методику применения теста Чоу.

48
Государственное казенное образовательное учреждение
высшего профессионального образования
«РОССИЙСКАЯ ТАМОЖЕННАЯ АКАДЕМИЯ»
Владивостокский филиал

Кафедра информатики и информационных таможенных технологий

КОНСПЕКТ ЛЕКЦИИ

на тему: «Модели временных рядов»

Дисциплина: «ЭКОНОМЕТРИКА (ПРОДВИНУТЫЙ УРОВЕНЬ)»

Автор: М.М. Цвиль, доцент кафедры информационных таможенных


технологий и информатики Ростовского филиала Российской таможенной
академии, кандидат физико-математических наук, доцент

Владивосток
2012

49
Учебные вопросы
1. Понятие временного ряда. Общий вид модели временного ряда.
2. Проверка гипотезы существования тенденции.
3. Стационарные временные ряды и их характеристики.
Автокорреляционная функция.
4. Авторегрессия первого порядка. Тест Дарбина-Уотсона.
5. Аналитическое выравнивание (сглаживание) временного ряда.
6. Процесс построения аддитивной модели временного ряда.
7. Прогнозирование на основе моделей временного ряда.
8. Понятие об авторегрессионных моделях и моделях скользящей средней.
Введение
При анализе многих экономических показателей часто встречаются
ежегодные, ежеквартальные, ежемесячные, ежедневные данные.
Например, это могут быть годовые данные по ВВП, объему чистого
экспорта, инфляции и т.д., месячные данные по объему продажи
продукции, ежедневные объемы выпуска какой-либо фирмы. Для
рационального анализа необходимо систематизировать моменты
получения соответствующих статистических данных.
В этом случае следует упорядочить данные по времени их получения
и построить так называемые временные ряды.
1. Понятие временного ряда. Общий вид модели временного ряда
Определение 1.
Под временным рядом (динамическим рядом) в экономике
понимается последовательность наблюдений Y некоторого признака
(случайной величины) в последовательные моменты времени.
Определение 2.
Отдельные наблюдения называются уровнями ряда, которые будем
обозначать y t (t  1,2,..., n) , где n – число уровней.
При исследовании экономического временного ряда выделяют
несколько составляющих:

50
y t  u t  s t  vt   t (t  1,2,..., n) (5.1)
где u t – тренд, плавно меняющаяся компонента, описывающая чистое
влияние долговременных факторов, т.е. длительную тенденцию изменения
признака (например, рост населения, изменение структуры потребления,
экономическое развитие и т.п.);
st – сезонная компонента, отражающая повторяемость экономических
процессов в течение не очень длительного периода (года, иногда месяца,
недели и т.д., например, объем продаж товаров или перевозок пассажиров
в разные времена года);
vt – циклическая компонента, отражающая повторяемость экономических
процессов в течении длительных периодов (например, влияние волн
экономической активности Кондратьева, демографических «ям», циклов
солнечной активности и т.п.);
 t – случайная компонента, отражающая влияние не поддающихся учету

и регистрации случайных факторов.


Следует обратить внимание на то, что в отличие от  t первые три
составляющие (компоненты) u t , st , vt являются закономерными,
неслучайными.
Важнейшей классической задачей при исследовании экономических
временных рядов является выявление и статистическая оценка основной
тенденции развития изучаемого процесса и отклонений от нее.
Если временной ряд представлен в виде суммы составляющих
компонентов, как в формуле (5.1), то модель называется аддитивной, если
в виде произведения, то мультипликативной или смешанного типа:
yt = utstvtt – мультипликативная форма;
yt = utstvt + t – смешанная форма.
Этапы анализа временных рядов:
 графическое представление и описание поведения временного ряда;
 выделение и удаления закономерных (неслучайных) составляющих
временного ряда (тренда, сезонных и циклических составляющих);

51
 сглаживание и фильтрация (удаление низко- или высокочастотных
составляющих временного ряда);
 исследование случайной составляющей временного ряда, построение
и проверка адекватности математической модели для ее описания;
 прогнозирование развития изучаемого процесса на основе
имеющегося временного ряда;
 исследование взаимосвязи между различными временными рядами.
Среди наиболее распространенных методов анализа временных
рядов выделяют корреляционный и спектральный анализ, модели
авторегрессии и скользящей средней.
2. Проверка гипотезы существования тенденции
Прогнозирование временных рядов целесообразно начинать с по-
строения графика исследуемого показателя. Однако в нем не всегда
прослеживается присутствие тренда. Поэтому в этих случаях необходимо
выяснить, существует ли тенденция во временном ряду или она
отсутствует.
Для временного ряда рассмотрим критерий «восходящих и
нисходящих» серий, согласно которому тенденция определяется по
следующему алгоритму:
1. Для исследуемого временного ряда определяется последователь-
ность знаков, исходя из условий
 , если yt 1 t  0.
i   (5.2)
, если yt 1  yt  0.

При этом, если последующее наблюдение равно предыдущему, то


учитывается только одно наблюдение.
2. Подсчитывается число серий  (n). Под серией понимается
последовательность подряд расположенных плюсов или минусов, причем
один плюс или один минус считается серией.
3. Определяется протяженность самой длинной серии lmax (n).
4. По таблице, приведенной ниже, находится значение l (n).

52
Таблица 1

Длина ряда n n  26 26  n 153 153  n  170


Значение l (n) 5 6 7

5. Если нарушается хотя бы одно из следующих неравенств, то


гипотеза об отсутствии тренда отвергается с доверительной вероятностью
0,95:

  n   1 / 3   2n  1  1,96 

16n  29 / 90 ,
(5.3)
 lmax  n   l  n .

Квадратные скобки неравенства в (5.3) означают целую часть числа.


Пример 1.
Дана динамика ежеквартального выпуска продукции фирмы в ден. ед. С помощью
критерия «восходящих и нисходящих» серий сделать вывод о присутствии или отсутствии
тренда. Доверительную вероятность принять равной 0,95.
t 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
yt 10 14 7 16 15 17 16 20 17 7 15 16 20 14 19 21

Решение.
Определим последовательность знаков.
t 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
yt 10 14 7 16 15 17 16 20 17 7 15 16 20 14 19 21
i + – + – + – + – – + + + – + +
Число серий  (n) = 11, протяженность самой длинной серии lmax (n)
= 3, по таблице l (n) = 5. Запишем систему неравенств:

11  1 / 3   2  16  1  1,96 

16  16  29 / 90 ,
3  5,
11  7,

 3  5.

Оба неравенства выполняются, поэтому тренд в динамике выпуска


продукции фирмы отсутствует с доверительной вероятностью 0,95.
3. Стационарные временные ряды и их характеристики.
Автокорреляционная функция

53
Важное значение в анализе временных рядов имеют стационарные
временные ряды, вероятностные свойства которых не изменяются во
времени.
Временной ряд yt (t  1,2,..., n) называется стационарным, если
совместное распределение вероятностей n наблюдений y1 , y 2 ,..., y n такое
же, как и n наблюдений y1 , y 2 ,..., y n при любых n , t и  . Другими
словами, свойства строго стационарных рядов y t не зависят от момента t ,
т.е. закон распределения и его числовые характеристики не зависят от t .
Следовательно, математическое ожидание M y (t )  a , среднее
квадратическое отклонение  y (t )   могут быть оценены по наблюдениям
с помощью формул:
n
 yt (5.4)
t 1
yt 
n
n
 ( y t  yt ) 2 (5.5)
st2  t 1
n
Простейшим примером стационарного временного ряда, у которого
математическое ожидание равно нулю, а ошибки  t некоррелированы,
является «белый шум».
Степень тесноты связи между последовательностями наблюдений
временного ряда y1 , y 2 ,..., y n и y1 , y 2 ,..., y n (сдвинутых относительно
друг друга на  единиц, или, как говорят, с лагом  ) может быть
определена с помощью коэффициента корреляции
M   yt  a  yt   a  
 ( )  (5.6)
2
Т.к.  ( ) измеряет корреляцию между членами одного и того же
ряда, его называют коэффициентом автокорреляции, а зависимость  ( )
– автокорреляционной функцией. В силу стационарности временного ряда
yt (t  1,2,..., n) автокорреляционная функция  ( ) зависит только от лага

54
 , причем  ( )   ( ) , т.е. при изучении можно ограничиться
рассмотрением только положительных значений  .
Статистической оценкой  ( ) является выборочный коэффициент
автокорреляции r ( ) , определяемый по формуле:
n  n  n 
 n     yt yt    yt  yt 
t 1 t 1 t 1
r ( )  (5.7)
n  2 2
 n  n   n 
 n    yt2    yt   n    yt2    yt  
t 1  t 1  t 1  t 1 

Функцию r ( ) называют выборочной автокорреляционной


функцией, а ее график – коррелограммой.
При расчете r ( ) следует помнить, что с увеличением  число n  
пар наблюдений yt , yt  уменьшается, поэтому лаг  должен быть таким,
чтобы число n   было достаточным для определения r ( ) . Обычно
ориентируются на соотношение   n / 4 .
Для стационарного временного ряда с увеличением лага 
взаимосвязь членов временного ряда yt , yt  ослабевает, и
автокорреляционная функция  ( ) должна убывать (по абсолютной
величине). В то же время для ее выборочного (эмпирического) аналога
r ( ) , особенно при небольшом числе пар наблюдений n   , свойство
монотонного убывания (по абсолютной величине) при возрастании 
может нарушаться.
Наряду с автокорреляционной функцией при исследовании
стационарных рядов рассматривается частная автокорреляционная
функция  част ( ) , где  част ( ) есть частный коэффициент корреляции
между членами временного ряда yt , yt  , т.е. коэффициент корреляции
между yt , yt  и при устранении влияния промежуточных между y t , y t   и
yt , yt  членов.

Статистической оценкой  част ( ) является выборочная частная


автокорреляционная функция rчаст ( ) , где rчаст ( ) – выборочный частный
коэффициент корреляции, определяемый по формуле (7.6) или (7.7).

55
Например, выборочный частный коэффициент автокорреляции 1-го
порядка между членами временного ряда yt , yt  2 при устранении влияния
y t 1 может быть вычислен по формуле:
r ( 2)  r (1)r (1,2)
rчаст ( 2)  r02.1  (5.8)
1  r 2 (1) 1  r 2 (1,2)

где r (1), r ( 2), r (1,2) – выборочные коэффициенты автокорреляции между


yt и yt 1 , yt 1 и yt  2 , yt и yt  2 , t  1,..., n .
Пример 2.
Таблица 2
Год, t 1 2 3 4 5 6 7 8
Спрос,
yt
213 171 291 309 317 362 351 361
Приведены данные, отражающие спрос на некоторый товар за
восьмилетний период (усл. ед.), т.е. временной ряд спроса yt .
По данным таблицы 2 для временного ряда найти среднее значение,
среднее квадратическое отклонение, коэффициенты автокорреляции (для
лагов   1;2 ) и частный коэффициент автокорреляции 1-го порядка.
Решение.
Среднее значение временного ряда находим по формуле:
213  171  ...  361
yt   296,88 (ед.).
8

Дисперсию и среднее квадратическое отклонение можно вычислить


по формуле, но в данном случае проще использовать соотношение
st2  yt2  yt2  92478,38  296,88 2  4343,61

st  4343,61  65,31 (ед.)


n

где
 yt2 213 2  1712  ...  3612
t 1
yt2    92478,38
n 8
Найдем коэффициент автокорреляции r ( ) временного ряда (для
лага   1), т.е. коэффициент корреляции между последовательностями
семи пар наблюдений yt и yt 1 (t  1,2,...,7) :
yt 213 171 291 309 317 362 351
y t  171 291 309 317 362 351 361
56
Вычисляем необходимые суммы:
7
 yt  213  171  ...  351  2014
t 1

7
 yt2  2132  1712  ...  3513  609506
t 1

7
 yt   171  291  ...  361  2162
t 1

7
 yt2  1712  2912  ...  3612  694458
t 1

7
 yt yt   213  171  171  291  ...  351  361  642583
t 1

Теперь по формуле (5.7) коэффициент автокорреляции


7  642583  2014  2162
r (1)   0,725 .
7  609506  2014 2 7  694458  2162 2

Коэффициент автокорреляции r ( 2) для лага   2 между членами


ряда yt , y t  2 (t  1,2,...,6) по шести парам наблюдений вычисляем
аналогично: r ( 2)  0,842 .

Для определения частного коэффициента корреляции 1-го порядка


rчаст (2)  r02.1 между членами ряда y t , y t  2 при исключении влияния y t 1

вначале найдем (по аналогии с предыдущим) коэффициент


автокорреляции r (1,2) между членами ряда: yt 1 и y t  2 : r (1,2)  0,825 , а
затем вычислим rчаст (2) по формуле (5.8):
0,825  0,725  0,825
rчаст ( 2)  r02.1   0,627
1  0,725 2 1  0,825 2

Знание автокорреляционных функций оказывает существенную


помощь при подборе и идентификации модели анализируемого
временного ряда и статистической оценке его параметров.
4. Авторегрессия первого порядка. Тест Дарбина-Уотсона
Как правило, если автокорреляция присутствует, то наибольшее влияние
на последующее наблюдение оказывает результат предыдущего наблюдения.
Наличие автокорреляции между соседними членами позволяет определить

57
тест Дарбина-Уотсона, который основан на простой идее: если корреляция
ошибок регрессии не равна нулю, то она присутствует и в остатках регрессии
et , получающихся в результате применения обычного метода наименьших

квадратов. В тесте Дарбина-Уотсона для оценки корреляции используется


статистика вида
n
 ( et  et 1 ) 2
t 2
d n .
 et2
t 1

Несложные вычисления позволяют проверить, что статистика


Дарбина-Уотсона связана с выборочным коэффициентом корреляции
следующим образом: d  2(1  r ) . В случае отсутствия автокорреляции
выборочный коэффициент r окажется не сильно отличающимся от нуля, а
значение статистики d будет близко к двум.
Общая схема критерия Дарбина-Уотсона следующая:
1. По построенному эмпирическому уравнению регрессии
yˆ t  b0  b1 xt1  ...  bm xtm определяются значения отклонений et  yt  yˆ t для
каждого наблюдения t , t  1,2,..., n .

n
 ( et  et 1 ) 2
t 2
2. По формуле d  n рассчитывается статистика Дарбина-
 et2
t 1

Уотсона.
3. По таблице критических точек Дарбина-Уотсона определяются два
числа d1 и d 2 , зависящие только от числа наблюдений, числа регрессоров
и уровня значимости. Выводы осуществляются по правилу: 0  d  d1 –
существует положительная автокорреляция, d1  d  d 2 – вывод о наличии
автокорреляции не определен, d 2  d  4  d 2 – автокорреляция отсутствует,
4  d 2  d  4  d1 – вывод о наличии автокорреляции не определен,
4  d1  d  4 – существует отрицательная автокорреляция.

Изобразим результат Дарбина-Уотсона графически:

58
Отметим, что при использовании критерия Дарбина-Уотсона
необходимо учитывать следующие ограничения.
1. Критерий d применяется лишь для тех моделей, которые содержат
свободный член.
2. Предполагается, что случайные отклонения  t определяются по
итерационной схеме:  t   t 1  vt , называемой авторегрессионной схемой
первого порядка AR (1) . Здесь vt - случайный член.
3. Статистические данные должны иметь одинаковую периодичность
(т.е. не должно быть пропусков в наблюдениях).
4. Критерий Дарбина-Уотсона не применим для регрессионных
моделей, содержащих в составе объясняющих переменных зависимую
переменную с временным лагом в один период, т.е. для так называемых
авторегрессионных моделей вида:
y t   0  1 xt1  ...   m xtm  y t 1   t .

4. Аналитическое выравнивание (сглаживание) временного ряда


Одним из наиболее распространенных способов моделирования
тенденции временного ряда является построение аналитической функции
(тренда, либо тренда с циклической или (и) сезонной компонентой) f (t ) ,

характеризующей зависимость уровней ряда от времени. Этот способ


называют аналитическим выравниванием временного ряда.
Для решения этой задачи вначале необходимо выбрать вид функции
f (t ) . Наиболее часто используются следующие функции:
 линейная - f (t )  b0  b1t
 полиномиальная - f (t )  b0  b1t  b2 t 2  ...  bn t n
 экспоненциальная - f (t )  e b0 b1t

59
a
 логистическая - f (t ) 
1  be ct

 Гомперца - log c f (t )  a  br t , 0  r 1

Это весьма ответственный этап исследования. При выборе


соответствующей функции f (t ) используют содержательный анализ
(который может установить характер динамики процесса), визуальные
наблюдения (на основе графического изображения временного ряда). При
выборе полиномиальной функции может быть применен метод
последовательных разностей (состоящий в вычислении разностей первого
порядка  t  yt  yt 1 , второго порядка (t2)   t   t 1 и т.д.), и порядок
разностей, при котором они будут примерно одинаковыми, принимается за
степень полинома.
Из двух функций предпочтение обычно отдается той, при которой
меньше сумма квадратов отклонений фактических данных от расчетных на
основе этих функций. Но этот принцип нельзя доводить до абсурда: так,
для любого ряда из n точек можно подобрать полином ( n  1) -ой степени,
проходящей через все точки, и соответственно с минимальной – нулевой –
суммой квадратов отклонений, но в этом случае, очевидно, не следует
говорить о выделении основной тенденции, учитывая случайный характер
этих точек. Поэтому при прочих равных условиях предпочтение следует
отдавать более простым функциям.
Параметры основной тенденции можно определить, используя метод
наименьших квадратов. При этом, значения временного ряда yt

рассматриваются как зависимая переменная, а время t - как объясняющая:


yt  f (t )   t (5.9)
где t – возмущения, удовлетворяющие основным предпосылкам
регрессионного анализа, т.е. представляющие независимые и одинаково
распределенные случайные величины, распределение которых
предполагаем нормальным.

60
Согласно методу наименьших квадратов параметры прямой
yt  f (t )  b0  b1t находятся из системы нормальных уравнений , в которой в

качестве xi берем t :
 n n
 b0 n  b1  t   yt
t 1 t 1
 n n n (5.10)
b0  t  b1  t 2   ty t
 t 1 t 1 t 1

Учитывая, что значения переменной t  1,..., n образуют

n n 2
натуральный ряд чисел от 1 до n , суммы  t ,  t можно выразить через
t 1 t 1

число членов ряда n по известным в математике формулам:


2
n n( n  1) n n( n  1)(2n  1)
t  2
; t 
6
(5.11)
t 1 t 1

В рассмотренном примере 2 на странице 79 система нормальных


уравнений имеет вид:
 8b0  36b1  2375
 ,
36b0  204b1  11766

откуда b0  181,32; b1  25,679 и уравнение тренда yˆ t  181,32  25,679t , т.е.


спрос ежегодно увеличивается в среднем на 25,7 ед.
Проверим значимость полученного уравнения тренда по F-критерию
на 5%-ном уровне значимости вычислим с помощью формулы (1.40)
суммы квадратов:
а) обусловленную регрессией –

    2  27695,3
n n
QR   yˆ t  y t   bt2 t  t
t 1 t 1

б) общую –
2
 n 
  yt 
 
n n
Q yˆ t  y t   yt   t 1   34748,9
2

t 1 t 1 n

в) остаточную
Qe  Q  QR  34748,9  27695,3  7053,6 .

61
Найдем значение статистики:
QR  n  2 27695,3  6
F   23,56 .
Qe 7053,6

Так как F  F0,05;1;6 , то уравнение тренда значимо.


Другим методом выравнивания (сглаживания) временного ряда, т.е.
выделения неслучайной составляющей, является метод скользящих
средних. Он основан на переходе от начальных значений членов ряда к их
средним значениям на интервале времени, длина которого определена
заранее. При этом сам выбранный интервал времени «скользит» вдоль
ряда.
Получаемый таким образом ряд скользящих средних ведет себя
более гладко, чем исходный ряд, из-за усреднения отклонений ряда.
6. Процесс построения аддитивной модели временного ряда
Процесс построения аддитивной модели (5.1) временного ряда с
отсутствующей циклической компонентой включает следующие этапы:
1. Расчет значений сезонной компоненты S. Простейший путь оценки
сезонности для ряда у1, у2, … , уn с периодом сезонности ( = 12 для
n
ежемесячных данных,  = 4 для ежеквартальных данных и h

)

заключается в вычислении разности между средним по всем одноименным


месяцам (кварталам) и средним по всем данным.
1 h 1 1 n
h
 y k  . j   yi
n i 1
к = 1,2,.., (5.12)
j 0

2. Устранение сезонной компоненты из исходных уровней ряда и


получение zi суммы трендовой и случайной компонент
ui + i = yi – si  zi
3. Аналитическое выравнивание уровней zi, т.е. расчет значений ui с
использованием уравнения тренда. Аналитическое выравнивание
осуществляется по математической модели тренда. Предполагая, что тренд
имеет вид полинома, анализируют цепные абсолютные приросты (первые

62
разности уровней ряда) i = zi – zi-1 и вторые разности ряда i – i-1. Если
примерно одинаковы i, то ряд имеет линейный тренд
û i  abt.

При вычислении удобно моменты времени пронумеровать так, чтобы

n
 ti  0. Тогда параметры линейного тренда могут быть найдены по
i 1

формулам
n
 zi ti
i 1
b n
; az (5.12)
 t i2
i 1

Если же вторые разности i – i-1 примерно постоянны, то для


описания тенденции временного ряда следует выбрать многочлен второй
степени ut = b0 + b1t + b2t2.
n
5. Методика нумерации моментов времени, так, чтобы  t i  0,
i 1

различна для рядов имеющих четное и нечетное число наблюдений. Так,


если число наблюдений нечетное, то нумерация проводится так:
Год 1997 1998 1999 2000 2001 2002 2003
t –3 –2 –1 0 1 2 3

Если же число наблюдений четное, то нумерация соответственно:

Год 1997 1998 1999 2000 2001 2002


t – 2,5 – 1,5 – 0,5 0,5 1,5 2,5

После выделения трендовой компоненты Ò̂ , случайная компонента


получается как разность Ê t  z t  Tˆt .

6. Расчет абсолютных и/или относительных ошибок. Часто


рассчитывают: среднюю абсолютную процентную ошибку (Mean Absolute
Percentage Error):
ˆ
1 n Ei
MAPE  
n i 1 y i
 100 %.

63
7. Прогнозирование на основе моделей временного ряда
Одна из важнейших задач (этапов) анализа временного
(динамического) ряда, как отмечено выше, состоит в прогнозировании на
его основе развития изучаемого процесса. При этом исходят из того, что
тенденция развития, установленная в прошлом, может быть
распространена (экстраполирована) на будущий период.
Задача ставится так: имеется временной (динамический) ряд
y t (t  1,2,..., n) и требуется дать прогноз уровня этого ряда на момент n   .

Ранее мы рассматривали точечный и интервальный прогноз значений


зависимой переменной Y , т.е. определение точечных и интервальных
оценок Y , полученных для парной и множественной регрессий для
значений объясняющих переменных X , расположенных вне пределов
обследованного диапазона значений X .
Если рассматривать временной ряд как регрессионную модель
изучаемого признака по переменной «время», то к нему могут быть
применены рассмотренные выше методы анализа. Следует, однако,
вспомнить, что одна из основных предпосылок регрессионного анализа
состоит в том, что возмущение  t (t  1,..., n) представляют собой
независимые случайные величины с математическим ожиданием (средним
значением), равным нулю. А при работе с временными рядами такое
допущение оказывается во многих случаях неверным.
Положим, что возмущения  t (t  1,..., n) удовлетворяют
предпосылкам регрессионного анализа, т.е. условиям нормальной
классической регрессионной модели.
Пример 3. По данным таблицы 2 дать точечную и с надежностью
0,95 интервальную оценки прогноза среднего и индивидуального значений
спроса на некоторых товар на момент t = 9 (девятый год). (Полагаем, что
тренд линейный, а возмущения удовлетворяют требованиям классической
модели).

64
Решение. Выше, в примере 2 получено уравнение регрессии
ŷ t  181,32  25,679t , т.е. ежегодно спрос на товар увеличивался в среднем

на 25,7 ед. Надо оценить условное математическое ожидание M t 9  Y   y  9  .


Оценкой y   9 является групповая средняя
yˆ t 9  181,32  25,679  9  412,4 ед..

Найдем оценку s2 дисперсии 2 по формуле


n
 et2 7059,2
t 1
s2    1176,5.
n2 82
2
Вычислим оценку дисперсии групповой средней s ŷ t 9  714,3 .
Подробно решение примера можно найти в [1], главе 5, с. 145.
В итоге получаем интервальную оценку прогноза среднего значения
спроса:
412,4  2,45  26,73  уˆ  9   412,4  2,45  26,73,

или 346,9  уˆ  9   477,9 ед..

сама интервальная оценка для у*(9) имеет вид:


412,4  2,45  43,48  у *  9   412,4  2,45  43,48,

или 305,9  у *  9   518,9 ед..

Итак, с надежностью 0,95 среднее значение спроса на товар на


девятый год будет заключено от 346,9 до 477,9 (ед.), а его индивидуальное
значение – от 305,9 до 518,9 (ед.).
Прогноз развития изучаемого процесса на основе экстраполяции
временных рядов может оказаться эффективным, как правило, в рамках
краткосрочного, в крайнем случае, среднесрочного периода
прогнозирования.
8. Понятие об авторегрессионных моделях и моделях скользящей
средней
До сих пор мы рассматривали модели временного ряда вида (7.9), в
которых в качестве регрессора выступала переменная t-«время». В
эконометрике достаточно широкое распространение получили и другие

65
регрессионные модели, в которых регрессорами выступают лаговые
перемены, т.е. переменные, влияние которых в эконометрической модели
характеризуется некоторым запаздыванием. Причем представленные в
моделях объясняющие переменные являются случайными величинами (см.
подробнее в теме 8).
Авторегрессионная модель q-го порядка (или модель AR(p)) имеет
вид:
yt   0  1 yt 1   2 yt  2  ...   p yt  p   t

где (t = 1,2,…,n), 0 1,…, p – некоторые константы.


Если исследуемый процесс уt в момент t определяется его
значениями только в предшествующий период t – 1, то рассматривают
авторегрессионную модель 1-го порядка (модель AR(p)):
уt = 0 + 1уt-1 + t (t = 1,2,…,n)
Наряду с авторегрессионными моделями временных рядов в
эконометрике рассматриваются также модели скользящей средней (не
путать с аналогичным термином, используемым в технике сглаживания
рядов), в которой, моделируемая величина задается линейной функцией от
возмущений в предыдущие моменты времени.
Модель скользящей средней q-го порядка (или модель МA(q)) имеет
вид:
уt = t + 1t-1 + 2t-2 +…+ qt-q.
В эконометрике используются комбинированные модели временных
рядов AR и МА.
Заключение
При анализе многих экономических показателей часто встречаются
ежегодные, ежеквартальные, ежемесячные, ежедневные данные. Для
рационального анализа необходимо систематизировать моменты
получения соответствующих статистических данных. При проведении
анализа данных в рядах динамики необходимо учитывать такую
особенность, как автокорреляция.

66
Контрольные вопросы:
1. Что представляет собой временной ряд?
2. Какие составляющие выделяют при исследовании временного
ряда?
3. Каков общий вид мультипликативной, аддитивной моделей
временного ряда?
4. Каким требованиям отвечают стационарные временные ряды?
5. Что такое выборочный коэффициент автокорреляции?
6. Дайте определения автокорреляционной функции и
коррелограммы временного ряда.
7. С помощью какого критерия определяют автокорреляцию
остатков?
8. Как провести точечный и интервальный прогноз исследуемого
показателя?
9. Какова модель авторегрессии?
10. Каков вид модели скользящей средней q-го порядка?

67
Государственное казенное образовательное учреждение
высшего профессионального образования
«РОССИЙСКАЯ ТАМОЖЕННАЯ АКАДЕМИЯ»
Владивостокский филиал

Кафедра информатики и информационных таможенных технологий

КОНСПЕКТ ЛЕКЦИИ

на тему: «Модели с лаговыми переменными»

Дисциплина: «ЭКОНОМЕТРИКА (ПРОДВИНУТЫЙ УРОВЕНЬ)»

Автор: М.М. Цвиль, доцент кафедры информационных таможенных


технологий и информатики Ростовского филиала Российской таможенной
академии, кандидат физико-математических наук, доцент

Владивосток
2012

68
Учебные вопросы
1. Модели с распределенными лагами.
2. Модели авторегрессии.
3. Авторегрессионные модели и их моделирование.
Введение
В моделях временных рядов зависимая переменная yt может быть
связана не только со значениями объясняемых переменных x в момент
времени t , но и с их значениями в предыдущие моменты времени. Так,
например, потребление товаров длительного пользования зачастую
зависит не только от доходов текущего, но предыдущих периодов.
Аналогично величина основных производственных фондов зависит от
размера инвестиций не только текущего года, но и предыдущих лет. В
этом случае строятся модели с лаговыми объясняющими переменными.
Например,
сt  a  b1 y t  b2 y t 1   t ,

где сt - потребление в период времени t ; yt - доход в период времени t ;


yt 1 - доход в предыдущий период t  1 .
В данной модели лаговой является переменная уt-1, т.е. доход за
предыдущий период времени. Возможна ситуация, когда объясняющая
переменная x влияет на результат y не сразу же, а с определенным
запаздыванием во времени, превышающим один временной интервал. Так,
выпуск специалистов высшей квалификации зависит от приема в вузы
четырех – пятилетней давности.
Объясняющие переменные, взятые в модели регрессии с
запаздыванием во времени, называются лаговыми переменными. Величина
интервала запаздывания называется лагом. Так в модели yt  a  b1 xt  4  xt

лаговая переменная взята с лагом, равным 4.


Вместе с тем в правой части модели лаговой может быть и зависимая
переменная.

69
Модели регрессии по временным рядам с лаговыми переменными
принято называть динамическими моделями. Их можно подразделить на
три класса:
1) модели с лаговыми объясняющими переменными, или, иначе,
модели с распределенными лагами:
y t  a  b0 xt  b1 xt 1  ...  bk xt k   t ;

2) модели с лаговыми зависимыми переменными – модели


авторегрессии:
y t  a  bxt  с1 y t 1  ...  c k y t k   t ;

3) модели с лаговыми зависимыми и независимыми переменными, т.е.


авторегрессионные модели с распределенными лагами:
y t  a  b1 y t 1  ...  bk y t k  c0 xt  с1 xt 1  ...  c k xt k   t .

Выбор величины лага и количества лагов проводится обычно


экспериментально: строятся модели с разным числом лагов и их величиной
и изучается значимость коэффициентов регрессии при лаговых
переменных; останавливаются на модели, для которой все коэффициенты
регрессии при лаговых переменных будут статистически значимыми по t -
критерию Стьюдента.
1. Модели с распределенными лагами
Модели с распределенными лагами бывают двух типов:
 с конечным числом лагов:
y t  a  b0 xt  b1 xt 1  ...  bk xt k   t ;

 с бесконечным числом лагов:


y t  a  b0 xt  b1 xt 1  b2 xt 2  ...   t .

Практическое применение чаще всего имеют модели с конечным


числом лагов, т.е. модели, в которых число лагов экспериментально
определено.
Предположим рассматривается модель, в которой k  4, т.е.
yˆ t  a  b0 xt  b1 xt 1  b2 xt  2  b3 xt 3  b4 xt  4 . Данная модель означает, что
изменение во времени t объясняющей переменной x будет влиять на

70
значения результативного признака y в течении 4 следующих моментов
времени.
Коэффициент b0 называют краткосрочным мультипликатором, так
как он характеризует среднее изменение результата y при изменении хt

на 1 единицу своего измерения в фиксированный момент времени t .


В момент времени t  1 воздействие объясняющей переменной x на
результат y составит (b0  b1 ) единиц, а в момент времени t  2 общее
изменение y составит (b0  b1  b 2 ) единиц.
h

Любую сумму коэффициентов b


j 0
j , где (h  k ) называют

промежуточным мультипликатором, а сумму всех коэффициентов


k

регрессии b
j 0
j - долгосрочным мультипликатором, который

характеризует общее изменение y через k интервалов времени под


воздействием изменения x в момент t на 1 единицу.
При k  4 долгосрочный мультипликатор составит b0  b1  b2  b3  b4 .

Он характеризует общее среднее изменение y через 4 временных


интервала при увеличении x в момент времени t на 1 единицу, а
промежуточные мультипликаторы:
b0  b1 - изменение y в момент времени t  1 ;
b0  b1  b2 - изменение y в момент времени t  2 ;
b0  b1  b2  b3 - изменение y в момент времени t  3 .
Если все коэффициенты регрессии имеют одинаковые знаки, т.е.
характеризуются однонаправленным изменением y в исследуемые k
моментов времени, то можно определять относительные коэффициенты

bj
модели j , т.е.  j  0  j 1, а   1. j
 b j , где j Иными словами,

характеризует долю общего изменения y в момент времени t j.

Модель с конечным числом лагов при правильной ее спецификации


может быть оценена обычным МНК. В этом случае в уравнении:

71
y t  a  b0 x t  b1 x t 1  b2 xt  2  ...  bk x t  k   t

переменные xt , xt 1 , xt  2 ,..., xt  k рассматриваются как объясняющие


переменные обычной множественной регрессии.
Вместе с тем применение МНК к моделям с конечным числом лагов
может быть реально затруднено ввиду следующих причин:
1) при наличии тенденции переменные xt , xt 1 , xt  2 ,..., xt  k тесно
связаны между собой, что вызывает мультиколлинеарность факторов,
которая может привести к неинтерпретируемым знакам у коэффициентов
регрессии и к снижению их точности;
2) возможна автокорреляция остатков, так как МНК применяется к
временным рядам с тенденцией.
Поэтому нередко для оценки параметров модели с распределенным
конечным числом лагов используются специальные методы
преобразования, как и для модели с бесконечным числом лагов.
Разработаны разные методы оценивания параметров моделей с
распределенными лагами, которые учитывают характер распределения
коэффициентов регрессии при лаговых объясняющих переменных. Иными
словами, методы оценивания параметров модели с распределенными
лагами основаны на изучении структуры лага. Так, предполагая
полиномиальное распределение лаговых коэффициентов, используется
метод Алмон, а при гипотезе геометрической прогрессии для лаговых
коэффициентов применяется преобразование Койка.
2. Модели авторегрессии
Достаточно распространены авторегрессионные модели вида:
yt  a  b0 xt  с1 yt 1   t . (6.1)
Для модели (8.1), как и в модели с распределенными лагами,
параметр b0 характеризует краткосрочное изменение yt под воздействием
xt на 1 единицу. Параметр c1 по существу представляет собой величину
 из преобразования Койка, т.е. c1  1 и показывает коэффициент
снижения лаговых коэффициентов при увеличении значения лага в

72
соответствии с концепцией их геометрического убывания. Следовательно,
к моменту времени t  1 результат y изменится дополнительно на b0 c1

единиц, а к моменту времени t  2 дополнительное изменение y составит


b0 c12 единиц, к моменту времени t  3 - b0 c13 и т.д. Соответственно
долгосрочный мультипликатор окажется равным:
b  b0  b0c1  b0c12  b0c13  ... (в предположении бесконечного числа
лагов).
Учитывая геометрическую прогрессию лаговых коэффициентов,
b0
b  b0 (1  c1  c12  c13  ...)  - долгосрочный мультипликатор изменения y .
1  c1

В силу того, что в авторегрессии в правой части содержатся лаговые


эндогенные переменные, принято считать, что оценка параметров
традиционным МНК дает неудовлетворительные результаты.
Предположим, что рассматривается модель авторегрессии вида (6.1)
yt  a  b0 xt  с1 yt 1   t .
Применение для оценивания параметров уравнения (6.1)
традиционного МНК возможно, если выполняется предпосылка МНК
относительно отсутствия автокорреляции остатков. Между тем при
наличии в правой части лаговой зависимой переменной может иметь место
автокорреляция остатков. Кроме того, может иметь место и зависимость
объясняющей переменной yt 1 с остатками t , т.е. нарушается
предпосылка о гомоскедастичности остатков. В силу этого классический
метод наименьших квадратов в малых выборок даст смещенные оценки
параметров.
Одним из возможных методов оценивания параметров модели (6.1)
является метод инструментальных переменных. Суть метода состоит в
том, что вместо лаговой зависимой переменной yt 1 , для которой
нарушается предпосылка МНК, используется другая переменная,
называемая инструментальной. При этом инструментальная переменная
должна обладать двумя свойствами:

73
 она должна быть тесно коррелированна с лаговой переменной yt 1 ;

 она не должна коррелировать с остатками Ut (случайными


ошибками).
Иными словами, от модели авторегрессии (8.1) необходимо перейти
к модели вида:
yt  a  bxt  сzt   t . (6.2)
Результаты регрессии по модели (8.2), естественно, зависят от того,
насколько удачно подобрана инструментальная переменная. В качестве
инструментальной переменной можно, например, взять оценку yt 1 , т.е.
ˆ t 1 ,
y полученную по регрессии yt 1 от хt 1 .

Поскольку в модели (8.1) предполагается наличие зависимости yt от


хt , то можно предположить, что также имеет место зависимость yt 1 от
хt 1 , т.е. найдем регрессию
yˆ t 1  A  Bx t 1 . . (6.3)
Используя для оценки параметров уравнения (6.3) обычный МНК,
что возможно ввиду отсутствия в правой части модели лаговой зависимой
переменной, найдем теоретические значения ˆ t 1 ,
y которые и будут
рассматриваться как значения инструментальной переменной z в модели
(6.2). Далее вновь применяем МНК уже к модели (6.2), т.е. по существу
оценка параметров модели авторегрессии (6.1) будет найдена исходя из
модели вида
y t  a  b0 xt  ñ1 yˆ t 1   t . (6.4)
Если вместо оценки ˆ t 1
y подставить выражение (6.3), то получим
следующую модель:
yt  (a  с1 A)  b0 xt  Bс1 xt 1   t . (6.5)
Она представляет собой модель с распределенным лагом, оценка
параметров которой может быть дана МНК.
Таким образом, используя в качестве инструментальной переменной
оценки ˆ t 1 ,
y исходя из регрессии хt 1 (6.3), модель авторегрессии (6.1)
заменяется на модель с распределенным лагом (6.5).

74
3. Авторегрессионные модели и их моделирование
Рассмотренные ранее модели авторегрессии содержали в правой
части наряду с лаговыми зависимыми переменными ( yt 1 , yt  2 и т.п.)
независимые переменные ( x ). Авторегрессионная модель, в которой
отсутствуют независимые переменные и yt рассматривается как линейная
функция только предыдущих своих значений, представляет собой
авторегрессионный процесс:
yt  a0  a1 yt 1  a2 yt  2  ...  a p yt  p   t . (6.6)
В зависимости от того, сколько предыдущих уровней временного
ряда включено в уравнение (8.6), авторегрессионный процесс может быть
разного порядка. Если текущее значение уровня динамического ряда ( yt )
рассматривается как линейная функция от одного предыдущего значения,
то имеем дело с авторегрессионным процессом первого порядка, что
обычно в англоязычной литературе обозначается как AR(1):
yt  a0  a1 yt 1   t . (6.7)
Увеличивая число лаговых переменных в модели (6.7), получим
авторегрессионный процесс более высокого порядка. Например, процесс
AR(3) сводится к уравнению:
yt  a0  a1 yt 1  a2 yt  2  a31 yt  3   t (6.8)
и отражает авторегрессионный процесс третьего порядка.
Среди моделей для стационарных временных рядов широкое
распространение имеют модели скользящей средней.
Для стационарного ряда моделируемый уровень временного ряда
можно представить как линейную функцию прошлых ошибок, т.е.
разностей между прошлыми фактическими и теоретическими уровнями:
yt     t  1 t 1   2 t  2  ...   q t  q , (6.9)
где  - константа;  t ,  t 1 ,  t  2 ,...,  t  q - белый шум в текущий и
предыдущий период времени;  t  y t  yˆ .

Термин «скользящая средняя», используемый здесь, не синоним


скользящей средней как методу сглаживания уровней динамического ряда.

75
В модели (6.9) уровень динамического ряда рассматривается как
сумма константы (  ) и скользящей средней между текущим и
предыдущими значениями белого шума (случайных отклонений).
Обозначим скользящую среднюю модели (6.9) через хt :
хt   t  1 t 1   2 t  2  ...   q t  q . (6.10)
Уравнение (8.10) принято называть процессом скользящего среднего
порядка q и обозначать как MA(q) (от английского moving average).
Порядок скользящей средней определяется числом учитываемых в модели
предыдущих значений случайных отклонений. Так, МА(2) можно записать
как хt   t  1 t 1   2 t  2 , а модель уровня динамического ряда с
использованием МА(2) будет иметь вид yt     t  1 t 1   2 t  2 .

Соответственно модель уровня ряда с использованием МА(1) примет


выражение yt     t  1 t 1 . При q  0,   0 получаем процесс белого шума.
Временные ряды с использованием процесса скользящего среднего
могут иметь место, когда уровни динамического ряда характеризуются
случайной колеблемостью.
Соединение в одной модели авторегрессионного процесса AR и
модели скользящего среднего МА приводит к модели авторегрессионного
процесса со скользящими средними в остатках (от английского ARMA –
Auto Reqressiv – Moving Average):
yt  a0  a1 yt 1  a2 yt  2  ...  a p yt  p   t  1 t 1   2 t  2  ...   q t  q .

(6.11)
В модели (6.11) в качестве объясняющих переменных
рассматриваются лаговые значения зависимой переменной с p

интервалами сдвига и скользящие средние порядка q для остатков


авторегрессии. Иными словами, модель включает в себя AR( p ) и МА( q ).
Ее принято обозначать ARMA( p , q ). Например, ARMA(3,2) имеет вид
yt  a0  a1 yt 1  a2 yt  2  a3 yt  3   t  1 t 1   2 t  2 . (6.12)
При практической реализации моделей ARMA наиболее сложным
является выбор числа лагов p и q .

76
Для получения стационарного ряда могут рассчитываться разности
уровней временного ряда (  ) разного порядка (d). Модель, в которой
соединены нахождение последовательных разностей временного ряда
порядка d и ARMA – модель порядка ( p , q ), получила название
авторегрессионной интегрированной модели скользящего среднего –
ARIМА (Autoregressiv Integrated Moving Average).
Модель ARIМА обладает тремя параметрами: p – порядок
авторегрессии (AR); d – порядок последовательных разностей уровней
временных рядов, обеспечивающих стационарность ряда; q – порядок
скользящей средней (MA).
В общем виде модель ARIМА ( p ,d, q ) выражается формулой
k yt  a1k yt 1  ...  a p k yt  p   t  1 t 1  ...   q t  q , (6.13)

где k yt - k -я последовательная разность уровней yt , т.е.


k yt  yt  yt 1  ...  yt  k ;  t ,  t 1 ,...,  t  q - нормально распределенные
случайные величины с нулевым математическим ожиданием и постоянной
дисперсией.
Заключение
В моделях временных рядов зависимая переменная yt может быть
связана не только со значениями объясняемых переменных x в момент
времени t , но и с их значениями в предыдущие моменты времени. В этом
случае строятся модели с лаговыми объясняющими переменными.
Возможна ситуация, когда объясняющая переменная x влияет на
результат y не сразу же, а с определенным запаздыванием во времени,
превышающим один временной интервал. Объясняющие переменные,
взятые в модели регрессии с запаздыванием во времени, называются
лаговыми переменными. Величина интервала запаздывания называется
лагом.
Выбор величины лага и количества лагов проводится обычно
экспериментально: строятся модели с разным числом лагов и их величиной
и изучается значимость коэффициентов регрессии при лаговых
77
переменных; останавливаются на модели, для которой все коэффициенты
регрессии при лаговых переменных будут статистически значимыми по t -
критерию Стьюдента.
Контрольные вопросы:
1. Какой вид имеет модель с распределенными лагами?
2. Каков вид авторегрессионной модели с распределенными лагами?
3. Как интерпретируются параметры модели с распределенными
лагами?
4. В каких случаях оценка параметров модели с распределенными
лагами может быть дана методом наименьших квадратов?
5. Что такое модели авторегрессии?
6. Для чего используются инструментальные переменные?
7. Что такое авторегрессионные процессы со скользящими средними
в остатках?
8. Каков вид модели ARMA (3, 2)?

78
Государственное казенное образовательное учреждение
высшего профессионального образования
«РОССИЙСКАЯ ТАМОЖЕННАЯ АКАДЕМИЯ»
Владивостокский филиал

Кафедра информатики и информационных таможенных технологий

КОНСПЕКТ ЛЕКЦИИ

на тему: «Системы эконометрических уравнений. Анализ панельных


данных»

Дисциплина: «ЭКОНОМЕТРИКА (ПРОДВИНУТЫЙ УРОВЕНЬ)»

Автор: М.М. Цвиль, доцент кафедры информационных таможенных


технологий и информатики Ростовского филиала Российской таможенной
академии, кандидат физико-математических наук, доцент

Владивосток
2012

79
Учебные вопросы
1. Структурная и приведенная формы моделей.
2. Проблема идентификации.
3. Оценивание параметров структурной модели.
4. Панельные данные и их преимущества. Однонаправленные модели
панельных данных.
5. Качество подгонки. Выбор модели.
6. Двунаправленная модель панельных данных с фиксированными
эффектами.
Введение
Одной из причин коррелированности регрессоров со случайными
членами могут служить факторы, действующие одновременно на сами
регрессовы и на объясняемые переменные при фиксированных значениях
регрессоров. В рассматриваемой экономической ситуации значения
объясняемых переменных и регрессоров формируются одновременно под
воздействием некоторых внешних факторов. Это означает, что
рассматриваемую модель следует дополнять уравнениями, в которых
объясняемыми переменными выступали бы сами регрессоры. Таким
образом приходится рассматривать системы одновременных или
регрессионных уравнений.
1. Структурная и приведенная формы моделей
Наибольшее распространение в эконометрических исследованиях
получила система взаимозависимых уравнений вида:
 y1  b12 y2  b13 y3 ...  b1n yn  a11 x1  a12 x2  ...  a1m xm   1
 y  b y  b y  ...  b y  a x  ...  a x  
 2 21 1 23 3 2n n 21 1 2m m 2

 ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...

 yn  bn1 y1  bn 2 y2  ...  bnn 1  an1 x1  anm xm   n

(7.1)
Система взаимозависимых уравнений (7.1) получила название
система совместных, одновременных уравнений. Тем самым
подчеркивается, что в системе одни и те же переменные у одновременно

80
рассматриваются как зависимые в одних уравнениях и как независимые в
других. В эконометрике эта система уравнений называется также
структурной формой модели.
Система совместных, одновременных уравнений (или структурная
форма модели) обычно содержит эндогенные и экзогенные переменные.
Эндогенные переменные обозначаются в системе одновременных
уравнений как y. Это зависимые переменные, число которых равно числу
уравнений в системе.
Экзогенные переменные обозначаются обычно как x. Это
предопределённые переменные, влияющие на эндогенные переменные, но
не зависящие от них.
Простейшая структурная форма модели (7.1) имеет вид:

Классификация переменных на эндогенные и экзогенные зависит от


теоретической концепции принятой модели. Экономические переменные
могут выступать в одних моделях как эндогенные, в других – как
экзогенные переменные.
Структурная форма модели позволяет увидеть влияние изменений
любой экзогенной переменной на значения эндогенной переменной.
Целесообразно в качестве экзогенных переменных выбирать такие
переменные, которые могут быть объектом регулирования. Меняя их и
управляя ими, можно заранее иметь целевые значения эндогенных
переменных.
Структурная форма модели в правой части содержит при эндогенных
и экзогенных переменных коэффициенты bi и aj (bi – коэффициент при
эндогенной переменной, aj - коэффициент при экзогенной переменной),
которые называются структурные коэффициенты модели.
Использование МНК для оценивания структурных коэффициентов
модели даёт, как принято считать в теории, смещённые и несостоятельные

81
оценки. Поэтому обычно для определения структурных коэффициентов
модели структурная форма модели преобразуется в приведенную форму
модели.
Приведенная форма модели представляет собой систему линейных
функций эндогенных переменных от экзогенных:

где – коэффициенты приведенной формы модели.

По виду приведенная форма модели ничем не отличается от системы


независимых уравнений, параметры которой оцениваются традиционным

методом наименьших квадратов. Применяя МНК, можно оценить , а

затем оценить значения эндогенных переменных через экзогенные.


Коэффициенты приведенной формы модели представляют собой
нелинейные функции коэффициентов структурной формы модели.
Рассмотрим это положение на примере простейшей структурной модели,

выразив коэффициенты приведенной формы модели через

коэффициенты структурной модели (aj и bi ).


Для упрощения в модель не введены случайные переменные.
Для структурной модели вида:

(7.2)

Приведенная форма модели имеет вид:

(7.3)

82
в которой из первого уравнения структурной модели можно выразить

следующим образом:

Тогда система одновременных уравнений будет приведена как

Отсюда имеем равенство:

или

тогда: +

или

Таким образом, мы представили первое уравнение структурной


формы модели в виде уравнения приведенной формы модели:

Из уравнения следует, что коэффициенты приведенной модели


представляют собой нелинейные соотношения коэффициентов
структурной формы модели, т.е.

Аналогично можно показать, что коэффициенты приведенной формы

модели второго уравнения системы ( ) также нелинейно связаны с

коэффициентами структурной модели. Для этого выразим переменную

из второго структурного уравнения модели как

83
Запишем это выражение в левой части первого уравнения

структурной формы модели 1):

Отсюда:
что соответствует уравнению приведенной формы модели:

т.е. и

Эконометрические модели обычно включают в систему не только


уравнения, отражающие взаимосвязи между отдельными переменными, но
и выражения тенденции развития явления, а также разного рода тождества.
Например, Т. Хаавелмо в 1947 г., исследуя линейную зависимость
потребления (с) от дохода (у), предложил одновременно учитывать
тождество дохода. В этом случае модель имеет вид:

где a и b – параметры линейной зависимости с от у; х – инвестиции в


основной капитал и в запасы экспорта и импорта.
Оценки параметров должны учитывать тождество дохода в отличие
от параметров обычной линейной регрессии.
В этой модели две эндогенные переменные – с и у и одна экзогенная
переменная х. система приведенных уравнений составит:

Она позволяет получить значения эндогенной переменной с через


переменную х. рассчитав коэффициенты приведенной формы модели (А0,
А1, В0, В1), можно перейти к коэффициентам структурной модели а и b,

84
подставив в первое уравнение приведенной формы выражение переменной
х из второго уравнения приведенной формы модели. Приведенная форма
модели хотя и позволяет получить значения эндогенной переменной через
значения экзогенных переменных, аналитически уступает структурной
форме модели, т.к. в ней отсутствуют оценки взаимосвязи между
эндогенными переменными.
2. Проблема идентификации
При переходе от приведенной формы модели к структурной
исследователь сталкивается с проблемой идентификации. Идентификация
– это единственность соответствия между приведённой и структурной
формами модели.
Рассмотрим проблему идентификации для случая с двумя
эндогенными переменными. Пусть структурная модель имеет вид:

Где у1 и у2 – совместные зависимые переменные.


Из второго уравнения можно выразить следующей формулой:

Тогда в системе имеем два уравнения для эндогенной переменной

с одним и тем же набором экзогенных переменных, но с разными


коэффициентами при них:

Наличие двух вариантов для расчёта структурных коэффициентов в


одной и той же модели связано с неполной её идентификацией.
Структурная модель в полном виде, состоящая в каждом уравнении
системы из n эндогенных и m экзогенных переменных, содержит п ∙ (п — 1

85
+ т) параметров. Так, при n=2 и m=3 полный вид структурной модели
составит:

(7.4)

Как видим, модель содержит восемь структурных коэффициентов,


что соответствует выражению п ∙ (п — 1 + т).
Приведённая форма модели имеет вид:

Действительно, она включает в себя шесть коэффициентов δij.


На основе шести коэффициентов приведенной формы модели
требуется определить восемь структурных коэффициентов
рассматриваемой структурной модели, что, естественно, не может
привести к единственности решения. В полном виде структурная модель
содержит большее число параметров, чем приведенная форма модели.
Соответственно п ∙ (п — 1 + т) параметров структурной модели не могут
быть однозначно определены из пт параметров приведенной формы
модели.
Для того чтобы получить единственно возможное решение для
структурной модели, необходимо предположить, что некоторые из
структурных коэффициентов модели ввиду слабой взаимосвязи признаков
с эндогенной переменной из левой части системы равны нулю. Тем самым
уменьшится число структурных коэффициентов модели. Так, если
предположить, что в нашей модели а13 = 0 и а21 = 0, то структурная модель
примет вид:

(7.5)

В такой модели число структурных коэффициентов не превышает


число коэффициентов приведенной модели, которое равно шести.
86
Уменьшение числа структурных коэффициентов модели возможно и
другим путем: например, приравниванием некоторых коэффициентов друг
к другу, т. е. путем предположений, что их воздействие на формируемую
эндогенную переменную одинаково. На структурные коэффициенты могут
накладываться, например, ограничения вида bij + aij=0.
С позиции идентифицируемости структурные модели можно
подразделить на три вида:
 идентифицируемые;
 неидентифицируемые;
 сверхидентифицируемые.
Модель идентифицируема, если все структурные ее коэффициенты
определяются однозначно, единственным образом по коэффициентам
приведенной формы модели, т. е. если число параметров структурной
модели равно числу параметров приведенной формы модели. В этом
случае структурные коэффициенты модели оцениваются через параметры
приведенной формы модели и модель идентифицируема. Рассмотренная
выше структурная модель (7.5) с двумя эндогенными и тремя экзогенными
(предопределенными) переменными, содержащая шесть структурных ко-
эффициентов, представляет собой идентифицируемую модель.
Модель неидентифицируема, если число приведенных коэф-
фициентов меньше числа структурных коэффициентов, и в результате
структурные коэффициенты не могут быть оценены через коэффициенты
приведенной формы модели. Структурная модель в полном виде (7.4),
содержащая п эндогенных и т предопределенных переменных в каждом
уравнении системы, всегда неидентифицируема.
Модель сверхидентифицируема, если число приведенных ко-
эффициентов больше числа структурных коэффициентов. В этом случае на
основе коэффициентов приведенной формы можно получить два или более
значений одного структурного коэффициента. В этой модели число
структурных коэффициентов меньше числа коэффициентов приведенной

87
формы. Так, если в структурной модели полного вида (7.4) предположить
нулевые значения не только коэффициентов а13 и а21 (как в модели (7.5)), но
и а22 = 0, то система уравнений станет сверхидентифицируемой:

(7.6)

В ней пять структурных коэффициентов не могут быть однозначно


определены из шести коэффициентов приведенной формы модели.
Сверхидентифицируемая модель в отличие от неидентифицируемой
модели практически решаема, но требует для этого специальных методов
исчисления параметров.
Структурная модель всегда представляет собой систему совместных
уравнений, каждое из которых необходимо проверять на идентификацию.
Модель считается идентифицируемой, если каждое уравнение системы
идентифицируемо. Если хотя бы одно из уравнений системы
неидентифицируемо, то и вся модель считается неидентифицируемой.
Сверхидентифицируемая модель содержит хотя бы одно
сверхидентифицируемое уравнение.
Выполнение условия идентифицируемости модели проверяется для
каждого уравнения системы. Для того чтобы уравнение было
идентифицируемо, нужно, чтобы число предопределенных переменных,
отсутствующих в данном уравнении, но присутствующих в системе, было
равно числу эндогенных переменных в данном уравнении без одного.
Если обозначить число эндогенных переменных в j-м уравнении
системы через Н, а число экзогенных (предопределенных) переменных,
которые содержатся в системе, но не входят в данное уравнение, — через
D, то условие идентифицируемости модели может быть записано в виде
следующего счетного правила:
D + 1 = Н — уравнение идентифицируемо;
D + 1 < Н— уравнение неидентифицируемо;

88
D + 1 > Н — уравнение сверхидентифицируемо.
Предположим, рассматривается следующая система одновременных
уравнений:

(7.7)

Первое уравнение точно идентифицируемо, ибо в нем присутствуют


три эндогенные переменные—у1,у2,у3,т.е. H=3,и две экзогенные
переменные — х1 и х2, число отсутствующих экзогенных переменных равно
двум — x3 и х4, D =2. Тогда имеем равенство: D + 1 = Н, т. е. 2 + 1 = 3, что
означает наличие идентифицируемого уравнения.
Во втором уравнении системы Н = 2 (у1 и у2) и D = 1(х4). Равенство
D + 1 = Н, т.е. 1 + 1=2. Уравнение идентифицируемо.
В третьем уравнении системы Н=3 (у1 , у2, y3), a D = 2 (х1 и х2).
Следовательно, по счетному правилу D + 1 = Н, и это уравнение
идентифицируемо. Таким образом, система (7.7) в целом иденти-
фицируема.
Предположим, что в рассматриваемой модели а21 = 0 и а33 = 0. Тогда
система примет вид:

(7.8)

Первое уравнение этой системы не изменилось. Система по-


прежнему содержит три эндогенные и четыре экзогенные переменные,
поэтому для него D = 2 при H= 3, и оно, как и в предыдущей системе,
идентифицируемо. Второе уравнение имеет Н= 2 и D = 2 (x1 , x4), так как
2+1 > 2. Данное уравнение сверхидентифицируемо. Также
сверхидентифицируемым оказывается и третье уравнение системы, где Н=

89
3 (y1, y2, y3) и D = 3 (х1 х2, х3), т.е. счетное правило составляет неравенство:
3 + 1 > 3 или
D + 1 >Н. Модель в целом является сверхидентифицируемой.
Предположим, что последнее уравнение системы (7.8) с тремя
эндогенными переменными имеет вид:

т. е. в отличие от предыдущего уравнения в него включены еше две


экзогенные переменные, участвующие в системе, — х1 и х2. В этом случае
уравнение становится неидентифицируемым, ибо при Н = 3, D = 1
(отсутствует только х3) и D + 1 < Н, 1 + 1 < 3. Итак, несмотря на то, что
первое уравнение идентифицируемо, второе сверхидентифицируемо, вся
модель считается неидентифицируемой и не имеет статистического
решения.
Для оценки параметров структурной модели система должна быть
идентифицируема или сверхидентифицируема.
Рассмотренное счетное правило отражает необходимое, но
недостаточное условие идентификации. Более точно условия
идентификации определяются, если накладывать ограничения на
коэффициенты матриц параметров структурной модели. Уравнение
идентифицируемо, если по отсутствующим в нем переменным
(эндогенным и экзогенным) можно из коэффициентов при них в других
уравнениях системы получить матрицу, определитель которой не равен
нулю, а ранг матрицы не меньше, чем число эндогенных переменных в
системе без одного.
Целесообразность проверки условия идентификации модели через
определитель матрицы коэффициентов, отсутствующих в данном
уравнении, но присутствующих в других уравнениях, объясняется тем, что
возможна ситуация, когда для каждого уравнения системы выполнено
счетное правило, а определитель матрицы названных коэффициентов

90
равен нулю. В этом случае соблюдается лишь необходимое, но
недостаточное условие идентификации.
Обратимся к следующей структурной модели:

(7.9)

Проверим каждое уравнение системы на необходимое и достаточное


условия идентификации. Для первого уравнения Н = 3 (у1 , у2, у3) и D = 2 (х3
и х4 отсутствуют), т. е. D + 1 = Н, необходимое условие идентификации
выдержано, поэтому уравнение точно идентифицируемо. Для проверки на
достаточное условие идентификации заполним следующую таблицу
коэффициентов при отсутствующих в первом уравнении переменных, в
которой определитель матрицы |A| коэффициентов равен нулю.
Матрица коэффициентов (1)
Переменные
Уравнение
x3 x4
2 a23 a24
3 0 0

Следовательно, достаточное условие идентификации не выполняется


и первое уравнение нельзя считать идентифицируемым.
Для второго уравнения Н = 2 (у1 и у2), D = 1 (отсутствует х1) счетное
правило дает утвердительный ответ: уравнение идентифицируемо
(D+1=Н).
Достаточное условие идентификации выполняется. Коэффициенты
при отсутствующих во втором уравнении переменных составят.
Матрица коэффициентов (2)
Переменные
Уравнение
y3 x1
1 b13 a11
3 –1 a31

91
Согласно таблице |A| ≠ 0, а ранг матрицы равен 2, что соответствует
следующему критерию: ранг матрицы коэффициентов должен быть не
меньше числа эндогенных переменных в системе без одной. Итак, второе
уравнение точно идентифицируемо.
Третье уравнение системы содержит Н = 3 и D = 2, т. е. по не-
обходимому условию идентификации оно точно идентифицируемо
(D+1=Н). Противоположный вывод имеем, проверив уравнение на
достаточное условие идентификации. Составим таблицу коэффициентов
при переменных, отсутствующих в третьем уравнении, в которой |A| = 0.
Матрица коэффициентов (3)
Уравнение Переменные
х3 х4
1 0 0
2 а23 а24
Из таблицы видно, что достаточное условие идентификации не
выполняется. Уравнение неидентифицируемо. Следовательно,
рассматриваемая в целом структурная модель, идентифицируемая по
счетному правилу, не может считаться идентифицируемой исходя из
достаточного условия идентификации.
В эконометрических моделях часто наряду с уравнениями, па-
раметры которых должны быть статистически оценены, используются
балансовые тождества переменных, коэффициенты при которых равны ±1.
В этом случае хотя само тождество и не требует проверки на
идентификацию, ибо коэффициенты при переменных в тождестве
известны, в проверке на идентификацию собственно структурных
уравнений системы тождества участвуют.
Например, рассмотрим эконометрическую модель экономики
страны:

92
где у1 — расходы на конечное потребление данного года;
А — свободный член уравнения;
— случайные ошибки;

у2 — валовые инвестиции в текущем году;


х1 — валовой доход предыдущего года;
yз — расходы на заработную плату в текущем году;
у4— валовой доход за текущий год;
х2 — государственные расходы текущего года.
В этой модели четыре эндогенные переменные у1, у2, у3, y4, причем
переменная у4 задана тождеством. Поэтому статистическое решение
практически необходимо только для первых трех уравнений системы,
которые нужно проверить на идентификацию. Модель содержит две
предопределенные переменные – экзогенную х2 и лаговую х1.
При практическом решении задачи на основе статистической
информации за ряд лет или по совокупности регионов за один год в
уравнениях для эндогенных переменных у1 у2, y3 обычно содержится
свободный член А01, А02, А03, значение которого аккумулирует влияние
неучтенных в уравнении факторов и не влияет на определение
идентифицируемости модели.
Поскольку фактические данные об эндогенных переменных у1, у2, y3
могут отличаться от теоретических, постулируемых моделью, принято в
модель включать случайную составляющую для каждого уравнения
системы, исключив тождества. Случайные составляющие (возмущения)

обозначены через 1, 2 и 3 ,. Они не влияют на решение вопроса об

идентификации модели.
В рассматриваемой эконометрической модели первое уравнение
системы точно идентифицируемо, ибо H = 3 и D = 2, и выполняется
необходимое условие идентификации (D + 1 = Н). Кроме того,
выполняется и достаточное условие идентификации, т. е. ранг матрицы

93
равен 3, а определитель ее не равен 0 : |A| =-a31, что видно из следующей
таблицы:
Уравнение y2 x1 x2
2 –1 а21 0
3 0 – а31 0
4 1 0 1

Второе уравнение системы так же точно идентифицируемо: Н = 2 и


D =1, т. е. счетное правило выполнено: D + 1 = Н, выполнено достаточное
условие идентификации: ранг матрицы 3 и |A| = -b34.
Уравнение y1 y4 x2
1 –1 b14 0
3 0 b34 0
4 1 –1 1
Третье уравнение системы также идентифицируемо: Н = 2, D=1,
D+1=Н; |A| ≠ 0, а ранг матрицы А = 3 и |A| = 1.
Уравнение y1 y2 x2
1 –1 0 0
2 0 –1 0
4 1 1 1
Идентификация уравнений достаточно сложна и не ограничивается
только вышеизложенным. На структурные коэффициенты модели могут
накладываться и другие ограничения, например, в производственной
функции сумма эластичностей может быть равна по предположению 1.
Могут накладываться ограничения на дисперсии и ковариации остаточных
величин.
3. Оценивание параметров структурной модели

Коэффициенты структурной модели могут быть оценены разными


способами в зависимости от вида системы одновременных уравнений.
Наибольшее распространение в литературе получили следующие методы
оценивания коэффициентов структурной модели:
• косвенный метод наименьших квадратов (КМНК);
• двухшаговый метод наименьших квадратов (ДМНК);

94
• трехшаговый метод наименьших квадратов (ТМНК);
•метод максимального правдоподобия с полной информацией (ММПf);
• метод максимального правдоподобия при ограниченной информации
(ММП5).
Косвенный и двухшаговый методы наименьших квадратов подробно
описаны в литературе и рассматриваются как традиционные методы
оценки коэффициентов структурной модели. Эти методы достаточно
легкореализуемы. Косвенный метод наименьших квадратов применяется
для идентифицируемой системы одновременных уравнений, а
двухшаговый метод наименьших квадратов — для оценки коэффициентов
сверхидентифицируемой модели. Перечисленные методы оценивания
также используются для сверхидентифицируемых систем уравнений.
Приведем здесь косвенный метод наименьших квадратов.
Косвенный метод наименьших квадратов используется в случае точно
идентифицируемой структурной модели. Процедура применения КМНК
предполагает выполнение следующих этапов работы:
 структурная модель преобразовывается в приведенную форму модели;
 для каждого уравнения приведенной формы модели обычным МНК
оцениваются приведенные коэффициенты (ij);
 коэффициенты приведенной формы модели трансформируются в
параметры структурной модели.
Рассмотрим применение КМНК для простейшей идентифицируемой
эконометрической модели с двумя эндогенными и двумя экзогенными
переменными:
 y1  b12 y 2  a11 x1   1 ,

 y 2  b21 y1  a 22 x 2   2 .

Пример. Пусть для построения данной модели мы располагаем


некоторой информацией по пяти регионам (табл. 7.1).
Таблица 7.1
Условные данные по пяти регионам

95
Регион у1 у2 х1 х2

1 2 5 1 3
2 3 6 2 1
3 4 7 3 2
4 5 8 2 5
5 6 5 4 6
Средние 4 6,2 2,4 3,4

При практических расчетах требуется, конечно, значительно


больший объем информации, включающий достаточно большое число
регионов.
Приведенная форма модели составит:
 y1   11 х1   12 x2  и1 ,

 y 2   21 х1   22 x2  и 2 .

где и1, и2 – случайные ошибки приведенной формы модели.

Для каждого уравнения приведенной формы модели применяем


традиционный МНК и определяем -коэффициенты.
Чтобы упростить процедуру расчетов, можно работать с
отклонениями от средних уровней, т. е. у = у – у и х = х – х . Тогда для
первого уравнения приведенной формы модели система нормальных
уравнений составит:
 y1 x1  11  x1  12  x1 x2 ,
 2


 y1 x2  11  x1 x2  12  x2 .
2

Применительно к рассматриваемому примеру, используя отклонения от


средних уровней, имеем:
6  5,2  11  4,212 ,

10  4,2  11  17,212 .

Решив данную систему, получим следующее первое уравнение


приведенной формы модели:

96
у1 = 0,852х1 + 0,373х2 + и1.

Аналогично применяем МНК для второго уравнения приведенной


формы модели и получаем:
у2 = 21х1 + 22х2 + и2.
Система нормальных уравнений составит:

 y2 x1   21  x1   22  x1 x2 ,
 2


 y2 x2   21  x1 x2   22  x2 .
2

В соответствии с нашим примером имеем:


  0,4  5,2 21  4,2 22 ,

 0,4  4,2 21  17,2 22 .

Откуда второе приведенное уравнение составит:


у2 = – 0,0728х1 – 0,00557х2 + и2.

Таким образом, приведенная форма модели имеет вид:


 y1  0,852 х1  0,373 x2  и1 ,

 y2  0,0728 х1  0,00557 x2  и2 .

Переходим от приведенной к структурной форме модели, т. е. к


системе уравнений
 y1  b12 y 2  a11 x1   1 ,

 y 2  b21 y1  a 22 x 2   2 .
Для этой цели из первого уравнения приведенной формы модели
надо исключить х2, выразив его из второго уравнения приведенной формы
и подставив в первое:
 0,072 х1  у2
х2  .
0,00557

Тогда:
  0,072 õ1  ó2 
óˆ1  0,852 õ1  0,373 ;
 0,00557 
ˆ 1  66,966 ó2  3,970 õ1
ó – первое уравнение структурной модели.

97
Для того чтобы найти второе уравнение структурной модели,
обратимся вновь к приведенной форме модели. С этой целью из второго
уравнения приведенной формы модели следует исключить х1, выразив его
через первое уравнение и подставив во второе:
Итак, структурная форма модели имеет вид:
 y1  66,966 y2  3,970 x1   1 ,

 y2  0,085 y1  0,026 x2   2 .
Оценка значимости модели дается через F-критерий и R2 для каждого
уравнения в отдельности. В рассматриваемом примере хороших
результатов достичь не удалось: ввиду малого числа наблюдений значения
F-критерия Фишера несущественны (при уровне значимости 0,05 F-
табличное значение равно 19, а фактическое F = 7 для первого уравнения).
Заключение
Одной из причин коррелированности регрессоров со случайными
членами могут служить факторы, действующие одновременно на сами
регрессоры и на объясняемые переменные при фиксированных значениях
регрессоров. В рассматриваемой экономической ситуации значения
объясняемых переменных и регрессоров формируются одновременно под
воздействием некоторых внешних факторов. Это означает, что
рассматриваемую модель следует дополнять уравнениями, в которых
объясняемыми переменными выступали бы сами регрессоры. Таким
образом приходится рассматривать системы одновременных или
регрессионных уравнений.
Контрольные вопросы:
1. Какие системы уравнений используются в эконометрике?
2. Какие переменные в системе одновременных уравнений называют
экзогенными, а какие – эндогенными?
3. Какой вид имеет структурная форма модели?
4. Какой вид приведенной формы модели?

98
5. Как связаны между собой структурная и приведенная формы
моделей?
6. В чем состоят проблемы идентификации модели?
7. Какие модели называют идентифицируемыми,
неидентифицируемыми, сверхидентифицируемыми?
8. Каковы необходимые и достаточные условия идентификации?
9. В чем суть косвенного метода наименьших квадратов?

УЧЕБНО-МЕТОДИЧЕСКОЕ И ИНФОРМАЦИОННОЕ
ОБЕСПЕЧЕНИЕ ДИСЦИПЛИНЫ

Ростовский филиал
Издания в электронной библиотечной системе
1. Артамонов, Н. В. Введение в эконометрику / Н. В. Артамонов. – М.:
МЦНМО, 2011. – 204 с. – Режим доступа:
http://www.biblioclub.ru/book/63323
2. Валентинов, В.А. Эконометрика: учебник / В.А. Валентинов. – М.:
Дашков и К, 2009. - Режим доступа: http://www.knigafund.ru/books/59715
3. Эконометрика: учебник. – М.: Дашков и К, 2011. – Режим доступа:
http://www.knigafund.ru/books/76377
Литература
Основная
1. Елисеева, И.И. Эконометрика: учебник для магистрантов / И.И.
Елисеева [и др.]; под ред. И.И. Елисеевой. – М.: Юрайт, 2012.
2. Кремер, Н. Ш. Эконометрика: учебник / Н. Ш. Кремер, Б.А. Путко. – М.:
ЮНИТИ-ДАНА, 2010.
3. Эконометрика: учеб. пособие / под ред. И.И. Елисеевой. – М.: Финансы
и статистика, 2010.
Дополнительная
1. Афанасьев, В.Н. Анализ временных рядов и прогнозирование: учебник /
В.Н. Афанасьев, М.М. Юзбашев. – М.: Финансы и статистика; ИНФРА-М,
2012.
2. Бородич, С.А. Эконометрика / С. А. Бородич. – Минск: Новое знание,
2008.
3. Дайитбегов, Д.М. Компьютерные технологии анализа данных в
эконометрике: вузовский учебник / Д.М. Дайитбегов. – М., 2008.
4. Орлова, И.В. Экономико-математические методы и модели:
компьютерные моделирование: учебное пособие/ И.В. Орлова, В.А.
Половников. – М.: ВЗФЭИ, 2011.
5. Практикум по эконометрике / под ред. И.И. Елисеевой. – М.: Финансы и
статистика, 2010.

99
6. Green W. Econometric Analysis \ W.H.Green. – 5 th Edition –New Jersy:
Prentice Hall, 2003.
7. Baltagi B.H. Econometric Analysis of Panel Data \ B.H. Baltagi. – 3 rd Edition.
– Cambridge Academ, Cambridge, 2002.
8.Verbeek M. A Guide to Modern Econometrics \ M.Verbeek. – 2 nd Edition. –
Chichester: John Wiley & Sons, Ltd, 2004.

Методические (рекомендации) указания


1. Цвиль, М.М. Учебно-методические указания по самостоятельной работе
студентов по дисциплине «Эконометрика» / М.М. Цвиль. – Ростов н/Д:
Российская таможенная академия, Ростовский филиал, 2011.
2. Цвиль, М.М. Конспект лекций по дисциплине «Эконометрика» / М.М.
Цвиль. – Ростов н/Д: Российская таможенная академия, Ростовский
филиал, 2012.
Владивостокский филиал
Издания в электронной библиотечной системе
1. Айвазян, С.А., Мхитарян, В.С. Прикладная статистика и основы
эконометрики: Учебник. – М.: ЮНИТИ-ДАНА, 2010. – 618 с.
http://economx.narod.ru/readbooks.htm
2. Практикум по эконометрике. Учебное пособие / И.И. Елисеева, С.В.
Курышева, Д.М. Гордиенко и др.; под ред. И.И. Елисеевой. – М.: Финансы
и статистика, 2005. – 192 с.: ил. (Djvu, 1,98 Mb) –
http://economx.narod.ru/readbooks.htm
3. Эконометрика. Учебное пособие / И.И. Елисеева, С.В. Курышева, Д.М.
Гордиенко и др.; под ред. И.И. Елисеевой. – М.: Финансы и статистика,
2004. – 344 с.: ил. (Djvu, 2,50 Mb) – http://economx.narod.ru/readbooks.htm
4. Эконометрика: учебник / под ред. Уткина В.Б. – 2-е изд. – М.: Дашков и
К, 2011. – 564 с. – http://www.dashkov.ru
5. Эконометрика: учебник: Гриф МО, УМЦ / Н.Ш. Кремер, Б.А. Путко. –
3-е изд., перераб. и доп. – М.: ЮНИТИ, 2010. – 328 с.
http://economx.narod.ru/readbooks.htm
Литература
Основная
1. Эконометрика: учебник / под ред. В.Б. Уткина. – 2-е изд. – М.: Дашков и
К, 2009. – 564 с.
2. Эконометрика: учебник / Н.Ш. Кремер, Б.А. Путко. – 3-е изд., перераб. и
доп. – М.: ЮНИТИ, 2010. – 328 с.
Дополнительная
1. Эконометрика: практикум / В.А. Валентинов. – 2-е изд. – М.: Дашков и
К, 2009. – 436 с.
2. Эконометрика [Электронный ресурс]: учеб. мультимедийный курс. –
Электрон. дан. – Саратов: Диполь, 2007. – 1 электрон. опт. диск (CD-
ROM).
Программное обеспечение и Интернет-ресурсы

100
1. http://www.garant.ru – ГАРАНТ. Сайт позволяет ознакомиться с
законодательством РФ (с комментариями), а также с новостями органов
государственной власти РФ.
2. http://www.consultant.ru – Общероссийская сеть распространения
правовой информации «Консультант Плюс». Содержит онлайн-версии
систем; графические копии документов; обзоры законодательства;
полезные ссылки.
3. http://akdi.ru – Информационное агентство по экономике и
правоведению. Имеет собственную базу данных по Государственной Думе
и Совету Федерации Федерального Собрания РФ, Конституционному суду
РФ, Высшему Арбитражному суду РФ. Базы данных включают законы,
законопроекты, решения и резолюции, новости правоведения и экономики.
4. http://www.rg.ru/oficial - сайт "Российской газеты". Государственные
документы, публикующиеся в газете (и на сайте): федеральные
конституционные законы, федеральные законы (в том числе кодексы),
указы Президента РФ, постановления и распоряжения Правительства РФ,
нормативные акты министерств и ведомств (в частности приказы,
инструкции, положения и т.д.).
5. http://www.cbr.ru. – Банк Росси (ЦБ)
6. http://www.micex.ru. – Московская Межбанковская валютная биржа
7. http://www.gks.ru. – Федеральная служба государственной статистики
8. http://www.data.worldbank.org. – Информационный портал Всемирного
банка

101
Учебное издание

Конспекты лекций
по дисциплине
«Эконометрика (продвинутый уровень)»

Направление подготовки: 080100.68 «Экономика»

Квалификация (степень) выпускника: «магистр»

Автор
Цвиль Мария Михайловна

Издано в авторской редакции

Подписано в печать __.__.2012. Формат 60×84/16.


Усл. печ. л. ... Уч.-изд. л. ... Тираж … экз. Заказ ...

Владивостокский филиал Российской таможенной академии


Редакционно-издательское отделение
690034, г. Владивосток, ул. Стрелковая, 16в.

102

Вам также может понравиться