Открыть Электронные книги
Категории
Открыть Аудиокниги
Категории
Открыть Журналы
Категории
Открыть Документы
Категории
КОНСПЕКТ ЛЕКЦИИ
Владивосток
2012
Учебные вопросы
1. Матричная форма линейной модели множественной регрессии.
2. Оценка параметров классической регрессионной модели методом
наименьших квадратов.
3. Предпосылки для множественного регрессионного анализа.
4. Стандартизированное уравнение линейной множественной регрессии.
5. Множественная линейная корреляционная зависимость.
6. Частные коэффициенты корреляции.
7. Коэффициенты множественной корреляции.
8. Отбор факторов в случае линейной множественной регрессии
Введение
Экономические явления, как правило, определяются большим
числом одновременно и совокупно действующих факторов. Возникает
задача исследования зависимости одной зависимой переменной Y от
нескольких объясняющих переменных: Х1, Х2, …, ХР. Эта задача решается с
помощью множественного регрессионного анализа.
Множественная регрессия представляет собой регрессию
результативного признака с двумя или большим числом независимых
переменных вида
Y f ( X 1 , X 2 ,..., X p ) .
2
При исследовании зависимости результативного признака Y от ряда
факторов X 1 , X 2 ,..., X p необходимо решать такие же задачи, что и при
парной связи двух переменных X и Y :
определение вида регрессии;
оценка параметров;
определение тесноты связи, если переменные X и Y - случайные
величины.
Однако наряду с этими задачами необходимо рассматривать и ряд
задач, характерных лишь для множественной регрессии и корреляции. К
таким задачам относится отбор факторов X 1 , X 2 ,..., X p , существенно
влияющих на фактор Y , при наличии возможностей внутренней
взаимосвязи между переменными X 1 , X 2 ,..., X p . Такой отбор требует
прежде всего глубокого теоретического и практического знания
качественной стороны рассматриваемых экономических явлений.
Особенностью множественной регрессии и корреляции является
необходимость различать случаи корреляционной множественной связи,
когда переменные x1 , x2 ,..., x p являются случайные величинами;
регрессионной, если переменные x1 , x2 ,..., x p – неслучайными величинами,
а также смешанный случай, когда некоторые из переменных – случайные
величины, а другие – неслучайные.
Отбор факторов x1 , x2 ,..., x p , существенно влияющих на фактор y
при наличии возможностей внутренней взаимосвязи между переменными
x1 , x2 ,..., x p осуществляется обычно в несколько этапов. Сначала
отбираются факторы, связанные с изучаемым явлением на основе данных
теоретического исследования (экономическая теория, заключения
специалиста и т.д.). При этом для построения множественной регрессии и
корреляции отбираются факторы, которые могут быть количественно
измеримы.
Далее отобранные факторы подвергаются проверке существенности
их влияния на изучаемый показатель с использованием методов
3
математической статистики. Такая проверка, как правило, включает анализ
матрицы парных коэффициентов корреляции, частных корреляций,
проверку существенности (значимости) коэффициентов регрессии на
основе t –критерия, анализ остатков (отклонений) и т.д.
1. Матричная форма линейной модели множественной регрессии.
Обозначим: i-ое наблюдение зависимой переменной – уi, а
объясняющих переменных – xi1, xi2, … , xip. Тогда модель множественной
линейной регрессии можно представить в виде:
yi 0 1 xi1 2 xi 2 p xip i (1.1)
i 1, 2,..., n – объем выборки;
i удовлетворяет предпосылкам регрессионного анализа:
1. i – случайная величина, а объясняющие переменные – неслучайные
величины;
2. M ( i ) 0 ;
4
y1
y
Yn1 2 – матрица-столбец, или вектор значений зависимой переменной
...
y
n
1
2 – матрица-столбец, или вектор возмущений (случайных ошибок,
...
n
остатков) размера n.
Тогда в матричной форме модель (1.1) примет вид:
Y X . (1.2)
Оценкой этой модели по выборке является уравнение
Y Xb e , (1.3)
b0 e1
b1 e
где b(p + 1) 1 bp1
... , en1 2,
...
eT 1n e1 e2 ... en
b e
p n
5
Для оценки вектора неизвестных параметров применим метод
наименьших квадратов. Так как произведение транспонированной
матрицы eT на саму матрицу e
e1
e n
eT e e1 e2 ... en 2 e12 e22 ... en2 ei2 ,
...
i 1
e
n
n n
S y xi yi ei2 eT e Y Xb Y Xb min .
T
i 1 i 1
S S S
частные производные по этим переменным 0, 0, ... 0
b0 b1 b p
S S S
или в матричной форме – вектор частных производных ,...,
b b0 bp
S
должен быть ноль-вектором , т.е. b
0.
6
b1
Известно (из алгебры матриц) для векторов: b b1 , b2 ,..., bn , T
b ... ,
b
n
с1
с ... .
с
n
c1
b c b1 ,..., bn ... b1c1 b2 c2 ... bn cn .
T
c
n
b
bT c c
a11 a12 ... a1n
a a 22 ... a 2 n
b T Ab 2 Ab , где A 12 – симметрическая матрица, в
b ... ... ... ...
a a2n ... a nn
1n
7
1 1 ... 1 1 x11 x12 ... x1 p
x11 x21 ... xn1 1 x21 x22 ... x2 p
XTX
... ... ... ... ... ... ... ... ...
x x2 p ... xnp 1 xn1 xn 2 ... xnp
1p
n n n
n
xi1
i 1
xi 2
i 1
... x
i 1
ip
n n n n
x x
xi1 2
i1
x
i1 i 2 ... xi1 xip
i 1 i 1 i 1 i 1
n ... ... ... ... ...
n n
xip x x
i1 ip .... ... x ip2
i1 i 1 i 1
Матрица X T Y есть вектор произведений n наблюдений объясняющих и
зависимой переменных:
1 1 ... 1 y1 yi
x11 x21 ... xn1 y2 xi1 yi
X TY
... ... ... ... ... ...
x
1p x2 p ... xnp yn xip yi
x b ... x b y
nb0
x b x b ... x x b x
i1 1 ip p i
2
i1 0 i1 1 i1 ip p i1 yi
(1.5)
...
x b
ip 0
xi1 xip b1 ... x b x
ip
2
p ip yi
Для решения системы (3.5) или матричного уравнения (3.4) нужна еще
одна предпосылка: X T X - невырожденная матрица, т.е. XTX 0 . Тогда
решение имеет вид:
b ( X T X ) 1 ( X T Y ) . (1.6)
8
1 x11 x12 ... x1 p 0
1 x21 x22 ... x2 p 1
X n( p 1) , .
... ... ... ... ... ...
1 xn1 xn 2 ... xnp
p
3. M ( T ) 2 En ;
;
5. r( X ) p 1 n .
b0
b1
X 0T (1, x10 , x20 ,..., x p 0 ) * b0 b1 x10 ... b p x p 0
...
b
p
Пример.
Имеются данные о сменной добыче угля на одного рабочего Y (m) ,
9
Предполагая, что между переменными Y , X1, X 2 существует линейная
корреляционная зависимость, найти уравнение регрессии Y по X 1, X 2 .
i xi1 xi 2 yi x i21 x i22 y i2 xi1 xi 2 yi xi1 yi xi 2 yi ei2 ( yi yi ) 2
1 8 5 5 64 25 25 40 40 25 5,1 0,016
3
2 11 8 10 121 64 100 88 110 80 8,7 1,464
9
3 12 8 10 144 64 100 96 120 80 9,6 1,127
4
4 9 5 7 81 25 49 45 63 35 5,9 1,038
8
5 8 7 5 64 49 25 56 40 35 5,8 0,741
6
6 8 8 6 64 64 36 64 48 48 6,2 0,052
3
7 9 6 6 81 36 36 54 54 36 6,3 1,121
5
8 9 4 5 81 16 25 36 45 20 5,6 1,377
1
9 8 5 6 64 25 36 40 48 30 5,1 0,762
3
1 12 7 8 144 49 64 84 96 56 9,2 1,631
0 8
94 63 68 908 417 496 603 664 445 - 6,329
10
4. Стандартизированное уравнение линейной множественной
регрессии
Если коэффициенты линейной множественной регрессии
рассматривать в качестве показателей влияния факторов, то следует иметь
в виду, что коэффициенты регрессии в уравнении
yˆ b0 b1 x1 b2 x 2 ... b p x p (1.7)
11
Рассмотрим отбор факторов для построения множественной
линейной зависимости, когда переменные y , x1 , x2 ,..., x p являются
случайными величинами (обычно предполагается, что их совместное
распределение нормальное).
Наиболее простой формой зависимости, достаточно строго
обоснованной для случая совместного нормального распределения,
является линейная зависимость, т.е. зависимость вида
y a0 a1 x1 a2 x2 ... a p x p (2.1)
Такая зависимость во многих случаях довольно хорошо отражает
сложившиеся экономические взаимосвязи. Исходная информация для
построения зависимости (2.1) обычно задается в виде некоторой таблицы.
№ Факторы, для которых получены данные
x1 x2 x3 … xk y
1 x11 x21 x31 … xk1 y1
2 x12 x22 x32 … xk2 y2
3 x13 x23 x33 … xk3 y3
… … … … … … …
n x1n xn x3n xkn yn
Следует определить, все ли переменные следует включать в
уравнение (2.1) или есть переменные, которые существенно не влияют на
величину y и их нецелесообразно включать в (2.1). В первом случае p=k,
втором p<k.
Корреляционная связь может существовать как между двумя
факторами (интеркорреляция), так и между несколькими факторами
(мультиколлинеарность). Существование корреляционной связи между
факторами может быть выявлено с помощью показателей корреляции
между ними, в частности, с помощью парных коэффициентов корреляции,
которые рассчитываются по формулам:
n
(y i y )( x ji x j )
ryx j i 1
, j 1,2,..., k .
n n
(y
i 1
i y) 2
(x
i 1
ji xj) 2
12
n
(x l x l )( x ji x j )
rxl x j i 1
, j 1,2,..., k
n n
(x
i 1
l xl ) 2
(x
i 1
ji xj) 2
x1 rx y 1
1 rx x rx x … rx x 1 2 1 3 1 k
x2 rx y 2
rx x 1 2 1
rx x … rx x 2 3 2 k
x3 rx y 3
rx x rx x 3 1
1 … rx x 3 2 3 k
… … … … … 1 …
xk rx y k
rx x rx x k
…1
… 1 k 2
13
rx1x1 rx1x2 ... rx1x p
rx x rx2 x2 ... rx2 x p
rxx 2 1
... ... ... ... .
rx x rx p x2 ... rx p x p
p1
близок к нулю.
Пример 1.
Пусть получена таблица
y x1 x2 x3
y 1 0,6 0,5 0,7
x1 - 1 0,04 0,03
x2 - - 1 0,1
x3 - - - 1
На основании указанных в таблице парных коэффициентов
корреляции можно сделать вывод, что связь факторов x1,x2,x3 с фактором y
существенная (коэффициенты корреляции, соответственно, 0,6; 0,5; 0,7).
Теснота связи между факторами x1,x2,x3 незначительная (коэффициенты
корреляции 0,04; 0,03; 0,1) и rxx 0,988 .
14
переменными х1 и х3 (коэффициент корреляции 0,9), что показывает их
тесную корреляционную взаимосвязь. В этом случае в уравнение (2.1) не
включают одновременно х1 и х3, а вводят один из них в зависимости от их
смысла и мнения исследователя. Нецелесообразно одновременно включать
в уравнение показатели, представляющие сумму некоторых факторов или
их составных частей, а также характеризующие один и тот же фактор,
выраженный в различных единицах измерения, например, абсолютных и
относительных.
6. Частные коэффициенты корреляции
Обычно кроме анализа таблицы парных коэффициентов корреляции
для отбора существенных факторов вычисляют частные коэффициенты
корреляции, определяют надежность полученных коэффициентов
регрессии по t – критерию и другие методы.
При анализе последней таблицы парных коэффициентов корреляции связи
можно обратить внимание на то, что связи между изучаемыми
переменными довольно сложным образом переплетаются между собой.
Поэтому целесообразно рассмотреть вопрос о взаимосвязи между
факторами при условии, что некоторые или все остальные факторы
остаются неизменными.
Для выявления такой взаимосвязи используются коэффициенты
частной корреляции.
Вычислим коэффициент частной корреляции между факторами у и х1
при условии, что фактор х2 закреплен на постоянном уровне (остается
неизменным), тогда он равен
ryx1 ryx2 rx1 x2
ryx1 ( x2 ) (2.2)
1 ryx2 2 1 rx21 x2
15
обычный коэффициент парной корреляции можно называть частным
коэффициентом корреляции нулевого порядка.
В выражении (2.2) частный коэффициент первого порядка
(закреплен один фактор х2 в скобках) выражается через коэффициенты
нулевого порядка.
Частные коэффициенты корреляции второго порядка можно
выразить через коэффициенты первого порядка при помощи соотношения
ryx1 ( x2 ) ryx3 ( x2 ) rx1 x3 ( x2 )
ryx1 ( x2 x3 ) (2.3)
1 ryx2 3 ( x2 ) 1 rx21 x3 ( x2 )
ryx1
ryx1 ( x2 ) (2.4)
1 rx21x2
2
если ryx мал, а rx х велик, то ryx ( х
1 1 2 1 2 ) может быть также большим.
Пример 3.
Дано ryx 0,095 , rx х 0,994 , ryx 0 вычислить ryx ( х ) .
1 1 2 2 1 2
Решение.
0,095
ryx1 ( x2 ) 0,95
1 0,99
16
квадратов. Система нормальных уравнений в случае линейной
зависимости (2.1) имеет вид
a0 n a1 x1i a2 x2i ... a p x pi yi ,
a0 x1i a1 x1i a2 x1i x 2i ... a p x1i x pi x1i yi ,
2
...
a0 x pi a1 x1i x pi a2 x 2i x pi ... a p x 2pi x pi yi ,
17
детерминации R2=0,49, т.е. 49% вариаций объясняется факторами,
включенными в уравнение регрессии, а 51% – прочими факторами.
Существенность отличия от нуля выборочного коэффициента
множественной корреляции проверяется на основе F-критерия (критерий
Фишера). Вычисляется величина
F R 2 (n p 1) /(1 R 2 ) p (2.6)
где R – множественный коэффициент корреляции; p – число факторов
x1 , x 2 ,..., x p ; n – число наблюдений.
Найденное значение критерия F сравнивается с Fтабл при числе
степеней свободы v1 p, v2 n p 1 и заданном уровне значимости .
Если расчетное значение F превышает табличное, то гипотеза о равенстве
коэффициента множественной корреляции нулю отвергается и связь
считается существенной.
Пример 4.
Дано: R=0,75, p=4, n=16, определить существенность связи.
Решение.
Вычислим критерий F по формуле (2.6):
F=0,5625∙(16-4-1)/4∙(1-0,5625)=3,53.
Fтабл=3,36 при и уровне значимости 0,95. Расчетное значение F-критерия
превышает табличное, поэтому можно сделать вывод о существенности
связи.
8. Отбор факторов в случае линейной множественной регрессии
Если факторы-аргументы не являются случайными величинами, то
коэффициенты корреляции не могут быть использованы при построении
уравнения регрессии, так как они не могут быть интерпретированы как
показатели тесноты связи.
Существенность вводимых факторов в случае линейной
множественной регрессии может быть проверена одновременно с
существенностью коэффициентов регрессии.
Для проверки существенности вычисляется отношение
18
t i ai / i , i 1,2,..., n (2.7)
где ai – коэффициент множественной регрессии; i – среднее
квадратическое отклонение этого коэффициента.
Если ti<tтабл, взятого по таблицам t-распределения Стьюдента, то с
заданной вероятностью не отвергается гипотеза, что соответствующий
коэффициент регрессии ai в генеральной совокупности (который не
известен и который нужно оценить по данным выборки) равняется нулю.
При этом i-ый фактор в таком случае признается несущественным для
построенного уравнения регрессии.
При проведении исследования может оказаться, что вычисленные
значения t для нескольких факторов не превышают tтабл. В этом случае
несущественные факторы из уравнения регрессии исключаются
поочередно, начиная с наименьшего по абсолютной величине t. Фактор
соответствующий минимальному значению t, из уравнения регрессии
исключается, и заново решается система нормальных уравнений. Затем
вновь вычисляются значения t для всех оставшихся в уравнении
коэффициентов, определяется минимальное значение t, которое
сопоставляется с tтабл. Если окажется, что tmin<tтабл, то фактор, имеющий tmin,
исключается.
Процесс исключения коэффициентов повторяется до тех пор, пока не
будет выполняться соотношение tmin≥tтабл. В этом случае все оставшиеся в
уравнении факторы существенны.
Проводить исключение из уравнения регрессии одновременно
несколько факторов, имеющих t<tтабл, нецелесообразно, так как после
исключения одного несущественного фактора коэффициенты регрессии
других факторов меняются и несущественные факторы после пересчета
могут оказаться существенными.
Аналогичный подход осуществляется и при наличии
корреляционной зависимости, но на последней стадии отбора
19
существенных факторов. Проверка значимости уравнения регрессии
осуществляется по критерию Фишера
F y2 / (2.8)
с числом степеней свободы v1 n 1, v 2 n p 1
где
y2 yi y / n 1
2
(2.9)
yi yˆ i / n p 1
2
ост
2
(2.10)
ŷi значения у, полученные по данным наблюдений; уi – расчетные
значения у, полученные для соответствующих значений x1 , x 2 ,..., x p .
Полученное значение F сравнивается с Fтабл при выбранном уровне
значимости. Если окажется F>Fтабл, то гипотеза о том, что не имеют
существенного влияния на у , отвергается.
Если F>Fтабл, то следует ввести некоторые другие факторы,
влияющие на показатель у, или перейти к построению нелинейной
множественной регрессии.
При построении регрессионного уравнения весьма существенную
информацию о модели может дать рассмотрение остатков е .
Заключение
Множественная регрессия представляет собой регрессию
результативного признака с двумя или большим числом независимых
переменных вида Y f ( X 1 , X 2 ,..., X p ) .
20
При исследовании зависимости результативного признака Y от ряда
факторов X 1 , X 2 ,..., X p необходимо решать такие же задачи, что и при
парной связи двух переменных X и Y : определение вида регрессии;
оценка параметров; определение тесноты связи, если переменные X и Y -
случайные величины.
Однако наряду с этими задачами необходимо рассматривать и ряд
задач, характерных лишь для множественной регрессии и корреляции. К
таким задачам относится отбор факторов X 1 , X 2 ,..., X p , существенно
влияющих на фактор Y , при наличии возможностей внутренней
взаимосвязи между переменными X 1 , X 2 ,..., X p . Такой отбор требует
прежде всего глубокого теоретического и практического знания
качественной стороны рассматриваемых экономических явлений.
Особенностью множественной регрессии и корреляции является
необходимость различать случаи корреляционной множественной связи,
когда переменные x1 , x2 ,..., x p являются случайные величинами;
регрессионной, если переменные x1 , x2 ,..., x p – неслучайными величинами,
а также смешанный случай, когда некоторые из переменных – случайные
величины, а другие – неслучайные.
Контрольные вопросы:
1. Как определяется модель множественной линейной регрессии?
2. Перечислите предпосылки МНК. Каковы последствия их
невыполнимости?
3. Что характеризуют коэффициенты регрессии?
4. В чем суть МНК для построения множественного линейного
уравнения регрессии?
5. Опишите алгоритм определения коэффициентов множественной
линейной регрессии по МНК в матричной форме.
6. Как записывается решение с помощью МНК в матричной форме?
7. Как определяется стандартизированное уравнение линейной
множественной регрессии?
21
8. Чем отличаются уравнения множественной регрессии в натуральном
и стандартизованном масштабе?
9. Каковы свойства стандартизованных переменных?
10.Как оценить значимость модели регрессии в целом?
11.Какие требования предъявляются к объему наблюдений,
необходимому для построения уравнения регрессии?
12.Какие требования предъявляются к факторам, включаемым в
уравнение регрессии?
13.Что такое мультиколлинеарность факторов и как ее выявить?
14.Как вычисляются парные коэффициенты корреляции, частные
коэффициенты корреляции?
15.Какова формула для вычисления коэффициента множественной
детерминации?
16.Какой критерий используется для оценки значимости параметров
уравнения регрессии?
17.Что понимают под значимостью модели регрессии в целом?
22
Государственное казенное образовательное учреждение
высшего профессионального образования
«РОССИЙСКАЯ ТАМОЖЕННАЯ АКАДЕМИЯ»
Владивостокский филиал
КОНСПЕКТ ЛЕКЦИИ
Владивосток
2012
23
Учебные вопросы
1. Суть гетероскедастичности, ее последствия.
2. Тесты, позволяющие выявить наличие гетероскедастичности остатков.
3. Устранение гетероскедастичности.
4. Автокорреляция остатков, ее последствия. Обнаружение
автокорреляции остатков.
Введение
При моделировании реальных экономических процессов мы нередко
сталкиваемся с ситуациями, в которых условия классической линейной
модели регрессии оказываются нарушенными. В частности, могут не
выполняться предпосылки 3 и 4 регрессионного анализа о том, что
случайные возмущения (ошибки) модели имеют постоянную дисперсию и
не коррелированы между собой.
Выполнимость предпосылки: дисперсия случайных отклонений i
постоянна, называется гомоскедастичностью. Невыполнимость –
гетероскедастичностью.
Важной предпосылкой построения качественной регрессионной
модели по МНК является независимость значений случайных отклонений
i от значений отклонений во всех других наблюдениях. Отсутствие
зависимости гарантирует отсутствие коррелированности между любыми
отклонениями.
Автокорреляция определяется как корреляция между наблюдаемыми
показателями, упорядоченными во времени (временные ряды) или в
пространстве (перекрестные данные).
1. Суть гетероскедастичности, ее последствия
При практическом проведении регрессионного анализа с помощью
МНК следует обратить серьезное внимание на проблемы, связанные с
выполнимостью свойств случайных отклонений моделей. Как отмечалось
ранее, свойства оценок коэффициентов регрессии напрямую зависят от
свойств случайного члена в уравнении регрессии. Для получения
24
качественных оценок необходимо следить за выполнимостью предпосылок
МНК (условий Гаусса - Маркова), так как при их нарушении МНК может
давать оценки с плохими статистическими свойствами.
На практике гетероскедастичность не так уж и редка. Зачастую есть
основания считать, что вероятностные распределения случайных
отклонений i при различных наблюдениях будут различными. Это не
означает, что случайные отклонения обязательно будут большими при
определенных наблюдениях и малыми – при других, но это означает, что
априорная вероятность этого велика. Поэтому важно понимать суть этого
явления и его последствия.
На рис. 5.1 приведены два примера линейной регрессии –
зависимости потребления С от дохода I: С 0 1 I .
Рис. 5.1
В обоих случаях с ростом дохода растет среднее значение
потребления. Но если на рис.5.1, а дисперсия потребления остается одной
и той же для различных уровней дохода, то на рис.5.1,б при аналогичной
зависимости среднего потребления от дохода дисперсия потребления не
остается постоянной, а увеличивается с ростом дохода. Фактически это
означает, что во втором случае субъекты с большим доходом в среднем
потребляют больше, чем субъекты с меньшим доходом, и, кроме того,
разброс в их потреблении более существенен для большего уровня дохода.
Люди с большим доходом имеют больший простор для его распределения.
25
Реалистичность данной ситуации не вызывает сомнений. Разброс значений
потребления вызывает разброс точек наблюдения относительно линии
регрессии, что и определяет дисперсию случайных отклонений. При
гомоскедастичности дисперсии i постоянны, а при гетероскедастичности
дисперсии i изменяются (в нашем случае увеличиваются).
При гетероскедастичности последствия применения МНК будут
следующими:
1. Оценки коэффициентов по-прежнему останутся несмещенными и
линейными.
2. Оценки не будут эффективными (т.е. они не будут иметь
наименьшую дисперсию по сравнению с другими оценками данного
параметра). Они не будут даже асимптотически эффективными.
Увеличение дисперсии оценок снижает вероятность получения
максимально точных оценок.
3. Дисперсии оценок будут рассчитываться со смещением.
Смещенность появляется вследствие того, что не объясненная уравнением
регрессии дисперсия S 2 e 2
i
(m – число объясняющих переменных),
n m 1
26
На рис. 3.2 видно, что для каждого конкретного значения xi СВ Х
переменная Y принимает значение yi из некоторого множества, имеющего
свое распределение, отличное одно от другого в силу непостоянства
дисперсий (сравните распределения для значений y1 и y n ).
Рис. 3.2
По МНК минимизируется сумма квадратов отклонений
e 2
i ( yi b0 b1 xi ) 2 .
Но в этом случае каждое конкретное значение ei2 в данной сумме
имеет одинаковый «вес» вне зависимости от того, получено оно из
распределения с маленькой дисперсией (например, e12 ) или с большой
(например, en2 ). но это противоречит логике, так как точка, полученная из
распределения с меньшей дисперсией, более точно определяет
направление линии регрессии. Поэтому она должна иметь больший «вес»,
чем точка из распределения с большей дисперсией. Следовательно, методы
оценивания, учитывающие «веса» точек наблюдений, позволяют получать
более точные (эффективные) оценки. Учет «весов» точек характерен,
например, для метода взвешенных наименьших квадратов, рассмотренного
ниже.
2. Тесты, позволяющие выявить наличие гетероскедастичности
остатков
27
Обнаружение гетероскедастичности в каждом конкретном случае
является довольно сложной задачей, так как для знания дисперсий
отклонений 2 (ei ) необходимо знать распределение СВ Y,
соответствующее выбранному значению xi СВ Х.
Не существует какого-либо однозначного метода определения
гетероскедастичности. Однако к настоящему времени для такой проверки
разработано довольно большое число тестов и критериев для них.
Рассмотрим наиболее популярные и наглядные: графический анализ
отклонений, тест ранговой корреляции Спирмена, тест Парка, тест
Глейзера, тест Гольдфельда-Квандта.
1).Графический анализ остатков.
Использование графического представления отклонений позволяет
определиться с наличием гетероскедастичности. В этом случае по оси
абсцисс откладываются значения xi объясняющей переменной Х (либо
линейной комбинации объясняющих переменных Yˆ b0 b1 X 1 ... bm X m , а
по оси ординат либо отклонения ei , либо их квадраты ei2 , i 1,2,..., n .
28
Рис.3.3
2).Тест ранговой корреляции Спирмена
При использовании данного теста предполагается, что дисперсия
отклонения будет либо увеличиваться, либо уменьшаться с увеличением
значений Х. Поэтому для регрессии, построенной по МНК, абсолютные
величины отклонений ei и значения xi СВ Х будут коррелированны.
Значения xi и ei ранжируются (упорядочиваются по величинам). Затем
определяется коэффициент ранговой корреляции:
rx ,e 1 6
d i
2
, (3.1)
n(n 2 1)
3. Строится регрессия
ln ei2 ln xi vi , (3.5)
где ln 2 . В случае множественной регрессии зависимость (3.5) строится
для каждой объясняющей переменной.
4. Проверяется статистическая значимость коэффициента уравнения
(3.5) на основе t -статистики t . Если коэффициент статистически
S
30
4).Тест Глейзера.
Тест Глейзера по своей сути аналогичен тесту Парка и дополняет его
анализом других (возможно, более подходящих) зависимостей между
дисперсиями отклонений i и значениями переменной xi . По данному
методу оценивается регрессионная зависимость модулей отклонений ei
i 1
31
меньше дисперсии регрессии по третьей подвыборке (суммы квадратов
n
отклонений S 3 e
i n k 1
i
2
).
3. Устранение гетероскедастичности
32
При установлении гетероскедастичности возникает необходимость
преобразования модели с целью устранения данного недостатка. Вид
преобразования зависит от того, известны или нет дисперсии i2
отклонений ei , i 1,2,..., n .
y x 1
Положив yi , xi , vi , zi , получим уравнение регрессии без
i * i * i
i i i i
1
предпосылке 10 МНК M ( i ) 0 , то M (vi ) 2 M ( i ) 0 , и тогда
i
i2 1 1 1
(vi ) M (v ) M ( 2 ) 2 M ( i2 ) 2 M ( i M ( i )) 2 2 i2 1 const .
2 2
i
i i i i
33
Для применения ВНК необходимо знать фактические значения
дисперсий i2 отклонений. На практике такие значения известны крайне
редко. следовательно, чтобы применить ВНК, необходимо сделать
реалистические предположения о значениях i2 .
Например, может оказаться целесообразным предположить, что
дисперсии i2 отклонений i пропорциональны значениям xi (рис. 3.4,а)
или значениям xi2 (рис. 3.4,б).
Рис.3. 4
i
Несложно показать, что для случайных отклонений vi
xi
34
Таким образом, оценив для (3.11) по МНК коэффициенты 0 и 1 ,
затем возвращаются к исходному уравнению регрессии (3.8).
4. Автокорреляция остатков, ее последствия. Обнаружение
автокорреляции остатков
Автокорреляция остатков обычно встречается в регрессионном
анализе при использовании данных временных рядов. Поэтому в
дальнейших выкладках вместо символа i используется символ t,
отражающий момент наблюдения, объем выборки при этом будем
обозначать символом T. В экономических задачах значительно чаще
встречается так называемая положительная автокорреляция ( ( t 1 , t ) 0
), нежели отрицательная автокорреляция ( ( t 1 , t ) 0 ).
В большинстве случаев положительная автокорреляция вызывается
направленным постоянным воздействием некоторых неучтенных в модели
факторов.
Среди основных причин, вызывающих появление автокорреляции,
можно выделить ошибки спецификации, инерцию в изменении
экономических показателей, эффект паутины, сглаживание данных.
Последствия автокорреляции в определенной степени сходны с
последствиями гетероскедастичности. Среди них при применении МНК
обычно выделяют следующие:
1. Оценки параметров, оставаясь линейными и несмещенными,
перестают быть эффективными. Следовательно, они перестают обладать
свойствами наилучших линейных несмещенных оценок (BLUE-оценок).
2. Дисперсии оценок являются смещенными. Часто дисперсии,
вычисляемые по стандартным формулам, являются заниженными, что
влечет за собой увеличение t -статистик. Это может привести к признанию
статистически значимыми объясняющие переменные, которые в
действительности таковыми могут и не являться.
35
T
et2
3. Оценка дисперсии регрессии S 2 является смещенной
t 1 T m 1
36
Рис. 3. 5
Естественно предположить, что на рис. 3.5, а-г имеются
определенные связи между отклонениями, т.е. автокорреляция имеет
место. Отсутствие зависимости на рис. 3.5,д скорее всего свидетельствует
об отсутствии автокорреляции.
Например, на рис. 3.5,б отклонения вначале в основном
отрицательные, затем положительные, потом снова отрицательные. Это
свидетельствует о наличии между отклонениями определенной
зависимости. Более того, можно утверждать, что в этом случае имеет место
положительная автокорреляция остатков. Она становится весьма
наглядной, если график 3.5,б дополнить графиком зависимости еt от еt 1
(рис. 3.6).
37
Рис. 3.6
Подавляющее большинство точек на этом графике расположено в I и
III четвертях декартовой системы координат, подтверждая положительную
зависимость между соседними отклонениями.
Следует заметить, что в современных компьютерных прикладных
программах для решения задач по эконометрике аналитическое выражение
регрессии дополняется графическим представлением результатов. На
график реальных колебаний зависимой переменной накладывается график
колебаний переменной по уравнению регрессии. Сопоставив эти два
графика, можно выдвинуть гипотезу о наличии автокорреляции остатков.
Если эти графики пересекаются редко, то можно предположить наличие
положительной автокорреляции остатков.
2) Метод рядов.
Этот метод достаточно прост: последовательно определяются знаки
отклонений еt , t 1,2,..., T . Например, (-----)(+++++++)(---)(++++)(-), т.е. 5
«-», 7 «+», 3 «-», 4 «+», 1 «-» при 20 наблюдениях.
Ряд определяется как непрерывная последовательность одинаковых
знаков. Количество знаков в ряду называется длиной ряда.
Визуальное распределение знаков свидетельствует о неслучайном
характере связей между отклонениями. Если рядов слишком мало по
сравнению с количеством наблюдений n, то вполне вероятна
положительная автокорреляция. Если же рядов слишком мало, то вероятна
отрицательная автокорреляция. Для более детального анализа предлагается
следующая процедура. Пусть n – объем выборки; n1 – общее количество
знаков «+» при n наблюдениях (количество положительных отклонений
38
еt ); n2 – общее количество знаков «-» при n наблюдениях (количество
положительных отклонений еt ); k – количество рядов.
При достаточно большом количестве наблюдений ( n1 10, n2 10 ) и
отсутствии автокорреляции СВ k имеет асимптотически нормальное
распределение с
2n1n2
M (k ) 1;
n1 n2
2n1n2 ( 2n1n2 n1 n2 )
D(k ) .
(n1 n2 ) 2 ( n1 n2 1)
39
автокорреляцию. Среди них выделяется авторегрессионная схема первого
порядка AR(1).
Заключение
При моделировании реальных экономических процессов мы нередко
сталкиваемся с ситуациями, в которых условия классической линейной
модели регрессии оказываются нарушенными. В частности, могут не
выполняться предпосылки 3 и 4 регрессионного анализа о том, что
случайные возмущения (ошибки) модели имеют постоянную дисперсию и
не коррелированы между собой.
Важной предпосылкой построения качественной регрессионной
модели по МНК является независимость значений случайных отклонений
i от значений отклонений во всех других наблюдениях. Отсутствие
зависимости гарантирует отсутствие коррелированности между любыми
отклонениями.
Контрольные вопросы:
1. В чем суть гетероскедастичности?
2. Приведите аргументы в пользу графического теста, теста Парка и
теста Глейзера.
3. Приведите схему теста Голдфельда-Квандта.
4. В чем суть метода взвешенных наименьших квадратов (ВНК)?
5. Что такое автокорреляция?
6. Назовите основные причины автокорреляции.
7. Перечислите основные методы обнаружения автокорреляции.
8. Каковы последствия автокорреляции?
40
Государственное казенное образовательное учреждение
высшего профессионального образования
«РОССИЙСКАЯ ТАМОЖЕННАЯ АКАДЕМИЯ»
Владивостокский филиал
КОНСПЕКТ ЛЕКЦИИ
Владивосток
2012
41
Учебные вопросы
1. Фиктивные переменные.
2. Модели регрессии с фиктивными переменными сдвига.
3. Модели регрессии с фиктивными переменными наклона.
4. Критерий Г. Чоу.
Введение
До сих пор мы рассматривали регрессионную модель, в которой в
качестве объясняющих переменных (регрессоров) выступали
количественные переменные (производительность труда, себестоимость
продукции, доход и т. п.). Однако на практике достаточно часто возникает
необходимость исследования влияния качественных признаков, имеющих
два или несколько уровней (градаций). К числу таких признаков можно
отнести: пол (мужской, женский), образование (начальное, среднее,
высшее), фактор сезонности (зима, весна, лето, осень) и т. п.
Качественные признаки могут существенно влиять на структуру
линейных связей между переменными и приводить к скачкообразному
изменению параметров регрессионной модели. В этом случае говорят об
исследовании регрессионных моделей с переменной структурой или
построении регрессионных моделей по неоднородным данным.
1. Фиктивные переменные
Например, нам надо изучить зависимость размера заработной платы
Y работников не только от количественных факторов X 1 , X 2 ,..., X p , но и
от качественного признака Z1 (например, фактора «пол работника»).
В принципе можно было получить оценки регрессионной модели
yi 0 1 xi1 2 xi 2 p xip i , i 1, 2,..., n (4.1)
для каждого уровня качественного признака (т. е. выборочное уравнение
регрессии отдельно для работников-мужчин и отдельно – для женщин), а
затем изучать различия между ними.
Но есть и другой подход, позволяющий оценивать влияние значений
количественных переменных и уровней качественных признаков с
42
помощью одного уравнения регрессии. Этот подход связан с введением так
называемых фиктивных (манекенных) переменных, или манекенов (dummy
variables).
В качестве фиктивных переменных обычно используются бинарные,
булевы переменные, которые принимают всего два значения: «0» или «1»
(например, значение такой переменной Z1 по фактору «пол»: Z1 0 для
работников-женщин и Z1 1 - для мужчин).
В этом случае первоначальная регрессионная модель (4.1)
заработной платы изменится и примет вид:
yi 0 1 xi1 2 xi 2 p xip 1 zi1 i , i 1,2,..., n , (4.2)
1, если i й работник мужского пола;
где zi1
0 если i й работник женского пола.
43
содержательной интерпретации соответствующих коэффициентов
регрессии, а вводят (k 1) бинарных переменных.
При включении в уравнение регрессии фиктивных переменных
возникает вопрос о характере влияния количественных факторов на
результат при различных значениях неколичественного фактора. Далее
будут рассмотрены различные варианты моделей регрессии с фиктивной
переменной.
2. Модели регрессии с фиктивными переменными сдвига
Рассмотрим в качестве формы уравнения регрессии линейную
функцию. Для простоты возьмем в качестве факторов одну
количественную переменную х1 и одну фиктивную переменную z11:
y = a + b1x1 + c11z11 + e. (4.3)
Из этого уравнения следует, что при z11 = 1 результат (у) равен
y = (a + c11)+ b1x1 + e, (4.4)
а при z11 = 0 результат (у) равен:
y = a + b1x1 + e. (4.5)
Сравнивая два полученных уравнения (4.4) и (4.5), видим, что они
различаются величиной свободного члена. То есть для одного уровня
неколичественной переменной уровень результата всегда в среднем будет
на с11 единиц выше и ниже, чем для другого.
Графически эта ситуация соответствует двум параллельным прямым.
Отметим, что коэффициент b1 при количественном факторе остается
неизменным. То есть изменение фактора x1 оказывает одинаковое влияние
на результат при разных значениях неколичественной переменной.
Так как изменение значения фиктивной переменной в модели (4.3)
приводит к изменению значения результата на некую среднюю величину,
не зависящую от значений количественного фактора, такую переменную
еще называют фиктивной переменной сдвига. Изменение ее значения
приводит к переходу от одной параллельной прямой к другой.
3. Модели регрессии с фиктивными переменными наклона
44
Рассмотрим другую ситуацию: коэффициент регрессии при
количественном факторе зависит от значения фиктивной переменной. То
есть можно записать:
yˆ a b11 x1 , если z = 0; (4.6)
yˆ a b12 x1 , если z = 1; (4.7)
b11 b12.
В таком случае говорят, что имеют место структурные изменения в
исследуемой зависимости. Для их учета в уравнении регрессии фиктивную
переменную вводят как сомножитель при количественной переменной:
yˆ a b1 x1 d111 x1 z11 . (4.8)
Так как параметр d объединяет две переменные – х1 и z11, он имеет
тройной индекс – d111.
Действительно, если рассмотреть это уравнение для z11=1 и для z11=0,
получим соответственно
z11 = 0 yˆ a b1 x1
45
Модели типа (4.8) используются при исследовании зависимости
объема потребления Y некоторого продукта от дохода потребителя X,
когда качественные признаки (например, уровень доходности домашнего
хозяйства) на параметр b1 при X, интерпретируемый как «склонность к
потреблению».
4. Критерий Г. Чоу
В практике эконометриста нередки случаи, когда имеются две
выборки пар значений зависимой и объясняющих переменных ( xi , yi ) .
p
yi 0 jxij i , i n1 1,..., n1 n2 .
j 1
где ei , e , e
2 2 2
i i - остаточные суммы квадратов соответственно для
i 1 i 1 i n1
47
4. Как интерпретируется коэффициент регрессии при фиктивной
переменной сдвига?
5. Как интерпретируется коэффициент регрессии при фиктивной
переменной наклона?
6. Каков общий вид модели регрессии с одной количественной и
одной фиктивной переменной?
7. Назовите достоинства и недостатки моделей с фиктивными
переменными.
8. Пусть имеется уравнение регрессии с одним количественным и
одним неколичественным фактором, выраженным тремя фиктивными
переменными. Сколько возможных значений у неколичественного
фактора? Как на основе заданного уравнения регрессии найти уравнения
парной регрессии, содержащие только количественный фактор? Сколько
будет таких уравнений и почему?
9. Какова область применения теста Чоу?
10. Какие показатели сравниваются между собой по тесту Чоу?
Какой статистический критерий в этом случае используется?
11. Опишите методику применения теста Чоу.
48
Государственное казенное образовательное учреждение
высшего профессионального образования
«РОССИЙСКАЯ ТАМОЖЕННАЯ АКАДЕМИЯ»
Владивостокский филиал
КОНСПЕКТ ЛЕКЦИИ
Владивосток
2012
49
Учебные вопросы
1. Понятие временного ряда. Общий вид модели временного ряда.
2. Проверка гипотезы существования тенденции.
3. Стационарные временные ряды и их характеристики.
Автокорреляционная функция.
4. Авторегрессия первого порядка. Тест Дарбина-Уотсона.
5. Аналитическое выравнивание (сглаживание) временного ряда.
6. Процесс построения аддитивной модели временного ряда.
7. Прогнозирование на основе моделей временного ряда.
8. Понятие об авторегрессионных моделях и моделях скользящей средней.
Введение
При анализе многих экономических показателей часто встречаются
ежегодные, ежеквартальные, ежемесячные, ежедневные данные.
Например, это могут быть годовые данные по ВВП, объему чистого
экспорта, инфляции и т.д., месячные данные по объему продажи
продукции, ежедневные объемы выпуска какой-либо фирмы. Для
рационального анализа необходимо систематизировать моменты
получения соответствующих статистических данных.
В этом случае следует упорядочить данные по времени их получения
и построить так называемые временные ряды.
1. Понятие временного ряда. Общий вид модели временного ряда
Определение 1.
Под временным рядом (динамическим рядом) в экономике
понимается последовательность наблюдений Y некоторого признака
(случайной величины) в последовательные моменты времени.
Определение 2.
Отдельные наблюдения называются уровнями ряда, которые будем
обозначать y t (t 1,2,..., n) , где n – число уровней.
При исследовании экономического временного ряда выделяют
несколько составляющих:
50
y t u t s t vt t (t 1,2,..., n) (5.1)
где u t – тренд, плавно меняющаяся компонента, описывающая чистое
влияние долговременных факторов, т.е. длительную тенденцию изменения
признака (например, рост населения, изменение структуры потребления,
экономическое развитие и т.п.);
st – сезонная компонента, отражающая повторяемость экономических
процессов в течение не очень длительного периода (года, иногда месяца,
недели и т.д., например, объем продаж товаров или перевозок пассажиров
в разные времена года);
vt – циклическая компонента, отражающая повторяемость экономических
процессов в течении длительных периодов (например, влияние волн
экономической активности Кондратьева, демографических «ям», циклов
солнечной активности и т.п.);
t – случайная компонента, отражающая влияние не поддающихся учету
51
сглаживание и фильтрация (удаление низко- или высокочастотных
составляющих временного ряда);
исследование случайной составляющей временного ряда, построение
и проверка адекватности математической модели для ее описания;
прогнозирование развития изучаемого процесса на основе
имеющегося временного ряда;
исследование взаимосвязи между различными временными рядами.
Среди наиболее распространенных методов анализа временных
рядов выделяют корреляционный и спектральный анализ, модели
авторегрессии и скользящей средней.
2. Проверка гипотезы существования тенденции
Прогнозирование временных рядов целесообразно начинать с по-
строения графика исследуемого показателя. Однако в нем не всегда
прослеживается присутствие тренда. Поэтому в этих случаях необходимо
выяснить, существует ли тенденция во временном ряду или она
отсутствует.
Для временного ряда рассмотрим критерий «восходящих и
нисходящих» серий, согласно которому тенденция определяется по
следующему алгоритму:
1. Для исследуемого временного ряда определяется последователь-
ность знаков, исходя из условий
, если yt 1 t 0.
i (5.2)
, если yt 1 yt 0.
52
Таблица 1
Решение.
Определим последовательность знаков.
t 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
yt 10 14 7 16 15 17 16 20 17 7 15 16 20 14 19 21
i + – + – + – + – – + + + – + +
Число серий (n) = 11, протяженность самой длинной серии lmax (n)
= 3, по таблице l (n) = 5. Запишем систему неравенств:
11 1 / 3 2 16 1 1,96
16 16 29 / 90 ,
3 5,
11 7,
3 5.
53
Важное значение в анализе временных рядов имеют стационарные
временные ряды, вероятностные свойства которых не изменяются во
времени.
Временной ряд yt (t 1,2,..., n) называется стационарным, если
совместное распределение вероятностей n наблюдений y1 , y 2 ,..., y n такое
же, как и n наблюдений y1 , y 2 ,..., y n при любых n , t и . Другими
словами, свойства строго стационарных рядов y t не зависят от момента t ,
т.е. закон распределения и его числовые характеристики не зависят от t .
Следовательно, математическое ожидание M y (t ) a , среднее
квадратическое отклонение y (t ) могут быть оценены по наблюдениям
с помощью формул:
n
yt (5.4)
t 1
yt
n
n
( y t yt ) 2 (5.5)
st2 t 1
n
Простейшим примером стационарного временного ряда, у которого
математическое ожидание равно нулю, а ошибки t некоррелированы,
является «белый шум».
Степень тесноты связи между последовательностями наблюдений
временного ряда y1 , y 2 ,..., y n и y1 , y 2 ,..., y n (сдвинутых относительно
друг друга на единиц, или, как говорят, с лагом ) может быть
определена с помощью коэффициента корреляции
M yt a yt a
( ) (5.6)
2
Т.к. ( ) измеряет корреляцию между членами одного и того же
ряда, его называют коэффициентом автокорреляции, а зависимость ( )
– автокорреляционной функцией. В силу стационарности временного ряда
yt (t 1,2,..., n) автокорреляционная функция ( ) зависит только от лага
54
, причем ( ) ( ) , т.е. при изучении можно ограничиться
рассмотрением только положительных значений .
Статистической оценкой ( ) является выборочный коэффициент
автокорреляции r ( ) , определяемый по формуле:
n n n
n yt yt yt yt
t 1 t 1 t 1
r ( ) (5.7)
n 2 2
n n n
n yt2 yt n yt2 yt
t 1 t 1 t 1 t 1
55
Например, выборочный частный коэффициент автокорреляции 1-го
порядка между членами временного ряда yt , yt 2 при устранении влияния
y t 1 может быть вычислен по формуле:
r ( 2) r (1)r (1,2)
rчаст ( 2) r02.1 (5.8)
1 r 2 (1) 1 r 2 (1,2)
где
yt2 213 2 1712 ... 3612
t 1
yt2 92478,38
n 8
Найдем коэффициент автокорреляции r ( ) временного ряда (для
лага 1), т.е. коэффициент корреляции между последовательностями
семи пар наблюдений yt и yt 1 (t 1,2,...,7) :
yt 213 171 291 309 317 362 351
y t 171 291 309 317 362 351 361
56
Вычисляем необходимые суммы:
7
yt 213 171 ... 351 2014
t 1
7
yt2 2132 1712 ... 3513 609506
t 1
7
yt 171 291 ... 361 2162
t 1
7
yt2 1712 2912 ... 3612 694458
t 1
7
yt yt 213 171 171 291 ... 351 361 642583
t 1
57
тест Дарбина-Уотсона, который основан на простой идее: если корреляция
ошибок регрессии не равна нулю, то она присутствует и в остатках регрессии
et , получающихся в результате применения обычного метода наименьших
n
( et et 1 ) 2
t 2
2. По формуле d n рассчитывается статистика Дарбина-
et2
t 1
Уотсона.
3. По таблице критических точек Дарбина-Уотсона определяются два
числа d1 и d 2 , зависящие только от числа наблюдений, числа регрессоров
и уровня значимости. Выводы осуществляются по правилу: 0 d d1 –
существует положительная автокорреляция, d1 d d 2 – вывод о наличии
автокорреляции не определен, d 2 d 4 d 2 – автокорреляция отсутствует,
4 d 2 d 4 d1 – вывод о наличии автокорреляции не определен,
4 d1 d 4 – существует отрицательная автокорреляция.
58
Отметим, что при использовании критерия Дарбина-Уотсона
необходимо учитывать следующие ограничения.
1. Критерий d применяется лишь для тех моделей, которые содержат
свободный член.
2. Предполагается, что случайные отклонения t определяются по
итерационной схеме: t t 1 vt , называемой авторегрессионной схемой
первого порядка AR (1) . Здесь vt - случайный член.
3. Статистические данные должны иметь одинаковую периодичность
(т.е. не должно быть пропусков в наблюдениях).
4. Критерий Дарбина-Уотсона не применим для регрессионных
моделей, содержащих в составе объясняющих переменных зависимую
переменную с временным лагом в один период, т.е. для так называемых
авторегрессионных моделей вида:
y t 0 1 xt1 ... m xtm y t 1 t .
59
a
логистическая - f (t )
1 be ct
Гомперца - log c f (t ) a br t , 0 r 1
60
Согласно методу наименьших квадратов параметры прямой
yt f (t ) b0 b1t находятся из системы нормальных уравнений , в которой в
качестве xi берем t :
n n
b0 n b1 t yt
t 1 t 1
n n n (5.10)
b0 t b1 t 2 ty t
t 1 t 1 t 1
n n 2
натуральный ряд чисел от 1 до n , суммы t , t можно выразить через
t 1 t 1
2 27695,3
n n
QR yˆ t y t bt2 t t
t 1 t 1
б) общую –
2
n
yt
n n
Q yˆ t y t yt t 1 34748,9
2
t 1 t 1 n
в) остаточную
Qe Q QR 34748,9 27695,3 7053,6 .
61
Найдем значение статистики:
QR n 2 27695,3 6
F 23,56 .
Qe 7053,6
62
разности уровней ряда) i = zi – zi-1 и вторые разности ряда i – i-1. Если
примерно одинаковы i, то ряд имеет линейный тренд
û i abt.
n
ti 0. Тогда параметры линейного тренда могут быть найдены по
i 1
формулам
n
zi ti
i 1
b n
; az (5.12)
t i2
i 1
63
7. Прогнозирование на основе моделей временного ряда
Одна из важнейших задач (этапов) анализа временного
(динамического) ряда, как отмечено выше, состоит в прогнозировании на
его основе развития изучаемого процесса. При этом исходят из того, что
тенденция развития, установленная в прошлом, может быть
распространена (экстраполирована) на будущий период.
Задача ставится так: имеется временной (динамический) ряд
y t (t 1,2,..., n) и требуется дать прогноз уровня этого ряда на момент n .
64
Решение. Выше, в примере 2 получено уравнение регрессии
ŷ t 181,32 25,679t , т.е. ежегодно спрос на товар увеличивался в среднем
65
регрессионные модели, в которых регрессорами выступают лаговые
перемены, т.е. переменные, влияние которых в эконометрической модели
характеризуется некоторым запаздыванием. Причем представленные в
моделях объясняющие переменные являются случайными величинами (см.
подробнее в теме 8).
Авторегрессионная модель q-го порядка (или модель AR(p)) имеет
вид:
yt 0 1 yt 1 2 yt 2 ... p yt p t
66
Контрольные вопросы:
1. Что представляет собой временной ряд?
2. Какие составляющие выделяют при исследовании временного
ряда?
3. Каков общий вид мультипликативной, аддитивной моделей
временного ряда?
4. Каким требованиям отвечают стационарные временные ряды?
5. Что такое выборочный коэффициент автокорреляции?
6. Дайте определения автокорреляционной функции и
коррелограммы временного ряда.
7. С помощью какого критерия определяют автокорреляцию
остатков?
8. Как провести точечный и интервальный прогноз исследуемого
показателя?
9. Какова модель авторегрессии?
10. Каков вид модели скользящей средней q-го порядка?
67
Государственное казенное образовательное учреждение
высшего профессионального образования
«РОССИЙСКАЯ ТАМОЖЕННАЯ АКАДЕМИЯ»
Владивостокский филиал
КОНСПЕКТ ЛЕКЦИИ
Владивосток
2012
68
Учебные вопросы
1. Модели с распределенными лагами.
2. Модели авторегрессии.
3. Авторегрессионные модели и их моделирование.
Введение
В моделях временных рядов зависимая переменная yt может быть
связана не только со значениями объясняемых переменных x в момент
времени t , но и с их значениями в предыдущие моменты времени. Так,
например, потребление товаров длительного пользования зачастую
зависит не только от доходов текущего, но предыдущих периодов.
Аналогично величина основных производственных фондов зависит от
размера инвестиций не только текущего года, но и предыдущих лет. В
этом случае строятся модели с лаговыми объясняющими переменными.
Например,
сt a b1 y t b2 y t 1 t ,
69
Модели регрессии по временным рядам с лаговыми переменными
принято называть динамическими моделями. Их можно подразделить на
три класса:
1) модели с лаговыми объясняющими переменными, или, иначе,
модели с распределенными лагами:
y t a b0 xt b1 xt 1 ... bk xt k t ;
70
значения результативного признака y в течении 4 следующих моментов
времени.
Коэффициент b0 называют краткосрочным мультипликатором, так
как он характеризует среднее изменение результата y при изменении хt
регрессии b
j 0
j - долгосрочным мультипликатором, который
bj
модели j , т.е. j 0 j 1, а 1. j
b j , где j Иными словами,
71
y t a b0 x t b1 x t 1 b2 xt 2 ... bk x t k t
72
соответствии с концепцией их геометрического убывания. Следовательно,
к моменту времени t 1 результат y изменится дополнительно на b0 c1
73
она должна быть тесно коррелированна с лаговой переменной yt 1 ;
74
3. Авторегрессионные модели и их моделирование
Рассмотренные ранее модели авторегрессии содержали в правой
части наряду с лаговыми зависимыми переменными ( yt 1 , yt 2 и т.п.)
независимые переменные ( x ). Авторегрессионная модель, в которой
отсутствуют независимые переменные и yt рассматривается как линейная
функция только предыдущих своих значений, представляет собой
авторегрессионный процесс:
yt a0 a1 yt 1 a2 yt 2 ... a p yt p t . (6.6)
В зависимости от того, сколько предыдущих уровней временного
ряда включено в уравнение (8.6), авторегрессионный процесс может быть
разного порядка. Если текущее значение уровня динамического ряда ( yt )
рассматривается как линейная функция от одного предыдущего значения,
то имеем дело с авторегрессионным процессом первого порядка, что
обычно в англоязычной литературе обозначается как AR(1):
yt a0 a1 yt 1 t . (6.7)
Увеличивая число лаговых переменных в модели (6.7), получим
авторегрессионный процесс более высокого порядка. Например, процесс
AR(3) сводится к уравнению:
yt a0 a1 yt 1 a2 yt 2 a31 yt 3 t (6.8)
и отражает авторегрессионный процесс третьего порядка.
Среди моделей для стационарных временных рядов широкое
распространение имеют модели скользящей средней.
Для стационарного ряда моделируемый уровень временного ряда
можно представить как линейную функцию прошлых ошибок, т.е.
разностей между прошлыми фактическими и теоретическими уровнями:
yt t 1 t 1 2 t 2 ... q t q , (6.9)
где - константа; t , t 1 , t 2 ,..., t q - белый шум в текущий и
предыдущий период времени; t y t yˆ .
75
В модели (6.9) уровень динамического ряда рассматривается как
сумма константы ( ) и скользящей средней между текущим и
предыдущими значениями белого шума (случайных отклонений).
Обозначим скользящую среднюю модели (6.9) через хt :
хt t 1 t 1 2 t 2 ... q t q . (6.10)
Уравнение (8.10) принято называть процессом скользящего среднего
порядка q и обозначать как MA(q) (от английского moving average).
Порядок скользящей средней определяется числом учитываемых в модели
предыдущих значений случайных отклонений. Так, МА(2) можно записать
как хt t 1 t 1 2 t 2 , а модель уровня динамического ряда с
использованием МА(2) будет иметь вид yt t 1 t 1 2 t 2 .
(6.11)
В модели (6.11) в качестве объясняющих переменных
рассматриваются лаговые значения зависимой переменной с p
76
Для получения стационарного ряда могут рассчитываться разности
уровней временного ряда ( ) разного порядка (d). Модель, в которой
соединены нахождение последовательных разностей временного ряда
порядка d и ARMA – модель порядка ( p , q ), получила название
авторегрессионной интегрированной модели скользящего среднего –
ARIМА (Autoregressiv Integrated Moving Average).
Модель ARIМА обладает тремя параметрами: p – порядок
авторегрессии (AR); d – порядок последовательных разностей уровней
временных рядов, обеспечивающих стационарность ряда; q – порядок
скользящей средней (MA).
В общем виде модель ARIМА ( p ,d, q ) выражается формулой
k yt a1k yt 1 ... a p k yt p t 1 t 1 ... q t q , (6.13)
78
Государственное казенное образовательное учреждение
высшего профессионального образования
«РОССИЙСКАЯ ТАМОЖЕННАЯ АКАДЕМИЯ»
Владивостокский филиал
КОНСПЕКТ ЛЕКЦИИ
Владивосток
2012
79
Учебные вопросы
1. Структурная и приведенная формы моделей.
2. Проблема идентификации.
3. Оценивание параметров структурной модели.
4. Панельные данные и их преимущества. Однонаправленные модели
панельных данных.
5. Качество подгонки. Выбор модели.
6. Двунаправленная модель панельных данных с фиксированными
эффектами.
Введение
Одной из причин коррелированности регрессоров со случайными
членами могут служить факторы, действующие одновременно на сами
регрессовы и на объясняемые переменные при фиксированных значениях
регрессоров. В рассматриваемой экономической ситуации значения
объясняемых переменных и регрессоров формируются одновременно под
воздействием некоторых внешних факторов. Это означает, что
рассматриваемую модель следует дополнять уравнениями, в которых
объясняемыми переменными выступали бы сами регрессоры. Таким
образом приходится рассматривать системы одновременных или
регрессионных уравнений.
1. Структурная и приведенная формы моделей
Наибольшее распространение в эконометрических исследованиях
получила система взаимозависимых уравнений вида:
y1 b12 y2 b13 y3 ... b1n yn a11 x1 a12 x2 ... a1m xm 1
y b y b y ... b y a x ... a x
2 21 1 23 3 2n n 21 1 2m m 2
... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...
yn bn1 y1 bn 2 y2 ... bnn 1 an1 x1 anm xm n
(7.1)
Система взаимозависимых уравнений (7.1) получила название
система совместных, одновременных уравнений. Тем самым
подчеркивается, что в системе одни и те же переменные у одновременно
80
рассматриваются как зависимые в одних уравнениях и как независимые в
других. В эконометрике эта система уравнений называется также
структурной формой модели.
Система совместных, одновременных уравнений (или структурная
форма модели) обычно содержит эндогенные и экзогенные переменные.
Эндогенные переменные обозначаются в системе одновременных
уравнений как y. Это зависимые переменные, число которых равно числу
уравнений в системе.
Экзогенные переменные обозначаются обычно как x. Это
предопределённые переменные, влияющие на эндогенные переменные, но
не зависящие от них.
Простейшая структурная форма модели (7.1) имеет вид:
81
оценки. Поэтому обычно для определения структурных коэффициентов
модели структурная форма модели преобразуется в приведенную форму
модели.
Приведенная форма модели представляет собой систему линейных
функций эндогенных переменных от экзогенных:
(7.2)
(7.3)
82
в которой из первого уравнения структурной модели можно выразить
следующим образом:
или
тогда: +
или
83
Запишем это выражение в левой части первого уравнения
Отсюда:
что соответствует уравнению приведенной формы модели:
т.е. и
84
подставив в первое уравнение приведенной формы выражение переменной
х из второго уравнения приведенной формы модели. Приведенная форма
модели хотя и позволяет получить значения эндогенной переменной через
значения экзогенных переменных, аналитически уступает структурной
форме модели, т.к. в ней отсутствуют оценки взаимосвязи между
эндогенными переменными.
2. Проблема идентификации
При переходе от приведенной формы модели к структурной
исследователь сталкивается с проблемой идентификации. Идентификация
– это единственность соответствия между приведённой и структурной
формами модели.
Рассмотрим проблему идентификации для случая с двумя
эндогенными переменными. Пусть структурная модель имеет вид:
85
+ т) параметров. Так, при n=2 и m=3 полный вид структурной модели
составит:
(7.4)
(7.5)
87
формы. Так, если в структурной модели полного вида (7.4) предположить
нулевые значения не только коэффициентов а13 и а21 (как в модели (7.5)), но
и а22 = 0, то система уравнений станет сверхидентифицируемой:
(7.6)
88
D + 1 > Н — уравнение сверхидентифицируемо.
Предположим, рассматривается следующая система одновременных
уравнений:
(7.7)
(7.8)
89
3 (y1, y2, y3) и D = 3 (х1 х2, х3), т.е. счетное правило составляет неравенство:
3 + 1 > 3 или
D + 1 >Н. Модель в целом является сверхидентифицируемой.
Предположим, что последнее уравнение системы (7.8) с тремя
эндогенными переменными имеет вид:
90
равен нулю. В этом случае соблюдается лишь необходимое, но
недостаточное условие идентификации.
Обратимся к следующей структурной модели:
(7.9)
91
Согласно таблице |A| ≠ 0, а ранг матрицы равен 2, что соответствует
следующему критерию: ранг матрицы коэффициентов должен быть не
меньше числа эндогенных переменных в системе без одной. Итак, второе
уравнение точно идентифицируемо.
Третье уравнение системы содержит Н = 3 и D = 2, т. е. по не-
обходимому условию идентификации оно точно идентифицируемо
(D+1=Н). Противоположный вывод имеем, проверив уравнение на
достаточное условие идентификации. Составим таблицу коэффициентов
при переменных, отсутствующих в третьем уравнении, в которой |A| = 0.
Матрица коэффициентов (3)
Уравнение Переменные
х3 х4
1 0 0
2 а23 а24
Из таблицы видно, что достаточное условие идентификации не
выполняется. Уравнение неидентифицируемо. Следовательно,
рассматриваемая в целом структурная модель, идентифицируемая по
счетному правилу, не может считаться идентифицируемой исходя из
достаточного условия идентификации.
В эконометрических моделях часто наряду с уравнениями, па-
раметры которых должны быть статистически оценены, используются
балансовые тождества переменных, коэффициенты при которых равны ±1.
В этом случае хотя само тождество и не требует проверки на
идентификацию, ибо коэффициенты при переменных в тождестве
известны, в проверке на идентификацию собственно структурных
уравнений системы тождества участвуют.
Например, рассмотрим эконометрическую модель экономики
страны:
92
где у1 — расходы на конечное потребление данного года;
А — свободный член уравнения;
— случайные ошибки;
идентификации модели.
В рассматриваемой эконометрической модели первое уравнение
системы точно идентифицируемо, ибо H = 3 и D = 2, и выполняется
необходимое условие идентификации (D + 1 = Н). Кроме того,
выполняется и достаточное условие идентификации, т. е. ранг матрицы
93
равен 3, а определитель ее не равен 0 : |A| =-a31, что видно из следующей
таблицы:
Уравнение y2 x1 x2
2 –1 а21 0
3 0 – а31 0
4 1 0 1
94
• трехшаговый метод наименьших квадратов (ТМНК);
•метод максимального правдоподобия с полной информацией (ММПf);
• метод максимального правдоподобия при ограниченной информации
(ММП5).
Косвенный и двухшаговый методы наименьших квадратов подробно
описаны в литературе и рассматриваются как традиционные методы
оценки коэффициентов структурной модели. Эти методы достаточно
легкореализуемы. Косвенный метод наименьших квадратов применяется
для идентифицируемой системы одновременных уравнений, а
двухшаговый метод наименьших квадратов — для оценки коэффициентов
сверхидентифицируемой модели. Перечисленные методы оценивания
также используются для сверхидентифицируемых систем уравнений.
Приведем здесь косвенный метод наименьших квадратов.
Косвенный метод наименьших квадратов используется в случае точно
идентифицируемой структурной модели. Процедура применения КМНК
предполагает выполнение следующих этапов работы:
структурная модель преобразовывается в приведенную форму модели;
для каждого уравнения приведенной формы модели обычным МНК
оцениваются приведенные коэффициенты (ij);
коэффициенты приведенной формы модели трансформируются в
параметры структурной модели.
Рассмотрим применение КМНК для простейшей идентифицируемой
эконометрической модели с двумя эндогенными и двумя экзогенными
переменными:
y1 b12 y 2 a11 x1 1 ,
y 2 b21 y1 a 22 x 2 2 .
95
Регион у1 у2 х1 х2
1 2 5 1 3
2 3 6 2 1
3 4 7 3 2
4 5 8 2 5
5 6 5 4 6
Средние 4 6,2 2,4 3,4
y1 x2 11 x1 x2 12 x2 .
2
96
у1 = 0,852х1 + 0,373х2 + и1.
y2 x1 21 x1 22 x1 x2 ,
2
y2 x2 21 x1 x2 22 x2 .
2
Тогда:
0,072 õ1 ó2
óˆ1 0,852 õ1 0,373 ;
0,00557
ˆ 1 66,966 ó2 3,970 õ1
ó – первое уравнение структурной модели.
97
Для того чтобы найти второе уравнение структурной модели,
обратимся вновь к приведенной форме модели. С этой целью из второго
уравнения приведенной формы модели следует исключить х1, выразив его
через первое уравнение и подставив во второе:
Итак, структурная форма модели имеет вид:
y1 66,966 y2 3,970 x1 1 ,
y2 0,085 y1 0,026 x2 2 .
Оценка значимости модели дается через F-критерий и R2 для каждого
уравнения в отдельности. В рассматриваемом примере хороших
результатов достичь не удалось: ввиду малого числа наблюдений значения
F-критерия Фишера несущественны (при уровне значимости 0,05 F-
табличное значение равно 19, а фактическое F = 7 для первого уравнения).
Заключение
Одной из причин коррелированности регрессоров со случайными
членами могут служить факторы, действующие одновременно на сами
регрессоры и на объясняемые переменные при фиксированных значениях
регрессоров. В рассматриваемой экономической ситуации значения
объясняемых переменных и регрессоров формируются одновременно под
воздействием некоторых внешних факторов. Это означает, что
рассматриваемую модель следует дополнять уравнениями, в которых
объясняемыми переменными выступали бы сами регрессоры. Таким
образом приходится рассматривать системы одновременных или
регрессионных уравнений.
Контрольные вопросы:
1. Какие системы уравнений используются в эконометрике?
2. Какие переменные в системе одновременных уравнений называют
экзогенными, а какие – эндогенными?
3. Какой вид имеет структурная форма модели?
4. Какой вид приведенной формы модели?
98
5. Как связаны между собой структурная и приведенная формы
моделей?
6. В чем состоят проблемы идентификации модели?
7. Какие модели называют идентифицируемыми,
неидентифицируемыми, сверхидентифицируемыми?
8. Каковы необходимые и достаточные условия идентификации?
9. В чем суть косвенного метода наименьших квадратов?
УЧЕБНО-МЕТОДИЧЕСКОЕ И ИНФОРМАЦИОННОЕ
ОБЕСПЕЧЕНИЕ ДИСЦИПЛИНЫ
Ростовский филиал
Издания в электронной библиотечной системе
1. Артамонов, Н. В. Введение в эконометрику / Н. В. Артамонов. – М.:
МЦНМО, 2011. – 204 с. – Режим доступа:
http://www.biblioclub.ru/book/63323
2. Валентинов, В.А. Эконометрика: учебник / В.А. Валентинов. – М.:
Дашков и К, 2009. - Режим доступа: http://www.knigafund.ru/books/59715
3. Эконометрика: учебник. – М.: Дашков и К, 2011. – Режим доступа:
http://www.knigafund.ru/books/76377
Литература
Основная
1. Елисеева, И.И. Эконометрика: учебник для магистрантов / И.И.
Елисеева [и др.]; под ред. И.И. Елисеевой. – М.: Юрайт, 2012.
2. Кремер, Н. Ш. Эконометрика: учебник / Н. Ш. Кремер, Б.А. Путко. – М.:
ЮНИТИ-ДАНА, 2010.
3. Эконометрика: учеб. пособие / под ред. И.И. Елисеевой. – М.: Финансы
и статистика, 2010.
Дополнительная
1. Афанасьев, В.Н. Анализ временных рядов и прогнозирование: учебник /
В.Н. Афанасьев, М.М. Юзбашев. – М.: Финансы и статистика; ИНФРА-М,
2012.
2. Бородич, С.А. Эконометрика / С. А. Бородич. – Минск: Новое знание,
2008.
3. Дайитбегов, Д.М. Компьютерные технологии анализа данных в
эконометрике: вузовский учебник / Д.М. Дайитбегов. – М., 2008.
4. Орлова, И.В. Экономико-математические методы и модели:
компьютерные моделирование: учебное пособие/ И.В. Орлова, В.А.
Половников. – М.: ВЗФЭИ, 2011.
5. Практикум по эконометрике / под ред. И.И. Елисеевой. – М.: Финансы и
статистика, 2010.
99
6. Green W. Econometric Analysis \ W.H.Green. – 5 th Edition –New Jersy:
Prentice Hall, 2003.
7. Baltagi B.H. Econometric Analysis of Panel Data \ B.H. Baltagi. – 3 rd Edition.
– Cambridge Academ, Cambridge, 2002.
8.Verbeek M. A Guide to Modern Econometrics \ M.Verbeek. – 2 nd Edition. –
Chichester: John Wiley & Sons, Ltd, 2004.
100
1. http://www.garant.ru – ГАРАНТ. Сайт позволяет ознакомиться с
законодательством РФ (с комментариями), а также с новостями органов
государственной власти РФ.
2. http://www.consultant.ru – Общероссийская сеть распространения
правовой информации «Консультант Плюс». Содержит онлайн-версии
систем; графические копии документов; обзоры законодательства;
полезные ссылки.
3. http://akdi.ru – Информационное агентство по экономике и
правоведению. Имеет собственную базу данных по Государственной Думе
и Совету Федерации Федерального Собрания РФ, Конституционному суду
РФ, Высшему Арбитражному суду РФ. Базы данных включают законы,
законопроекты, решения и резолюции, новости правоведения и экономики.
4. http://www.rg.ru/oficial - сайт "Российской газеты". Государственные
документы, публикующиеся в газете (и на сайте): федеральные
конституционные законы, федеральные законы (в том числе кодексы),
указы Президента РФ, постановления и распоряжения Правительства РФ,
нормативные акты министерств и ведомств (в частности приказы,
инструкции, положения и т.д.).
5. http://www.cbr.ru. – Банк Росси (ЦБ)
6. http://www.micex.ru. – Московская Межбанковская валютная биржа
7. http://www.gks.ru. – Федеральная служба государственной статистики
8. http://www.data.worldbank.org. – Информационный портал Всемирного
банка
101
Учебное издание
Конспекты лекций
по дисциплине
«Эконометрика (продвинутый уровень)»
Автор
Цвиль Мария Михайловна
102