Типы данных:
1) Пространственные данные - набор сведений в один момент времени (затраты, объем
производства и т.д)
2) Временные ряды –помесячные/годовые данные (инфляция по месяцам)
3) Панельные данные – наблюдения одних и тех же единиц в последовательные промежутки
времени. то есть один и тот же объект наблюдается многократно (например, ежегодно).
Типы моделей:
1) Регрессионные модели с одним уравнением - В регрессионных моделях зависимая
переменная у представляется в виде функции: f ( x , β ) =f ( x 1 ,… , x k , β 1 , … , β p ) , где
x 1 , … , x k −независимые переменные , а β 1 , … , β p−параметры. В зависимости о вид функции f(x, β )
модели делятся на линейные и нелинейные.
2) Модели временных рядов
К этому классу относятся модели:
тренда: y(t) = T(t) + et, где T(t) — временной тренд заданного параметрического вид (на
пример, линейны Т(t) = a + bt), et — случайная (стохастическая) компонента;
сезонности: y(t) = S(t) + et, где S(t) — периодическая (сезонная) компонента, et — случайная
компонента;
К моделям временных рядов относится множество более сложных моделей, таких, как модель
адаптивного прогноза, модель авторегрессии и скользящего среднего (ARIMA) и др. И обще
чертой является то, что они объясняют поведение временного ряда, исходя только из его
предыдущих значений. Такие модели могут применяться, например, для изучения и
прогнозирования объёма продаж авиабилетов, спроса на мороженое, краткосрочного прогноза
процентных ставок и т. п.
тренда и сезонности: y(t) = T(t) + S(t) + et (аддитивная) или y(t)=T(t)S(t) +et
мультипликативная), где T(t) — временной тренд заданного параметрического вида, S(t) — периодическая
(сезонная) компонента, et — случайная (стохастическая) компонента.
3) Системы одновременных уравнений - набор объясняемых переменных, связанных через
уравнения системы. Систем могу состоят и тождеств и регрессионных уравнений, каждое и которых может,
кроме объясняющих переменных, включат в себя также объясняемые переменные и другие уравнения
системы. Таки образом, мы имеем здесь набор объясняемых переменных, связанны через уравнения
системы. Системы одновременных уравнений требуют относительно более сложный математический
аппарат. Он могут использоваться для моделей страновой экономики и др
Метод МНК
Необходимо найти оценки ^β 1 , … , ^β k неизвестных параметров β 1 , … , β k . Если у нас есть какой-
нибудь набор ^β 1 , … , ^β k , то прогнозное значение Y ^ i величины Y i вычисляется как
Y^ i= β^ 1 + ^β 2 X i2 + …+ ^β k X ik + ε i. Разность e i=Y i−Y^ i называется остатком (как я понимаю, тут не учитывается
стохастическая часть, то есть формально мы смотрим на E(Y ¿¿ i−Y^ i )¿ или же считается, что ε i−¿одни и
те же, а не независимые копии. Дима). Метод наименьших квадратов (МНК) состоит в таком выборе чисел
n
^β 1 , … , ^β k , что сумма квадратов остатков ∑ ei2 была бы минимальна. Его достоинства:
i=1
дифференцируемость функции квадратов разности, вычислительная простота, единственность решения.
Теорема Гаусса-Маркова: при выполнении предпосылок 1-4 теорема Гаусса-Маркова гарантирует,
что МНК-оценки имеют наименьшую дисперсию в классе всех линейных несмещенных оценок.
Геометрическая интерпретация
Из всего множества линий, которые можно провести через экспериментальные точки на
корреляционном поле, линия регрессии ^y =b0 +b1 x выбирается так, чтобы сумма квадратов расстояний по
вертикали между экспериментальными точками и этой линией была наименьшей. Расстояния между
экспериментальными точками и линией регрессии есть отклонения ei
Суть: Пуст у нас есть набор значений двух переменных Xt, Yt, t = 1,...,n; можно отобразить пары (Xt,Yt)
точками на плоскости X-Y.
Соответственно, наша задача выбрать прямую f так, чтобы отклонение было в каком-то смысле
«минимальным». МНК предлагает такой вариант: минимизация квадратов вертикального отклонения.
Интерпретация коэффициентов:
1) Y i=β 1 +…+ β m X ℑ + …+ β k X ik + ε i, X m- непрерывно изменяющийся фактор. Нас интересует как
малое увеличение X m повлияет на Y. Очевидно, предельный эффект от изменения Х есть
∆Y ∂Y
lim = =β m. Поэтому при прочих равных условиях увеличение X m на одну единицу
∆ x→ 0 ∆ X m ∂ Xm
влечет изменение Y на β m единиц.
2) log Y i=β 0 +…+ βm logX ℑ+ …+ β k logX ik + ε i, X m - непрерывно изменяющийся фактор. В этом
% изменение Y ∆ Y /Y ∂logY
случае эластичность Y по X m равна = ≈ =β m, откуда
% изменение X ∆ X / X ∂ log X m
увеличение X m на 1% влечет изменение Y на β m % при прочих неизменных факторах.
3) Пусть Y i=β 1 +…+ β k X ik +γ D i + ε i, где фиктивная переменная Di равна 0 для группы А
(базовая группа) и 1 для группы B.
Для истолкования коэффициента γ при фиктивной переменной Di рассуждаем следующим образом: если
для некоторого наблюдения из группы А мы имеем Y =Y ¿, то для соответствующего (с теми же значения
¿ ¿
регрессоров) наблюдения из группы В получим Y =Y +γ∗1=Y + γ . Таким образом, при переходе из
группы А в группу В при прочих равных условиях Y в среднем изменяется на γ единиц.
Автокорреляция
Автокорреляция – это нарушение третьего условия теоремы Гаусса-Маркова, а именно, это означает, что в
случае автокорреляции cov ( ε i , ε j ) ≠ 0 ,при i ≠ j.
Последствия автокорреляции в некоторой степени сходны с последствиями гетероскедастичности.
Коэффициенты регрессии остаются несмещенными, но становятся неэффективными, и их стандартные
ошибки оцениваются неправильно (вероятно, они смещаются вниз, т. е. занижаются), из-за чего
применение стандартных тестов невозможно.
Автокорреляция обычно встречается только в регрессионном анализе при использовании данных
временных рядов. Случайный член ε в уравнении регрессии подвергается воздействию тех переменных,
влияющих на зависимую переменную, которые не включены в уравнение регрессии. Если значение ε в
любом наблюдении должно быть независимым от его значения в предыдущем наблюдении, то и значение
любой переменной, «скрытой» в ε , должно быть некоррелированным с ее значением в предыдущем
наблюдении. Постоянная направленность воздействия не включенных в уравнение переменных является
наиболее частой причиной положительной автокорреляции – ее обычного для экономического анализа
типа. Например, она может проявляться, если не учитывается сезонность временных рядов.
Отрицательная автокорреляция в экономике проявляется крайне редко и заключается в том, что ошибки
часто меняют свой знак, в отличие от положительной автокорреляции. Но иногда она появляется при
преобразовании первоначальной спецификации модели в форму, подходящую для регрессионного анализа.
Поскольку обычно проблема автокорреляции встречается во временных рядах, то в данном разделе и будем
их рассматривать. Базовая модель тогда будет выглядеть следующим образом:
y t =α + β x t +ε t
Или в векторном обозначении:
Y = X ' β+ ε
Автокорреляция первого порядка:
ε t= ρ ε t +ut ,
где ut – независимые и одинаково распределенные случайные величины с дисперсией σ u2 и нулевым
математическим ожиданием.
Свойства ошибок:
1. E ε t =0
σ 2u
2
2. σ ε =
1−ρ2
m 2
3. cov ( ε t , ε t −m )=ρ σ ε
В тех случаях, когда ρ известно, можно применять обобщенный метод наименьших квадратов.
Большинство тестов на наличие корреляции по времени в ошибках указанной выше системы используют
следующую идею: если корреляция есть у ошибок ε , то она присутствует и в остатках е, получаемых после
применения к системе обычного метода наименьших квадратов.
∑ ( e t −e t−1 )2
DW = t=2 n
∑ e2t
t =1
Можно показать, что DW ≈2(1− ^ρ ). Основными гипотезами данного теста являются:
H 0 : ρ=0 , т . е . автокорреляцияотсутствует
H 1 : ρ≠ 0
Проблема статистики DW состоит в том, что она зависит не только от числа наблюдений n и количества
регрессоров k, но и от всей матрицы X, что делает проблематичным применение данной процедуры
напрямую. Однако Дарбин и Уотсон доказали, что существуют две границы ( d u и d l), которые зависят
только от n, k и уровня значимости. Единственной трудностью при использовании данных границ является
то, что возникают две области неопределенности, про которые мы не можем сказать точно – отвергается
там нулевая гипотеза или нет.
Значение статистики DW Вывод
4−d l< DW < 4 Гипотеза H 0 отвергается, есть отрицательная
корреляция
4−d u< DW < 4−d l Неопределенность
d u < DW <4−d u Гипотеза H 0 не отвергается
d l < DW <d u Неопределенность
0< DW < dl Гипотеза H 0 отвергается, есть положительная
корреляция
h-тест
H 0 : ρ=0 , т . е . автокорреляцияотсутствует
H 1 : ρ≠ 0
Необходимо оценить регрессию y t =α + β x t + γ y t−1 +ε t и рассчитать h-статистику:
n
h= ^ρ
√ 1−nDγ
N ( 0,1 ) если H 0
Асимптотический тест – 1
H 0 : ρ=0 , т . е . автокорреляцияотсутствует
H 1 : ρ≠ 0
Особенностью данного теста является то, что для его проведения необходимо большое число наблюдений
(что очевидно из названия). Для его использования необходимо оценить статистику:
√ n ^ρ N ( 0,1 ) если верна H 0.
Асимптотический тест – 2 (Breusch-Godfrey)
H 0 : ρ=0 , т . е . автокорреляцияотсутствует
H 1 : ρ≠ 0
Оценивается интересуемая система, после чего оценивается регрессия на остатки:
p
e t =X ' β+ ∑ ai et −i+ ut
i=1
На основании полученного уравнения оцениваем значение R2 и рассчитываем статистику:
( n−p ) R 2 ❑2 ( p ) если верна нулевая гипотеза
Оценивание в условиях автокорреляции
Проблему оценивания системы Y = X ' β+ ε рассмотрим для двух случаев: когда ρ известен и когда
неизвестен.
Значение ρ известно
В этом случае для оценивания системы можно применить обобщенный метод наименьших квадратов
(ОМНК). Данный метод можно применять по следующим причинам: вообще говоря, чтобы оценивать на
основании ОМНК, необходимо знать ковариационную матрицу, но т.к. мы знаем, что у нас есть
автокорреляция и мы знаем ρ , то мы можем записать ковариационную матрицу. В частности, если
предположить, что ошибки представляют авторегрессионный процесс первого порядка ε t= ρ ε t−1 +ut ,
матрицу ковариации можно записать следующим образом:
n−1
1 ρ ρ2 ρ
¿
2
σu
1−ρ2
ρ
[n−1
ρ 1
2
ρ ρ
⋮
ρn−2
ρ
1
ρ n −3
⋯ ρn−2
⋱
⋯
]
ρn−3
⋮
1
Проведем преобразование системы Y = X ' β+ ε , чтобы получить классическую модель. Рассмотрим период
t−1(t ≥ 2):
Y t −1 =X 't −1 β+ ε t −1
Умножим правую и левую части на ρ и вычтем из аналогичного уравнения для период t . Получим:
Y t −ρ Y t−1=( X t −ρ X t−1 )' β+ ε t −ρ ε t −1
Мы знаем, что ε t= ρ ε t−1 +ut , откуда ε t− ρ ε t−1=u t. Тогда:
Y t −ρ Y t−1=( X t −ρ X t−1 )' β+u t
Таким образом, мы получили процесс без автокорреляции, т.к. ut – независимые и одинаково
распределенные случайные величины с дисперсией σ u2. Если мы не хотим отбрасывать значение t=1 (т.к.,
например, у нас может быть очень мало значений), то достаточно просто умножить обе части уравнения на
√ 1−ρ2:
√ 1−ρ2 Y 1=√ 1−ρ2 X 1 β+ √1− ρ2 ε 1 .
При этом полученная ошибка √ 1−ρ2 ε 1 не зависит от ut и, можно показать, что она имеет дисперсию
равную σ u2.
Методы поиска значения ρ
Процедура Кохрейна-Оркатта
Начальным шагом этой процедуры является применение обычного метода наименьших квадратов к
исходной системе Y = X ' β+ ε и получение соответствующих остатков e. Далее,
1) в качестве приближенного значения ρ берется его МНК-оценка ^ρ в регрессии: e t =ρ et −1+u t
2) проводится преобразование y t −ρy t−1=( x t −ρ xt −1 ) β +ut при ρ=^ρ и находятся оценки ^β
3) строится новый вектор остатков e= y −X ' ^β ;
4) процедура повторяется, начиная с п. 1).