Вы находитесь на странице: 1из 57

Лекции по Эконометрике.

Вопросы спецификации

Н. В. Артамонов

МГИМО МИД России

15 января 2023 г.

Н. В. Артамонов (МГИМО) Вопросы спецификации 15 января 2023 г. 1 / 41


Содержание

1 Вопросы спецификации

2 Функциональная форма

3 Диагностические тесты на функциональную форму

4 Сравнение моделей регрессии

5 Ошибки спецификации. Смещение OLS-оценок.


Нерелевантные регрессоры
Пропущенные «существенные» регрессоры

Н. В. Артамонов (МГИМО) Вопросы спецификации 15 января 2023 г. 2 / 41


Будем рассматривать следующие вопросы:
1 выбор функциональной формы при заданных регрессорах:
▶ выбор зависимой переменной: y или log y ;
▶ объясняющая переменная: x или log x;
▶ нужно ли включать квадраты переменных?
▶ структурные сдивиги
▶ графический анализ
▶ формальные диагностические тесты.

Н. В. Артамонов (МГИМО) Вопросы спецификации 15 января 2023 г. 3 / 41


Будем рассматривать следующие вопросы:
1 выбор функциональной формы при заданных регрессорах:
▶ выбор зависимой переменной: y или log y ;
▶ объясняющая переменная: x или log x;
▶ нужно ли включать квадраты переменных?
▶ структурные сдивиги
▶ графический анализ
▶ формальные диагностические тесты.
2 Сравнение разных моделей регрессии.

Н. В. Артамонов (МГИМО) Вопросы спецификации 15 января 2023 г. 3 / 41


Будем рассматривать следующие вопросы:
1 выбор функциональной формы при заданных регрессорах:
▶ выбор зависимой переменной: y или log y ;
▶ объясняющая переменная: x или log x;
▶ нужно ли включать квадраты переменных?
▶ структурные сдивиги
▶ графический анализ
▶ формальные диагностические тесты.
2 Сравнение разных моделей регрессии.
3 Влияние выбора регрессоров на статистические свойства
регрессии:
▶ Что будет если включили что-то “лишнее”;
▶ Что будет если не включили что-то “важное”;
▶ Robustness check

Н. В. Артамонов (МГИМО) Вопросы спецификации 15 января 2023 г. 3 / 41


1 Вопросы спецификации

2 Функциональная форма

3 Диагностические тесты на функциональную форму

4 Сравнение моделей регрессии

5 Ошибки спецификации. Смещение OLS-оценок.


Нерелевантные регрессоры
Пропущенные «существенные» регрессоры

Н. В. Артамонов (МГИМО) Вопросы спецификации 15 января 2023 г. 4 / 41


Логарифмирование переменных в модели

Базовые рекомендации
1 логарифмируем зависимую переменную, если нужно оценить
процентный отклик на неё
2 логарифмируем регрессор, если хотим оценить эффект от
увеличения регрессора на 1%
3 ”выправление” неоднородных данных1

1
полезно посмотреть на описательные статистики и на распределение
наблюдений (гистограмма)
Н. В. Артамонов (МГИМО) Вопросы спецификации 15 января 2023 г. 5 / 41
Логарифмирование переменных в модели

Важно!
Процентное изменение переменных не всегда экономически
оправдано. В таких случаях эти переменные не логаричимруются

Пример
Возраст, ставки, уровень образования

Н. В. Артамонов (МГИМО) Вопросы спецификации 15 января 2023 г. 6 / 41


Включение квадратов регрессоров

Ключевая особенность линейной регрессии


Линейная регрессия

(log)y = β0 + β1 (log)x1 + · · · + βk (log)xk + error

описывает зависимость с постоянным предельным значением y


по xj (или постоянной эластичностью).

Очевидно, это особенность не всегда адекватна реальной


зависимости.

Н. В. Артамонов (МГИМО) Вопросы спецификации 15 января 2023 г. 7 / 41


Включение квадратов регрессоров

Важно!
Если нужно учесть непостоянство (как правило убывание)
предельного значения (эластичности) y по x, то в число
объясняющих переменных следует включить квадрат регрессора.

Иногда это можно увидеть на графиках


Важно!
В этом случае коэффициент при x и x 2 неинтерпретируемы

Н. В. Артамонов (МГИМО) Вопросы спецификации 15 января 2023 г. 8 / 41


Включение квадратов регрессоров

Пример (Зарплатное уравнение)


В регрессии
wage = β0 + β1 age + · · · + error .
отдача от возраста (“карьерный рост”) постоянна для всех
возрастов из генеральной совокупности.

Н. В. Артамонов (МГИМО) Вопросы спецификации 15 января 2023 г. 9 / 41


Включение квадратов регрессоров

Пример (Зарплатное уравнение. Продолжение)


Если генеральная совокупность содержит “длинный” возрастной
диапазон, то ожидать постоянного роста зарплаты (“карьерного
роста”) не стоит.

Н. В. Артамонов (МГИМО) Вопросы спецификации 15 января 2023 г. 10 / 41


Включение квадратов регрессоров

Пример (Зарплатное уравнение. Продолжение)


Если генеральная совокупность содержит “длинный” возрастной
диапазон, то ожидать постоянного роста зарплаты (“карьерного
роста”) не стоит.

В этом случае более разумна модель в которой отдача от


возраста убывает (модель с убывающим предельным значение).

Н. В. Артамонов (МГИМО) Вопросы спецификации 15 января 2023 г. 10 / 41


Включение квадратов регрессоров
Пример (Зарплатное уравнение. Продолжение)
Если мы ожидаем, что отдача от возраста убывает (“карьерный
рост” замедляется), то следует рассмотреть модель

wage = β0 + β1 age + β2 age 2 + · · · + error .

Н. В. Артамонов (МГИМО) Вопросы спецификации 15 января 2023 г. 11 / 41


Включение квадратов регрессоров
Пример (Зарплатное уравнение. Продолжение)
Если мы ожидаем, что отдача от возраста убывает (“карьерный
рост” замедляется), то следует рассмотреть модель

wage = β0 + β1 age + β2 age 2 + · · · + error .

В этой модели (среднее) предельное значение

∂(Ewage)
= β1 + 2β2 age
∂age
Очевидно, в этой модели β1 > 0 и β2 < 0.

Важно!
В этой модели коэффициенты β1 , β2 неинтерпретируемы!
Н. В. Артамонов (МГИМО) Вопросы спецификации 15 января 2023 г. 11 / 41
Включение квадратов регрессоров

Пример
Рассмотрим модель зависимости цены автомобиля price от его
возраста age:

log price = β0 + β1 age + · · · + u

В этой модели отдача от возраста постоянна: каждый год


стоимость автомобиля снижается на β1 · 100%.

Н. В. Артамонов (МГИМО) Вопросы спецификации 15 января 2023 г. 12 / 41


Включение квадратов регрессоров

Пример
Но в реальности (скорее всего) стоит ожидать, что с возрастом
падение цены будет замедляться.

Н. В. Артамонов (МГИМО) Вопросы спецификации 15 января 2023 г. 13 / 41


Включение квадратов регрессоров

Пример
Но в реальности (скорее всего) стоит ожидать, что с возрастом
падение цены будет замедляться.

Для моделирования этого феномена следует рассмотреть модель

log price = β0 + β1 age + β2 age2 + · · · + u

Очевидно, в этой модели β1 < 0 и β2 > 0.

Н. В. Артамонов (МГИМО) Вопросы спецификации 15 января 2023 г. 13 / 41


1 Вопросы спецификации

2 Функциональная форма

3 Диагностические тесты на функциональную форму

4 Сравнение моделей регрессии

5 Ошибки спецификации. Смещение OLS-оценок.


Нерелевантные регрессоры
Пропущенные «существенные» регрессоры

Н. В. Артамонов (МГИМО) Вопросы спецификации 15 января 2023 г. 14 / 41


Тесты на функциональную форму

Диагностические тесты на спецификацию:


графический анализ данных
RESET тест
Harvey-Collier тест
Rainbow тест

Н. В. Артамонов (МГИМО) Вопросы спецификации 15 января 2023 г. 15 / 41


Графический анализ

Если (log)y зависит от (log)x линейно, то на плоскости


((log)x, (log)y ) данные как правило “группируются” вдоль
некоторой прямой или параболы с равномерным разбросом
“вверх-вниз”

Н. В. Артамонов (МГИМО) Вопросы спецификации 15 января 2023 г. 16 / 41


Графический анализ

Если (log)y зависит от (log)x линейно, то на плоскости


((log)x, (log)y ) данные как правило “группируются” вдоль
некоторой прямой или параболы с равномерным разбросом
“вверх-вниз”

Предварительно полезно смотреть на графики


yi vs xi ,
log yi vs xi ,
log yi vs log xi ,
yi vs log xi .

Н. В. Артамонов (МГИМО) Вопросы спецификации 15 января 2023 г. 16 / 41


Графический анализ

Если (log)y зависит от (log)x линейно, то на плоскости


((log)x, (log)y ) данные как правило “группируются” вдоль
некоторой прямой или параболы с равномерным разбросом
“вверх-вниз”

Предварительно полезно смотреть на графики


yi vs xi ,
log yi vs xi ,
log yi vs log xi ,
yi vs log xi .
Для выявления неоднородности данных полезно посмотреть на
гистограммы по зависимой переменной и регрессорам.

Н. В. Артамонов (МГИМО) Вопросы спецификации 15 января 2023 г. 16 / 41


RESET-тест

RESET-тест (Regression Estimation Specification Error Test)2


Базовая модель
y = x ′β + u
Альтернативная модель

y = x ′ β + z ′ γ + error

Проводится F-тест для гипотезы (совместная значимость)

H0 : γ = 0

2
J.B. Ramsey (1969), Tests for Specification Errors in Classical Linear
Least-Squares Regression Analysis. Journal of the Royal Statistical Society, Series
B 31, 350–371
Н. В. Артамонов (МГИМО) Вопросы спецификации 15 января 2023 г. 17 / 41
RESET-тест

Возможный выбор регрессоров для альтернативной модели


1 степени предсказанных значений (обычно M = 2, 3, 4)
⊤
z = (ŷ )2 · · · (ŷ )M

2 главные компоненты регрессоров


3 какие-то другие регрессоры

Важно!
Альтернативная регрессия как правило экономически
неинтерпретируема

Н. В. Артамонов (МГИМО) Вопросы спецификации 15 января 2023 г. 18 / 41


Harvey-Collier тест

Harvey-Collier тест3 : тестируется форма зависимости от


выбранного регрессора

Вначале нужно выбрать регрессор и упорядочить по нему


данные
Основан на t-тесте для рекурсивных остатков
Нужно смотреть протоколы тестирования в R/Python

3
A. Harvey & P. Collier (1977), Testing for Functional Misspecification in
Regression Analysis. Journal of Econometrics 6, 103–119
Н. В. Артамонов (МГИМО) Вопросы спецификации 15 января 2023 г. 19 / 41
Rainbow тест

Rainbow тест4 : тестируется форма зависимости от выбранного


регрессора

В начале нужно выбрать регрессор и упорядочить по нему


данные
Модель подгоняется по всему датасету и отдельно по
выбранной доли (параметр теста) «срединных» значений
Основан на F-тесте
Нужно смотреть протоколы тестирования в R/Python

4
J.M. Utts (1982), The Rainbow Test for Lack of Fit in Regression.
Communications in Statistics – Theory and Methods 11, 2801–2815
Н. В. Артамонов (МГИМО) Вопросы спецификации 15 января 2023 г. 20 / 41
1 Вопросы спецификации

2 Функциональная форма

3 Диагностические тесты на функциональную форму

4 Сравнение моделей регрессии

5 Ошибки спецификации. Смещение OLS-оценок.


Нерелевантные регрессоры
Пропущенные «существенные» регрессоры

Н. В. Артамонов (МГИМО) Вопросы спецификации 15 января 2023 г. 21 / 41


Сравнение моделей регрессии

Формальные критерии сравнения нескольких моделей регрессии


с одинаковой зависимой переменной на одних и тех же данных:
2
Radj (скорректированный R 2 )
информационные критерии
▶ Akaike
▶ Schwarz или Байесовский
▶ другие (Hannan-Quinn etc)

Н. В. Артамонов (МГИМО) Вопросы спецификации 15 января 2023 г. 22 / 41


Сравнение моделей регрессии

Формальные критерии сравнения нескольких моделей регрессии


с одинаковой зависимой переменной на одних и тех же данных:
2
Radj (скорректированный R 2 )
информационные критерии
▶ Akaike
▶ Schwarz или Байесовский
▶ другие (Hannan-Quinn etc)

Важно!
Показатели критериев – это не тестовые статистики! А сами
критерии – это не тестирование гипотез!

Н. В. Артамонов (МГИМО) Вопросы спецификации 15 января 2023 г. 22 / 41


Критерий скорректированного R 2

Для каждой модели вычисляется5

2 n−1
Radj = 1 − (1 − R 2 )
n−k −1

Важно!
2
Модель выбирается из условия max Radj .

5
Для каждой модели k своё!
Н. В. Артамонов (МГИМО) Вопросы спецификации 15 января 2023 г. 23 / 41
Информационные критерии

Для каждой модели вычисляется показатель критерия6


 
RSS 2(k + 1)
AIC = log +
n n
 
RSS (k + 1) log n
BIC = SIC = log +
n n

Обозначения
AIC = Akaike Information Criterion (An Information Criterion)
BIC/SIC=Bayesian/Schwarz Information Criterion

6
для каждой модели RSS и k свои!
Н. В. Артамонов (МГИМО) Вопросы спецификации 15 января 2023 г. 24 / 41
Информационные критерии

Важно!
”Оптимальная” модель с минимальным значением
информационного критерия!

Важно!
2
Критерии Radj , AIC , BIC могут давать разные ”оптимальные
модели”

Н. В. Артамонов (МГИМО) Вопросы спецификации 15 января 2023 г. 25 / 41


Информационные критерии

Иногда показатели информационных критериев берутся такие (не


делим на n)
 
RSS
AIC = n log + 2(k + 1)
n
 
RSS
SIC = n log + (k + 1) log n
n

Н. В. Артамонов (МГИМО) Вопросы спецификации 15 января 2023 г. 26 / 41


1 Вопросы спецификации

2 Функциональная форма

3 Диагностические тесты на функциональную форму

4 Сравнение моделей регрессии

5 Ошибки спецификации. Смещение OLS-оценок.


Нерелевантные регрессоры
Пропущенные «существенные» регрессоры

Н. В. Артамонов (МГИМО) Вопросы спецификации 15 января 2023 г. 27 / 41


Влияние отбора регрессоров

Рассмотрим возможные ошибки спецификации, связанные с


выбором объясняющих переменных, и их последствия:
включение “лишнего” (нерелевантного) регрессора;
невключение “существенного” (релевантного) регрессора.

Н. В. Артамонов (МГИМО) Вопросы спецификации 15 января 2023 г. 28 / 41


Влияние отбора регрессоров

Рассмотрим возможные ошибки спецификации, связанные с


выбором объясняющих переменных, и их последствия:
включение “лишнего” (нерелевантного) регрессора;
невключение “существенного” (релевантного) регрессора.

Будем использовать обозначения


DGP (Data Generating Process) – “истинная модель”;
SM (Statistical Model) – модель, оцениваемая по данным.

Н. В. Артамонов (МГИМО) Вопросы спецификации 15 января 2023 г. 28 / 41


1 Вопросы спецификации

2 Функциональная форма

3 Диагностические тесты на функциональную форму

4 Сравнение моделей регрессии

5 Ошибки спецификации. Смещение OLS-оценок.


Нерелевантные регрессоры
Пропущенные «существенные» регрессоры

Н. В. Артамонов (МГИМО) Вопросы спецификации 15 января 2023 г. 29 / 41


Нерелевантный регрессор

Рассмотрим модель

yi = xi′ β + zi′ γ + ui

со стандартными условиями

E(ui |X , Z ) = 0 Var(ui |X , Z ) = σ 2

и пусть известно, что γ = 0 и E(zi |X ) = const (фактор z


нерелевантный, т.е. «не коррелирует» с y и с другими
регрессорами).

Н. В. Артамонов (МГИМО) Вопросы спецификации 15 января 2023 г. 30 / 41


Нерелевантный регрессор

Нас интересуют оценки коэффициентов β. Рассмотрим две


модели:

(A) : y = x ′ β + z ′ γ + error
(B) : y = x ′ β + error

Обе регрессии удовлетворяют условиям CLRM-модели.

Н. В. Артамонов (МГИМО) Вопросы спецификации 15 января 2023 г. 31 / 41


Нерелевантный регрессор

(B) (A)
Тогда оценка β̂OLS «точнее» оценки β̂OLS в том смысле, что
стандартные ошибки меньше.
Вывод
Включение заведомо нерелевантного фактора снижает точность
оценивания. Это приводит к увеличению доверительных
интервалов и к снижению мощности тестов.

Н. В. Артамонов (МГИМО) Вопросы спецификации 15 января 2023 г. 32 / 41


1 Вопросы спецификации

2 Функциональная форма

3 Диагностические тесты на функциональную форму

4 Сравнение моделей регрессии

5 Ошибки спецификации. Смещение OLS-оценок.


Нерелевантные регрессоры
Пропущенные «существенные» регрессоры

Н. В. Артамонов (МГИМО) Вопросы спецификации 15 января 2023 г. 33 / 41


Пропущенный «существенный» фактор

Рассмотрим модель

(DGP) : yi = xi′ β + zi′ γ + ui

со стандартными условиями

E(ui |X , Z ) = 0 Var(ui |X , Z ) = σ 2 .

и пусть известно, что γ ̸= 0 и E(zi |X ) ̸= const (фактор z


«коррелирует» c y и с другими регрессорами).

Н. В. Артамонов (МГИМО) Вопросы спецификации 15 января 2023 г. 34 / 41


Пропущенный «существенный» фактор

Если эконометрист не знает про z, то он оценивает регрессию

(SM) : yi = xi′ β + vi (vi = zi′ γ + ui )

Н. В. Артамонов (МГИМО) Вопросы спецификации 15 января 2023 г. 35 / 41


Пропущенный «существенный» фактор

Если эконометрист не знает про z, то он оценивает регрессию

(SM) : yi = xi′ β + vi (vi = zi′ γ + ui )

В этой регрессии

E(vi |X ) = E(zi′ |X )γ ̸= 0,

т.е. не выполнено условие экзогенности объясняющих


переменных (регрессоры эндогенны по отношению к зависимой
переменной).

Н. В. Артамонов (МГИМО) Вопросы спецификации 15 января 2023 г. 35 / 41


Пропущенный «существенный» фактор

Это приводит к смещению и несостоятельности OLS-оценок


коэффициентов в SM-модели:

E(β̂|X ) ̸= β
β̂ −→ β + bias (n → +∞)

Н. В. Артамонов (МГИМО) Вопросы спецификации 15 января 2023 г. 36 / 41


Пропущенный «существенный» фактор

Вывод №1
Если не включить в модель регрессии релевантный фактор,
«коррелирующий» с другими объясняющими переменными, то
метод наименьших квадратов не даёт состоятельных оценок
коэффициентов и, следовательно, неприменим.

Н. В. Артамонов (МГИМО) Вопросы спецификации 15 января 2023 г. 37 / 41


Пропущенный «существенный» фактор

Вывод №1
Если не включить в модель регрессии релевантный фактор,
«коррелирующий» с другими объясняющими переменными, то
метод наименьших квадратов не даёт состоятельных оценок
коэффициентов и, следовательно, неприменим.

Вывод №2
Как следствие, стандартные тестовые статистики метода
наименьших квадратов неприменимы для тестирования гипотеза.
Их использование может привести к неверным выводам
(например, выводам о значимости)

Н. В. Артамонов (МГИМО) Вопросы спецификации 15 января 2023 г. 37 / 41


Пропущенный «существенный» фактор

Пример (Отдача от образования)


Рассмотрим зарплатное уравнение

log(wage) = β0 + β1 educ + · · · + u

Н. В. Артамонов (МГИМО) Вопросы спецификации 15 января 2023 г. 38 / 41


Пропущенный «существенный» фактор

Пример (Отдача от образования)


Рассмотрим зарплатное уравнение

log(wage) = β0 + β1 educ + · · · + u

Ошибка содержит ненаблюдаемый фактор «индивидуальные


способности» (ability) который положительно «коррелирует» с
уровнем образования.

Н. В. Артамонов (МГИМО) Вопросы спецификации 15 января 2023 г. 38 / 41


Пропущенный «существенный» фактор

Пример (Отдача от образования)


Рассмотрим зарплатное уравнение

log(wage) = β0 + β1 educ + · · · + u

Ошибка содержит ненаблюдаемый фактор «индивидуальные


способности» (ability) который положительно «коррелирует» с
уровнем образования.
Это приводит к смещению и несостоятельности OLS-оценки
отдачи от образования.

Н. В. Артамонов (МГИМО) Вопросы спецификации 15 января 2023 г. 38 / 41


Пропущенный «существенный» фактор

Пример (Отдача от образования. Продолжение)


Вывод: метод наименьших квадратов неприменим для оценивая
отдачи от образования!

Н. В. Артамонов (МГИМО) Вопросы спецификации 15 января 2023 г. 39 / 41


Пропущенный «существенный» фактор

Пример (Отдача от образования. Продолжение)


Вывод: метод наименьших квадратов неприменим для оценивая
отдачи от образования!

Важно! (Плохая новость)


Фактор «индивидуальные способности» невозможно измерить
объективно и явно включить в число объясняющих переменных.

Н. В. Артамонов (МГИМО) Вопросы спецификации 15 января 2023 г. 39 / 41


Пропущенный «существенный» фактор

Отдача от образования
Аналогичный результат имеет место в общем случае т.н.
«минцеровских» регрессий (J. Mincer) когда оценивается
влияние характеристик “человеческого капитала” на зависимую
переменную.

Н. В. Артамонов (МГИМО) Вопросы спецификации 15 января 2023 г. 40 / 41


Пропущенный «существенный» фактор

Как можно постараться идентифицировать/избежать?

Стандарт современного эконометрического исследования:

Н. В. Артамонов (МГИМО) Вопросы спецификации 15 января 2023 г. 41 / 41


Пропущенный «существенный» фактор

Как можно постараться идентифицировать/избежать?

Стандарт современного эконометрического исследования:


Включить в регрессию «дополнительные» контрольные
переменные, даже если нужно оценить отдачу только от
одного фактора.

Н. В. Артамонов (МГИМО) Вопросы спецификации 15 января 2023 г. 41 / 41


Пропущенный «существенный» фактор

Как можно постараться идентифицировать/избежать?

Стандарт современного эконометрического исследования:


Включить в регрессию «дополнительные» контрольные
переменные, даже если нужно оценить отдачу только от
одного фактора.
Посмотреть “устойчивость” оценок к изменению набора
контрольных переменных (robustness check).

Н. В. Артамонов (МГИМО) Вопросы спецификации 15 января 2023 г. 41 / 41

Вам также может понравиться