Nosko v. Ekonometrika Kniga 01.fragment

УДК 330.43(078.
8)
ББК 65в6я73
Н 84
Рецензент:
И. И. Елисеева, доктор экономических наук,
профессор, член-корреспондент РАН, заслуженный деятель науки РФ,
зав. кафедрой статистики и эконометрики Санкт-Петербургского
государственного университета экономики и финансов
Носко, В. П.
Н 84 Эконометрика: в 2 кн. Книга 1 / В. П. Носко. — Москва : Издатель-
ский дом «Дело» РАНХиГС, 2021. — 704 с. — (Академический учебник).
ISBN 978-5-85006-293-4 (общий), ISBN 978-5-85006-294-1 (кн. 1).
В учебнике излагаются методы эконометрического анализа — от самых про-

стых до весьма продвинутых. В основе учебника — курсы лекций, прочитанные
автором в Институте экономической политики им. Е. Т. Гайдара, на механи-
ко-математическом факультете Московского государственного университета
им. М. В. Ломоносова и на экономическом факультете РАНХиГС.
Учебник состоит из двух книг (четырех частей): в книге 1 рассматриваются ли-
нейные модели регрессии; модели стационарных и нестационарных временных
рядов, особенности регрессионного анализа для стационарных и нестацио-
нарных переменных; в книге 2 — модели одновременных уравнений, модели
с дискретными и цензурированными объясняемыми переменными, модели для
анализа панельных данных, модель стохастической границы производственных
возможностей, а также содержится дополнительный материал по анализу вре-
менных рядов (прогнозирование, методология векторных авторегрессий и др.).
В каждой части учебника имеется словарь употребляемых в ней терминов.
Для студентов, аспирантов, преподавателей, а также для специалистов по при-
кладной экономике.
УДК 330.43(078.8)
ББК 65в6я73
ISBN 978-5-850066-293-4 (общ.)

ISBN 978-5-850006-294-1 (кн. 1)
© ФГБОУ ВО «Российская академия народного хозяйства и государственной службы

при Президенте Российской Федерации», 2021
Содержание
Предисловие ................................................................................................................. 7
Предисловие к первой книге ....................................................................................... 9
Часть I
ОСНОВНЫЕ ПОНЯТИЯ, ЭЛЕМЕНТАРНЫЕ МЕТОДЫ
Раздел 1. Эконометрика и ее связь с экономической теорией.
Метод наименьших квадратов ...............................................................13
Тема 1.1. Модели связи и модели наблюдений;
эконометрическая модель, подобранная модель .....................................13
Тема 1.2. Метод наименьших квадратов. Прямолинейный характер
связи между двумя экономическими факторами ....................................29
Приложение П.1.2а ......................................................................................................42
Приложение П.1.2б ......................................................................................................44
Тема 1.3. Примеры подбора линейных моделей связи между двумя факторами.
Ложная линейная связь .............................................................................48
Тема 1.4. Нелинейная связь между экономическими факторами ..........................65
Раздел 2. Линейная модель наблюдений. Регрессионный анализ .....................79
Тема 2.1. Линейные модели с несколькими объясняющими переменными.
Оценивание и интерпретация коэффициентов .......................................79
Тема 2.2. Свойства оценок коэффициентов при стандартных
предположениях о вероятностной структуре ошибок.
Доверительные интервалы для коэффициентов ......................................95
Приложение П.2а. Случайные векторы и их характеристики .................................116
Приложение П.2б. Многомерное нормальное распределение ................................119
Раздел 3. Проверка гипотез, выбор «наилучшей» модели
и прогнозирование по оцененной модели ...........................................121
Тема 3.1. Проверка статистических гипотез о значениях
отдельных коэффициентов и общей линейной гипотезы .....................121
Тема 3.2. Использование F-статистики для редукции исходной
эконометрической модели. Проверка односторонних гипотез ............135
Тема 3.3. Сравнение альтернативных моделей. Мультиколлинеарность.
Прогнозирование по оцененной модели ...............................................158
Раздел 4. Проверка выполнения стандартных предположений
о модели наблюдений ............................................................................181
Тема 4.1. Графические методы ...............................................................................181
Тема 4.2. Формальные статистические критерии ..................................................195
5
Раздел 5. Учет нарушений стандартных предположений о модели .................215
Тема 5.1. Включение в модель фиктивных переменных .......................................215
Тема 5.2. Учет гетероскедастичности .....................................................................227
Тема 5.3. Учет автокоррелированности ошибок ....................................................236
Раздел 6. Особенности регрессионного анализа

для стохастических объясняющих переменных ................................247
Тема 6.1. Линейные регрессионные модели со стохастическими
объясняющими переменными ................................................................247
Тема 6.2. Метод инструментальных переменных ..................................................257
Задания для семинарских занятий, работы в компьютерном классе
и для самостоятельной работы ..............................................................................275
Приложение. Таблицы статистических данных к заданиям ....................................304
Литература .................................................................................................................308
Глоссарий .................................................................................................................. 309
Часть II
РЕГРЕССИОННЫЙ АНАЛИЗ ВРЕМЕННЫХ РЯДОВ
Раздел 7. Стационарные временные ряды. Модели ARMA .............................329
Тема 7.1. Стационарные модели ARMA ................................................................329
Тема 7.2. Подбор стационарной модели ARMA для ряда наблюдений ................364
Приложение П.7. Проверка гипотезы случайности .................................................394
Раздел 8. Регрессионный анализ для стационарных переменных ...................403

Тема 8.1. Асимптотическая обоснованность стандартных процедур ...................403
Тема 8.2. Динамические модели. Векторная авторегрессия .................................409
Раздел 9. Нестационарные временные ряды. Модели ARIMA ........................447

Тема 9.1. Нестационарные ARMA модели .............................................................447
Тема 9.2. Проблема различения TS- и DS-рядов. Гипотеза единичного корня ....474
Раздел 10. Процедуры для различения TS- и DS-рядов ......................................479
Тема 10.1. Критерии Дики — Фуллера .....................................................................479
Тема 10.2. Обзор некоторых других процедур .........................................................514
Раздел 11. Регрессионный анализ для нестационарных переменных.

Коинтегрированные временные ряды.
Модели коррекции ошибок ..................................................................545
Тема 11.1. Проблема ложной регрессии. Коинтегрированные
временные ряды. Модели коррекции ошибок .......................................545
Тема 11.2. Оценивание коинтегрированных систем временных рядов .................580
Тема 11.3. Оценивание ранга коинтеграции и модели коррекции
ошибок методом Йохансена ...................................................................600
Задания для семинарских занятий, работы в компьютерном классе
и для самостоятельной работы ..............................................................................625
Приложение. Таблицы статистических данных к заданиям ....................................661
Литература .................................................................................................................673
Глоссарий ...................................................................................................................677
Предметный указатель .............................................................................................695
Часть I
ОСНОВНЫЕ ПОНЯТИЯ,
ЭЛЕМЕНТАРНЫЕ МЕТОДЫ
Раздел 1
Эконометрика и ее связь с экономической
теорией, метод наименьших квадратов
Тема 1.1. Модели связи и модели наблюдений;

эконометрическая модель, подобранная модель
Э
конометрика (Econometrics) — совокупность методов анализа свя-
зей между различными экономическими показателями (фактора-
ми) на основе реальных статистических данных с использованием
аппарата теории вероятностей и математической статистики. При по-
мощи этих методов можно уточнять или отвергать различные гипотезы
о существовании определенных связей между экономическими показате-
лями, предлагаемые экономической теорией, выявлять новые, ранее не-
известные связи, производить прогнозирование будущих значений эко-
номических показателей.
Наряду с микроэкономикой и макроэкономикой эконометрика яв-
ляется одним из базовых предметов современного экономического об-
разования. Эконометрика использует для анализа статистических дан-
ных методы теории вероятностей и математической статистики. При
этом некоторые модели и методы чаще применяются к исследованиям
на микроуровне, тогда как другие — к исследованиям на макроуровне.
В связи с этим иногда говорят о подразделении эконометрики на мик-
роэконометрику и макроэконометрику (в этом отношении можно со-
слаться, например, на монографии (Favero, 2001) и (Cameron, Trivedi,
2005). В течение многих лет основной задачей эконометрики являлось
по возможности наиболее эффективное оценивание параметров мате-
матических моделей, предлагаемых экономической теорией. При этом
было принято исходить из предположения о правильности специфи-
кации модели, рекомендуемой экономистами. В соответствии с таким
подходом эконометрист только оценивал модель на основании стати-
стических данных, не пытаясь ее изменить, и по результатам оценива-
ния делал выводы о подтверждении или неподтверждении заявленных
теоретических связей между экономическими факторами, а также
априорных значений некоторых параметров теоретических моделей.
В этом отношении можно сослаться на определение эконометрики,
приведенное в работе (Samuelson, Koopmans, Stone, 1954): «The appli-
cation of mathematical statistics to economic data to lend empirical support
13
Раздел 1. Эконометрика и ее связь с экономической теорией
to models constructed by mathematical economics and to obtain numerical

estimates»1.
С течением времени в прикладных эконометрических исследованиях
значительное место стал занимать так называемый разведочный анализ
(data mining), при котором исследователь в первую очередь обращается
именно к имеющимся статистическим данным и пытается подобрать
к ним несколько альтернативных моделей, прежде чем остановиться
на какой-то одной из них и принять результаты, полученные для этой
предпочтительной модели. Анализируя характер имеющихся статистиче-
ских данных, исследователь делает определенные заключения о возмож-
ной форме подходящей теоретической модели, что помогает при построе-
нии окончательной модели. Более того, если в процессе такого анализа
предложенная теоретическая модель отвергается, сами данные могут ука-
зать, в каком направлении следует изменить спецификацию исходной тео-
ретической модели.
В настоящее время построение окончательной модели производится
с учетом как представлений экономической теории, так и информации, со-
держащейся в эмпирических данных. Последняя может, например, указать
на необходимость включения в модель, предлагаемую экономической тео-
рией, дополнительных переменных или на исключение из модели тех или
иных «лишних» переменных, на необходимость изменения функциональ-
ной формы связи между рассматриваемыми переменными и т. п. В процес-
се построения подходящей модели естественно учитывать и результаты
предшествующих эконометрических исследований. Заметим только, что
в основе всякого эконометрического исследования лежит представление
о существовании некоторого «истинного» механизма порождения эмпири-
ческих данных, о котором мы будем говорить в дальнейшем как о процессе
порождения данных (ППД, или DGP — data generating process).
Рассмотрим, например, связь между располагаемым доходом домашнего
хозяйства (disposable personal income) DPI и расходами домашнего хозяйства
на личное потребление (personal consumption expenditures) CONS. Кейнс в сво-
ей знаменитой книге (Keynes, 1936) отметил как фундаментальный закон
психологии склонность людей (как правило, и в среднем) увеличивать рас-
ходы на личное потребление по мере возрастания их доходов, но не в той
степени, в какой возрастает их доход. Это означает, что если расходы
на личное потребление связаны с располагаемым доходом соотношением
CONS f (DPI),
где обе переменные измерены в одних единицах, то:
1
Применение математической статистики к экономическим данным для эмпирической
поддержки построенных экономико-математических моделей и получения числовых оценок
(англ.). — Пер. авт.
14
Тема 1.1. Модели связи и модели наблюдений; эконометрическая модель
x функция f(DPI) должна быть возрастающей;

x скорость изменения этой функции, т. е. предельная склонность
к потреблению (предельная норма потребления), должна быть
меньше 1.
Вместе с тем Кейнс не указал явную форму такой функциональной связи,
справедливо замечая, что она должна соответствовать реальным стати-
стическим данным.
Простейшей моделью функциональной связи между DPI и CONS,
удовлетворяющей указанным требованиям, является линейная модель
связи (linear relation) — модель линейной зависимости CONS от DPI:
CONS D + E · DPI,
где E — постоянная величина, 0 < E < 1, характеризующая в данном круге
домашних хозяйств их склонность к потреблению (propensity to consume), свя-
занную с традициями и привычками; D — автономное потребление (auto-
nomous consumption).
Для подтверждения правильности выбора такой теоретической моде-
ли и проверки гипотез о ее параметрах (например, о том, что для некото-
рой совокупности домашних хозяйств в определенный период времени
склонность к потреблению не превышала значения 0,9) надо обратиться
к статистическим данным.
Пусть имеем данные о размерах располагаемого дохода и расходах
на личное потребление для n домашних хозяйств, так что DPIi и CONSi —
соответственно располагаемый доход и расходы на личное потребление
i-го домашнего хозяйства. (Заметим, что получение подобных статисти-
ческих данных само по себе является далеко не простой задачей, посколь-
ку требует от всех выбранных домохозяйств ежедневного учета их доходов
и расходов и сообщения итоговых результатов без искажения.)
Если на плоскости в прямоугольной системе координат разместить
точки (DPIi, CONSi) с абсциссами DPIi и ординатами CONSi (такое построе-
ние называется диаграммой рассея-
ния — scatterplot, scatter diagram, scatter
CONS
graph), то, как правило, эти точки 2700
не будут лежать на одной прямой
вида CONS D + E · DPI, соответству-
2500
ющей линейной модели связи. Они
будут образовывать облако рассеяния
(scatter cloud), вытянутое вдоль гипоте- 2300
тической прямой CONS D + E · DPI.
Подобная форма облака приведе- 2100
на на диаграмме рассеяния (рис. 1.1), 2200 2400 2600 2800 DPI
соответствующей смоделированным Рис. 1.1
15
данным о годовом располагаемом доходе и годовых расходах на личное

потребление (в 1999 г., в условных единицах) 20 домашних хозяйств Рос-
сийской Федерации (табл. 1.1).
Таблица 1.1
Смоделированные данные для 20 домашних хозяйств
i DPI CONS i DPI CONS

1 2508 2406 11 2435 2311
2 2572 2464 12 2354 2278
3 2408 2336 13 2404 2240
4 2522 2281 14 2381 2183
5 2700 2641 15 2581 2408
6 2531 2385 16 2529 2379
7 2390 2297 17 2562 2378
8 2595 2416 18 2624 2554
9 2524 2460 19 2407 2232
10 2685 2549 20 2448 2356
Значение
Hi CONSi – (D + E · DPIi)
является отклонением реально наблюдаемых расходов на потребление
CONSi от значения D + E · DPIi, предсказываемого гипотетической линей-
ной моделью связи для i-го домашнего хозяйства, имеющего располагае-
мый доход DPIi. Это отклонение отражает совокупное влияние на кон-
кретные значения CONSi множества дополнительных факторов, не учи-
тываемых принятой моделью связи, так что реальное соотношение между
DPIi и CONSi принимает форму модели наблюдений (observation model):
CONSi (D + E · DPIi) + Hi, i 1, …, n.
Соответственно о величине Hi CONSi – (D + E · DPIi) говорят как
об ошибке наблюдений (observation error, disturbance), точнее, как об ошибке
в i-м наблюдении.
Особенность эконометрического подхода состоит в том, что отклоне-
ния Hi рассматриваются как случайные величины (реализации случайных
величин), так что связь между переменными, в данном случае DPIi
и CONSi, является не детерминированной, а стохастической. При этом
несколько расплывчатые рассуждения о теоретической (усредненной)
функции связи становятся более формализованными, если предполо-
жить, что модель порождения данных имеет вид
16
CONSi f(DPIi) + Hi, i 1, …, n,

где H1, …, Hn — случайные величины, условные математические ожидания
которых при фиксированных значениях располагаемого дохода равны 0:
E(Hi | DPIi) 0, i 1, …, n.
При таком предположении имеем:
E(CONSi | DPIi) f(DPIi), i 1, …, n,
так что f(DPIi) можно трактовать как ожидаемую величину расходов
на личное потребление домохозяйства, имеющего располагаемый доход
DPIi.
Пусть процесс порождения данных имеет вид:
CONSi (D + E · DPIi) + Hi, i 1, …, n,
где DPI1, …, DPIn — заданные (фиксированные) величины; H1, …, Hn — слу-
чайные величины, для которых E(Hi | DPIi) 0, так что E(CONSi | DPIi)
D + E · DPIi, i 1, …, n; E — коэффициент, выражающий изменение ожи-
даемой величины расходов домохозяйства на личное потребление при
увеличении располагаемого дохода домохозяйства на единицу.
В реальных условиях эконометрист имеет в своем распоряжении толь-
ко статистические данные и не знает вида функции f(DPI). Выбирая
ту или иную функцию f(DPI), он формирует соответствующую статисти-
ческую модель (statistical model)
CONSi f(DPIi) + vi, i 1, …, n,
где v1, …, vn — случайные величины.
Такую модель часто называют также эконометрической моделью (econo-
metric model), имея в виду два обстоятельства:
x она не является детерминированной (усредненной) моделью связи
и предусматривает возможные отклонения реально наблюдаемых
значений CONSi от значений f(DPIi), предсказываемых детермини-
рованной моделью связи;
x она выбирается эконометристом, и ее вид может отличаться от ис-
тинного процесса порождения данных, который эконометристу
не известен.
Определение эконометрической модели в явном виде (т. е. задание ее
в виде уравнения, с указанием задействованных переменных и функцио-
нальной формы связи между переменными, задание априорных огра-
ничений на параметры и вероятностного описания последовательности
v1, …, vn) называется спецификацией эконометрической модели (specification
of an econometric model).
17
В рассмотренных условиях
vi CONSi – f(DPIi) (D + E · DPIi) + Hi – f(DPIi),
так что E(vi | DPIi) (D + E · DPIi) – f(DPIi). При этом значение E(vi | DPIi)
может быть не равным нулю, и тогда E(CONSi | DPIi) z f(DPIi), т. е. f(DPIi)
уже нельзя трактовать как ожидаемую величину расходов на личное по-
требление домохозяйства, имеющего располагаемый доход DPIi. При по-
добном неправильном выборе формы функции связи говорят, что стати-
стическая модель неправильно специфицирована (misspecified model).
Представим теперь, что выбранная статистическая модель все же спе-
цифицирована правильно и, как и процесс порождения данных, имеет
линейную форму:
CONSi (D + E · DPIi) + Hi, i 1, …, n.
Однако при этом эконометрист все равно не знает значений парамет-
ров D и E процесса порождения данных. Поэтому он должен оценить эти
параметры, используя имеющиеся статистические данные, т. е. наблюда-
емые пары значений (DPIi, CONSi), i 1, …, n. При этом интерес могут
представлять не только точечные оценки этих параметров, но и довери-
тельные интервалы для них.
Если модель специфицирована правильно и оценки a для D и b для E
каким-то образом получены, то подобранная модель (fitted model)
CONS a + b · DPI
может использоваться для прогнозирования объема расходов на личное
потребление для домохозяйства, имеющего располагаемый доход DPI.
Разумеется, такой прогноз может иметь смысл:
x если полученные оценки достаточно близки к истинным значениям

параметров D и E;
x для домохозяйств, имеющих ту же (или хотя бы близкую к ней)
склонность к потреблению, что и у домохозяйств, по которым про-
изводилось оценивание параметров модели.
После оценивания эконометрической модели обычно проверяют адек-

ватность модели имеющимся статистическим данным, а также те или
иные гипотезы о значениях параметров модели.
Может оказаться, например, что наблюдаемое облако рассеяния боль-
ше соответствует модели, в которой «теоретическая» (усредненная) функ-
ция связи CONS f(DPI) имеет вид CONS J + GlnDPI, J > 0, G > 0. Заметим,
что в такой модели предельная склонность к потреблению уже не являет-
ся постоянной величиной, а зависит от уровня располагаемого дохода:
18
dCONS δ
= , убывая с возрастанием располагаемого дохода. (При этом
dDPI DPI
условие DPI > G обеспечивает выполнение предположения о том, что пре-
дельная склонность к потреблению положительна и принимает значения
меньше единицы.) Подобные ситуации более характерны для описания
связи между располагаемым личным доходом и расходами на потребле-
ние отдельных продуктов или группы продуктов (например, молочных
продуктов).
Подобранная модель, прошедшая проверку на адекватность имею-
щимся статистическим данным, может использоваться как для целей
прогнозирования, так и для целей управления (проведения определенной
экономической политики).
Таким образом, эконометрический анализ представляет собой сово-
купность следующих действий:
x получение на основе экономической теории исходных представле-

ний о существовании связей между определенными экономически-
ми факторами (экономическая гипотеза);
x выражение этих представлений в математической форме в виде со-
ответствующих уравнений или систем уравнений (математическая
модель);
x сбор необходимых (и доступных) статистических данных;
x согласование выбранной математической модели с имеющимися
в распоряжении статистическими данными (модель наблюдений),
спецификация статистической (эконометрической) модели;
x оценивание статистической (эконометрической) модели;
x проверка гипотезы о правильности выбранной спецификации ста-
тистической (эконометрической) модели (проверка адекватности
подобранной модели имеющимся статистическим данным); cохра-
нение или изменение этой спецификации по результатам проверки
гипотезы адекватности;
x уточнение математической модели связи путем проверки тех или
иных гипотез о значениях параметров выбранной модели (с учетом
результатов проверки эконометрической модели на адекватность
имеющимся данным); проверка возможности упрощения модели;
проверка экономических гипотез (единичная эластичность и т. п.);
x использование подобранной модели для прогнозирования или
управления.
В процессе эконометрического анализа исследователи часто придер-

живаются принципа парсимонии (экономичности, простоты — parsimony
principle): модель должна быть простой, насколько это возможно, пока
19
не доказана ее неадекватность имеющимся статистическим данным. Ис-

следователи используют также принцип охвата (encompassing principle): мо-
дель должна быть в определенном смысле «неулучшаемой» и объяснять
результаты, получаемые по конкурирующим с ней моделям (в конкуриру-
ющих моделях не должно содержаться информации, которая позволи-
ла бы улучшить выбранную модель). При проведении исследования реко-
мендуется также придерживаться метода «от общего к частному» (general-
to-specific approach), т. е. в качестве первоначальной брать более полную
модель, а затем пробовать редуцировать ее к более простой модели.
Две переменные: меры изменчивости и связи

В табл. 1.2 приведены уровни безработицы среди белого (BEL) и цветного
(ZVET) населения США в период с марта 1968 г. по июль 1969 г. (месячные
данные).
Таблица 1.2
Уровни безработицы среди белого (BEL) и цветного (ZVET) населения США, %
i Период BEL ZVET i Период BEL ZVET

1968 г. 1969 г.
1 Март 3,2 6,9 11 Январь 3,0 6,0
2 Апрель 3,1 6,7 12 Февраль 2,9 5,7
3 Май 3,2 6,5 13 Март 3,1 6,0
4 Июнь 3,3 7,1 14 Апрель 3,1 6,9
5 Июль 3,3 6,8 15 Май 3,1 6,5
6 Август 3,2 6,4 16 Июнь 3,0 7,0
7 Сентябрь 3,2 6,6 17 Июль 3,2 6,4
8 Октябрь 3,1 7,3
9 Ноябрь 3,0 6,5
10 Декабрь 3,0 6,5
Рассмотрим графики изменения уровней безработицы в обеих группах

в течение указанного периода времени (рис. 1.2). Первое впечатление: уро-
вень безработицы среди цветного населения существенно выше и изменя-
ется со временем со значительными колебаниями; уровень безработицы
среди белого населения изменяется плавно и в довольно узком диапазоне.
Обозначим через x1, …, x17 последовательно наблюдаемые уровни без-
работицы среди цветного населения, а через y1, …, y17 — соответствующие
им уровни безработицы среди белого населения США. Таким образом,
можно говорить о наблюдаемых значениях двух переменных: x — уровня
20
%
8
ZVET
7 BEL
2
Март 1968
Апрель 1968
Май 1968
Июнь 1968
Июль 1968
Август 1968
Сентябрь 1968
Октябрь 1968
Ноябрь 1968
Декабрь 1968
Январь 1969
Февраль 1969
Март 1969
Апрель 1969
Май 1969
Июнь 1969
Июль 1969
Год
Рис. 1.2
безработицы среди цветного населения и y — уровня безработицы среди

белого населения. Всего мы имеем n 17 наблюдаемых пар значений пе-
ременных x и y: (x1, y1), …, (xn, yn).
Наиболее простыми показателями, характеризующими последова-
тельности x1, …, xn и y1, …, yn, являются их средние значения (means)
1 n x1 + … + xn 1 n y + … + yn
x = ∑
n i =1
xi =
n
, y = ∑
n i =1
yi = 1
n
,
а также выборочные дисперсии (sample variances)
1 n 1 n
Var( x) = ∑ i
n − 1 i =1
( x − x )2
, Var ( y ) = ∑ ( yi − y ) ,
n − 1 i =1
2
характеризующие степень разброса значений x1, …, xn (y1, …, yn) вокруг

своего среднего x (или y соответственно), или вариабельность (изменчи-
вость — variability) этих переменных на множестве наблюдений. Отсюда
обозначение Var (variance). Впрочем, более естественным было бы изме-
рение степени разброса значений переменных в тех же единицах, в кото-
рых измеряется и сама переменная. Эту задачу решает показатель, назы-
ваемый стандартным отклонением2 (Std. Dev. — standard deviation) перемен-
ной x (переменной y), который определяется соотношением
Std.Dev.( x) = Var( x) ( Std.Dev.( y) = Var( y) соответственно).

2
Здесь мы следуем терминологии словаря статистических терминов [The Oxford dictio-
nary of statistical terms (2003)].
21
Определяя выборочную дисперсию, сумму квадратов отклонений

наблюдаемых значений переменной от их среднего значения делим не на
количество наблюдений n, а на n – 1. Именно такое определение исполь-
зуется в математической статистике по следующей причине. Если пред-
полагать, что x1, …, xn — случайная выборка из распределения с математи-
ческим ожиданием P и дисперсией V 2, то, как известно из курса матема-
1 n
тической статистики, x = ∑ xi является несмещенной оценкой для P,
n i =1
1 n
а Var( x) = ∑
n − 1 i =1
( xi − x ) является несмещенной оценкой для V 2. Зада-
2
ния для практических занятий ориентированы на применение специализи-

рованного пакета прикладных программ Econometric Views (EViews), и в этом
пакете принято именно такое определение выборочной дисперсии.
Вычисления по указанным выше формулам приводят в нашем приме-
ре к значениям x = 6, 576, Std.Dev. (x) 0,416, y = 3, 118, Std.Dev. (y) 0,113.
Иными словами, средний уровень безработицы среди цветного населе-
ния более чем в два раза превышает средний уровень безработицы среди
белого населения. Стандартные отклонения соответственно относятся
приблизительно как 4:1, что указывает на гораздо более сильную из-
менчивость (вариабельность) уровня безработицы среди цветного насе-
ления. Размахи колебаний уровней равны соответственно 7,3 – 5,7 1,6
и 3,3 – 2,9 0,4.
BEL Удобным графическим средством
3,4 анализа данных является, как гово-
рилось ранее, диаграмма рассеяния,
3,2 на которой в прямоугольной системе
координат располагаются точки xi,
yi, i 1, …, n, где n — количество наб-
3,0
людаемых пар значений переменных
x и y (иногда ее называют корреляци-
2,8 онным полем — correlation diagram).
5,5 6,0 6,5 7,0 7,5 ZVET
Диаграмма рассеяния для нашего
Рис. 1.3 примера приведена на рис. 1.3.
Вытянутость облака точек на диаграмме рассеяния вдоль наклонной
прямой позволяет сделать предположение о том, что существует некото-
рая объективная3 тенденция линейной связи между значениями перемен-
ных x и y, выражаемая соотношением
y D + Ex, E z 0.
3
Впрочем, достаточно хорошо выраженная вытянутость облака точек вдоль наклонной
прямой может возникать и в случае так называемой ложной (паразитной) линейной связи,
не имеющей содержательной экономической интерпретации (см. пример 1.3.4, тема 1.3).
22
В то же время такое соотношение выражает всего лишь тенденцию: реаль-

но наблюдаемые значения yi отличаются от значений D + Exi на величину
εi = yi − ( α + βxi ) ,
так что
yi = ( α + β ⋅ xi ) + εi , i = 1, … , n.
Последнее соотношение определяет линейную модель наблюдений

(linear observation model), тогда как соотношение
y = α + βx
определяет линейную модель связи (linear relation) между рассматриваемы-
ми переменными (математическая модель — mathematical model, dependence
model), в которой y — зависимая (dependent) переменная, а x — независимая
(independent) переменная.
Заметим, однако, что видимая степень проявления вытянутости обла-
ка точек на диаграмме рассеяния существенно зависит от выбора единиц
измерения переменных x и y.
Поэтому, во-первых, желательно при построении диаграммы выби-
рать масштабы и интервалы изменения переменных таким образом, что-
бы окно диаграммы имело вид квадрата и чтобы на диаграмме имелись
точки, достаточно близко расположенные к каждой из четырех границ
этого квадрата (как на рис. 1.3). Это автоматически реализуется при по-
строении диаграмм рассеяния в пакете Econometric Views.
Во-вторых, желательно иметь какие-то числовые характеристики, ко-
торые отражали бы действительное наличие вытянутости облака точек
вдоль некоторой наклонной прямой и не зависели от шкал, в которых
представлены значения переменных.
Одна из возможных характеристик такого рода связана с разбиением
диаграммы рассеяния горизонтальной и вертикальной прямыми на четыре
прямоугольника (рис. 1.4).
Разбивающие диаграмму прямые
(секущие) проводятся через точку BEL
( x, y ) , так что если точка (xi, yi) ле- 3,4
жит правее вертикальной секущей,

то отклонение xi − x имеет знак 3,2
«плюс», а если левее — то знак «ми-
нус». Аналогично если точка (xi, yi) 3,0
лежит выше горизонтальной секу-
щей, то отклонение yi − y имеет 2,8
знак «плюс», а если она расположена 5,5 6,0 6,5 7,0 7,5 ZVET
ниже этой секущей — знак «минус». Рис. 1.4
23
В нашем примере m++ 4, m+– 4, m–+ 3 (точки, соответствующие наб-

людениям с номерами 6 и 17, имеют совпадающие координаты), m– – 6
(точки, соответствующие наблюдениям с номерами 9 и 10, имеют совпа-
дающие координаты), так что количество точек с совпадающими знаками
отклонений xi − x и yi − y равно m++ + m– – 10, а количество точек,
у которых знаки отклонений различны, равно m+– + m–+ 7.
Количество точек с совпадающими знаками отклонений от средних
значений (для таких точек произведение ( xi − x )( yi − y ) положительно)
составляет 10/17 0,59, т. е. около 59% общего числа точек, и это служит
некоторым указанием на наличие вытянутости облака точек в направле-
нии прямой, имеющей положительный угловой коэффициент. Если бы
большинство составляли точки с противоположными знаками отклоне-
ний от средних значений (для таких точек произведение ( xi − x )( yi − y )
отрицательно), то это служило бы некоторым указанием на наличие вы-
тянутости облака точек в направлении прямой, имеющей отрицательный
угловой коэффициент. Последняя ситуация часто наблюдается при рас-
смотрении зависимости спроса на товар от его цены.
В качестве примера приведем
Спрос диаграмму рассеяния (рис. 1.5) для
15
статистических данных о ежене-
дельных закупках куриных яиц се-
мью домохозяйствами у одного
и того же розничного продавца в те-
чение 15 недель при общем сниже-
нии цен на этот продукт в течение
9 этого времени (статистические дан-
0,35 0,55 Цена ные приведены в табл. 1.4; спрос из-
Рис. 1.5 мерялся в дюжинах, цена — в дол-
ларах).
Более распространенным является определение степени выраженно-
сти линейной связи между произвольными переменными x и y, принима-
ющими значения xi и yi, i 1, …, n, посредством выборочного коэффициен-
та корреляции (sample correlation coefficient)
Cov( x, y)
rxy = ,
Var( x) Var( y)
учитывающего не только знаки произведений ( xi − x )( yi − y ) , но и абсо-

лютную величину этих произведений. Величина Cov(x, y), стоящая в чис-
лителе, определяется соотношением
1 n
Cov( x, y) = ∑ ( xi − x )( yi − y )
n − 1 i =1
24
и называется выборочной ковариацией (sample covariance) переменных x

и y. Так что формально
Cov(x, x) Var(x), Cov(y, y) Var(y).
Заметим также, что Cov(x, y) Cov(y, x) и rxy ryx.
Свойства выборочной ковариации, выборочной дисперсии

и выборочного коэффициента корреляции
Пусть a — некоторая постоянная, x, y, z — переменные, принимающие

в i-м наблюдении значения xi, yi, zi, i 1, …, n (n — количество наблюде-
ний). Тогда a можно рассматривать как переменную, значение которой
в i-м наблюдении равно ai a, и
1 n 1 n
Cov ( x, a ) = ∑ i
n − 1 i =1
( x − x )( ai − a ) = ∑ ( xi − x ) ( a − a ),
n − 1 i =1
так что Cov(x, a) 0. Далее очевидно, что
Cov( x, a) = Cov(a, x) и Cov( x, x) = Var( x).
Кроме того,
1 n 1 n
Cov ( ax, y ) = ∑ i
n − 1 i =1
( ax − ax )( yi − y ) = a ∑ ( xi − x )( yi − y ),
n − 1 i =1
так что
Cov(ax, y) = a Cov( x, y).
Наконец,
1 n
Cov ( x, y + z ) = ∑ ( xi − x )
n − 1 i =1
( ( yi + zi ) − ( y + z ) ) =
1 n
= ∑ ( xi − x )
n − 1 i =1
( ( yi − y ) + ( zi − z ) ) =
1 n 1 n
= ∑ i
n − 1 i =1
( x − x )( yi − y ) + ∑ ( xi − x )( zi − z ) ,
n − 1 i =1
так что
Cov ( x, y + z ) = Cov ( x, y ) + Cov ( x, z ) .
25
Исходя из этих свойств, находим, в частности, что

Var(a) 0, Var(ax) a 2Var(x), Std.Dev.(ax) |a|Std.Dev.(x)
(при изменении единицы измерения переменной в a > 0 раз, во столько же
раз изменяется и величина стандартного отклонения этой переменной),
Var( x + a) = Var( x)
(сдвиг начала отсчета не влияет на изменчивость переменной).
Наконец,
Var( x + y) = Cov( x + y, x + y) =
= Cov( x, x) + Cov( x, y) + Cov( y, x) + Cov( x, y),
т. е.
Var( x + y) = Var( x) + Var ( y) + 2Cov( x, y)
(дисперсия суммы двух переменных отличается от суммы дисперсий этих

переменных на величину, равную удвоенному значению ковариации между
этими переменными).
Что касается выборочного коэффициента корреляции rxy, то если из-
меняются начало отсчета и единица измерения, скажем, переменной x, так
что вместо значений x1, …, xn мы получаем значения
xi = a + bxi , i = 1, … , n, (b > 0)
переменной x = a + bx, тогда
Cov( x, y) Cov(a + bx, y)

rxy
= = =
Var( x ) Var( y) Var(a + bx) Var( y)
bCov( x, y)
= = rxy .
2
b Var( x) Var( y)
Иными словами, выборочный коэффициент корреляции rxy инвариантен от-

носительно выбора единиц измерения и начала отсчета переменных x и y.
Значения выборочного коэффициента корреляции не могут быть
больше 1 по абсолютной величине, что непосредственно вытекает из при-
менения известного неравенства Коши — Буняковского в виде:
n 2 n n
∑ ( xi − x )( yi − y ) ∑ ( xi − x ) ⋅∑ ( yi − y ) .
2 2
≤
i =1 i =1 i =1
Если линейная тенденция выражена на диаграмме рассеяния довольно

ясно, то значения rxy будут по абсолютной величине близки к единице
(значения rxy близки к +1, если облако существенно вытянуто вдоль пря-
26
мой, имеющей положительный угловой коэффициент, или к –1, если об-

лако существенно вытянуто вдоль прямой, имеющей отрицательный
угловой коэффициент). Значение rxy равно +1 тогда и только тогда, когда
все точки (x1, y1), …, (xn, yn) лежат на прямой, имеющей положительный
угловой коэффициент. Значение rxy равно –1 тогда и только тогда, когда
все точки (x1, y1), …, (xn, yn) лежат на прямой, имеющей отрицательный
угловой коэффициент.
В нашем примере Var(x) 0,1732, Var(y) 0,0128, Cov(x, y) 0,0217, от-
куда находим:
0, 0217
rxy = = 0, 4608 ,
0, 1732 0, 0128
т. е. получаем положительное значение rxy, расположенное приблизитель-

но посередине между 0 и 1.
В примере с закупками куриных яиц получаем отрицательное значе-
ние выборочного коэффициента корреляции: rxy –0,717. Соответствен-
но в первом случае часто говорят о положительной корреляционной связи
(positive correlation), а во втором — об отрицательной корреляционной связи
(negative correlation) между переменными.
Однако не следует считать, что большое положительное или большое
отрицательное значение коэффициента корреляции обязательно свиде-
тельствует именно о линейном характере связи между переменными. Даже
при достаточно большом по абсолютной величине значении выборочно-
го коэффициента корреляции построенная по конкретным статистиче-
ским данным диаграмма рассеяния может указывать скорее на нелиней-
ную связь между переменными. Обратимся, например, к статистическим
данным об уровне безработицы UNJOB и темпах инфляции INF в США
за период с 1961 по 1969 г. (эти данные приведены в табл. 1.11 и подробно
анализируются при рассмотрении темы 1.4). Значение выборочного ко-
эффициента корреляции между этими переменными равно –0,848. Соот-
ветствующая статистическим данным диаграмма рассеяния (рис. 1.6)
имеет вид, который вряд ли может
INF
указывать на линейный характер 6
связи между этими переменными. 5
В то же время близость выбо-
4
рочного коэффициента корреляции
3
к нулю вовсе не означает отсутствие
какой-либо другой — отличной 2
от линейной — зависимости между 1
рассматриваемыми переменными. 0
Рассмотрите самостоятельно при- 3 4 5 6 7 INJOB
мер, в котором переменные y и x Рис. 1.6
27
связаны квадратичной зависимостью y x 2, но значения y наблюдаются

только при значениях x –2, –1, 0, 1, 2. Постройте для этих данных диа-
грамму рассеяния и вычислите выборочный коэффициент корреляции.
9 Замечание 1.1.1. Мы определили Var и Cov, деля соответствующие

суммы квадратов на n – 1. Вместе с тем, например, в учебнике (Доу-
герти, 2004) соответствующие суммы квадратов делятся не на n – 1,
а на n. К счастью, Var и Cov будут играть у нас лишь вспомогатель-
ную роль, а величина более существенного для нас коэффициента
корреляции rxy не зависит от того, каким из двух способов мы будем
определять Var и Cov, лишь бы только при определении обеих этих
характеристик использовался один и тот же способ.
9 Замечание 1.1.2. Выборочный коэффициент корреляции, опреде-

ленный указанным выше образом, более точно называется выбо-
рочным коэффициентом парной линейной корреляции Пирсона.
Контрольные вопросы
1. Почему наряду с теоретическими моделями связи между переменными
приходится рассматривать модели наблюдений? Чем различаются эти
типы моделей? В чем состоит особенность эконометрического подхода
к исследованию связей между экономическими переменными?
2. Что понимается под процессом порождения данных? Что понимается
под эконометрической (статистической) моделью? Чем отличается
эконометрическая модель от процесса порождения данных?
3. Каковы основные элементы эконометрического анализа?
4. В чем состоит принцип экономичности, используемый при подборе
модели?
5. В чем состоит принцип охвата, используемый при подборе модели?
6. В чем заключается метод «от общего к частному», используемый при
подборе модели?
7. Может ли совпадать подобранная модель связи с теоретической?
8. Какое графическое средство полезно использовать для выяснения ха-
рактера теоретической (усредненной) связи между двумя экономиче-
скими показателями?
9. Какая числовая характеристика измеряет степень выраженности ли-
нейной связи между двумя экономическими показателями в имею-
щихся наблюдениях?
10. В каких случаях говорят о положительной (отрицательной) корреля-
ционной связи между экономическими переменными?
11. Инвариантна ли выборочная ковариация Cov(x, y) относительно вы-
бора единиц измерения и начала отсчета переменных x и y?
28
Тема 1.2. Метод наименьших квадратов
12. Инвариантен ли выборочный коэффициент корреляции rxy относи-

тельно выбора единиц измерения и начала отсчета переменных x и y?
13. Всегда ли высокое значение коэффициента корреляции указывает
на линейный характер связи между экономическими переменными?
Тема 1.2. Метод наименьших квадратов. Прямолинейный

характер связи между двумя экономическими факторами
Обсудим вопрос о том, каким образом по имеющимся наблюдениям мож-
но (хотя бы приблизительно) восстановить гипотетическую линейную
связь между переменными, если таковая действительно существует. Как
было сказано, проблема состоит в том, что даже при действительном су-
ществовании линейной связи между двумя переменными истинные зна-
чения параметров D и E такой связи обычно остаются неизвестными,
и судить об их истинных значениях можно лишь приближенно, оценивая
значения D и E на основании ограниченного количества имеющихся
в распоряжении данных наблюдений (статистических таблиц).
Ранее отмечалось, что если между переменными x и y существует тео-
ретическая (усредненная) линейная связь в виде
y D + Ex,
то наблюдаемые значения xi, yi, i 1, …, n, этих переменных связаны ли-
нейной моделью наблюдений
yi = ( α + β xi ) + εi , i = 1, …, n.
Если D и E — истинные значения параметров линейной модели связи, то
εi = yi − ( α + βxi )
представляет собой ошибку (error, или disturbance) в i-м наблюдении. За-

метим, что в англоязычной литературе параметру D соответствует термин
intercept, а параметру E — slope.
Если в качестве эконометрической модели выбрана линейная модель,
то поиск подходящих оценок для D и E можно осуществлять, например,
путем поиска на диаграмме рассеяния прямой, проходящей через точку
( x, y ) — «центр» системы точек (x1, y1), …, (xn, yn) и наилучшим образом
выражающей направление вытянутости этой системы (облака) точек.
Пусть прямая
y D* + E*x
рассматривается в числе прочих в процессе такого поиска (так что
α∗ + β∗ x = y ). Для i-го наблюдения мы будем иметь тогда расхождение
29
(
ε∗i = yi − α∗ + β∗ xi , )
причем значения ε∗i могут быть как положительными, так и отрицатель-
ными. При изменении значений D* и E* будут изменяться и расхождения
ε1∗ , … , ε∗n . Конечно, хотелось бы подобрать значения D* и E* таким обра-
зом, чтобы ε1∗ = … = ε∗n = 0. Однако это невозможно, если точки (x1, y1),
…, (xn, yn) не лежат на одной прямой. Поэтому приходится останавливать
свой выбор на значениях D* и E*, минимизирующих некий подходящий
показатель, характеризующий совокупность расхождений в целом.
В качестве такого показателя можно взять, например, сумму квадратов
n
∑ ( ε∗i ) и тогда остановить свой выбор на прямой y
2
расхождений D* +
i =1
+ E x, для которой эта сумма минимальна4. Соответствующие этой пря-
*
мой значения D* и E* будем обозначать символами α̂ и βˆ.

Поскольку прямая y D* + E*x проходит через точку ( x , y ) , y = α∗ + β∗ x .
Отсюда
α ∗ = y − β∗ x ,
и для поиска «наилучшей» прямой y = α ˆ + βˆ x достаточно определить ее

угловой коэффициент βˆ, при этом α
ˆ = y − βˆ x . Изменяя значения E* и сле-
n
∑ ( ε∗i ) , можно в принципе найти искомое β̂
2
дя за изменением значений
i =1
с любой наперед заданной точностью. Заметим, однако, что если во всех
n наблюдениях переменная x принимает одно и то же значение, то
x1 = … = xn = x ,
( )
ε∗i = yi − α∗ + β∗ x = yi − y,
n n
∑ (ε ) = ∑ ( y − y ) .
∗ 2 2
i i
i =1 i =1
n
∑ ( ε∗i )
2
В этом случае сумма одинакова для любой прямой y D* + E*x,
i =1
проходящей через точку ( x , y ) .
Соотношение y = αˆ + βˆ x представляет подобранную модель линейной
связи, которая служит аппроксимацией для «истинной» модели y D + Ex
линейной связи между переменными x и y. В подобранной модели наблю-
даемому значению xi переменной x сопоставляется прогнозное значение
4
Такой выбор удобен с точки зрения простоты вычислений и простоты математических
выводов. Однако можно использовать и другие показатели, характеризующие совокупность
расхождений в целом, например сумму абсолютных величин расхождений.
30
Тема 1.2. Метод наименьших квадратов
ˆ + βˆ xi переменной y. Последнее обычно отличается

(fitted value) yˆi = α
от наблюдаемого значения yi. Разность
ˆ + βˆ xi
ei = yi − yˆi = yi − α ( )
называется остатком (residual) в i-м наблюдении. Для реальных данных,
как правило, все остатки отличны от нуля, одни из них имеют положи-
тельный знак, а другие — отрицательный.
Для наблюдаемых значений объясняемой переменной имеем, таким
образом, два представления:
yi = ( α + βxi ) + εi (из процесса порождения данных),
( )
ˆ + βˆ xi + ei (из определения остатков).
yi = α
Поскольку оценки для D и E отличаются от истинных значений этих
параметров (за исключением тривиальных ситуаций), в общем случае
ˆ + βˆ xi ≠ α + βxi . Отсюда вытекает, что ei z Hi, т. е. в i-м наблюдении значе-
α
ние остатка отличается от значения ошибки Hi. На рис. 1.7 остатки и ошиб-
ки имеют одинаковые знаки в первом, втором и четвертом наблюдениях
и противоположные знаки — в третьем наблюдении.
Если не все x1, …, xn одинаковы, то ту же самую «наилучшую» прямую
y=α ˆ + βˆ x можно получить исходя из общего принципа наименьших ква-
дратов (least squares principle). Согласно этому принципу среди всех воз-
можных значений D*, E*, претендующих на роль оценок параметров D и E,
следует выбирать такую пару D**, E**, для которой
n n
∑ ( yi − α∗∗ − β∗∗ xi ) ( )
2 2
∗ ∑
= min
∗
yi − α∗ − β∗ xi .
α ,β
i =1 i =1
y y наблюдаемое
ŷ прогнозное (fitted)
Теоретическая
P3 прямая
Подобранная
прямая
P1 Q4
Q1 Q3
Q2 P4
P2
x1 x2 x3 x4 x
Рис. 1.7
31
Иначе говоря, выбирается такая пара D**, E**, для которой сумма квад-
ратов расхождений оказывается наименьшей. Получаемые при этом оцен-
ки называются оценками наименьших квадратов (НК-оценками), или LS-
оценками (least squares estimates). Можно показать, что они совпадают с ра-
нее определенными оценками α̂ и β̂:
α∗∗ = α
ˆ , β∗∗ = βˆ.
Заметим, что при построении оценок наименьших квадратов заранее

не требуется, чтобы соответствующая прямая проходила через точку
( x, y ) , этот факт является свойством оценок наименьших квадратов. На-
личие такого свойства мы докажем чуть позднее (см. Приложение П-1.2а
в конце темы), а сейчас рассмотрим, как практически найти указанные
оценки α̂ и βˆ.
Идеально, если бы существовала возможность прямого вычисления зна-
чений α̂ и β̂ по какой-нибудь формуле на основе известных значений xi,
yi, i 1, …, n. В связи с этим заметим, что функция
n
( ) ∑(y )
2
Q α ∗ , β∗ = i − α∗ − β∗ xi
i =1
как функция двух переменных описывает поверхность z = Q α∗ , β∗ ( )

в трехмерном пространстве с прямоугольной системой координат D*, E*,
ˆ , β̂ сводится к известной математической задаче
z, так что поиск пары α
поиска точки минимума функции двух переменных.
Соответствующие выкладки приводятся в Приложении П-1.2а;
здесь же мы укажем только конечное решение:
n
∑ ( xi − x )( yi − y )
i =1
βˆ = n
,
∑ ( xi − x )
2
i =1
ˆ = y − βˆ x .
α
Разумеется, такое решение может существовать и быть единственным

только при выполнении условия
n
∑ ( xi − x )
2
≠ 0,
i =1
которое называется условием идентифицируемости.
32

Nosko v. Ekonometrika Kniga 01.fragment

Загружено:

Сведения о документе

Оригинальное название

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Nosko v. Ekonometrika Kniga 01.fragment

Загружено:

Авторское право:

Доступные форматы

УДК 330.43(078.

В учебнике излагаются методы эконометрического анализа — от самых про-

ISBN 978-5-850066-293-4 (общ.)

© ФГБОУ ВО «Российская академия народного хозяйства и государственной службы

Раздел 6. Особенности регрессионного анализа

Раздел 8. Регрессионный анализ для стационарных переменных ...................403

Раздел 9. Нестационарные временные ряды. Модели ARIMA ........................447

Раздел 11. Регрессионный анализ для нестационарных переменных.

Тема 1.1. Модели связи и модели наблюдений;

to models constructed by mathematical economics and to obtain numerical

x функция f(DPI) должна быть возрастающей;

данным о годовом располагаемом доходе и годовых расходах на личное

i DPI CONS i DPI CONS

CONSi f(DPIi) + Hi, i 1, …, n,

x если полученные оценки достаточно близки к истинным значениям

После оценивания эконометрической модели обычно проверяют адек-

x получение на основе экономической теории исходных представле-

В процессе эконометрического анализа исследователи часто придер-

не доказана ее неадекватность имеющимся статистическим данным. Ис-

Две переменные: меры изменчивости и связи

i Период BEL ZVET i Период BEL ZVET

Рассмотрим графики изменения уровней безработицы в обеих группах

безработицы среди цветного населения и y — уровня безработицы среди

а также выборочные дисперсии (sample variances)

характеризующие степень разброса значений x1, …, xn (y1, …, yn) вокруг

Std.Dev.( x) = Var( x) ( Std.Dev.( y) = Var( y) соответственно).

Определяя выборочную дисперсию, сумму квадратов отклонений

ния для практических занятий ориентированы на применение специализи-

В то же время такое соотношение выражает всего лишь тенденцию: реаль-

Последнее соотношение определяет линейную модель наблюдений

жит правее вертикальной секущей,

В нашем примере m++ 4, m+– 4, m–+ 3 (точки, соответствующие наб-

учитывающего не только знаки произведений ( xi − x )( yi − y ) , но и абсо-

и называется выборочной ковариацией (sample covariance) переменных x

Cov(x, x) Var(x), Cov(y, y) Var(y).

Заметим также, что Cov(x, y) Cov(y, x) и rxy ryx.

Свойства выборочной ковариации, выборочной дисперсии

Пусть a — некоторая постоянная, x, y, z — переменные, принимающие

так что Cov(x, a) 0. Далее очевидно, что

Cov( x, a) = Cov(a, x) и Cov( x, x) = Var( x).

Cov(ax, y) = a Cov( x, y).

Cov ( x, y + z ) = Cov ( x, y ) + Cov ( x, z ) .

Исходя из этих свойств, находим, в частности, что

(дисперсия суммы двух переменных отличается от суммы дисперсий этих

xi = a + bxi , i = 1, … , n, (b > 0)

переменной x = a + bx, тогда

Cov( x, y) Cov(a + bx, y)

Иными словами, выборочный коэффициент корреляции rxy инвариантен от-

Если линейная тенденция выражена на диаграмме рассеяния довольно

мой, имеющей положительный угловой коэффициент, или к –1, если об-

т. е. получаем положительное значение rxy, расположенное приблизитель-

связаны квадратичной зависимостью y x 2, но значения y наблюдаются

9 Замечание 1.1.1. Мы определили Var и Cov, деля соответствующие

9 Замечание 1.1.2. Выборочный коэффициент корреляции, опреде-

12. Инвариантен ли выборочный коэффициент корреляции rxy относи-

Тема 1.2. Метод наименьших квадратов. Прямолинейный

Если D и E — истинные значения параметров линейной модели связи, то

представляет собой ошибку (error, или disturbance) в i-м наблюдении. За-

мой значения D* и E* будем обозначать символами α̂ и βˆ.

и для поиска «наилучшей» прямой y = α ˆ + βˆ x достаточно определить ее

ˆ + βˆ xi переменной y. Последнее обычно отличается

Заметим, что при построении оценок наименьших квадратов заранее

как функция двух переменных описывает поверхность z = Q α∗ , β∗ ( )