Вы находитесь на странице: 1из 83

Фиктивные

Переменные
Фиктивная переменная (ФП) – это
переменная, которая принимает два
различных значения.

Эти различные значения могут быть


любыми числами, но в целях
удобства интерпретации это всегда
0 и 1.
ФП используются для
ввода в модель регрессии
качественных и
категориальных
факторов.
I. ФП для
качественного
фактора,
принимающего два
значения.
Модель без взаимодействия.
На фактор Y, кроме количественных
факторов X2, X3, …, Xk, воздействует
качественный фактор, который
принимает два значения (имеет две
категории):
А и Б,
или
А и не А.
Чтобы учесть влияние этого фактора, в
модель вводят фиктивный фактор D.

для объектов, на
которых качественный
фактор принимает
значение А

для объектов, на
которых качественный
фактор принимает
значение не А
Или можно наоборот:

для …не А

для … А
Модель тогда имеет вид:

Y = β1+ β2*X2 + … + βk*Xk + *D + u


Y = β1+ β2*X2 + … + βk*Xk + *D + u

Интерпретация коэффициента δ:

при любых фиксированных значениях


факторов X2, X3, …, Xk значения
фактора Y различаются в среднем на
δ для объектов, на которых
качественный признак D принимает и
не принимает значение А.
Y = β1+ β2*X2 + … + βk*Xk + *D + u

Проверяя по t-тесту значимость δ, мы


тем самым проверяем значимость
или незначимость различия значений
Y для объектов имеющих и не
имеющих качество А.
ПРИМЕР 1.

Y – среднемесячное потребление
семьи, в рублях.
X – среднемесячный доход семьи, в
рублях.

Предполагается, что потребление


зависит также от того, проживает ли
семья в городе или в сельской
местности.
Вводим ФП D. Пусть D=1 для семей из
сельской местности и D=0 для
городских семей.
Модель:
Y = β1 + β2*X + *D + u.

Модель оценивается по выборке n=30.


Ŷ = 3750 + 0,57*Х - 1230*D
(1119) (0.22) (349)
Проверяем гипотезу:
H 0: δ = 0
H A: δ  0
Гипотеза H0 отвергается при у.з. 1%.
Вывод: существует значимое различие
в затратах на потребления для
городских и сельских семей,
имеющих одинаковый доход.
Сельские семьи тратят на потребление
в среднем на 1230 рублей меньше,
чем городские семьи, имеющие такой
же доход.
Замечание: в теоретической модели
предполагается, что на изменение
дохода городские и сельские семьи
реагируют одинаково.
При каждом увеличении дохода на 1
руб. потребление обоих типов семей
увеличивается в среднем на 0,57
рубля.
Ŷ = 3750 + 0,57*Х - 1230*D
Можно получить уравнения отдельно
для сельских и городских семей.
Для городских D=0:
Ŷ = 3750 + 0,57*Х

Для сельских D=1:


Ŷ = 3750 + 0,57*Х - 1230 =
= 2520 + 0,57*Х.
Ŷ = 3750 + 0,57*Х - 1230*D

Y
наклон одинаковый: 0,57
ПОТРЕБЛЕНИЕ

городские семьи

1230
сельские семьи X

ДОХОД
ПРИМЕР 2. Моделирование динамики
импорта РФ в I кв. 1994 – III кв. 2000 г.
Если моделировать эту динамику без
учета дефолта в III кв. 1998 г., то надо
рассматривать модель:
Y = β1 + β2*t + u.
Оценка этой модели:
Ŷ = 16282,923 – 139,37*t
(1163.9) (63.44)
Оценка этой модели:
Ŷ = 16282,923 – 139,37*t
(1163.9) (63.44)
Интерпретация: в указанный период
импорт в РФ сокращался в среднем на
139,37 млрд. долл. в квартал.
y = -139,37x + 16283
25000
2
R = 0,1427
20000

15000

10000

5000

0
0 10 20 30 40
Однако реальная динамика совсем
другая.

До дефолта импорт в основном рос,


затем произошло его падение, но,
начиная с точки падения, импорт
опять изменялся по восходящей.

Причем темпы роста импорта до и


после дефолта были примерно
одинаковые.
Вводим ФП D:
D = 0 для периода I кв. 1994 – III кв. 1998
D = 1 для периода IV кв. 1998 – III кв. 2000.

Модель:
Y = β1 + β2*t + *D + u
Оценка модели:
Ŷ = 12840,0 + 314,9*t – 9881,2*D
(756,2) (64,5) (1184,2)

Т. е. за исключением одномоментного
падения, импорт РФ рос в течение
всего периода.
Уравнение для I кв. 1994 – III кв. 1998:
D=0
Ŷ = 12840,0 + 314,9*t
Уравнение для IV кв. 1998 – III кв. 2000:
D=1
Ŷ = 12840,0 + 314,9*t – 9881,2*1 =
= 2958,8 + 314,9*t
0
5000
10000
15000
20000
25000
1
3
5
7
9
11
13
15
17
19
21
23
25
27
29
31
II. ФП для
качественного
фактора,
принимающего более
2-х значений.
Модель без взаимодействия.
Качественный фактор принимает p
значений (имеет p категорий), и
p > 2.
Можно было бы ввести одну ФП,
принимающую p различных значений.
Но в этом случае трудно
интерпретировать коэффициенты при
ФП.
Вводят p ФП, D1, D2, … , Dp, каждая из
которых принимает два значения:
0 и 1.

Каждая такая ФП является


индикатором объектов, на которых
качественный фактор принимает
одно из своих значений.
Одна из ФП объявляется эталонной и в
модель не включается.

Т. е. в модель включаются не все p, а


только p-1 фиктивных переменных.

Эталонной делают ФП – индикатор


такой категории (значения
качественного признака), с которой
хотят сравнивать все остальные p-1
категорию.
Если, например, эталонной выбрали ФП D1, то
модель имеет вид:
Y = β1+ β2*X2 + … + βk*Xk + 2*D2 + … + p*Dp + u

Если в модель включить все p ФП D1, D2, … , Dp


то для любого объекта выборки будет
выполняться:
D 1 + D2 + … + Dp = 1
и будет иметь место совершенная МК D1, D2, …
Dp и свободного члена модели.
Пример 3.
Y – з/п работника в р.
X – стаж работника в годах.
На з/п влияет также качественный
фактор «уровень образования».

«Уровень образования» имеет 4


категории (4 значения): начальное,
среднее, среднее специальное,
высшее.
Вводим 4-е ФП: D1, D2, D3, D4.
D1 = 1 для работников с начальным
образованием,
D1 = 0 для остальных работников.

D2 = 1 для работников со средним


образованием,
D2 = 0 для остальных.
D3 = 1 для работников со средним
специальным образованием,
D3 = 0 для остальных.

D4 = 1 для работников с высшим


образованием,
D4 = 0 для остальных.
Выберем эталонной D2 – индикатор
работников со средним
образованием.

Модель:
Y = β1+ β2*X + 1*D1 + 3*D3 + 4*D4 + u.

Оценка по выборке n = 35 работников


одной фирмы.
Ŷ = 2700 + 250*X – 1100*D1 + 900*D3 +1550*D4
(99) (430) (1020) (610)

Интерпретация коэффициентов при ФП:


При одном и том же опыте работы (X)
работники с начальным образованием
получают в среднем на 1100 р. меньше, чем
работники со средним образованием.
Ŷ = 2700 + 250*X – 1100*D1 + 900*D3 +1550*D4
(99) (430) (1020) (610)

Различие в з/п работников со средним и


средним спец. Образованием и одним и тем
же стажем (Х) незначимо.
При одном и том же стаже работы (Х)
работники с высшим образованием
получают в среднем на 1550 р. больше, чем
работники со средним образованием.
Ŷ = 2700 + 250*X – 1100*D1 + 900*D3 +1550*D4
(99) (430) (1020) (610)

Уравнения для работников каждой из 4-х


категорий.
Начальное образование: D1 = 1, D2=D3=D4 = 0:
Ŷ = 2700 + 250*X – 1100*1 = 1600 + 250*X.

Среднее образование: D2 = 1, D1=D3=D4 = 0:


Ŷ = 2700 + 250*X
Ŷ = 2700 + 250*X – 1100*D1 + 900*D3 +1550*D4
(99) (430) (1020) (610)

Среднее спец.образование, D3=1,D1=D2=D4= 0:


Ŷ = 2700 + 250*X + 900*1 = 3600 + 250*Х.

Высшее образование, D4 = 1, D1=D2=D3 = 0:


Ŷ = 2700 + 250*X +1550*1 = 4250 + 250*Х.
Пример 4. Сезонные колебания.

Очень часто погодовым данным


предпочитают помесячные или
поквартальные, так как в этом случае
размер выборки увеличивается в 12
или в 4 раза, а это хорошо для
повышения точности оценок.
Но при использовании помесячных или
поквартальных временных рядов на
зависимость Y от Х (или от Х2, X3, … ,
Xk) начинает оказывать влияние
фактор сезонности.

Пусть Yt зависит от Xt, значения Yt и Xt


даны поквартально, и в изменениях
Yt есть сезонные колебания.
Yt

Xt
Модель
Yt = β1+ β2*Xt + u
моделирует только тренд в
зависимости Yt от Xt.

Для более точного моделирования


изменений Yt надо использовать
сезонные ФП: D1, D2, D3, D4, по одной
для индикации каждого квартала.
Di = 1 для i-го квартала,
Di = 0 для остальных трех кварталов.
i = 1, 2, 3, 4.

Далее надо выбрать эталонную ФП.


Если это будет, например, D1, то
модель будет иметь вид:
Y = β1 + β2*t + 2*D2 + 3*D3 + 4*D4 + ε,
а ее оценка по выборке:
Ŷt= b1 + b2*t + d2*D2 + d3*D3 +d4*D4 (*)

Каждый di (i=1,2,3,4) из (*) оценивает,


насколько при фиксированном Xt
значение Yt в квартале i отличается
от значения Yt в 1-м эталонном
квартале.
Проверка значимости i (i=1,2,3,4)
проверяет, значимо ли это отличие.
F-тест для гипотезы:
H0: 2 = 3 = 4=0
HA: не H0
определяет, значимы ли сезонные
изменения Yt.
Из основного уравнения могут быть
получены уравнения для каждого
квартала.
I кв. D1 = 1, D2 = D3 = D4 = 0
Ŷt= a + b*Xt
II кв. D2 = 1, D1 = D3 = D4 = 0
Ŷt= a + d2 + b*Xt
III кв. D3 = 1, D1 = D2 = D4 = 0
Ŷt= a + d3 + b*Xt
IV кв. D4 = 1, D1 = D2 = D3 = 0
Ŷt= a + d4 + b*Xt
III. ФП для нескольких
качественных
факторов.
Модель без взаимодействия.
На Y влияют несколько качественных
факторов.
Тогда в модель вводят
соответствующее количество
фиктивных переменных.
ПРИМЕР 5.
Y – з/п работника
Х – стаж работника
З\п зависит также от уровня
образования сотрудника (4 категории,
как и выше) и от его пола.
Для уровня образования, как и выше,
вводят 4-е ФП D1, D2, D3, D4.
Пусть, например, эталонной будет D3.

Для фактора «пол» вводим ФП П.


Пусть, например,
П=0 для мужчин
П=1 для женщин
Модель:
Y = β1+ β2*X + 1*D1 + 2*D2 + 4*D4 + *П + u.
IV. Модель со
взаимодействием. ФП
для коэффициентов
наклона.
Для простоты будем рассматривать
качественный фактор с 2-я
категориями (значениями).
В модели без взаимодействия
Y = β1+ β2*X + *D + u
ФП D влияет только на значение
свободного члена и НЕ влияет на
значение коэффициента наклона при
Х.
Т. е. считается, что качественный
фактор:
(а) влияет на значение Y для разных
категорий объектов, у которых X
один и тот же;
(б) при изменении фактора Х фактор Y
изменяется ОДИНАКОВО для обеих
категорий объектов.
В модели со взаимодействием
предположение (б) снимается.

Допускается, что Y может по-разному


реагировать на изменения Х для
разных категорий объектов.
Модель со взаимодействием:
Y = β1 + β2* X + *D + *D*X + u.

Ее можно переписать так:


Y = (β1 + *D) + (β2 + *D)*X + u.
ПРИМЕР 6.
Y – среднемесячное потребление
семьи в рублях,
Х – среднемесячный доход семьи, в
рублях.
Влияет ли доход на потребление по-
разному для городских и сельских
семей?
ФП D:
D=1 для сельских семей,
D=0 для городских семей.

Модель:
Y = β1+ β2* X + *D + *D*X + u.
Ее оценка по выборке размера n=40:
Ŷ = 3240 + 0,61*Х –1040*D –0,07*D*Х
(983) (0,24) (330) (0,02)
Ŷ = 3240 + 0,61*Х –1040*D –0,07*D*Х
(983) (0,24) (330) (0,02)
Коэффициенты при D и D*X значимые,
т. е. различие в зависимости
потребления от зарплаты для
городских и сельских семей
значимое.
Ŷ = 3240 + 0,61*Х –1040*D –0,07*D*Х
(983) (0,24) (330) (0,02)

Перепишем модель так:


Ŷ = (3240 –1040*D) + (0,61 –0,07*D)*X.
Выводы:
Сельские семьи ежемесячно
потребляют в среднем на 1040 р.
меньше, чем городские с таким же
доходом.
Ŷ = (3240 –1040*D) + (0,61 –0,07*D)*X

С каждого дополнительного рубля


дохода на потребление у сельских
семей отчисляется в среднем на
7 копеек меньше, чем у городских.
Ŷ = (3240 –1040*D) + (0,61 –0,07*D)*X
Уравнения:
для городских семей, D = 0:
Ŷ = 3240 + 0,61 *X
для сельских семей, D = 1:
Ŷ = (3240 –1040) + (0,61 –0,07)*X =
= 2200 + 0,54*Х.
ПРИМЕР 7. Кусочно-линейная модель
для изучения структурных изменений
в динамике показателя.
Yt – какой-то экономический
показатель, в млрд. р.,
t – кварталы (t= 1, 2, …, 31).
В некий момент времени (t=19) в
изменениях Yt произошел перелом.
25000

20000

15000

10000

5000

0
0 10 20 30 40
Оценка модели динамики показателя
без учета двух периодов в этой
динамике:
Ŷ = 15676,4 + 4,36*t
(926,6) (50,5)
Без учета структурного изменения в
динамике Yt получается, что за весь
период значения показателя в
среднем не менялись.
25000

20000

15000

10000
y = 4,3657x + 15676
5000
R2 = 0,0003
0
0 10 20 30 40
Введем ФП D:
D = 0 для t = 1, …, 18
D = 1 для t = 19, …, 31.

Модель:
Y = β1 + β2* t + *D + *D*t + u.
Оценка модели:
Ŷ = 13038,5 + 295*t +17637*D – 896,6*D*t
(72) (3788) (160,7)
R2 = 0,57
Коэффициент при D*t значим, т.е.
структурное изменение в середине
периода произошло.
По-другому модель записывается как:
Ŷ = (13038,5 +17637*D) + (295 – 896,6*D)*t.
Ŷ = (13038,5 +17637*D) + (295 – 896,6*D)*t

Уравнения:
Для 1-й части периода, D = 0
Ŷ = 13038,5 + 295*t
Для 2-й части периода, D = 1
Ŷ = (13038,5 +17637) + (295 – 896,6)*t=
= 30675,5 – 601,6*t
25000

20000

15000

10000

5000

0
10

13

16

19

22

25

28

31
1

7
V. Модель со
взаимодействием.
Взаимодействие
между ФП
ПРИМЕР 8.
Y – з/п сотрудника в рублях,
Х – стаж сотрудника, в годах.
На з/п влияют также качественные
факторы:
 пол,
 наличие высшего образования.
Вводим ФП П – «пол»:
П = 0 для женщин,
П = 1 для мужчин.

Вводим ФП Е – «наличие высшего


образования»:
Е = 0, если в/о нет,
Е = 1, если в/о есть.
Модель:
Y = α + β*X + *П + γ*E + λ*П*Е + u.

Перепишем эту модель в виде:


Y = α + β*X + ( + *E)*П + γ*Е + u.
Эта модель предполагает, что при
постоянном стаже (Х) влияние на з/п
признака пол (П) различное для групп
сотрудников, имеющих и не имеющих
высшего образования.
Y = α + β*X + ( + *E)*П + γ*Е + u.

Т. е. при одинаковом стаже разница в


з/п у мужчин (П=1), имеющих в/о
(Е=1) и не имеющих в/о (Е=0)
составляет ( + ) рублей.
При одинаковом стаже разница в з/п у
женщин (П=0), имеющих (Е=1) и не
имеющих в/о (Е=0) составляет 
рублей.
Модель:
Y = α + β*X + *П + γ*E + λ*П*Е + u.

Эту модель можно переписать по-


другому:
Y = α + β*X + *П + (γ + λ*П)*Е + u.
Эта модель предполагает, что при
постоянном стаже (Х) влияние на з/п
наличия или отсутствия в/о различно
для мужчин и женщин.
Y = α + β*X + *П + (γ + λ*П)*Е + u.

Т.е. при одинаковом стаже (Х) разница


в з/п у мужчин (П=1) и женщин (П=0)
с в/о (Е=1) составляет ( + λ) рублей.

При одинаковом стаже (Х) разница в


з/п у мужчин (П=1) и женщин (П=0)
без в/о (Е=0) составляет  рублей.
Y = α + β*X + *П + γ*E + λ*П*Е + u.

Примечание. Значимость
коэффициента λ безотносительно к
значимости или незначимости
остальных коэффициентов при ФП,
означает, что имеется значимое
различие в з/п категории П = 1, Е = 1
(у нас это мужчины с в/о) над з/п
других трех категорий сотрудников
при одинаковом стаже.