Вы находитесь на странице: 1из 44

ПРАКТИКУМ ПО ПРИКЛАДНЫМ

ЭКОНОМИЧЕСКИМ
ИССЛЕДОВАНИЯМ
Часть 2

ЛЕКЦИЯ 3.1
МОДЕЛИ БИНАРНОГО, УПОРЯДОЧЕННОГО И
МНОЖЕСТВЕННОГО ВЫБОР
Демидова О.А., demidova@hse.ru
Каф. Математической экономики и эконометрики, доцент
Лаборатория «Эмпирический анализ предприятий и рынков», заведующий

1
Линейная вероятностная модель

Yi   1   2 X i  ui

Yi  E (Yi )  ui
Найдем математическое ожидание Yi.

p i  p (Yi  1)

E (Yi )  1  pi  0  (1  pi )  pi   1   2 X i

pi  p(Yi  1)   1   2 X i

2
Линейная вероятностная модель

pi  p(Yi  1)   1   2 X i

Если мы будем оценивать модель с качественной зависимой


переменной, как и ранее, с помощью МНК, мы получим
указанную выше модель, называемую линейной вероятностной
моделью.

3
Линейная вероятностная модель

pi  p(Yi  1)   1   2 X i

Однако линейная вероятностная модель имеет ряд серьезных


недостатков.
Одним из главных недостатков линейной вероятностной
модели является следующий : оцененные значения вероятности
могут оказаться больше 1 или меньше 0.
Распределение случайного члена не только не является
нормальным, но даже не непрерывным.

Можно показать, что дисперсия случайного члена ui равна (b1 +


b2Xi)(1 – b1 – b2Xi), т.е. зависит от X. Таким образом, имеет
место проблема гетероскедастичности.

4
Логит - модель

Y, p
A
1
1 – 1 – 2Xi
1 +2Xi

1 1 + 2Xi

B
0 Xi X

Главным недостатком модели линейной вероятности являлась


возможность для оцененных значений зависимой переменной
5
принимать значение вне интервала (0, 1).
Логит - модель
1.00

F (Z ) 1
p  F(Z ) 
0.75 1  e Z

0.50

Z  1   2 X

0.25

0.00
-8 -6 -4 -2 0 2 4 6 Z
Обычным способом решения этой проблемы является предположение
о том, что вероятность является S – образной функцией от переменной
Z, F(Z) принимает значения на интервале (0, 1), где Z является линейной
функцией от объясняющих переменных. 6
Одна из возможных интерпретаций модели
P(Yi = 1) = F(β1 + β2Xi) (*)

Предположим, что существует количественная переменная Yi*,

cвязанная с переменной X обычным регрессионным


уравнением: Yi* = β1 + β2X + εi, i = 1,…,n,

где возмущения εi независимы и одинаково распределены,

E(εi) = 0, D(εi) = σ2

и F – функция распределения нормированных возмущений.

Функция плотности нормированных возмущений симметрична.


7
Yi* - латентная (ненаблюдаемая переменная)

Yi = 1, если Yi* ≥ 0, i = 1,…,n,

Yi = 0, если Yi* < 0, i = 1,…,n,

8
Тогда P(Yi = 1) = P(Yi* ≥ 0) = P(β1 + β2X + εi ≥ 0) =

P(εi ≥ - β1 - β2X) = P(εi ≤ β1 + β2X) = F((β1 + β2X)/σ),

что с точностью до нормировки совпадает с (*).

9
Логит - модель
1.00

F (Z ) 1
p  F(Z ) 
0.75 1  e Z

0.50

Z  1   2 X

0.25

0.00
-8 -6 -4 -2 0 2 4 6 Z

Если функция F является логистической (формула для этой


функции приведена выше), то соответствующая модель 10
называется логит - моделью.
Логит - модель

1
p  F(Z ) 
1  e Z

dp (1  e  Z )  0  1  (  e  Z )

dZ (1  e  Z ) 2
e Z

(1  e  Z ) 2

Производная функции F(Z) называется функцией плотности.


Выше вычислена функция плотности для логистической
функции. 11
Логит - модель

F (Z )
1 dp e Z
p  F(Z )  f (Z )  
1  e Z dZ (1  e  Z ) 2
0.2

0.1

0
-8 -6 -4 -2 0 2 4 6 Z

На рисунке изображен график функции плотности f(Z) для


логистической функции. 12
Логит - модель
1.00

F (Z ) 1
p  F(Z ) 
0.75 1  e Z

0.50

Z  1   2 X

0.25

0.00
-8 -6 -4 -2 0 2 4 6 Z
Функция F нелинейно зависит от параметров. Для нахождения
оценок коэффициентов модели β1, β2 используется метод
максимального правдоподобия. Решается некоторая система
13
нелинейных уравнений.
Логит - модель
1.00

F (Z ) 1
p  F(Z ) 
0.75 1  e Z

0.50

Z  1   2 X

0.25

0.00
-8 -6 -4 -2 0 2 4 6 Z
Функция F нелинейно зависит от параметров. Для нахождения
оценок коэффициентов модели β1, β2 используется метод
максимального правдоподобия. Решается некоторая система
14
нелинейных уравнений.
Логит - модель
1.00

F (Z ) 1
p  F(Z ) 
0.75 1  e Z

0.50

Z   1   2 ASVABC

0.25

0.00
-8 -6 -4 -2 0 2 4 6 Z

Пример использования логит – модели для оценки вероятности


окончания средней школы. В качестве объясняющей выбрана15
переменная ASVABC.
Логит - модель
. logit GRAD ASVABC

Iteration 0: Log Likelihood =-162.29468


Iteration 1: Log Likelihood =-132.97646
Iteration 2: Log Likelihood =-117.99291
Iteration 3: Log Likelihood =-117.36084
Iteration 4: Log Likelihood =-117.35136
Iteration 5: Log Likelihood =-117.35135

Logit Estimates Number of obs = 570


chi2(1) = 89.89
Prob > chi2 = 0.0000
Log Likelihood = -117.35135 Pseudo R2 = 0.2769

------------------------------------------------------------------------------
grad | Coef. Std. Err. z P>|z| [95% Conf. Interval]
---------+--------------------------------------------------------------------
asvabc | .1666022 .0211265 7.886 0.000 .1251951 .2080094
_cons | -5.003779 .8649213 -5.785 0.000 -6.698993 -3.308564
------------------------------------------------------------------------------

Пример оценивания логит – модели с помощью пакета STATA.


16
Логит - модель
. logit GRAD ASVABC

Iteration 0: log likelihood = -118.67769


Iteration 1: log likelihood = -104.45292
Iteration 2: log likelihood = -97.135677
Iteration 3: log likelihood = -96.887294
Iteration 4: log likelihood = -96.886017

Logit estimates Number of obs = 540


LR chi2(1) = 43.58
Prob > chi2 = 0.0000
Log likelihood = -96.886017 Pseudo R2 = 0.1836

------------------------------------------------------------------------------
GRAD | Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
ASVABC | .1313626 .022428 5.86 0.000 .0874045 .1753206
_cons | -3.240218 .9444844 -3.43 0.001 -5.091373 -1.389063
------------------------------------------------------------------------------

Zˆ  3.240  0.131 ASVABC

Результаты оценивания.
17
Логит - модель

1.00

1
pi 
0.75 1  e 3.2400.131 ASVABC i 0.03
Cumulative effect

Marginal effect
0.50 0.02

0.25 0.01

0.00 0
0 10 20 30 40 50 60 70 80 90 100
ASV ABC

Zˆ  3.240  0.131 ASVABC

Оцененная модель.
18
Логит - модель
. logit GRAD ASVABC

Iteration 0: log likelihood = -118.67769


Iteration 1: log likelihood = -104.45292
Iteration 2: log likelihood = -97.135677
Iteration 3: log likelihood = -96.887294
Iteration 4: log likelihood = -96.886017

Logit estimates Number of obs = 540


LR chi2(1) = 43.58
Prob > chi2 = 0.0000
Log likelihood = -96.886017 Pseudo R2 = 0.1836

------------------------------------------------------------------------------
GRAD | Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
ASVABC | .1313626 .022428 5.86 0.000 .0874045 .1753206
_cons | -3.240218 .9444844 -3.43 0.001 -5.091373 -1.389063
------------------------------------------------------------------------------

Zˆ  3.240  0.131 ASVABC

Коэффициент перед переменной ASVABC является значимым.


19
Логит - модель
1
p  F(Z ) 
1  e Z

Z   1   2 X 2  ... k X k

В случае нелинейных моделей говорят о предельном эффекте


объясняющего фактора. 20
Логит - модель
1
p  F(Z ) 
1  e Z

Z   1   2 X 2  ... k X k

p dp Z e Z
  f ( Z ) i  Z 2
i
X i dZ X i (1  e )

Предельный эффект объясняющего фактора Хi (если Х –


непрерывная переменная) – это частная производная по этой
переменной. Вычисляется эта производная по правилу
вычисления производной сложной функции.

21
Логит - модель
1
p  F(Z ) 
1  e Z

Z   1   2 X 2  ... k X k

dp e Z
f (Z )  
dZ (1  e  Z ) 2

p dp Z e Z
  f ( Z ) i  Z 2
i
X i dZ X i (1  e )

Формула для расчета предельного эффекта.


22
Логит - модель
1
p  F(Z ) 
1  e Z

Z   1   2 X 2  ... k X k

dp e Z
f (Z )  
dZ (1  e  Z ) 2

p dp Z e Z
  f ( Z ) i  Z 2
i
X i dZ X i (1  e )

Предельный эффект i – го объясняющего фактора не является


константой, а зависит от других переменных. 23
Логит - модель

p( X 1 , X 2 ,..., X j  1,..., X k ) 

p( X 1 , X 2 ,..., X j  0,..., X k )

Предельный эффект объясняющего фактора Хj (если Хj – dummy


переменная).

24
Логит - модель
. sum GRAD ASVABC

Variable | Obs Mean Std. Dev. Min Max


-------------+--------------------------------------------------------
GRAD | 540 .9425926 .2328351 0 1
ASVABC | 540 51.36271 9.567646 25.45931 66.07963

Logit estimates Number of obs = 540


LR chi2(1) = 43.58
Prob > chi2 = 0.0000
Log likelihood = -96.886017 Pseudo R2 = 0.1836

------------------------------------------------------------------------------
GRAD | Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
ASVABC | .1313626 .022428 5.86 0.000 .0874045 .1753206
_cons | -3.240218 .9444844 -3.43 0.001 -5.091373 -1.389063
------------------------------------------------------------------------------

В рассмотренном примере средний результат ASVABC равен


51.36. 25
Логит - модель
. sum GRAD ASVABC

Variable | Obs Mean Std. Dev. Min Max


-------------+--------------------------------------------------------
GRAD | 540 .9425926 .2328351 0 1
ASVABC | 540 51.36271 9.567646 25.45931 66.07963

Z   1   2 X  3.240  0.131  51.36  3.507

Logit estimates Number of obs = 540


LR chi2(1) = 43.58
Prob > chi2 = 0.0000
Log likelihood = -96.886017 Pseudo R2 = 0.1836

------------------------------------------------------------------------------
GRAD | Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
ASVABC | .1313626 .022428 5.86 0.000 .0874045 .1753206
_cons | -3.240218 .9444844 -3.43 0.001 -5.091373 -1.389063
------------------------------------------------------------------------------

В этой точке Z равно 3.507.


26
Логит - модель
. sum GRAD ASVABC

Variable | Obs Mean Std. Dev. Min Max


-------------+--------------------------------------------------------
GRAD | 540 .9425926 .2328351 0 1
ASVABC | 540 51.36271 9.567646 25.45931 66.07963

Z   1   2 X  3.240  0.131  51.36  3.507

Logit estimates Number of obs = 540


LR chi2(1) = 43.58
Prob > chi2 = 0.0000
Log likelihood = -96.886017 Pseudo R2 = 0.1836

------------------------------------------------------------------------------
GRAD | Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
ASVABC | .1313626 .022428 5.86 0.000 .0874045 .1753206
_cons | -3.240218 .9444844 -3.43 0.001 -5.091373 -1.389063
------------------------------------------------------------------------------

В этой точке Z равно 3.507.

27
Логит - модель
. sum GRAD ASVABC

Variable | Obs Mean Std. Dev. Min Max


-------------+--------------------------------------------------------
GRAD | 540 .9425926 .2328351 0 1
ASVABC | 540 51.36271 9.567646 25.45931 66.07963

Z   1   2 X  3.240  0.131  51.36  3.507

e  Z  e  3.507  0.030

dp eZ 0.030
f (Z )   Z 2
  0.028
dZ (1  e ) (1  0.030) 2

e–Z равно 0.030. Следовательно, f(Z) равно 0.028.


28
Логит - модель
. sum GRAD ASVABC

Variable | Obs Mean Std. Dev. Min Max


-------------+--------------------------------------------------------
GRAD | 540 .9425926 .2328351 0 1
ASVABC | 540 51.36271 9.567646 25.45931 66.07963

Z   1   2 X  3.240  0.131  51.36  3.507

e  Z  e  3.507  0.030

dp eZ 0.030
f (Z )   Z 2
  0.028
dZ (1  e ) (1  0.030) 2

p dp Z
  f ( Z ) i  0.028  0.131  0.004
X i dZ X i
Предельный эффект для имеющего средний результат тестирования
равен 0.004. Это означает, что при увеличении результата
тестирования ASVABC на 1 балл вероятность закончить школу 29
возрастает на 0.4 процента.
Логит - модель

1.00

0.75 0.03
Cumulative effect

Marginal effect
0.50 0.02

0.25 0.01

0.00 0
51.36
0 10 20 30 40 50 60 70 80 90 100
ASV ABC

Предельный эффект при среднем результате очень мал. Это


связано с тем, что вероятность закончить школу при средних
результатах и так очень велика.
30
Логит - модель

В пакете STATA предельные эффекты объясняющих


переменных можно получить с помощью команды mfx

31
Пробит - модель
1.00

F (Z ) 0.4
p  F (Z )
0.75
Cumulative effect

0.3

Marginal effect
0.50
0.2

0.25
0.1

0.00 0
-3 -2 -1 0 1 2 Z
Z   1   2 X 2  ...   k X k
Для пробит – модели в качестве S – функции выбирается
функция распределения стандартного нормального 32
распределения.
Пробит - модель
1.00
1
1 2Z 2 0.4
f (Z )  e
0.75
2
Cumulative effect

0.3

Marginal effect
0.50
0.2

0.25
0.1

0.00 0
-3 -2 -1 0 1 2 Z
Z   1   2 X 2  ...   k X k
Выше приведена функция плотности. Оценки коэффициентов
находятся по методу максимального правдоподобия. 33
Пробит - модель
. probit GRAD ASVABC SM SF MALE

Iteration 0: log likelihood = -118.67769


Iteration 1: log likelihood = -98.195303
Iteration 2: log likelihood = -96.666096
Iteration 3: log likelihood = -96.624979
Iteration 4: log likelihood = -96.624926

Probit estimates Number of obs = 540


LR chi2(4) = 44.11
Prob > chi2 = 0.0000
Log likelihood = -96.624926 Pseudo R2 = 0.1858

------------------------------------------------------------------------------
GRAD | Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
ASVABC | .0648442 .0120378 5.39 0.000 .0412505 .0884379
SM | -.0081163 .0440399 -0.18 0.854 -.094433 .0782004
SF | .0056041 .0359557 0.16 0.876 -.0648677 .0760759
MALE | .0630588 .1988279 0.32 0.751 -.3266368 .4527544
_cons | -1.450787 .5470608 -2.65 0.008 -2.523006 -.3785673
------------------------------------------------------------------------------

Результаты оценки пробит- модели.


34
Пробит - модель
. probit GRAD ASVABC SM SF MALE

Iteration 0: log likelihood = -118.67769


Iteration 1: log likelihood = -98.195303
Iteration 2: log likelihood = -96.666096
Iteration 3: log likelihood = -96.624979
Iteration 4: log likelihood = -96.624926

Probit estimates Number of obs = 540


LR chi2(4) = 44.11
Prob > chi2 = 0.0000
Log likelihood = -96.624926 Pseudo R2 = 0.1858

------------------------------------------------------------------------------
GRAD | Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
ASVABC | .0648442 .0120378 5.39 0.000 .0412505 .0884379
SM | -.0081163 .0440399 -0.18 0.854 -.094433 .0782004
SF | .0056041 .0359557 0.16 0.876 -.0648677 .0760759
MALE | .0630588 .1988279 0.32 0.751 -.3266368 .4527544
_cons | -1.450787 .5470608 -2.65 0.008 -2.523006 -.3785673
------------------------------------------------------------------------------

Как и для логит – модели, не существует интерпретации


полученных оценок коэффициентов. С их помощью можно 35
рассчитать предельные эффекты.
Пробит - модель
p  F (Z )

Z   1   2 X 2  ... k X k

p dp Z  1  12 Z 2 
  f ( Z )  i   e   i
X i dZ X i  2 

Напомним, что предельный эффект объясняющего фактора Xi


рассчитывается как частная производная от Xi. 36
Пробит - модель
p  F (Z )

Z   1   2 X 2  ... k X k

1
dp 1 2Z 2
f (Z )   e
dZ 2

p dp Z  1  12 Z 2 
  f ( Z )  i   e   i
X i dZ X i  2 

Формула для расчета предельного эффекта i – го


объясняющего фактора для пробит - модели. 37
Пробит - модель
. sum GRAD ASVABC SM SF MALE

Variable | Obs Mean Std. Dev. Min Max


-------------+--------------------------------------------------------
GRAD | 540 .9425926 .2328351 0 1
ASVABC | 540 51.36271 9.567646 25.45931 66.07963
SM | 540 11.57963 2.816456 0 20
SF | 540 11.83704 3.53715 0 20
MALE | 540 .5 .5004636 0 1

Таблица дескриптивных статистик для переменных.


38
Пробит - модель

Probit: Marginal Effects

mean b product f(Z) f(Z)b

ASVABC 51.36 0.065 3.328 0.068 0.004

SM 11.58 –0.008 –0.094 0.068 –0.001

SF 11.84 0.006 0.066 0.068 0.000

MALE 0.50 0.063 0.032 0.068 0.004

constant 1.00 –1.451 –1.451


p dp Z
Total 1.881   f ( Z ) i
X i dZ X i

Оцениваем предельные эффекты для объясняющих факторов.


39
Odd Ratio

Для логит-модели

Pr(Y  1)
OR 
Pr(Y  0)
Отношение вероятности «удачи» и «неудачи»

ln(OR )  1   2 X 2  ... k X k

Если Xj изменится на 1 то OR изменится в exp(  j )


Раз.

40
Модели упорядоченного множественного выбора

   с0  c1  ...  cm 1  cm  
Yt  ( X ) t   t ,
*

P (Y  j )  P (c j 1  Yt*  c j ), j  1,..., m
 P (Yt  j )  F (c j  ( X ) t )  F (c j 1  ( X ) t )
 P (Yt  k X )  F (ck  ( X ) t ), k  1,..., m

Надо проверить гипотезу о параллельности (parallel


regression assumption).
Это тест Бранта
41
Интерпретация результатов

P (Yi  1)
   k f (c1  ( X )),
X k
P (Y  j )
   k [ f (c j  ( X )) 
X k
 f (c j 1  ( X ))], j  1,..., m  1
P (Y  j )
   k f (cm 1  ( X ))
X k

42
Мультиноминальная логит модель

1
P (Yt  1)  ,
1  exp( X t  2 )  ...  exp( X t  m )
exp( X t j )
P (Yt  j ) 
1  exp( X t  2  ...  exp( X t  m )
P (Yt  j ) exp( X t  j )
   exp( X t (  j   k ))
P (Yt  k ) exp( X t  k )

43
Проверка основной гипотезы

IIA – independence from irrelevant alternatives

Test Small-Hsiao

44
10