13-14 Heteroskedasticity

гетероскедастичность
лекция 13
Цели лекции
• Природа проблемы гетероскедастичности

• Последствия гетероскедастичности
• Средства обнаружения
гетероскедастичности
• Средства для решения или смягчения
проблемы гетероскедастичности
2
ГЕТЕРОСКЕДАСТИЧНОСТЬ
• Ортогональность – ошибки некоррелированы с регрессорами
• Сферичность – ошибки независимы, случайны
• Нормальность – ошибки распределены нормально с нулевым средним
• Идентичность – ошибки одинаково распределены
ВЫПОЛНЕНИЕ ЭТИХ УСЛОВИЙ- ГОМОСКЕДАСТИЧНОСТЬ

ОПРЕДЕЛЕНИЕ ГЕТЕРОСКЕДАСТИЧНОСТИ
Гетероскедастичность – это неоднородность

наблюдений. Она характеризуется тем, что не
выполняется предпосылка 20 использования МНК:
2 . D[ ]    const
0 2
Выполнимость предпосылки 20 называется

гомоскедастичностью.
4
ИЛЛЮСТРАЦИЯ
ГЕТЕРОСКЕДАСТИЧНОСТИ
5
ГЕТЕРОСКЕДАСТИЧНОСТЬ ОШИБОК
Причиной непостоянства дисперсии  2


эконометрической модели часто является ее зависимость
от масштаба рассматриваемых явлений.
В модель ошибка входит как аддитивное слагаемое.

В то же время часто она имеет относительный
характер и определяется по отношению к
измеренному уровню рассматриваемых факторов.
6
ПРИМЕР
(зависимость выпуска промышленного
сектора от ВВП в 2000г. по странам)
y
x
7
Примеры моделей с гетероскедастичным
случайным членом
а) б) в)
а) Дисперсия 2 растет по мере увеличения значений
объясняющей переменной X
б) Дисперсия 2 имеет наибольшие значения при средних
значениях X, уменьшаясь по мере приближения к крайним
значениям
в) Дисперсия ошибки наибольшая при малых значениях X,
быстро уменьшается и становится однородной по мере 8
увеличения X
ИСТИННАЯ И ЛОЖНАЯ
ГЕТЕРОСКЕДАСТИЧНОСТЬ
1. Истинная гетероскедастичность
Вызывается непостоянством дисперсии случайного
члена, ее зависимостью от различных факторов.
2. Ложная гетероскедастичность
Вызывается ошибочной спецификацией
модели регрессии.
9
Источники гетероскедастичности – 1
Истинная гетероскедастичность возникает в

перекрестных выборках при зависимости
масштаба изменений зависимой переменной
от некоторой переменной, называемой
фактором пропорциональности (Z).
10
Наиболее распространенный случай истинной

гетероскедастичности – 1: дисперсия растет с
ростом одного из факторов.
11
Истинная гетероскедастичность возникает также и

во временных рядах, когда зависимая переменная
имеет большой интервал качественно
неоднородных значений или высокий темп
изменения (инфляция, технологические сдвиги,
изменения в законодательстве, потребительские
предпочтения и т.д.).
12
Гетероскедастичность как следствие
ошибки спецификации модели. Пример
Если вместо истинной (гомоскедастичной) модели

Yi X i1 1 X im
  0  1    j    m  i
X ij X ij X ij X ij
m
используется линейная модель Yi   0    j X ij  ,i
j 1
то дисперсия остатков линейной модели пропорциональна

квадрату переменной Xj:  2   2  X j  const
13
Гетероскедастичность как следствие
ошибки спецификации модели. Пример
13
12
log Manufacturing
11
10
7
9 10 11 12 13 14 15
log GDP
20
Гетероскедастичность простейшего вида
Мы в дальнейшем будем рассматривать, главным

образом, только гетероскедастичность простейшего
вида:
Var ( i )    Z i
2
i
2
15
СЛЕДСТВИЯ ГЕТЕРОСКЕДАСТИЧНОСТИ
1. Истинная гетероскедастичность не приводит к

смещению оценок коэффициентов регрессии
2. Стандартные ошибки коэффициентов
(вычисленные в предположении.
гомоскедастичности) будут занижены. Это
приведет к завышению t-статистик и даст
неправильное (завышенное) представление о
точности оценок.
16
ОБНАРУЖЕНИЕ ГЕТЕРОСКЕДАСТИЧНОСТИ
Обнаружение гетероскедастичности в каждом конкретном

случае – довольно сложная задача.
 2
Для знания  i необходимо знать распределение случайной
величины Y/X=xi . На практике часто для каждого
конкретного значения xi известно лишь одно yi, что не
позволяет оценить дисперсию случайной величины Y/X=xi.
Не существует какого-либо
однозначного метода определения
гетероскедастичности.
17
Предварительная работа:
1. Нет ли очевидных ошибок спецификации?
2. Можно ли содержательно предполагать какой-то
вид гетероскедастичности?
3. Рассмотрение графиков остатков:
e(Y ), e( X j ), j  1, m
18
1800000
1600000
1400000 Japan USA

1200000
Manufacturing
1000000
800000
600000
400000
200000
0
0 1000000 2000000 3000000 4000000 5000000 6000000 7000000 8000000
GDP
In the scatter diagram manufacturing output is plotted against GDP, both measured in U.S. $
millions, for 30 countries for 1997. (Data are from the UNIDO Yearbook. The sample is restricted to
countries with GDP at least $10 billion and GDP per capita at least $2000.)
The scatter diagram is dominated by the observations for Japan and the USA and it is difficult to
detect any kind of pattern.
17
300000
250000
200000 South Korea

Manufacturing
150000
100000
50000
Mexico
0
0 200000 400000 600000 800000 1000000 1200000 1400000
GDP
However it those two countries are dropped and the scatter diagram rescaled, a clear picture of
heteroscedasticity emerges.
The reason for the heteroscedasticity is that variations in the size of the manufacturing
sector around the trend relationship increase with the size of GDP.
19
300000
250000
Manufacturing
200000
150000
Singapore
100000
50000
Greece
0
0 200000 400000 600000 800000 1000000 1200000 1400000
GDP
Singapore and Greece are another pair of countries with relatively large and small
manufacturing sectors. However, because the GDP of both countries is small, their
variations from the trend relationship are also small.
21
Тесты:
1. Тест ранговой корреляции Спирмена.
2. Тест Парка.
3. Тест Глейзера.
4. Тест Голдфелда-Квандта.
5. Тест Уайта.
6. Тест Бреуша-Пагана.
22
ТЕСТ РАНГОВОЙ КОРРЕЛЯЦИИ СПИРМЕНА
При использовании данного теста

предполагается, что дисперсии отклонений
остатков будут монотонно изменятьcя
(увеличиваться или уменьшаться) с увеличением
фактора пропорциональности Z.
Поэтому значения ei и zi будут

коррелированы (возможно, нелинейно!).
23
ТЕСТ РАНГОВОЙ КОРРЕЛЯЦИИ СПИРМЕНА.
Алгоритм применения
1. Рассчитываются ранги (порядковые номера)

значений фактора пропорциональности zi = xik.
2. Рассчитывается уравнение
 m
y i  b0   b j xij
j 1

и вычисляются остатки ei  yi  y i , i  1,.n
3. Рассчитываются ранги остатков ei.
24
ТЕСТ РАНГОВОЙ КОРРЕЛЯЦИИ СПИРМЕНА.
4. Рассчитывается коэффициент ранговой корреляции

Спирмена
6 D 2
z / e  1  i
, Di – разность рангов z и e.
n( n  1)
2
5. Рассчитывают статистику u   z / e  n , 1
распределенную нормально N(0,1) при отсутствии
гетероскедастичности.
25
ТЕСТ РАНГОВОЙ КОРРЕЛЯЦИИ СПИРМЕНА
. spearman gdppop resid
9000 Number of obs = 28

8000 Spearman's rho = 0.0285
7000
Test of Ho:
6000 gdppop and resid are independent
Manufacturing per capita
5000 Prob > |t| = 0.8857

4000
3000
2000
1000
0
0 5000 10000 15000 20000 25000 30000 35000 40000
GDP per capita
ТЕСТ ПАРКА
Здесь предполагается, что дисперсии  связаны

2
i
с фактором пропорциональности Z в виде:
ln
2  i
  z e
2
i i  ln   ln    ln zi  i
2
i
2
Т.к. дисперсии  неизвестны, то их заменяют

2
i
оценками квадратов отклонений ei2.

27
ТЕСТ ПАРКА.
 m
1. Строится уравнение регрессии: y i  b0   b j xij

j 1

и вычисляются остатки ei  yi  y i , i  1,.n

2. Выбирается фактор пропорциональности Z и
оценивают вспомогательное уравнение регрессии:
ln(e )   0  1 ln zi  i , i  1, n
2
i
3. Проверяют значимость коэффициента при ln zi

28
ТЕСТ ГЛЕЙЗЕРА
Здесь предполагается, что дисперсии  связаны

2
i
с фактором пропорциональности Z в виде:

  i    z  i i
Т.к. средние квадратические отклонения   i

неизвестны, то их заменяют модулями оценок
отклонений ei .
29
ТЕСТ ГЛЕЙЗЕРА.
 m
1. Строится уравнение регрессии: y i  b0   b j xij
j 1

и вычисляются остатки ei  yi  y i , i  1., n
2. Выбирается фактор пропорциональности Z и оценивают

вспомогательное уравнение регрессии: i e   0  1 i  i ,
z i  1, n
Изменяя , строят несколько моделей:    ,  1,  0,5, 0,5,1,
3. Статистическая значимость коэффициента 1 в каждом случае
означает наличие гетероскедастичности.
4. Если для нескольких моделей будет получена значимая
оценка 1 , то характер гетероскедастичности определяют по
наиболее значимой из них.
30
ТЕСТЫ ПАРКА и ГЛЕЙЗЕРА.
Выводы
Отметим, что как в тесте Парка, так и в тесте

Глейзера для отклонений i может нарушаться
условие гомоскедастичности.
Однако, во многих случаях используемые в

тестах модели являются достаточно хорошими
для определения гетероскедастичности.
31
ТЕСТ БРЕУШ-ПАГАНА
Тест применим в предположении, что:

Дисперсии  зависят от некоторых
2
i
дополнительных переменных Z j , j  1, p :
p
   0   j Z ij , i  1, n
2
i
j 1
32
ТЕСТ БРЕУШ-ПАГАНА.
 m
1. Строится уравнение регрессии: y i  b0  b x

j 1
j ij

и вычисляются остатки: ei  yi  y i , i  1, n
2. Вычисляют оценку дисперсии остатков:
~e2  i
e 2
n
3. Строят вспомогательное уравнение регрессии:
ei2 p
~   0   j z ji  i , i  1, n
e2
j 1
33
ТЕСТ БРЕУШ-ПАГАНА.
4. Для вспомогательного уравнения регрессии определяют

объясненную часть вариации RSS.
5. Находим тестовую статистику:
RSS
BP 
2
6. Если верна гипотеза H0: гомоскедастичность остатков, то
статистика BP имеет распределение  p2 . Т.е. о наличии
гетероскедастичности остатков на уровне значимости 
свидетельствует:
BP   ; p
2
34
ТЕСТ БРЕУШ-ПАГАНА. Замечания
При p 1 гетероскедастичность может быть

скорректирована:
 m  b0 m xij
y i  b0   b j xij  yi    bj
j 1 zi1 j 1 zi1
При p  1 не существует естественного

преобразования, корректирующего гетероскедастичность
35
ТЕСТ БРЕУШ-ПАГАНА
var(y) = s^2 exp( b1z1 + b2z2 + ... + bkzk)
9000
8000 . bpagan gdppop gdp pop

7000
Breusch-Pagan LM statistic:
6000
5.870285
5000 Chi-sq( 3) P-value = .1181
4000
3000
2000
1000
0
0 5000 10000 15000 20000 25000 30000 35000 40000
GDP per capita
ТЕСТ ГОЛДФЕЛДА-КВАНДТА
В этом тесте предполагается:

1. Стандартные отклонения остатков   i
пропорциональны фактору пропорциональности
Z, т.е.
   z , i  1, n
2
i
2 2
i
2. Случайный член  имеет нормальное

распределение и отсутствует автокорреляция
остатков (предпосылка 30).
37
ТЕСТ ГОЛДФЕЛДА-КВАНДТА.
1. Выделяют фактор пропорциональности Z = Xk.

Данные упорядочиваются в порядке возрастания
величины Z.
2. Отбрасывают среднюю треть упорядоченных
наблюдений. Для первой и последней третей
строятся две отдельные регрессии, используя ту же
спецификацию модели регрессии.
3. Количество наблюдений в этих подвыборках
должно быть одинаково. Обозначим его l.
38
4. Берутся суммы квадратов остатков для регрессий по

первой трети RSS1 и последней трети RSS3. Рассчитывают
их отношение:
RSS3
GQ 
RSS1
5. Используем F-тест для проверки гомоскедастичности.
Если статистика GQ удовлетворяет неравенству
GQ  F ; l m 1; l m 1
то гипотеза гомоскедастичности остатков отвергается на
уровне значимости .
39
Замечание
Тест Голдфелда-Квандта применим и для случая

обратной пропорциональности:
 2
  2 , i  1, n
2
i
zi
При этом используется та же процедура, но тестовая
статистика равна:
RSS1
GQ 
RSS3
40
Пример.
300000
RSS1 = 157,000,000
250000
Manufacturing
200000
150000
RSS2 = 13,518,000,000
100000
50000
0
0 200000 400000 600000 800000 1000000 1200000 1400000
GDP
13
Пример.
300000
RSS1 = 157,000,000
250000
RSS 2 / n2 13,518,000,000 / 9
200000
F ( n2 , n1 )    86.1
RSS1 / n1 157,000,000 / 9
Manufacturing
150000 F (9,9)crit , 0.1%  10.1

100000 RSS2 = 13,518,000,000
50000
0
0 200000 400000 600000 800000 1000000 1200000 1400000
GDP
11
ТЕСТ УАЙТА
Предполагается, что дисперсии  связаны

2
i
с объясняющими переменными X j , j  1, m в виде:
  f ( X i1 , X i 2 , , X im )  i , i  1, n
2
i
где f() – квадратичная функция от аргументов.
Т.к. дисперсии  неизвестны, то их заменяют

2
i
оценками квадратов отклонений ei2.

43
ТЕСТ УАЙТА.
(на примере трех переменных)
1. Строится уравнение регрессии:

y i  b0  b1 xi1  b2 xi 2  b3 xi 3

и вычисляются остатки ei  yi  y i , i  1,. n
2. Оценивают вспомогательное уравнение регрессии:
ei2   0  1 X i1   2 X i 2   3 X i 3   4 X i21  5 X i22 

  6 X i23   7 X i1 X i 2  8 X i1 X i 3   9 X i 2 X i 3  i
44
(на примере трех переменных)
3. Определяют из вспомогательного уравнения тестовую
статистику U  nR 2
4. Проверяют общую значимость уравнения с помощью
критерия 2. Если
U 2
; k
то гипотеза гомоскедастичности отвергается. Число
степеней свободы k равно числу объясняющих
Переменных вспомогательного уравнения. В частности,
Для рассматриваемого случая k = 9.
45
Замечания
Тест Уайта является более общим чем тест

Голдфелда-Квандта.
Неудобство использования теста Уайта:

Если отвергается нулевая гипотеза о наличии
гомоскедастичности
H0 :        ,
2
1
2
2
2
n
то неясно, что делать дальше. 46

ТЕСТ УАЙТА
9000
8000
7000
. white
6000
White's test for
5000
Ho: homoscedasticity
4000
3000
against Ha: unrestricted heteroscedasticity
2000
test statistic W = 3.616674
1000 Pr(chi2(2) > W) = 0.1639
0
---------------------------------------------------
0 5000 10000 15000 20000 25000 30000 35000 40000
GDP per capita
КОРРЕКЦИЯ
ГЕТЕРОСКЕДАСТИЧНОСТИ
1. Использовать обобщенный метод наименьших

квадратов.
2. Переопределить переменные.
3. Вычисление стандартных ошибок с поправкой на

гетероскедастичность (метод Уайта).
48
ОБОБЩЕННЫЙ
МЕТОД НАИМЕНЬШИХ КВАДРАТОВ
При нарушении гомоскедастичности и наличии автокорреляции

остатков рекомендуется вместо традиционного МНК
использовать обобщенный МНК. Его для случая устранения
гетероскедастичности часто называют методом взвешенных
наименьших квадратов.
Метод применим, если известны дисперсии  2i для каждого

наблюдения.
Основан на делении каждого наблюдаемого значения на

соответствующее ему стандартное отклонение остатков.
49
МЕТОД
ВЗВЕШЕННЫХ НАИМЕНЬШИХ КВАДРАТОВ.
Случай парной регрессии

i Yi 1 X i i
Yi   0  1 X i   i    0  1 
i i i i
Yi  1 Xi  i
 Yi ,  Zi ,  Xi ,  i  Yi   0 Z i  1 X  i
 
i i i i i
Получили уравнение регрессии без свободного члена, но с

дополнительной объясняющей переменной Z и с
«преобразованным» остатком . Можно показать, что для
него выполняются предпосылки 10 – 50 МНК.
50
МЕТОД
ВЗВЕШЕННЫХ НАИМЕНЬШИХ КВАДРАТОВ.
Случай парной регрессии
На практике, значения дисперсии остатков, как

правило, не известны. Для применения метода ВНК
необходимо сделать реалистичные предположения об этих
значениях. Например:
Дисперсии  2i пропорциональны Xi:  2i   2 xi , i  1, n
Дисперсии  2
i пропорциональны Xi2:  2i   2 xi2 , i  1, n
51
Конец лекции
52

13-14 Heteroskedasticity

Загружено:

Сведения о документе

Оригинальное название

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

13-14 Heteroskedasticity

Загружено:

Авторское право:

Доступные форматы

гетероскедастичность

• Природа проблемы гетероскедастичности

• Сферичность – ошибки независимы, случайны

• Нормальность – ошибки распределены нормально с нулевым средним

• Идентичность – ошибки одинаково распределены

ВЫПОЛНЕНИЕ ЭТИХ УСЛОВИЙ- ГОМОСКЕДАСТИЧНОСТЬ

Гетероскедастичность – это неоднородность

Выполнимость предпосылки 20 называется

Причиной непостоянства дисперсии  2

В модель ошибка входит как аддитивное слагаемое.

Истинная гетероскедастичность возникает в

Наиболее распространенный случай истинной

Истинная гетероскедастичность возникает также и

Если вместо истинной (гомоскедастичной) модели

то дисперсия остатков линейной модели пропорциональна

Мы в дальнейшем будем рассматривать, главным

1. Истинная гетероскедастичность не приводит к

Обнаружение гетероскедастичности в каждом конкретном

1400000 Japan USA

200000 South Korea

При использовании данного теста

Поэтому значения ei и zi будут

1. Рассчитываются ранги (порядковые номера)

4. Рассчитывается коэффициент ранговой корреляции

. spearman gdppop resid

9000 Number of obs = 28

5000 Prob > |t| = 0.8857

Здесь предполагается, что дисперсии  связаны

Т.к. дисперсии  неизвестны, то их заменяют

оценками квадратов отклонений ei2.

1. Строится уравнение регрессии: y i  b0   b j xij

и вычисляются остатки ei  yi  y i , i  1,.n

3. Проверяют значимость коэффициента при ln zi

Здесь предполагается, что дисперсии  связаны

Т.к. средние квадратические отклонения   i

Отметим, что как в тесте Парка, так и в тесте

Однако, во многих случаях используемые в

Тест применим в предположении, что:

1. Строится уравнение регрессии: y i  b0  b x

4. Для вспомогательного уравнения регрессии определяют

При p 1 гетероскедастичность может быть

При p  1 не существует естественного

8000 . bpagan gdppop gdp pop

В этом тесте предполагается:

2. Случайный член  имеет нормальное

1. Выделяют фактор пропорциональности Z = Xk.

4. Берутся суммы квадратов остатков для регрессий по

Тест Голдфелда-Квандта применим и для случая

150000 F (9,9)crit , 0.1%  10.1

Предполагается, что дисперсии  связаны

где f() – квадратичная функция от аргументов.

Т.к. дисперсии  неизвестны, то их заменяют

оценками квадратов отклонений ei2.

2. Оценивают вспомогательное уравнение регрессии:

ei2   0  1 X i1   2 X i 2   3 X i 3   4 X i21  5 X i22 

Тест Уайта является более общим чем тест

Неудобство использования теста Уайта:

то неясно, что делать дальше. 46

1. Использовать обобщенный метод наименьших

3. Вычисление стандартных ошибок с поправкой на

При нарушении гомоскедастичности и наличии автокорреляции

Метод применим, если известны дисперсии  2i для каждого

Основан на делении каждого наблюдаемого значения на