Вы находитесь на странице: 1из 102

Байесовские методы в машинном обучении

Д.П. Ветров

Содер&ание
1 Лекци& 1. Байесовский подход к теории веро&тностей 3
1.1 Основные пон)ти) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2 Частотный и байесовский подходы . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.3 При)тные пл6сы байесовского подхода . . . . . . . . . . . . . . . . . . . . . . 7
1.4 Байесовский подход как обобщение булевой логики . . . . . . . . . . . . . . . 7
1.5 Пример байесовских рассу<дений . . . . . . . . . . . . . . . . . . . . . . . . . 8

2 Лекци& 2. Сопр&4енные распределени&, экспоненциал8ный класс распре-


делений 10
2.1 Cопр)<ённые распределени) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.2 Экспоненциал@ный класс распределений . . . . . . . . . . . . . . . . . . . . . . 12
2.2.1 Оценка параметров распределени) иA экспоненциал@ного класса . . . 13
2.2.2 Сопр)<енное семейство к экспоненциал@ному классу . . . . . . . . . . 14

3 Лекци& 3. Байесовские методы выбора моделей. Принцип наибол8шей


обоснованности. 15
3.1 Бритва Оккама. Критерий фал@сифицируемости Поппера. . . . . . . . . . . . 15
3.2 Веро)тностные модели . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3.3 Обучение дискриминативных веро)тностных моделей . . . . . . . . . . . . . . 16
3.4 Принцип наибол@шей обоснованности . . . . . . . . . . . . . . . . . . . . . . . 17

4 Лекци& 4. Метод релевантных векторов дл& >адачи регрессии. Автомати-


ческое определение >начимости. 22
4.1 Матричное дифференцирование . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
4.2 Решение системы линейных алгебраических уравнений . . . . . . . . . . . . . 22
4.3 Веро)тностна) постановка Aадачи регрессии. Метод релевантных векторов. . 23

5 Лекци& 5. Метод релевантных векторов дл& >адачи классификации 30


5.1 Байесовска) интерпретаци) Aадачи классической логистической регрессии . 30
5.2 Метод релевантных векторов . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
5.3 Прибли<енное вычисление обоснованности методом Лапласа . . . . . . . . . 32
5.4 ОптимиAаци) обоснованности
на основе аппроксимации Лапласса . . . . . . . . . . . . . . . . . . . . . . . . . 34
5.5 Вариационна) ни<н)) оценка сигмоиды . . . . . . . . . . . . . . . . . . . . . . 35

6 Лекци& 6. EM-алгоритм и модели со скрытыми переменными 38


6.1 Вывод EM-алгоритма . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
6.2 Обсу<дение ЕМ-алгоритма и примеры . . . . . . . . . . . . . . . . . . . . . . . 41
6.3 Байесовский метод главных компонент . . . . . . . . . . . . . . . . . . . . . . 42
6.3.1 Вычислител@на) сло<ност@ . . . . . . . . . . . . . . . . . . . . . . . . . 44
6.3.2 Пропуски в данных . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
6.3.3 Расширени) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
6.4 Пример применени) EM-алгоритма на практике . . . . . . . . . . . . . . . . . 46

1
7 Лекци& 7. Вариационный Байесовский вывод 47
7.1 EM-алгоритм . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
7.1.1 Классический ЕМ-алгоритм . . . . . . . . . . . . . . . . . . . . . . . . . 47
7.1.2 Модификаци) EM-алгоритма: априорное распределение на веса . . . . 48
7.1.3 От EM-алгоритма к вариационному выводу . . . . . . . . . . . . . . . . 48
7.2 Вариационный Байесовский вывод: mean-field аппроксимаци) . . . . . . . . . 49
7.2.1 Условна) сопр)<енност@ (conditional conjugate). . . . . . . . . . . . . . 51
7.2.2 Св)A@ mean-field аппроксимации и EM-алгоритма . . . . . . . . . . . . 51
7.3 Концептуал@на) схема . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

8 Лекци& 8. Методы Монте-Карло по схеме марковский цепей (MCMC) 57


8.1 Общие предпосылки метода Монте-Карло . . . . . . . . . . . . . . . . . . . . . 57
8.2 Общие подходы и методы генерации выборок иA одномерных распределений 57
8.2.1 Простейшие методы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
8.2.2 Метод Rejection Sampling . . . . . . . . . . . . . . . . . . . . . . . . . . 58
8.2.3 Метод Importance sampling . . . . . . . . . . . . . . . . . . . . . . . . . 61
8.3 Метод Метрополиса-Хастингса . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

9 Лекци& 9а. Гамил8тонов Монте-Карло 66


9.1 Общие предпосылки метода гамил@тонова Монте-Карло . . . . . . . . . . . . 66
9.2 Описание классического гамил@тонова Монте-Карло . . . . . . . . . . . . . . 66
9.2.1 Гамил@тонова механика . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
9.2.2 Схема генерации точек на основе динамики Гамил@тона . . . . . . . . 67
9.3 Обоснование гамил@тонова Монте-Карло . . . . . . . . . . . . . . . . . . . . . 68
9.4 Гамил@тонов Монте-Карло на практике . . . . . . . . . . . . . . . . . . . . . . 69
9.5 Стохастический гамил@тонов Монте-Карло . . . . . . . . . . . . . . . . . . . . 70

10 Лекци& 9б. Динамика Лан4евена 73


10.1 Введение в динамику . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
10.2 Уравнение Фоккера-Планка . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
10.3 Сэмплирование . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
10.4 Применение к байесовскому выводу . . . . . . . . . . . . . . . . . . . . . . . . 76
10.5 Применение к схеме Метрополиса-Хастингса . . . . . . . . . . . . . . . . . . . 79
10.6 Глобал@на) оптимиAаци) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79

11 Лекци& 10. Гауссовские процессы дл& регрессии и классификации 80


11.1 Гауссовские случайные процессы. . . . . . . . . . . . . . . . . . . . . . . . . . . 80
11.2 Восстановление регрессии . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
11.3 Гауссовские процессы дл) Aадачи классификации . . . . . . . . . . . . . . . . 85

12 Лекци& 11. Непараметрические байесовские методы: процессы Дирихле 87


12.1 Описание байесовских непараметрических моделей . . . . . . . . . . . . . . . 87
12.2 Распределение Дирихле, его свойства . . . . . . . . . . . . . . . . . . . . . . . 87
12.3 Процессы Дирихле и их применение . . . . . . . . . . . . . . . . . . . . . . . . 91
12.3.1 Определение процесса Дирихле, сравнител@ные характеристики . . . 91
12.3.2 Представлени) процесса Дирихле . . . . . . . . . . . . . . . . . . . . . . 92
12.3.3 Смес@ распределений с априорным распределением, Aаданным процес-
сом Дирихле . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94

13 Лекци& 12. Тематическа& модел8 Latent Dirichlet allocation (LDA) 98


13.1 Распределение Дирихле . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
13.2 Тематическа) модел@ LDA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
13.3 Вариационный вывод дл) модели LDA . . . . . . . . . . . . . . . . . . . . . . . 99
13.3.1 Е-шаг . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
13.3.2 М-шаг . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100

2
Введение
В рамках данного курса мы будем иAучат@ применение байесовских методов к Aадачам
машинного обучени). Нам бы хотелос@, чтобы читател6 было пон)тно, как байесовские
методы помога6т решат@ конкретные практические Aадачи. Поэтому по ходу курса мы
будем рассматриват@ как общие инструменты дл) работы с байесовскими веро)тностными
модел)ми (инструменты точного и прибли<енного байесовского вывода), так и конкретные
примеры байесовских моделей машинного обучени). Модели, которые мы будем рассмат-
риват@, будут достаточно простые (обобщенна) линейна) модел@ регрессии, обобщенна)
линейна) модел@ классификации, раAделение смеси распределений, умен@шение раAмер-
ности, тематическое моделирование). Однако, после раAбора баAовых моделей, мы будем
говорит@ о том, какие они допуска6т расширени) и как их мо<но комбинироват@ с друг с
другом. Более сло<ные байесовские модели машинного обучени) раAобраны в курсе "Ней-
робайесовские методы машинного обучени)".

3
1 Лекци/ 1. Байесовский подход к теории веро/тностей
В этой лекции мы раAберем, что такое байесовские методы и чем они отлича6тс) от
обычных статистических методов.

1.1 Основные пон)ти)


Машинное обучение )вл)етс) област@6 математики, котора) Aанимаетс) поиском вAаи-
моAависимостей в данных. На веро)тностном )Aыке вAаимоAависимост@ ме<ду величинами
мо<но выраAит@ череA условное распределение.
Определение 1. Пуст@ x и y — две случайные величины. Тогда условным распределени-
ем p(x | y) (conditional distribution) x относител@но y наAываетс) отношение совместного
распределени1 p(x, y) (joint distribution) и маргинал2ного распределени1 p(x) (marginal dis-
tribution, оно <е беAусловное):1

p(x, y)
p(x | y) = . (1)
p(y)
Смысл этого определени) в следу6щем: условное распределение покаAывает то, как
ведет себ) x, если мы у<е пронабл6дали y. Uаметим, что если величины x и y неAависимы,
т.е. p(x, y) = p(x)p(y), то p(x | y) = p(x). Что оAначает, что никакой информации об x в y
не содер<итс).
Далее иA формулы (1), совместное распределение мо<но выраAит@ череA условное и
маргинал@ное:

p(x, y) = p(x | y)p(y). (2)

Такое равенство наAыва6т правилом прои3ведени1 (product rule). Рассу<да) по индукции,


несло<но прийти к его обобщени6 на n случайных величин:
Теорема 1 (Правило проиAведени)). Пуст2 x1 , . . . , xn — случайные величины. Тогда их
совместное распределение мо:но представит2 в виде прои3ведени1 n одномерных услов-
ных распределений с постепенно умен2ша<щейс1 посылкой:
n
!
p(x1 , . . . , xn ) = p(xn | x1 , . . . , xn−1 ) · · · p(x2 | x1 )p(x1 ) = p(x1 ) p(xk | x1 , . . . , xk−1 ). (3)
k=2

В дал@нейшем мы часто будем сталкиват@с) с веро)тностыми модел)ми машинного


обучени), в которых ну<но умет@ Aадават@ совместное распределение на все величины,
фигуриру6щие в модели. Работат@ с одним многомерным распределением, вообще говор),
гораAдо сло<нее, чем с нескол@кими одномерными, поэтому дл) веро)тностных моделей
машинного обучени) совместное распределение очен@ часто вводитс) череA рассмотренну6
выше декомпоAици6.
Uаметим, что при декомпоAиции не играет роли пор)док выбора величин, дл) которых
мы выписываем условное распределение

p(x | y)p(y) = p(x, y) = p(y | x)p(x). (4)

Обобща) это на случай n величин, получаем, что в (3) то<е не ва<ен пор)док выбора
случайных величин x1 , . . . , xn — декомпоAици) всё равно будет верна.
ИA равенства (4) сраAу <е получаетс) правило обращени1 условной веро1тности:

p(x | y)p(y)
p(y | x) = . (5)
p(x)
1 Стоит %аметит), что когда пишут p(x), обычно подра%умева6т плотност) в смысле математической

статистики. Если случайна; величина x дискретна, то p(x) равна веро;тности того, что она будет равна
какому-то числу x. Если <е рассматриваетс; абсол6тно непрерывна; случайна; величина, то p(x) ест)
плотност) в обычном смысле в точке x. Данное обо%начение первоначал)но мо<ет ка%ат)с; очен) непри-
вычным, но со временем оно станет интуитивно пон;тным.

4
Тепер@ проинтегрируем обе части равенства (5) по y.2 Uаметим, что слева получитс) еди-
ница, так как интегрируетс) плотност@ распределени). Тем самым получаем, что
" # #
p(x | y)p(y)dy
1= ⇒ p(x) = p(x | y)p(y)dy = p(x, y)dy. (6)
p(x)
Данное то<дество носит наAвание правила суммировани1 (sum rule). Оно покаAывает, как
перейти от совместного распределени) к маргинал@ному или <е совместному на какое-то
подмно<ество величин: просто интегрируем по всем остал@ным переменным. Этот процесс
наAыва6т выинтегрированием (integrate out) или маргинали3ацией. Поэтому полученное
после интегрировани) распределение наAываетс) маргинал@ным. Так <е, как и с правилом
проиAведени), правило суммировани) обобщаетс) по индукции:
Теорема 2 (Правило суммировани)). Пуст2 x1 , . . . , xn — случайные величины. Если и3-
вестно их совместное распределение p(x1 , . . . , xn ), то совместное распределение подмно-
:ества случайных величин x1 , . . . , xk будет равно
#
p(x1 , . . . , xk ) = p(x1 , . . . , xn )dxk+1 . . . dxn . (7)

Тепер@ посмотрим внимател@нее на равенство (6). Мо<но Aаметит@, что правило сум-
мировани) ест@ не что иное как вA)тие математического о<идани):
#
p(x) = p(x | y)p(y)dy = Ey [p(x | y)].

Таким обраAом, если мы умеем считат@ p(x | y) при всех воAмо<ных y, а хотим Aнат@ p(x),
то нам ну<но просто усреднит@ p(x | y) по всем y.
ИA правила обращени) условной веро)тности (5) и правила суммировани) (6) получаем
широко иAвестну6 теорему:
Теорема 3 (Байес). Пуст2 x и y — случайные величины. Тогда
p(x | y)p(y)
p(y | x) = " . (8)
p(x | y)p(y)dy

В концептуал@ной форме это правило Aвучит так: апостериорное распределение p(y | x)


(posterior distribution) с точност@6 до нормировочной константы равно проиAведени6 прав-
доподоби1 p(x | y) (likelihood) и априорного распределени1 p(y) (prior distribution). Норми-
ровочну6 константу обычно наAыва6т обоснованност2< (evidence).
Какой смысл у теоремы Байеса? На самом деле это достаточно простое и элегантное
правило, поAвол)6щее уточн)т@ наше неAнание о некой величине при поступлении новой
информации, косвенно св)Aанной с ней. Пуст@ p(y) — распределение, которое покаAывает
нашу неопределённост@ относител@но Aначени) y. Теорема Байеса покаAывает, как наша
неопределённост@ иAменилас@ после набл6дени) x (одного или нескол@ких), который как-
то св)Aан с y — то, как именно он св)Aан, Aадаётс) функцией правдоподоби).3
Теорема Байеса )вл)етс) частным случаем того, как мо<но решат@ обратные Aадачи:
если мы Aнаем как x влиет на y, то теорема Байеса дает нам воAмо<ност@ уAнат@, как y
влиет на x.
Uаметим следу6щее полеAное применение теоремы Байеса. Если Aадана веро)тностна)
модел@ (совместное распределение на все переменные), то мо<но посчитат@ л6бое 4 услов-
ное распределение. Например, ска<ем, что на три группы случайных величин x, y и z
Aадана нефакториAуема) веро)тностна) модел@ p(x, y, z). Как посчитат@ p(x | y)? Доста-
точно просто: "
p(x, y) p(x, y, z)dz
p(x | y) = = "" . (9)
p(y) p(x, y, z)dxdz
2 Если распределение дискретное, то мысленно %амен;йте интеграл на сумму — ситуаци; не и%менитс;.
3 И% этой интерпретации и следу6т на%вани; распределений: априорное — до эксперимента, апостериор-
ное — после.
4 На самом деле утвер<дение о том, что мо<но посчитат) л6бое условное распределение, верно тол)ко

в теории: на практике всё упираетс; в то, получитс; ли посчитат) интегралы.

5
1.2 Частотный и байесовский подходы
В рамках классических курсов иAучалс) подход, который в англо)Aычной литературе
наAыва6т частотным или фреквентистским (frequentist). Вспомним, как в нём решаетс)
следу6ща) Aадача: оценка параметров распределени) по выборке иA него. Ска<ем, что
ест@ выборка X = (x1 , . . . , xn ) иA параметрического распределени) pθ (x). Uаметим, что
такое распределение вполне мо<но писат@ как p(x | θ), т.е. рассматриват@ параметры θ
как случайные величины, — смысл от этого не мен)етс). Чтобы оценит@ параметры θ, в
классическом частотном подходе испол@Aуетс) метод максимал@ного правдоподоби) 5 :
n
! n
$
θML = arg max p(X | θ) = arg max p(xi | θ) = arg max log p(xi | θ). (10)
θ θ θ
i=1 i=1
Во многих частных случа)х сумма логарифмов правдоподобий будет выпуклой вверх
функцией, то ест@ у неё один максимум, который достаточно легко найти да<е в про-
странствах высокой раAмерности. Uаметим, что θML – случайна) величина, поскол@ку она
)вл)етс) функцией от выборки.
Оценка максимума правдоподоби) (ОМП) обладает очен@ хорошими свойствами:
• Состо)тел@ност@: ОМП сходитс) к истинному Aначени6 параметров по веро)тности
при n → +∞ (где n – раAмер выборки)
• Асимптотическа) несмещенност@: θML = E[θ] при n → +∞
• Асимптотическа) нормал@ност@: θML распределена нормал@но при n → +∞
• Асимптотическа) эффективност@: ОМП обладает наимен@шей дисперсией среди всех
состо)тел@ных асимптотически нормал@ных оценок.
Поэтому часто говор)т, что лучше ОМП ничего придумат@ нел@A). Но если всё так
хорошо, то Aачем вообще ну<ны другие подходы?
На самом деле всё не так просто. Что мы делаем при оценке максимал@ного правдопо-
доби)? Мы пытаемс) найти такие параметры, чтобы веро)тност@ пронабл6дат@ то, что мы
пронабл6дали, была максимал@на. Говор) на )Aыке машинного обучени), мы подстраиваем
параметры под обуча6щу6 выборку. Но мы Aнаем, что пр)ма) подгонка под данные часто
черевата переобучением.
Давайте поймём, каку6 ал@тернативу нам дает применение теоремы Байеса. Пуст@ у
нас ест@ априорное распределение p(θ), которое отра<ает неку6 внешн66 информаци6 о
воAмо<ных Aначени)х параметров (если такой информации нет, мы всегда мо<ем ввести
неинформативное распределение). Тогда реAул@татом применени) теоремы Байеса будет
апостериорное распределение на параметры:
%n
p(xi | θ) · p(θ)
p(θ|X) = " %ni=1 (11)
i=1 p(xi | θ) · p(θ)dθ

Обратите внимание, что тепер@ ответом )вл)етс) новое распределение на параметры


модели, в отличии от метода максимат@ного правдоподоби), где ответом )вл)лос@ кон-
кретное Aначение параметров. Сил@ной стороной данного подхода )вл)етс) то, что при
получении апостериорного распределени) мы не тер)ем ни бита информации, котора) со-
дер<алас@ в обуча6щей выборке. В случае <е ОМП масса информации тер)етс) (смысл
этого утвер<дени) будет покаAан далее на примерах).
ИAобраAим таблицу, котора) будет покаAыват@ раAличи) частотного (классического) и
байесовского подходов (см. таблицу 1). Первое и основное отличие состоит в том, как вооб-
ще понимат@ случайност@. В частотном подходе предполагаетс), что случайна) величина —
это реAул@тат некоторого процесса, дл) которого принципиал@но невоAмо<но предскаAат@
исход (обXективна) неопределенност@, т.е. у всех одинакова)). В байесовском подходе счи-
таетс), что процесс на самом деле детерминированный, но част@ факторов, которые вли)6т
на этот процесс, неиAвестны набл6дател6 (субXективное неAнание, т.е. у всех раAное).
Рассмотрим примеры субXективного неAнани).
5 Напомним, что p(X | θ) – условное распределение на X – на%ываетс; правдоподобием, если мы рас-

сматриваем его как функци6 параметров θ

6
Таблица 1: Отличи) частотного и байесовского подходов (n — количество элементов в вы-
борке, d — число параметров)

Частотный подход Байесовский подход


Интерпретаци) ОбXективна) неопределённост@ СубXективное неAнание
случайности
Виды величин Случайные и детерминированные Все величины мо<но
интерпретироват@ как случайные
Метод вывода Метод максимал@ного Теорема Байеса
правдоподоби)
Виды оценок Точечна) оценка Апостериорное распределение
Применимост@ n≫d Л6бое n ! 0

Пример. Допустим, что мы подбрасываем монетку и смотрим, что выпало. В классиче-


ской теории веро)ностей мы привыкли считат@, что исход данного эксперимента )вл)етс)
обXективной неопределенност@6, т.е. случайным в частотном смысле. Однако если бы нам
были иAвестны все услови) эксперимента (переданный импул@с, масса монетки, сопротивле-
ние воAдуха и так далее), то мо<но было бы с помощ@6 уравнений классической механики
точно рассчитат@ какой стороной упадёт монетка. Мы не мо<ем этого сделат@ тол@ко по-
тому, что нам неиAвестны все факторы, вли)6щие на дви<ение монетки. Таким обраAом,
реAул@тат эксперимента )вл)етс) случайной величиной в байесовском смысле.

Пример. Пуст@ мы ка<дый ден@ пол@Aуемс) автобусом, который по расписани6 приходит


на остановку в 10:30. Однако в реал@ности ден@ ото дн) автобус то Aадер<иваетс), то опаA-
дывает, т.е. врем) его прихода )вл)етс) случайной величиной. Хот) мы не мо<ем скаAат@,
что это обXективна) неопределенност@, так как на врем) прибыти) автобуса в <иAни вли-
)ет конечный набор факторов (светофоры, пешеходы на преходах и т.д.). И в Aависимости
от Aнани) этих факторов мы мо<ем точно предскаAат@ врем) прибыти) автобуса. Т.е. это
врем) )вл)етс) случайной величиной в байесовском смысле. Так<е мо<но Aаметит@, что
в Aависимости от степени субXективного неAнани) набл6дател@ мо<ет предскаAат@ врем)
прибыти) с раAной точност@6. Например, мы, исход) иA наших е<едневных набл6дений,
мо<ем скаAат@, что среднее отклонение от расписани) у автобуса ±7 минут. А наш товарищ
пол@Aуетс) программой, котора) отобра<ает в реал@ном времени поло<ение автобуса. И
он мо<ет предскаAыват@ врем) прибыти) с точност@6 ±3 минуты. Таким обраAом, с точ-
ки Aрени) обоих набл6дателей врем) прихода автобуса — случайна) величина, но степен@
субXективного неAнани) о ней у них раAна).
Стоит Aаметит@, что в реал@ности существу6т примеры обXективных неопределенно-
стей — это процессы, )вл)6щиес) реAул@татом квантово-механических эффектов (напри-
мер, распады радиоактивных )дер).
Перейдем к видам величин. В байесовском подходе вообще все величины мо<но счи-
тат@ случайными. Все параметры модели, которые мы не Aнаем, мы считаем случайными и
Aадаем на них априорные распределени). А если параметр нам иAвестен, то мы мо<ем Aа-
дат@ его распределение дел@та-функцией и продол<ат@ считат@ его случайной величиной.
В частотном <е подходе параметры распределени) счита6тс) неиAвестными детерминиро-
ванными величинами. Отс6да вытекает отличие в методе оценивани) параметров модели: в
байесовском подходе мы умен@шаем наше неAнание, получа) апостериорное распределение
по формуле Байеса, а в частотном — находим конкретные Aначени) параметров с помощ@6
ОМП.
Последнее отличие состоит в том, когда какой подход мо<но примен)т@. У метода мак-
симал@ного правдоподоби) ест@ одна проблема: все его свойства асимптотические, то ест@
они выполн)6тс) при n → +∞. В байесовском подходе такого ограничени) нет: выводы
мо<но делат@ при л6бом n ! 0.6 Таким обраAом, при малых Aначени)х n гарантии на ОМП
6 Формал)но их мо<но сделат) да<е при n = 0 — в таком случае оценкой будет выступат) априорное

распределение.

7
не выполн)6тс), и лучше работает байесовский подход. А какой метод лучше примен)т@
при бол@ших n? ОкаAываетс), что при бол@ших раAмерах выборки один подход переходит
в другой: мо<но покаAат@, что при n → +∞ апостериорное распределение коллапсиру-
ет в дел@та-функци6 в точке максимума правдоподоби). Поэтому мо<но не мучит@с) с
байесовским выводом апостериорных распределений и примен)т@ частотный подход.
Тут у самых вXедливых читателей дол<ен воAникнут@ вопрос, а Aачем мы в век бол@-
ших данных вообще рассу<даем про малые выборки? Строго говор), мы дол<ны сделат@
оговорку, что раAмер выборки мы дол<ны сравниват@ с числом параметров модели. И вот
если n/d → ∞ то мы мо<ем испол@Aоват@ ОМП. Но в современных нейросет)х часто воA-
никает ситуаци), когда n/d ≪ 1, что ставит под сомнение корректност@ применени) метода
максимал@ного правдоподоби).

1.3 При)тные пл6сы байесовского подхода


1. Регул)риAаци): Aа счёт введени) априорного распределени) на параметры получаетс)
так, что они не слишком «подгон)6тс)» под данные.
2. КомпоAитност@: ест@ воAмо<ност@ постепенно улучшат@ предскаAание на параметры,
если предыдущий реAул@тат вывода считат@ априорным распределением при поступ-
лении новых данных. Действител@но, если x — име6щиес) данные, y — оцениваемый
параметр, а z — это другие данные (предполагаетс), что они не Aавис)т от x), то
p(z | y)p(y | x)
p(y | x, z) = " . (12)
p(z | y)p(y | x)dy

3. Обработка данных «на лету»: нет необходимости хранит@ все данные дл) построе-
ни) прогноAа — достаточно хранит@ апостериорное распределение и постепенно его
пересчитыват@: оно будет хранит@ в себе информаци6 иA всех данных.
4. Построение моделей с скрытыми (латентными) переменными: воAмо<ност@ корректно
обрабатыват@ пропуски в данных (об этом будет расскаAано поAднее).
5. Масштабируемост@: в некоторых случа)х байесовский подход переноситс) на бол@шие
данные, при этом остава)с@ вычислител@но эффективным. Это свойство подробнее
будет описыват@с) на курсе нейробайесовских методов.

1.4 Байесовский подход как обобщение булевой логики


Байесовский подход мо<но рассматриват@, в том числе как обобщение булевой логики.
В классической логике ест@ единственное правило дл) построени) рассу<дений, а именно
modus ponens: если A истинно и иA A следует B, то B истинно. Пуст@ тепер@ иAвестно,
что B истинно и иA A следует B. В таком случае про истинност@ A ничего скаAат@ нел@A).
Однако это нескол@ко не соответствует Aдравому смыслу. Предполо<им, что днём прошёл
матч Итали) – Франци), а вечером болел@щики с итал@)нскими флагами радостно п@6т
пиво в баре. Интуитивно пон)тно, что в таком случае выиграла Итали), но логика так
делат@ Aапрещает. Тепер@ попробуем применит@ теорему Байеса, но сначала перепишем
аналог modus ponens. Если нам иAвестны p(A) и p(B | A), то несло<но посчитат@ p(B) по
правилу проиAведени) и суммировани)
$
p(B) = p(B | A)p(A) (13)
A

Обратна) Aадача будет Aвучат@ так: нам иAвестны p(B | A), p(A) и иAвестно то, что
B проиAошло; что мо<но скаAат@ про A? По теореме Байеса мо<но сраAу <е рассчитат@
p(A | B):
p(B | A)p(A)
p(A | B) = & (14)
p(B | A)p(A)
A
Тем самым в байесовском подходе мо<но сделат@ то, чего нел@A) сделат@ в булевой
логике.

8
1.5 Пример байесовских рассу<дений
Предполо<им, что в квартире установлена сигналиAаци). Её иAготовител@ утвер<дает,
что она гарантированно сработает на грабител), но в 10% случаев быва6т ло<ные сра-
батывани) иA-Aа небол@ших Aемлетр)сений, о которых иногда предупре<да6т по радио.
Попробуем Aадат@ это в виде веро)тностной модели. Пуст@ ест@ четыре случайные величи-
ны:
• a ∈ {0, 1} — индикатор того, что сработала сигналиAаци),
• t ∈ {0, 1} — индикатор того, что грабител@ проник в квартиру,
• e ∈ {0, 1} — индикатор того, что проиAошло небол@шое Aемлетр)сение,
• r ∈ {0, 1} — индикатор того, что о Aемлетр)сении обX)вили по радио.
ИAобраAим св)Aи этих величин в виде ориентированного графа, где ребро иA b в a оAначает
то, что a Aависит от b:

t e

a r

Рис. 1: Граф Aависимостей в Aадаче про сигналиAаци6.

По такому графу несло<но Aадат@ совместное распределение на все величины:

p(a, e, r, t) = p(a | e, t)p(r | e)p(t)p(e).

Осталос@ Aадат@ эти распределени). Uапишем распределени) на a и на r в виде таблиц:

p(a = 1 | e, t) t=0 t=1 p(r = 1 | e)


e=0 0 1 e=0 0
e=1 0.1 1 e=1 0.5

Дл) распределений на t и на e ска<ем, что p(t = 1) = 2 · 10−4 , p(e = 1) = 10−2 . Тепер@


мо<но считат@ раAные веро)тности.
Предполо<им, что пришло уведомление о том, что в квартиру вломилис@. Ну<но ли
выAыват@ полици6 или <е срабатывание ло<ное? Другими словами, ну<но посчитат@ ве-
ро)тност@ p(t = 1 | a = 1). Дл) этого воспол@Aуемс) теоремой Байеса:

p(a = 1 | t = 1)p(t = 1)
p(t = 1 | a = 1) = . (15)
p(a = 1 | t = 0)p(t = 0) + p(a = 1 | t = 1)p(t = 1)

СраAу Aаметим, что p(a = 1 | t = 1) = 1. Далее, по правилу суммировани)

p(a = 1 | t = 0) = p(a = 1 | e = 0, t = 0)p(e = 0) + p(a = 1 | e = 1, t = 0)p(e = 1)


= 0 + 0.1 · 10−2 = 10−3 (16)

Тогда
1 · 2 · 10−4 1
p(t = 1 | a = 1) = −3 −4 −4
≈ (17)
10 · (1 − 2 · 10 ) + 1 · 2 · 10 6
Тем самым, скорее всего было ло<ное срабатывание. Но что будет, если квартира распо-
ло<ена в криминал@ном районе и p(t = 1) = 2 · 10−3 ? В таком случае ситуаци) кардинал@но
мен)етс), так как веро)тност@ будет примерно равна 2/3, т.е. примерно 67%.
Тепер@ пуст@ квартира находитс) в криминал@ном районе, сработала сигналиAаци), но
при этом по радио было обX)влено о Aемлетр)сении. Какова веро)тност@ ограблени) в

9
таком случае? Другими словами, ну<но найти p(t = 1 | a = 1, r = 1). Воспол@Aуемс)
определением условной веро)тности, правилом суммировани) и правилом проиAведени):
&
p(a = 1, e, t = 1, r = 1)
p(a = 1, t = 1, r = 1)
p(t = 1 | a = 1, r = 1) = = e& (18)
p(a = 1, r = 1) p(a = 1, e, t, r = 1)
e,t
&
p(a = 1 | e, t = 1)p(r = 1 | e)p(e)p(t = 1)
= e & . (19)
p(a = 1 | e, t)p(r = 1 | e)p(e)p(t)
e,t

Uаметим, что достаточно смотрет@ тол@ко на слагаемые с e = 1. Тогда

1 · 0.5 · 10−2 · 2 · 10−3


p(t = 1 | a = 1, r = 1) = . (20)
10−1 · 0.5 · 10−2 · (1 − 2 · 10−3 ) + 1 · 0.5 · 10−2 · 2 · 10−3

После упрощений получим, что эта веро)тност@ примерно равна 1/51, то ест@ около 2%.
Обратите внимание, как трансформиру6тс) наши предполо<ени) о наличии вора в квар-
тире при поступлении новой информации (сравните с предыдущим реAул@татом, когда у
нас не было никакой информации о Aемл)тр)сении).
УAнав это, владелец квартиры спокойно продол<ил Aанимат@с) своими делами. Вечером
он воAвращаетс) в квартиру и видит, что она обчищена. Вопрос: что пошло не так? Выклад-
ки верны, но веро)тностна) модел@ неправил@на). Ну<но было учест@ то, что грабители
то<е могут слушат@ радио и испол@Aоват@ факт о ло<ных срабатывани)х: p(t, e) ∕= p(t)p(e)
и p(t = 1 | e = 1) > p(t = 1 | e = 0).

10
2 Лекци/ 2. Сопр/&енные распределени/, экспоненци-
ал9ный класс распределений
2.1 Cопр)<ённые распределени)
Пуст@ нам дана выборка иA некоторого параметрического семейства X = {xi }ni=1 , xi ∼
p(x | θ), и у нас ест@ некоторое априорное распределение на параметры p(θ). Тогда, пол@-
Aу)с@ формулой Байеса, мы мо<ем найти апостериорное распределение на θ при условии
того, что мы пронабл6дали X.

p(X | θ)p(θ)
p(θ | X) = " (21)
p(X | θ)p(θ)dθ

К со<алени6, интеграл в числителе беретс) аналитически в очен@ редких случа)х.


Поэтому в дал@нейших лекци)х курса мы много будем говорит@ о раAличных способах
оценки апостериорного распределени).
Однако, давайте подумаем, что мы мо<ем сделат@, не Aна) Aначение интеграла. Напри-
мер, вполне несло<но найти максимум апостериорного распределени). Действител@но:

θM P = arg max p(θ | X) = arg max p(X | θ)p(θ) = (22)


θ θ
' n ( ' n (
! $
= arg max p(xi | θ)p(θ) = arg max ln p(xi | θ) + ln p(θ) (23)
θ θ
i=1 i=1

Получили довол@но иAвестну6 регул)риAаци6 на давно Aнакому6 оценку максимал@но-


го правдоподоби). Так, например, если в качестве априорного распределени) мы воA@мём
нормал@ное распределение с нулевым мато<иданием и некоторой дисперсией λ−1 , регул)-
риAаци) превратитс) в λ||θ||2 , то ест@ L2-регул)риAаци6.
Однако, хот@ мы и получили в каком-то смысле неплоху6 точечну6 оценку на θ, у
такого метода ест@ р)д минусов:

• Нет оценки неопределённости. Uачасту6 в прикладных Aадачах нам ва<но не


тол@ко получит@ ответ на вопрос, но и понимат@, наскол@ко мы в нём уверены. Если у
нас ест@ апостериорное распределение, мы мо<ем построит@ доверител@ные интерва-
лы на θM P , чтобы понимат@, в каких пределах мо<ет мен)т@с) полученное Aначение.
Точечна) оценка не дает нам такой воAмо<ности.

• Нет во>мо4ности обMединени& информации, полученной и> ра>личных ис-


точников. Одним иA пл6сов байесовского подхода )вл)етс) то, что мы мо<ем сло<-
ные веро)тностные модели строит@ иA простых, как иA кирпичиков. Расчитав апосте-
риорное распределение при условии выборки иA одного источника, мы мо<ем подат@
его в качестве априорного распределени) дл) расчета апостериорного распределени)
при условии выборки иA другого источника. Таким обраAом, в итоговом апостериор-
ном распределении будет содер<ат@с) вс) информаци) от обоих источников. Если <е
у нас ест@ тол@ко точечна) оценка на параметры модели, такого элегантного обXеди-
нени) информации иA раAных источников у нас сделат@ не получитс).
• Мода распределени& мо4ет быт8 нерепре>ентативна. Пример такого распре-
делени) мо<но увидет@ на Рисунке 2.

11
Рис. 2: Пример распределени), у которого мода нерепреAентативна.

Метод Aамены апостериорного распределени) его модой получил наAвание “Байес дл1
бедных” (“Poor man’s Bayes”), как довол@но простой вычислител@но, но име6щий весомые
недостатки. Подробно иAучат@ его мы не будем; предполагаетс), что он у<е достаточно
Aнаком иA прочих курсов по машинному обучени6. Нас <е интересу6т более эффективные
и интересные подходы к байесовскому выводу.
Начнём с рассмотрени) ва<ного частного случа), когда интеграл аналитически вычис-
лит@ всё-таки воAмо<но: это случай сопр1:ённых семейств распределений.
Определение 2. Пуст@ функци) правдоподоби) и априорное распределение принадле<ат
некоторым параметрическим семейсвам распределений: p(X | θ) ∼ A(θ) и p(θ | β) ∼ B(β).
Семейства A и B )вл)6тс) сопр1:ёнными (conjugate) тогда и тол@ко тогда, когда p(θ|X) ∼
B(β ′ ).
ИA этого определени) следует, что если функци) правдоподоби) p(X | θ) и априорное
распределение p(θ | β) сопр)<енны, то апостериорное распределение p(θ | X) ле<ит в том
<е параметрическом семействе B(β ′ ), что и априорное p(θ | β). То ест@, апостериорное
распределение p(θ | x) мо<но вычислит@ аналитически. Рассмотрим нескол@ко примеров:

1. Пуст@ функци) правдоподоби) p(x | µ) = N (x | µ, 1). Как будет выгл)дит@ сопр)<ен-


ное ему p(µ)?

) * ) 2 *
1 (x − µ)2 1 x µ2
p(x | µ) = √ exp − = √ exp − + xµ − (24)
2π 2 2π 2 2

Ну<но подобрат@ такое p(µ), чтобы его функционал@ный вид не иAменилс) при умно-
<ении на вышеприведённое выра<ение (“перевёрнута) парабола под экспонентой”).
Легко Aаметит@, что дл) этого нам подойдёт такой <е вид:

) *
1 µ2 µm m2
p(µ) = √ exp − 2 + 2 − 2 = N (µ | m, s2 ) (25)
2πs 2s s 2s

Тепер@ проверим:

) 2 * ) *
1 x µ2 1 µ2 µm m2
p(x | µ)p(µ) = √ exp − + xµ − ·√ exp − 2 + 2 − 2 ∝ (26)
2π 2 2 2πs2 2s s 2s
) * ' ) *2 (
2 2 2 2 2 2 2
µ (s + 1) µ(m + xs ) x s + m s +1 m + xs2
∝ exp − + − ∝ exp − µ− 2 ∝
2s2 s2 2s2 2s2 s +1
(27)
) + *
+ m + xs2 s2
∝N µ+ 2 , 2 (28)
s +1 s +1

Действител@но, получили аналитический вид дл) апостериорного распределени) p(µ | X),


и окаAалос@, что p(µ | X) то<е ле<ит в семействе нормал@ных распределений.

12
2. p(x | γ) = N (x | 0, γ −1 ); p(γ)−?
, - γ .
γ
p(x | γ) = exp − x2
2π 2

Получили корен@ иA γ, умно<енный на экспоненту линейной функции. Вопрос: какой


функционал@ный вид дол<но имет@ априорное распределение?

β α α−1
p(γ) = γ exp(−γβ) ∼ G(γ | α, β)
Γ(α)

3. p(x | µ, γ) ∼ N (x | µ, γ −1 ); p(µ, γ)−?


СраAу хочетс) сослат@с) на два предыдущих пункта и Aаписат@ p(µ, γ) = p(µ)p(γ). Но
действител@но ли это выполн)етс)?
, - γ . , ) *
−1 γ γ γx2 γx2
p(x | µ, γ )= exp − (x − µ)2 = exp − + γµx −
2 2 2 2 2
Uаметим, что это выра<ение не факториAуетс) по µ и γ. Uначит, и априорное распре-
деление, если оно сопр)<ено, факториAоват@с) не мо<ет.
На самом деле сопр)<ённым распределением )вл)етс) так наAываемое гамма-нормал2ное
распределение:

p(µ, γ) = p(µ | γ)p(γ) = N (m, (λγ)−1 )G(γ | a, b)

Тепер@ посмотрим, как проиAводит@ поиск сопр)<енных распределений не дл) ка<дого


частного случа), а в некотором общем виде.

2.2 Экспоненциал@ный класс распределений


До этого мы с вами рассматривали параметрические распределени), подраAумева), что
плотност@ нам иAвестна с точност@6 до некоторого параметра θ. Такие мно<ества распре-
делений мы наAывали параметрическими семействами. Тепер@ мы перейдем к пон)ти6
класса распределений, который будем Aадават@ с точност@6 до функционал@ного вида.
Определение 3. Будем говорит@, что распределение p(x | θ) ле<ит в экспоненциал2ном
классе, если оно мо<ет быт@ представленно в следу6щем виде

f (x) / 0
p(x | θ) = exp θT u(x) , f (·) ! 0, g(·) > 0, (29)
g(θ)
Параметры θ наAыва6тс) естественными параметрами.
Несмотр) на довол@но необычный вид выра<ени), окаAываетс), что подавл)6щее бол@-
шинство табличных распределений ле<ит в экспоненцал@ном классе (нормал@ное, все дис-
кретные распределени), бета-распределение, гамма-распределение, хи-квадрат распреде-
ление и т.д.). То ест@ бол@шинство распределений, с которыми приходитс) имет@ дело в
прикладных Aадачах, принадле<ат экспоненциал@ному классу распределений.7 Такие рас-
пределени) облада6т нескол@кими довол@но примечател@ными свойствами, и мы рассмот-
рим некоторые иA них. Начнем с достаточных статистик.
Дл) начала вспомним, что <е такое достаточна) статистика распределени). Нефор-
мал@ное определение мо<но сформулироват@ так: достаточна1 статистика — это функ-
ци) от выборки, котора) содер<ит вс6 информаци6, необходиму6 дл) оценки параметров
неиAвестного распределени).
Определение нескол@ко раAмытое. ФормалиAуем его, воспол@Aовавшис@ критерием фак-
тори3ации Фишера:
7 Стоит %аметит), что такое попул;тное в прило<ени;х распределение, как смес) нормал)ных распреде-

лений, не принадле<ит экспоненциал)ному классу

13
Определение 4. a(X) — достаточна тогда и тол@ко тогда, когда p(X | θ) = f1 (X)f2 (θ, a(X))

В общем случае таких статистик мо<ет не быт@. Однако дл) экспоненциал@ного клас-
са распределений они существу6т. ИA функционал@ного вида распределени) и критери)
Фишера легко следует, что u(x) )вл)етс) достаточной статистикой (мо<но вA)т@ f1 (X) =
exp(θ T u(X))
f (X), f2 (θ, u(X)) = g(θ) ).
Рассмотрим одно Aамечател@ное свойство экспоненциал@ного класса распределений. Uа-
метим, что
# #
/ 0 f (x) / 0
g(θ) = f (x) exp θT u(x) dx, т.к. exp θT u(x) dx = 1 (30)
g(θ)

Прродифференцируем по θj

# #
∂ ∂ / 0 / 0
g(θ) = f (x) exp θT u(x) dx = f (x) exp θT u(x) uj (x)dx = (31)
∂θj ∂θj
# #
f (x) / T 0
= g(θ) exp θ u(x) uj (x)dx = g(θ) p(x | θ)uj (x)dx = g(θ)Ex∼p(x|θ) uj (x) (32)
g(θ)

В итоге получаем, что


log g(θ) = Ex∼p(x|θ) uj (x) (33)
∂θj

Таким обраAом, мы получили простой способ находит@ математическое о<идание от


достаточной статистики дл) распределени) иA экспоненциал@ного класса — ну<но просто
продифференцироват@ логарифм его нормировочной константы. Аналогично мо<но пока-
Aат@, что

∂2
log g(θ) = Cov(uj (x), uk (x)) (34)
∂θj ∂θk

2.2.1 Оценка параметров распределени& и> экспоненциал8ного класса


Пуст@ нам дана выборка иA распределени) экспоненциал@ного класса:

f (x) / 0
X = {xi }ni=1 , xi ∼ p(x | θ) = exp θT u(x)
g(θ)

Оценим параметры распределени) методом максимал@ного правдоподоби)

n
$ n -
$ .
θM L = arg max p(X | θ) = arg max log p(xi | θ) = arg max log f (xi )−log g(θ)+θT u(xi )
θ θ θ
i=1 i=1

Продифференцировав по θj последнее выра<ение, приравн)ем проиAводну6 к нул6 и по-


лучим
n
1$ ∂ log g(θ)
uj (xi ) = = Ex∼p(x|θ) uj (x)
n i=1 ∂θj
Получаетс), что мы дол<ны подстроит@ параметры распределени) так, чтобы выборочное
среднее достаточных статистик совпало с их математическим о<иданием.
Пример. Рассмотрим в качестве примера нормал@ное распределение
, 1γ
γ γ 2
p(x | θ) = N (x | µ, γ −1 ) = exp x2 + γµx − µ2
2π 2 2

14
ИA выра<ени) выше видно, что
γ
θ1 = u1 (x) = x2
2
θ2 = γµ u2 (x) = x
, 1γ 2

g(θ) = exp µ2
γ 2

2.2.2 Сопр&4енное семейство к экспоненциал8ному классу


Uапишем общий вид сопр)<ённого распределени), сход) иA функционал@ного вида рас-
пределени) иA экспоненциал@ного класса:

/ 0 1 1
p(θ | η, ν) = exp θT η (35)
g ν (θ) h(η, ν)

Всё довол@но очевидно, кроме последнего мно<ител). Мо<ет покаAат@с), что нет гаран-
тий на существование нормировочной константы дл) л6бых η и ν, так как интеграл мо<ет
быт@ невоAмо<но вычислит@ аналитически. Это не Aр) — её действител@но мо<ет не быт@,
и это будет оAначат@ несуществование аналитически Aаданного сопр)<ённого семейства.
Вычислим апостериорное распределение:

n
1 !
p(θ | X) = p(xi | θ)p(θ | ν, η) = (36)
Z i=1
5 ' n (6
1 !3 4
n $
1 T
7 8 1 1
= f (xi ) · n exp θ u(xi ) exp θT η ν
= (37)
Z i=1 g (θ) i=1
g (θ) h(η, ν)
5 ' n
(6
1 $ 1 1 / 0 1
= ′ exp θ T
η+ u(xi ) ν+n
= ′ ′
exp θT η ′ ν ′ (38)
Z i=1
g (θ) h(η , ν ) g (θ)

Легко Aаметит@, что функционал@ный вид действител@но совпадает. Так <е видно, как
именно мы пересчитываем η и ν при переходе к апостериорному распределени6:

n
$
η′ = η + u(xi ) (39)
i=1
ν′ = ν + n (40)

ИA полученных выра<ений мо<но пон)т@ фиAический смысл параметров этого рас-


пределени). Параметр ν отвечает количеству проведенных экспериментов, а парметр η —
сумме достаточных статистик в этих экспериментах.

15
3 Лекци/ 3. Байесовские методы выбора моделей. Прин-
цип наибол9шей обоснованности.
В этой лекции мы будем говорит@ о байесовских критери)х выбора модели. Дл) начала
вспомним, какие ест@ общенаучные принципы дл) выбора одной теории иA нескол@ких.

3.1 Бритва Оккама. Критерий фал@сифицируемости Поппера.


Современна) наука пытаетс) находит@ наиболее простые обX)снени) набл6даемым )в-
лени)м, следу) бритве Оккама: иA нескол@ких обX)снений одного и того <е )вление выби-
раетс) самое простое.
Пример: геоцентрическа) система против гелиоцентрической. Геоцентрическа) система
исходно обладала бол@шей простотой и элегантност@6 по сравнени6 с гелиоцентрической.
Невоору<енным вAгл)дом видно, что Солнце и планеты описыва6т полуокру<ности на
небесной сфере. И наиболее простым обX)снением этого феномена )вл)етс) геоцентриче-
ска) система: Солнце и планеты дви<утс) по окру<ност)м, в центре которых находитс)
Uемл). Но с по)влением все более совершенной оптики вы)снилос@, что небесные тела опи-
сыва6т не ровные окру<ности, а с некоторыми колебани)ми. Чтобы согласоват@ теори6
с экспериментом, придумали поправку: тела дви<утс) по окру<ност)м вокруг Uемли, но
при этом ещё описыва6т мален@ку6 окру<ност@ (эпицикл) вокруг центра, дви<ущегос) по
бол@шой окру<ности. При дал@нейших экспериментал@ных уточнени)х траекторий стали
обнару<иват@с) все новые и новые несоответстви) теории с экспериментом, что побудило
ученых ввести еще нескол@ко поправок. Таким обраAом, получа) новые данные, л6ди про-
дол<али увеличиват@ сло<ност@ модели, и в итоге количество эпициклов дошло примерно
до 20. В этот момент окаAалос@, что гелиоцентрическа) модел@ гораAдо проще и при этом
так <е хорошо описывает набл6даемые данные. Поэтому она и вытеснила геоцентриче-
ску6.
Еще одним ва<ным принципом )вл)етс) критерий фал@сифицируемости Карла Поппе-
ра: чтобы теори) считалас@ научной, дол<ен существоват@ эксперимент (да<е мысленный),
при определенном исходе которого мо<но приAнат@ теори6 неверной.
Пример ненаучного утвер<дени): «На всё вол) Бо<@)». Этим утвер<дением мо<но
обX)снит@ л6бое )вление, и опровергнут@ его экспериментал@но невоAмо<но. Пример на-
учного утвер<дени): «Основной причиной глобал@ного потеплени) климата )вл)етс) де-
)тел@ност@ человека». Это утвер<дение мо<но опровергнут@ экспериментал@но, иAмерив,
как на повышение температуры вли)6т природные процессы (активност@ Солнца, вулка-
нов, прецесси) Uемли и т.д.) и антропогенные процессы (промышленност@, сел@ское хоA)й-
ство, транспорт и т.д.). И если ока<етс), что вклад природных процессов в глобал@ное
потепление бол@ше, то утвер<дение будет опровергнуто.
А тепер@ посмотрим, как принцип Оккама и критерий фал@сифицируемости Поппера
могут быт@ переформулированы с философского на математический )Aык.

3.2 Веро)тностные модели


Дл) начала определимс), что мы будем наAыват@ модел@6. В машинном обучении мы
обычно имеем дело с трем) видами переменных: x — набл6даемые переменные, t — целе-
вые переменные, θ — параметры алгоритма прогноAировани). Одна иA распространённых
постановок Aадач машинного обучени) состоит в следу6щем. Дана выборка неAависимых
одинаково распределённых обXектов. Описание ка<дого обXекта Aадаетс) парой вида (x, t):

(Xtr , Ttr ) = {xi , ti }ni=1 (41)

АналиAиру) обуча6щу6 выборку, необходимо подобрат@ алгоритм (подстроит@ его па-


раметры θ), который поAволил бы по x спрогноAироват@ Aначение t. Дл) решени) этой
Aадачи часто ввод)т модел@, описыва6щу6 способ поро<дени) данных. На веро)тностном
)Aыке такой модел@6 )вл)етс) совместное распределение на переменные x, t и θ. Тради-
ционно выдел)6т 2 вида моделей:

16
1. Генеративна) модел@
p(x, t, θ) = p(x, t | θ)p(θ) = p(t | x, θ)p(x | θ)p(θ) (42)
Uдес@ и далее мы испол@Aуем стандартное предполо<ение о том, что априорные Aна-
ни) о параметрах не Aавис)т от данных.
2. Дискриминативна) модел@
p(t, θ | x) = p(t | x, θ)p(θ) (43)

Генеративна) модел@ более обща), поскол@ку если нам иAвестно p(x, t, θ), то мы всегда
мо<ем получит@ p(t, θ | x). Обратное, вообще говор), неверно. Кроме того, несомненным
достоинством генеративной модели )вл)етс) воAмо<ност@ поро<дат@ новые x, или <е пары
(x, t). В рамках дискриминативной модели такое сделат@ не получитс).
Однако, в традиционном машинном обучении чаще рассматрива6т дискриминативные
модели. При этом на практике часто окаAываетс) так, что пространство целевых перемен-
ных проще, чем пространство набл6даемых переменных. Поэтому традиционные дискри-
минативные модели обычно на пор)док проще генеративных, так как они реша6т гораAдо
более просту6 Aадачу. Например, пуст@ пространство набл6даемых переменных — карти-
ны иAвестных худо<ников, а пространство целевых переменных — имена этих худо<ников.
Тогда определит@ автора по картине (дискриминативна) Aадача) проще, чем нарисоват@
картину в стиле автора (генеративна) Aадача). Однако, многие современные дискримина-
тивные модели на практике такие <е сло<ные как и генеративные, потому что простран-
ство целевых переменных не проще пространства набл6даемых переменных. Например, в
Aадаче машинного перевода с немецкого на француAский: x — предло<ение на немецком, t
— предло<ение на француAском.

3.3 Обучение дискриминативных веро)тностных моделей


Начнем иAучение веро)тностных моделей с дискриминативных (хот), вообще говор),
содер<ание данного раAдела справедливо и дл) генеративных моделей). Напомним общий
вид веро)тностной дискриминативной модели
p(t, θ | x) = p(t | θ, x)p(θ) (44)
На этапе обучени) модели основна) Aадача — оценит@ ее параметры θ, т.е. найти апо-
стериорное распределение на θ при условии обуча6щей выборки (Xtr , Ttr ) = {(xi , ti )}ni=1 .
На этапе применени) необходимо дл) нового обXекта xtest предскаAат@ Aначение целевой
переменной ttest с учетом иAвлеченных иA обуча6щей выборки Aакономерностей, т.е. найти
прогноAное распределение на ttest при условии xtest , Xtr , Ttr .

Таблица 2: Схема обучени) и применени) дискриминативной модели

Этап Дано Неи>вестно Хотим оценит8

Обучение (Xtr , Ttr ) = (xi , ti )ni=1 θ p(θ | Xtr , Ttr )

Тестирование xtest ttest p(ttest | xtest , Xtr , Ttr )

Апостериорное распределение на параметры θ мо<но найти, сделав байесовский вывод:


p(Ttr | Xtr , θ)p(θ)
p(θ | Xtr , Ttr ) = " (45)
p(Ttr | Xtr , θ)p(θ)dθ
ПрогноAное распределение на Aначение целевой переменной ttest дл) нового обXекта xtest
мо<но вычислит@ по правилу суммировани), с испол@Aованием апостериорного распреде-
лени) на параметры модели θ, полученного на этапе обучени).

17
#
p(ttest | xtest , Xtr , Ttr ) = p(ttest | xtest , θ)p(θ | Xtr , Ttr )dθ (46)

На данном этапе мы по сути делаем следу6щее: примен)ем все воAмо<ные (со все-
ми воAмо<ными Aначени)ми θ) алгоритмы прогноAировани) p(ttest | xtest , θ) и усредн)-
ем полученные Aначени) с весами, которые Aада6тс) нам апостериорным распределени-
ем p(θ | Xtr , Ttr ). Т.е. интеграл в выра<ении 46 мо<но рассматриват@ как вAвешенное
усреднение по алгоритмам прогноAировани).8 Ва<но отметит@, что качество предскаAани)
такого ансамбл) моделей окаAываетс) лучше, чем качество предскаAани) лучшей иA этих
моделей.
Но что делат@, если аналитический байесовский вывод по формуле 45 невоAмо<ен, т.е.
если интеграл в Aнаменателе формулы Байеса не беретс)? В этом случае ест@ два пути:
прибли<енно оценит@ апостериорное распределение9 или перейти к точечной оценке пара-
метров, воспол@Aовавшис@ у<е Aнакомым нам «Байесом дл) бедных»:

θM P = arg max p(θ | Xtr , Ttr ) (47)


θ

Uдес@ параметры θ оценива6тс) тол@ко в одной точке, что соответсвует Aамене честного
апостериорного распределени) 45 на дел@та-функци6 с центром в точке θM P

p(θ | Xtr , Ttr ) ≈ δ(θ − θM P ) (48)

Подставив данное прибли<ение в интеграл дл) прогноAного распределени) 46, получим

p(ttest | xtest , Xtr , Ttr ) ≈ p(ttest | xtest , θM P ) (49)

«Байес дл) бедных» — вычислител@но эффективна) и просто реалиAуема) процедура.


Однако она приводит к потер)м информации на этапе обучени), что влечет Aа собой потер6
ансамбл) на этапе применени). Что в сво6 очеред@ ведет к потер)м качества.

3.4 Принцип наибол@шей обоснованности


Все предыдущие рассу<дени) делалис@ в предполо<ении о том, что мы у<е выбрали
и Aафиксировали веро)тностну6 модел@ p(t, θ | x). А что будет если моделей нескол@ко?
Пуст@ дана обуча6ща) выборка (Xtr , Ttr ). Предполо<им, что у нас ест@ три раAличных
варианта Aадани) веро)тностной модели:

pj (t, θ | x) = pj (t | x, θ)pj (θ), j = 1, 2, 3 (50)

Тепер@ иA этих моделей ну<но выбрат@ ту, котора) не тол@ко хорошо описывает обу-
ча6щу6 выборку, но и обладает наибол@шей обобща6щей способност@6. Как выраAит@
обобща6щу6 способност@ на математическом )Aыке? С этой проблемой человечество столк-
нулос@ у<е давно, и на сегодн)шний ден@ существует мно<ество раAличных критериев10
В нашем курсе мы рассмотрим один иA них — принцип наибол@шей обоснованности11 . Как
мы увидим далее, этот принцип в некотором смысле )вл)етс) математическим аналогом
Бритвы Оккама и критери) фал@сифицируемости Поппера.
Теорема 4 (Принцип наибол@шей обоснованности). Лучша1 модел2 выбираетс1 по пра-
вилу: #

j = arg max pj (Ttr | Xtr ) = arg max pj (Ttr | Xtr , θ)pj (θ)dθ (51)
j j
8 Типичный пример ансамблировани; или в%вешенного голосовани;
9 О ра%личных способах прибли<енной оценки апостериорного распределени; мы поговорим в следу6-

щих лекци;х.
10 Например, теори; Вапника-Червоненкиса, принцип миними%ации длины описани;, информационные

критерии Акаике и Байеса-Шварца.


11 впервые был предло<ен в 1992 году британским фи%иком Дэвидом МакКаем

18
Распределение pj (Ttr | Xtr ) наAываетс) обоснованност@6 (evidence). Напомним, что
именно эта величина стоит в Aнаменателе теоремы Байеса (см. выра<ение 45). Uаметим, что
по параметрам модели θ мы проводим маргиналиAаци6, поэтому от конкретных Aначений
параметров обоснованност@ не Aависит.
ФиAический смысл обоснованности модели следу6щий: наскол@ко веро)тно в рамках
данной модели пронабл6дат@ обуча6щу6 выборку. Поэтому чем выше обоснованност@,
тем лучше модел@ описывает набл6даемые данные. По сути, принцип наибол@шей обосно-
ванности )вл)етс) методом максимума правдоподоби), но не в пространстве параметров
модели θ, а в пространстве моделей j.
Давайте тепер@ убедимс), что приведённый выше критерий мо<но наAват@ математи-
ческой формалиAацией Бритвы Оккама и критери) фал@сифицируемости Поппера. ИAоб-
раAим дл) ка<дой иA трех моделей совместное распределение на параметры θ и целеву6
переменну6 T при условии X: pj (T, θ | X). Дл) илл6стративности будем считат@ T и θ
одномерными (см. Рис. 3).

Рис. 3: Совместное распределение pj (T, θ | X) дл) трех моделей. По гориAонтал@ной оси


отло<ен параметр θ, по вертикал@ной — Aначение целевой переменной T про условии X
(дл) илл6стративности θ и T одномерные). Эллипсы отобра<а6т совместное распределе-
ние pj (T, θ | X). Цветные распределени) на ос)х отобра<а6т проекции совместного рас-
пределени) на эти оси. Светло-серые распределени) на оси θ покаAыва6т апостериорные
распределени) на параметры моделей после набл6дени) данных {Xtr , Ttr }

Спроецируем совместное распределение pj (T, θ | X) на ос@ θ. Дл) этого его ну<но мар-
гиналиAоват@ по T :
# #
pj (T, θ | X)dT = pj (T | θ, X)pj (θ)dT = pj (θ) (52)

Таким обраAом p(θ) — это проекци) совместного распределени) на ос@ θ. Аналогично


p(T | X) — это проекци) совместного распределени) на ос@ T | X.
Пуст@ мы пронабл6дали данные {Xtr , Ttr }, на картинке их мо<но иAобраAит@ гориAон-
тал@ной пр)мой. Тепер@ в рамках ка<дой иA моделей сделаем байесовский вывод — найдем
апостериорное распределение на параметры модели p(θ|Xtr , Ttr ). На картинке апостериор-
ному распределени6 будет соответствоват@ сечение совместного распределени) p(T, θ|X)
пр)мой Ttr |Xtr . На рисунке 3 горб p2 (θ | Xtr , Ttr ) ни<е чем горб p1 (θ | Xtr , Ttr ) так как
сечение второй совместной плотности шире, а площад@ под горбом дол<на равн)т@с) еди-
нице (как интеграл от плотности распределени)). Плотност@ распределени) p3 (θ | Xtr , Ttr )

19
практически схлопываетс) в дел@та-функци6 в точке, где пр)ма) Ttr | Xtr касаетс) линий
уровн) совместной плотности распределени) p3 (T, θ | X) (считаем, что рассматриваемые
совместные распределени) определены на всей плоскости, а на рисунке эллипсами пока-
Aаны тол@ко области высокой веро)тности). Это происходит иA-Aа того, что в этой точке
Aначение совместной плотности, хот) и очен@ мален@кое, но все <е гораAдо бол@ше, чем во
всех остал@ных точках, которые пересекает пр)ма) Ttr | Xtr 12 .
Кака) иA трех моделей лучше всего описывает набл6даемые данные? Uаметим, что тре-
т@) модел@ имеет самый высокий пик апостериорного распределени), однако очен@ плохо
описывает данные. Поэтому по Aначени6 пика никаких выводов о качестве модели делат@
нел@A). А вот перва) и втора) модели хорошо обX)сн)т данные, поскол@ку содер<ат такие
Aначени) θ при которых правдоподобие данных p(Ttr |Xtr , θ) достаточно высокое. Кака) <е
иA этих моделей лучше? Чтобы ответит@ на этот вопрос рассмотрим небол@шой пример.

Пример. Пуст@ ест@ 3 кубика со следу6щими конфигураци)ми чисел на гран)х:

1. 1 2 3 4 5 6

2. 1 2 3 1 2 3

3. 1 2 1 2 1 2
Пуст@ в эксперименте был наугад подброшен один иA кубиков и выпала тройка. Какой иA
кубиков скорее всего был подброшен? Это точно был не третий кубик, т.к. на его гран)х
нет тройки, т.е. он не описывает набл6даемые данные. Первые два кубика описыва6т на-
бл6даемые данные, но второй делает это лучше, потому что в рамках этой модели у тройки
бол@ше шансов выпаст@ благодар) тому, что второй кубик мо<ет обX)снит@ мен@шу6 со-
вокупност@ фактов. Действител@но второй кубик мо<ет обX)снит@ выпадение 1, 2, 3, а
выпадение 4, 5, 6 не мо<ет, поэтому выпадение тройки при подбрасывании этого кубика
окаAываетс) более веро)тно, чем выпадение тройки при подбрасывании первого кубика.

Это простой пример в точности отра<ает принцип наибол@шей обоснованности. По-


смотрим на проекции совместных распределении на вертикал@ну6 ос@ на рисунке 3. Эти
проекции ест@ pi (T | X), т.е. это обоснованности моделей. Точки, в которых пр)ма) Ttr | Xtr
пересекает кривые pi (T | X) равны обоснованност)м набл6даемых данных в рамках рас-
сматриваемых моделей. Бол@ше всего обоснованност@ данных у второй модели, поскол@ку
ее плотност@ p2 (T | X) выше всех в точке Ttr | Xtr . Перва) модел@ то<е обX)сн)ет Ttr | Xtr ,
однако она мо<ет обX)снит@ и много других Aначений T | X, поэтому ее плотност@ p1 (T | X)
«раAмаAана» по вертикал@ной оси и имеет ниAкое Aначение в точке Ttr | Xtr . То ест@ чем
бол@шу6 совокупност@ фактов мо<ет обX)снит@ модел@, тем мен@ше у нее обоснованност@
дл) конкретных Aначений Ttr | Xtr .
Таким обраAом принцип наибол@шей обоснованности формалиAует иде6 бритвы Окка-
ма: «иA нескол@ких воAмо<ных обX)снений )влени) выбирай самое простое», где «про-
стое» имеет смысл «то, которое мо<ет обX)снит@ мен@шу6 совокупност@ фактов». Так-
<е принцип наибол@шей обоснованности находитс) в согласии с критерием Поппера, т.к.
чем мен@шу6 совокупност@ фактов мо<ет обX)снит@ модел@, тем бол@ше воAмо<ностей ее
опровергнут@, пронабл6дав то, что она не мо<ет обX)снит@.
Рассмотрим еще один пример дл) Aакреплени) иAученного принципа.

Пример. Пуст@ в некоторой стране N Aа убийство человека прису<даетс) смертна) каAн@.


Кроме того, в N про<ива6т л6ди двух рас: синей и Aеленой. Наша Aадача пон)т@, испол@Aу)
данные о каAн)х, ест@ ли Aависимост@ ме<ду расой убийцы, расой <ертвы и вердиктом
судей. Име6тс) следу6щие переменные:

1. m — раса убийцы. 0 — синий, 1 — Aеленый.


12 Конкретный вид апостериорного распределени; %ависит от хвостов совместного распределени;

p3 (T, θ|X). В частности, если совместное распределение имеет квадратичные хвосты в логарифмической
шкале (как, например, нормал)ное распределение), то апостериорное распределение будет становит)с; все
«у<е и у<е» при удалении от областей высокой плотности совместного распределени;, постепенно, кол-
лапсиру; в дел)та-функци6.

20
2. v — раса <ертвы. 0 — синий, 1 — Aеленый.

3. d — приговор. 0 — т6р@ма, 1 — каAн@.

Статистика по каAн)м:

m=0 m=0 m=1 m=1


d=0 d=1 d=0 d=1
v=0 132 19 52 11
v=1 9 0 97 6

Рассмотрим нескол@ко веро)тностных моделей, которые могли бы описыват@ набл6да-


емые данные.

1. Приговор не Aависит ни от рассы убийцы, ни от расы <ертвы: p(d | v, m) = p(d) = θ

2. Приговор Aависит от расы <ерты: p(d | v, m) = p(d | v). p(d = 1 | v = 0) = α, p(d =


1 | v = 1) = β.
3. Приговор Aависит от расы убийцы: p(d | v, m) = p(d | m). p(d = 1 | m = 0) = γ, p(d =
1 | m = 1) = δ.

4. Приговор Aависит и от расы убийцы, и от расы <ертвы:


p(d | v, m) m=0 m=1
v=0 τ χ
v=1 ν ξ

m v m v m v m v

d d d d
1) 2) 3) 4)

Рис. 4: Предлагаемые модели Aависимости приговора d от расы убийцы m и расы <ертвы


v

Чтобы полност@6 Aадат@ байесовску6 модел@, необходимо ввести априорные распреде-


лени) на параметры моделей (θ, α, β, γ, δ, τ, ν, χ, ξ). У нас нет никаких априорных
предполо<ений на веро)тност@ каAни в ка<дом случае, поэтому пуст@ априорное распре-
деление на ка<дый параметр будет равномерным от нул) до единицы. Тепер@ посчитаем
обоснованност@ ка<дой модели. Uаметим, что если веро)тност@ смертного приговора q, то
веро)тност@ пронабл6дат@ k смертных приговоров иA N уголовных дел описываетс) рас-
пределением Бернулли:
q (1 − q)N −k
k k
p(x = k) = CN
Тогда обоснованност@ первой модели:

#1
19 19
p1 (Data) = C151 θ (1 − θ)132 · C90 θ0 (1 − θ)9 · C63
11 11
θ (1 − θ)52 · C103
6
θ6 (1 − θ)97 dθ =
0
= C · C · C · C · B(36, 292) ≈ C · C · C · C · 2.8 · 10−51

где B(., .) — это бета-функци). Несмотр) на то, что в рамках первой модели веро)тност@
каAни не Aависит от расы, мы не мо<ем сло<ит@ числа каAней в раAных случа)х и смотрет@
на данные как на одну сери6 испытаний Бернулли. Это было бы ошибкой, поскол@ку мы

21
Aнаем, что данные пришли иA раAличных серий (да<е если мы предполагаем, что веро)т-
ност@ каAни в этих сери)х одинакова) и эту информаци6 так<е необходимо учитыват@.
Аналогично посчитаем обоснованности дл) остал@ных моделей:

#1 #1
19 19
p2 (Data) = C151 α (1 − α)132 · C90 β 0 (1 − β)9 · C63
11 11
α (1 − α)52 · C103
6
β 6 (1 − β)97 dαdβ =
0 0
= C · C · C · C · . . . ≈ C · C · C · C · 4.7 · 10−51

#1 #1
19 19
p3 (Data) = C151 γ (1 − γ)132 · C90 γ 0 (1 − γ)9 · C63
11 11
δ (1 − δ)52 · C103
6
δ 6 (1 − δ)97 dγdδ =
0 0
= C · C · C · C · . . . ≈ C · C · C · C · 0.27 · 10−51

#1 #1 #1 #1
19 19
p4 (Data) = C151 τ (1 − τ )132 · C90 ν 0 (1 − ν)9 · C63
11 11
χ (1 − χ)52 · C103
6
ξ 6 (1 − ξ)97 dτ dχdνdξ =
0 0 0 0
= C · C · C · C · . . . ≈ C · C · C · C · 0.18 · 10−51

Четверта) модел@ мо<ет идеал@но подстроит@с) под ка<ду6 иA четырех серий испы-
таний (выставив параметры в частоты каAней в ка<дой серии), поэтому она имеет ниAку6
обоснованност@ (слишком много всего мо<ет хорошо обX)снит@). Перва) модел@ — сама)
проста) и у нее неплоха) обоснованност@. Но набл6даемые данные покаAыва6т, что все-
таки модели с одним параметром недостаточно и ну<но брат@ втору6 модел@.

22
4 Лекци/ 4. Метод релевантных векторов дл/ ?адачи ре-
грессии. Автоматическое определение ?начимости.
Погорим о том, как мо<но испол@Aоват@ метод наибол@шей обоснованности дл) авто-
матического выбора модели при решении Aадач машинного обучени). В данной лекции мы
сделаем это на примере линейной регрессии. Примечател@но, что сформулировав класси-
ческу6 модел@ на байесовском )Aыке, мо<но сделат@ нескол@ко элегантных обобщений,
которые придадут старой, хорошо иAвестной модели некоторые новые удивител@ные свой-
ства. Но дл) начала вспомним нескол@ко ва<ных пон)тий, которые потребу6тс) нам в
данной лекции.

4.1 Матричное дифференцирование


Пуст@ f (A) — скал)рна) функци) от матрицы A ∈ Rn×n , то ест@ f : Rn×n -→ R. Как
Aаписат@ её градиент? Градиент такой функции Aаписываетс), как матрица иA частных
проиAводных: ) *
∂f (A) ∂f (A)
=
∂A ∂aij i=1,...,n
j=1,...,n

Выпишем некоторые иAвестные градиенты:


) *
∂A(x) ∂aij (x)
1. = , где A : R -→ Rn×n - матрична) функци);
∂x ∂x i=1,...,n
j=1,...,n

∂ det A
2. = det A · (A−1 )T ;
∂A
∂ log | det A| 1 ∂| det A| 1
3. = = | det A| · (A−1 )T = (A−1 )T ;
∂A | det A| ∂A | det A|
' (
∂xT Ay ∂ &
4. = xi aij yj = Ay, x, y ∈ Rn ;
∂x ∂x ij
' (
∂xT Ay ∂ &
5. = xi aij yj = AT x, x, y ∈ Rn ;
∂y ∂y ij
' (
∂xT Ax ∂ & / 0
6. = xi aij xj = AT + A x, x, y ∈ Rn .
∂x ∂x ij

4.2 Решение системы линейных алгебраических уравнений


Рассмотрим СЛАУ:

Ax = b, x ∈ Rn , b ∈ Rm , A ∈ Rm×n , rkA = min (m, n)

Как найти x? Напомним, что в Aависимости от соотношени) ме<ду m и n воAмо<ны


нескол@ко случаев:

1. m = n, x = A−1 b — единственное решение (A−1 существует, так как rkA = n).

2. m > n. Система решений не имеет. Тогда найдем точку x∗ , котора) минимиAирует


ошибку .Ax∗ − b.22 . Почему берем именно ..22 ? Если приравн)т@ градиент функции
потер@ .Ax∗ − b.22 по x∗ к нул6, то получим следу6щу6 систему
T ∗ T
A
9 :;A< x = A b,
n×n

23
котора) легко решаетс), так как AT A обратима (т.к. rk(AT A) = rk(A) = n). Таким
обраAом, получаем
/ 0−1 T
x ∗ = AT A A b
/ 0−1 T
Матрица AT A A наAываетс) псевдообратной матрицей, а x∗ - псевдорешением

3. n > m. Решений бесконечно много. В математике испол@Aуетс) пон)тие нормал@ного


решени) — решени) минимал@ной нормы. Чтобы найти такое решение, рассмотрим
выра<ение
/ 0−1 T
x = AT A + λI A b

Матрица AT A+λI невыро<дена при л6бом λ > 0, так как собственные числа матрицы
AT A бол@ше или равны нул6, и при добавлении λ все собственные числа матрицы
будут строго бол@ше нул). Тогда рассмотрим следу6щий предел
/ 0−1 T
x∗ = lim AT A + λI A b.
λ→0

Мо<но строго докаAат@, что данный предел существует и что x∗ будет нормал@ным
решением.

4.3 Веро)тностна) постановка Hадачи регрессии. Метод релевант-


ных векторов.
Опишем веро)тностну6 постановку Aадачи регрессии. Пуст@ x ∈ Rm - обXект обуча-
6щей выборки, t ∈ R - целева) переменна)13 , w ∈ Rm - веса линейной регрессии. Пуст@
имеетс) так<е (X, T ) = (xi , ti )ni=1 — обуча6ща) выборка. Введём дискриминативну6 веро-
)тностну6 модел@
p(t, w | x) = p(t|w, x)p(w) (53)
где p(t|w, x) - функци) правдоподоби), p(w) - априорное распределение на веса. Правдо-
подобие p(t|w, x) Aададим нормал@ным распределением по t с мато<иданием, равным ли-
нейной комбинации приAнаков wT x, и некоторой дисперсией β −1 . Такой выбор функции
правдоподоби) обX)сн)етс) тем, что при подстановке в нее обуча6щей выборки и настрой-
ке w методом максимал@ного правдоподоби) мы получим в точности минимиAаци6 суммы
квадратов отклонений t от своих прогноAных Aначений, т.е. линейну6 регресси6:
/ 0 = =2
arg max N t | wT x, β −1 = wM L = arg min =wT x − t=2 . (54)
w w

Априорное распределение p(w) Aададим как нормал@ное по w с нулевым мато<иданием


и дисперсией α−1 I. Смысл очен@ простой: такое априорное распределение приводит к L2
регул)риAации, штрафу) w Aа отклонение от нул). Итогова) веро)тностна) модел@:
/ 0 / 0
p(t, w | x) = p(t | x, w)p(w) = N t | wT x, β −1 N w | 0, α−1 I (55)

Получили веро)тностну6 модел@ дл) L2 -регул)риAованной линейной регрессии. По-


смотрим тепер@ к чему это приведёт, и даст ли это какие-либо новые свойства.
Как мы будем обучат@ таку6 модел@? Ну<но получит@ апостериорное распределение
на w при условии того, что мы пронабл6дали обуча6щу6 выборку: p(w | X, T ). Апосте-
риорное распределение мо<но получит@ в )вном виде, так как правдоподобие и априорное
распределение окаAыва6тс) сопр)<енными, поэтому апостериорное распределение ле<ит
в том <е параметрическом семействе, что и априорное, то ест@ )вл)етс) нормал@ным:

p(w | X, T ) = N (w | µ, Σ) (56)
13 В общем случае t мо<ет быт) многомерной, но дл; простоты выкладок бе% ограничени; общности мы

рассмотрим %адачу регрессии с одномерной целевой переменной

24
Чтобы найти µ и Σ воспол@Aуемс) формулой Байеса:

p (T | X, w) p(w)
p(w | X, T ) = N (w | µ, Σ) = " (57)
p (T | X, w) p(w)dw

Uнаменател@ нам сейчас не очен@ ва<ен, так как мы Aнаем какое распределение по-
лучитс) в итоге и, вычислив параметры µ и Σ, легко найдем нормировочну6 константу.
Распишем числител@ выра<ени) (57):
n >) *? m 1- α .2
β2 β 2 α2
p (T | X, w) p(w) = n exp − .T − Xw. m exp − wT w =
(2π) 2 2 (2π) 2 2
n m >) *?
β2α2 β/ T T T T T
0 α T
= m+n exp − T T − 2w X T + w X Xw − w w
(2π) 2 2 2
@C EG
n
β2α2
m A 1 β H
= m+n exp D− w T
(βX T
X + αI) w + βw T
X T
T − T T F
T (58)
(2π) 2 B 2 9 :; < 2 I
Σ−1

Коэффициент при wT w соответствует обратной ковариационной матрице. Отс6да по-


лучаем:
/ 0−1
Σ = βX T X + αI (59)
Чтобы найти µ мо<но выделит@ полный квадрат под экспонентой и провести громоAдкие
вычислени). Но мы поступим проще и воспол@Aуемс) тем, что мато<идание нормал@ного
распределени) совпадает с его модой: µ = wM P . Т.е. надо найти w, максимиAиру6щий (58),
то ест@ максимум следу6щего выра<ени):
β/ T 0 α
− T T − 2wT X T T + wT X T Xw − wT w (60)
2 2
Найдём проиAводну6 (60) по w и приравн)ем её к нул6:
) *
∂ β/ T T T T T
0 α T
− T T − 2w X T + w X Xw − w w =
∂w 2 2
= βX T T − βX T Xw − αw = 0,
/ 0
βX T T = βX T X + αI w

Отс6да получаем формулу


/ 0−1 T
wM P = β βX T X + αI X T (61)
9 :; <
Σ

Итого, мы получили Aначени) параметров дл) апостериорного распределени):


/ 0−1
Σ = βX T X + αI , (62)
T
µ = wM P = βΣX T (63)

Тепер@ мы мо<ем сделат@ предскаAание в рамках байесовской линейной регрессии, т.е.


найти распределение на Aначение целевой переменной дл) нового обXекта x∗ :14
#
p(t∗ | x∗ , X, T ) = p(t∗ | x∗ , w)p(w | X, T )dw (64)

Интеграл в формуле (64) всегда имеет таку6 <е сло<ност@ как и интеграл в Aнаменате-
ле формулы Байеса на обучении, то ест@ либо оба берутс), либо оба не берутс). В нашем
14 Sаметим что в обычной линейной регрессии мы ограничены тол)ко нахо<дением w
M P и поэтому мо<ем
посчитат) тол)ко точечну6 оценку на t∗

25
случае распределени) сопр)<ены, поэтому мо<ем брат@ оба интеграла. В реAул@тате ин-
тегрировани) получаем нормал@ное распределение15 :
#
/ 0
p(t∗ | x∗ , X, T ) = p(t∗ | x∗ , w)p(w | X, T )dw = N t∗ | xT∗ wM P , . . . (65)

Тепер@ посмотрим, как наш алгоритм прогноAировани) от гиперпараметров α и β. Uа-


метим, что β регулирует величину штрафа Aа квадрат отклонений, а α — величину L2
регул)риAации, накладываемой на веса w (см. выра<ение, которое мы максимиAировали,
когда искали wM P 60).
Тепер@ Aафиксируем β и посмотрим как мен)етс) алгоритм в Aависимости от α. Дл)
этого рассмотрим два предел@ных случа):

1. α → 0
lim wM P = wM L
α→0

Так как wM P = arg maxw p (T | X, w) p(w) и p(w) становитс) неинформативным при


α → 0, максимум p (T | X, w) p(w) достигаетс) в точке максимал@ного правдоподоби)
wM L .

2. α → ∞
lim wM P = 0
α→∞

Почему так происходит? Первое обX)снение: p(w) становитс) δ-функцией в 0, поэто-


му апостериорное распределение «схлопываетс)» туда <е. Второе обX)снение: α —
коэффициент регул)риAации, при α → ∞ накладываетс) слишком бол@шой штраф
Aа отклонение от 0. Трет@е обX)снение: в Σ−1 воAникает диагонал@ с бесконечно бол@-
шими Aначени)ми, Σ → 0.

В первом случае мы не накладываем никакой регул)риAации на веса модели и поAвол)ем


ей максимал@но подстроит@с) под обуча6щу6 выборку, что мо<ет привести к переобуче-
ни6. Во втором случае, наоборот, мы ограничиваем веса максимал@но строгой регул)ри-
Aацией, не дава) модели ничего выучит@ про данные. Оптимал@ное Aначени) параметра α
находитс) где-то посередине ме<ду этими предел@ными случа)ми, и чтобы его подобрат@
мо<но воспол@Aоват@с) классическим методом кросс-валидации.16
Как мы Aаметили выше, α регулирует способност@ весов адаптироват@с) под данные. А
что если у нас много приAнаков и мы подоAреваем, что некоторые иA них совсем не вли-
)6т на Aначение целевой переменной? Нам бы хотелос@, чтобы веса «ва<ных» приAнаков
подстраивалис@ под данные, а веса «нева<ных» приAнаков этого не делали, потому что
последние могут подстроит@с) тол@ко под шум в данных, что непременно приведет к пе-
реобучени6. Однако, вар@иру) α мы не мо<ем этого добит@с), потому что она одинаково
вли)ет на все веса.
Попробуем усло<нит@ нашу веро)тностну6 модел@ так, чтобы веса раAных приAнаков
регул)риAировалис@ по-раAному. Мы мо<ем иAменит@ модел@ так, чтобы ка<дому wi соот-
вествовал свой собственный коэффициент αi :
C E
α1 0
/ 0 / 0 J .. K
p(t, w | x) = p(t | x, w)p(w) = N t | wT x, β −1 N w | 0, A−1 , A = D . F (66)
0 αm

Тепер@ наша веро)тностна) модел@ индексируетс) параметром β и параметрами α1 , . . . , αm


на диагонали A, т.е. гиперпараметров стало довол@но много и подстраиват@ их по кросс-
валидации у<е не очен@ удобно. Попробуем применит@ метод наибол@шей обоснованности
и выбрат@ наиболее обоснованну6 модел@, учитыва) что распределени) сопр)<ены и под-
счёт обоснованности дол<ен быт@ несло<ным. Uаметим, что мно<ество, иA которого мы
15 Точный вид матрицы ковариации предлагаем читател6 вывести самосто;тел)но
16 Мо<но ли настраиват) α и β с помощ)6 байесовских методов? Теоретически да, но дл; двух настраи-
ваемых параметров это не очен) оправдано и гора%до проще воспол)%оват)с; кросс-валидацией.

26
выбираем модели, не конечно, то ест@ необходимо посчитат@ обоснованност@ от A и β так,
чтобы по A и β мо<но было бы вести оптимиAаци6.
Рассчитаем обоснованност@:
#
p (T | X, A, β) = p (T | X, w, β) p (w|A) dw (67)

Интеграл 67 берётс) (Aнаменател@ формулы Байеса), но мы мо<ем упростит@ вычис-


лени). ОбоAначим p (T | X, w, β) p (w, A) как Q(w). Посмотрим что представл)ет собой эта
функци) как функци) от w:
n >) *? √ >) *?
β2 β 2 det A 1 T
Q(w) = n exp − .T − Xw. m exp − w Aw =
(2π) 2 2 (2π) 2 2
n√ >) *?
β 2 det A 1 T/ T
0 T T β T
= m+n exp − w βX X + A w + βw X T − T T (68)
(2π) 2 2 2

Обратим внимание на выра<ение под экспонентой )вл)етс) перевернутой многомерной


параболой. Мы Aнаем точку максимума wM P этой параболы и матрицу при квадратичной
форме Σ−1 . РаAло<им функци6 под экспонентой в р)д Тейлора в точке wM P до второго
пор)дка. Нулевой член будет присутствоват@, первого члена не будет, так как wM P — точка
максимума. Тогда (68) расписываетс) как
n√ >) *?
β 2 det A 1 T
/ T
0
m+n exp − (w − w MP ) βX X + A (w − w MP ) ·
(2π) 2 2
>) *?
1 T −1 T T β T
· exp w Σ wM P + βwM P X T − T T =
2 MP 2
>) *?
1 / 0
= Q(wM P ) exp − (w − wM P )T βX T X + A (w − wM P ) (69)
2
Вернемс) к интегралу (67):
#
p (T | X, A, β) = p (T | X, w, β) p (w, A) dw =
# >) *?
1
= Q(wM P ) exp − (w − wM P )T Σ−1 (w − wM P ) dw =
2
# >) *?
1
= Q(wM P ) exp − (w − wM P )T Σ−1 (w − wM P ) dw =
2
m

= Q(wM P )(2π) 2 det Σ → max (70)
A,β

Тепер@ применим л6бопытный приём. рассмотрим логарифм обоснованности (70):


n n 1 β 2
log p (T | X, A, β) = log β − log 2π + log det A − .T − XwM P . −
2 2 2 2
1 T 1
− wM P AwM P − log det Σ−1 → max (71)
2 2 A,β

Наскол@ко сло<но промаксимиAироват@ полученное выра<ение по A и β? β входит под


логарифмом, линейно и в Σ−1 , A входит в log det A, линейно и в Σ−1 . Но кроме того, wM P
Aависит от A и β и Aависимост@ эта не очен@ при)тна): ну<но обращат@ матрицу (см.
выра<ение (62)17 ). Вспомним красивый прием иA вычислител@ной математики, которые
помо<ет нам промаксимиAироват@ обоснованност@ беA громоAдких вычислений.
Определение 5. Пуст@ f (x) — некотора) функци) действител@ного переменного. Тогда
семейство функций двух переменных g(x, ξ), облада6щее свойствами
17 При переходе от веро;тностной модели с ковариационной матрицей априорного распределени; α−1 I к

модели, где эта матрица равна A−1 , выра<ени; дл; параметров апостериорного распределени; сохран;тс;
с точност)6 до %амены αI на A

27
1. ∀x, ∀ξ f (x) ≥ g(x, ξ)
2. ∀x ∃ξ(x) : f (x) = g(x, ξ(x)),
наAываетс) вариационной ни<ней оценкой функции f .
Вариационна) ни<н)) оценка )вл)етс) ни<ней оценкой, и при этом в л6бой точке x
мо<ем так подобрат@ параметр ξ так, что оценка становитс) точной. Простейшим примером
вариационной ни<ней оценки слу<ит касател@на) к выпуклой функции.
Если g(z, ξ) — вариационна) ни<н)) оценка дл) f (x), то мы мо<ем решит@ Aадачу
максимиAации функции f (x) по x с помощ@6 следу6щей итеративной процедуры:
@
Axn = arg max g(x, ξn−1 ),
x
(72)
Bξn = arg max g(xn , ξ)
ξ

Мо<но покаAат@, что така) итеративна) процедура сходитс) в стационарну6 точку функ-
ции f (x). Така) Aамена оптимиAируемой функции мо<ет быт@ удобна, если максимум ис-
ходной функции f (x) искат@ т)<ело, а максимиAироват@ вариационну6 ни<н66 оценку
g(x, ξ) — просто. Мы еще не раA встретимс) с подобными случа)ми в последу6щих лекци)х.
ВоAвраща)с@ к нашей Aадаче, функционал (71) мо<но рассмотрет@ как
n n 1 β 2
log p (T | X, A, β) =
log β − log 2π + log det A − .T − XwM P . −
2 2 2 2
1 T 1
− wM P AwM P − log det Σ−1 ≥ (73)
2 2
n n 1 β 2
≥ log β − log 2π + log det A − .T − Xw. −
2 2 2 2
1 1
− wT Aw − log det Σ−1 (74)
2 2
Оценка (73) верна, поскол@ку Q(wM P ) ≥ Q(w) т.к. wM P — точка максимума Q(w).
Полученна) оценка )вл)етс) вариационной ни<ней оценкой, потому что дл) л6бых A и β
существует w = wM P , при котором достигаетс) равенство.
Тепер@ Aадача оптимиAации выгл)дит как
n β 2 1 1 1
log β − .T − Xw. + log det A − wT Aw − log det Σ−1 → max (75)
2 2 2 2 2 A,β,w

где мы отбросили константы, не вли)6щие на оптимиAаци6. Точку максимума по w мы


Aнаем — это wM P , осталос@ найти максимум по A, β. Дифференцируем выра<ение (75) по
αj при w = wM P (считаем, что wM P не Aависит от A) и приравниваем к нул6:
) *
∂ n β 2 1 1 T 1 −1
log β − .T − XwM P . + log det A − wM P AwM P − log det Σ =
∂αj 2 2 2 2 2
1 ∂ 1 ∂ 1 ∂
=0−0+ log det A − (wT AwM P ) − log det Σ−1 =
2 ∂αj 2 ∂αj M P 2 ∂αj
5 m
∂ ∂ $ 1 ∂
= log det A = log αi = ; (wT AwM P ) = (wM P )2j ;
∂αj ∂αj i=1 αj ∂αj M P
) * ?
∂ ∂ log det Σ−1 ∂Σ−1 / T 0
log det Σ−1 = tr = tr Σ I jj = Σ jj =
∂αj ∂Σ−1 ∂αj
1 1 2 1
= − wjM P − Σjj = 0 (76)
2αj 2 2
∂ ∂ log det Σ−1 ∂Σ−1
При вычислении log det Σ−1 мы воспол@Aовалис@ тем, что = Σ T
и =
∂αj ∂Σ−1 ∂αj
∂(βX T X + A)
= Ijj . Получаем:
∂αj
1
αj = 2 (77)
wjM P + Σjj

28
Uаметим, что в данном выра<ении Σjj Aависит от A, β. Поскол@ку мы оптимиAируем
итеративным методом, дл) вычислени) αj на следу6щей итерации мы мо<ем воспол@-
Aоват@с) Aначени)ми A, β с предыдущей итерации. Эта хитрост@ не что иное как метод
простой итерации и он не нарушит сходимост@ процесса. Однако на практике, если мы
будем пересчитыват@ A по формуле (77), то сходит@с) процесс будет довол@но медленно.
Почему?

Рис. 5: ВоAмо<ные виды Aависимости оптимиAируемой функции от αj (левые графики) и


от log αj (правые графики)

Посмотрим на график Aависимости оптимиAируемой функции от αj и от от log αj (Рис 5).


Uаметим, что функции в правой колонке проще оптимиAироват@ итеративными методами,
чем функции в левой колонке, поскол@ку дл) функций слева, если начал@ное прибли<ение
окаAалос@ далеко от пика (или от бесконечности), то итеративный метод будет долго схо-
дит@с) к максимуму (или в бесконечност@) по пологому хвосту, т.к. Aначение проиAводной
на нём мален@кое. А у функций справа Aначение проиAводной веAде достаточно бол@шое, и
поэтому итеративный метод быстро дойдет до максимума (или до достаточно бол@ших Aна-
чений, чтобы соответству6щий вес мо<но было отбросит@ беA потери точности пргоноAа)
иA л6бого начал@ного прибли<ени).
Но как нам перейти от оптимиAации левой функции к оптимиAации правой? Ну<но
перейти к оптимиAации по log αj , т.е. чтобы получит@ итеративну6 процедуру, нам ну<но
вA)т@ проиAводну6 оптимиAируемой функции по log αj . Как перейти от проиAводной по αj к
проиAводной по log αj ? Фактически это эквивалентно тому, что все слагаемые домно<а6тс)
на αj . Получаем:
2
1 − αj wjM P − αj Σjj = 0 (78)
Небол@шое Aамечание: формула поAвол)ет найти αj при условии фиксированных wM P , β.
В формуле (78) мо<ем дополнител@но раAделит@ переменные:

1 − αjnew wjM
2 old
P − αj Σjj = 0, (79)

29
откуда получаем
1 − αjold Σjj
αjnew = 2 . (80)
wjM P

Аналогично выводитс) формула дл) β:


n /
& 0
n− 1 − αjold Σjj
j=1
β new = 2 (81)
.T − XwM P .

Чем хороша полученна) процедура на практике? Обычно, она сходитс) Aа нескол@ко


дес)тков итераций и при этом практически сраAу многие αj уход)т в бесконечност@, что
равносил@но отбрасывани6 лишних приAнаков. Кроме того, если ест@ группа скоррелиро-
ванных ме<ду собой приAнаков, то метод отбросит все приAнаки иA этой группы, кроме
одного.
Рассмотренный метод мо<но сделат@ нелинейным, перейд) к обобщённой линейной ре-
грессии, когда вместо обычных приAнаков мы имеем дело с баAисными функци)ми на обX-
ектах обуча6щей выборки. При этом формал@но количество w равно количеству обXектов
обуча6щей выборки, и получаетс) автоматический подбор наиболее релевантных обXектов
(отс6да и наAвание метод релевантных векторов).

30
5 Лекци/ 5. Метод релевантных векторов дл/ ?адачи
классификации
В предыдущей лекции мы рассмотрели веро)тностну6 модел@ линейной регрессии, Aа-
дав функции правдоподоби) и априорное распределение на параметры модели. Дл) ка<-
дого обXекта обуча6щей выборки xn мы определили правдоподбие плотност@6 нормал@-
ного распределени), где среднее соответствует стандартной модели линейной регрессии:
xTn w, xn , w ∈ Rd . Априорное распределение дл) вектора параметров w выбрали сопр)-
<енным к правдоподоби6: нормал@ное распределение c нулевым средним и матрицей ко-
вариации A−1 . Cопр)<ение ме<ду функцией правдоподоби) и априорным распределени-
ем, оAначает, что апостериорное распределение ле<ит в том <е классе, что и априорное,
но с другими параметрами. Такой выбор поAволил нам вычислит@ обоснованност@ модели
(Aнаменател@ в формуле Байеса) и оптимиAироват@ её по матрице ковариации A−1 . Специ-
ал@ный выбор пространства оптимиAации: A = diag(α1 , . . . , αd ) приводит к раAр)<енному
решени6 в пространстве параметров w, где приAнаки выбира6тс) "автоматически". Мо<но
ли получит@ аналогичный метод, но дл) Aадачи классификации?
В этой лекции мы предло<им конструктивный алгоритм в качестве ответа на этот во-
прос. Мы переформулируем классическу6 модел@ логистической регрессии как веро)т-
ностну6. Дл) того чтобы выбират@ приAнаки «автоматически», мы испол@Aуем такое <е
априорное распределение, как и дл) Aадачи регрессии, но отличну6 функци6 правдоподо-
би). Она ока<етс) несопр)<енной с априорным распределением: полноценный «байес дл)
богатых» невоAмо<ен. В частности, аналитическое выра<ение дл) обоснованности выве-
сти не выйдет. Мы рассмотрим раAличные способы оценки обоснованности и предло<им
алгоритм её оптимиAации по параметрам априорного распределени) A = diag(α1 , . . . , αd ).

5.1 Байесовска) интерпретаци) Hадачи классической логистической


регрессии
Мы набл6даем набор неAависимых пар {(xn , tn )}N n=1 : вектор приAнаков xn = (1, xn , . . . , xn )
2 d

и бинарну6 метку tn ∈ {−1, 1}. Мы ввели фиктивный приAнак xn = 1, чтобы не писат@


1

отдел@но свободный член в скал)рном проиAведении wT xn , где w ∈ Rd — параметры мо-


дели. Опишем веро)тностну6 модел@, определив функции правдоподоби) p(tn | w, xn ) дл)
ка<дого обXекта и априорное распределение p(w) на параметры модели.
Функци) правдоподоби) дол<на быт@ веро)тностным распределением относител@но
tn ∈ {−1, 1}. Соответству6щий логистической регрессии выбор — это логистическа) функ-
ци):
1
p(tn | w, xn ) = . (82)
1 + exp(−tn wT xn )
Проверим, что она )вл)етс) веро)тностным распределением относител@но tn ∈ {−1, 1}:
T T
1 1 1 + e−w x + ew x + 1
p(t = −1 | x, w) + p(t = 1 | x, w) = Tx + Tx = = 1. (83)
1+e w 1+e −w 1 + e−wT x + ewT x + e0
В качестве априорного распределени) воA@мем нормал@ное с нулевым средним и мат-
рицей ковариации A−1 : / 0
p(w) = N w | 0, A−1 . (84)
Итогова) веро)тностна) модел@ имеет вид:
LN M
! 1 / 0
N
p({(xn , tn )}n=1 |w) = T
N w | 0, A−1 . (85)
n=1
1 + exp(−tn w xn )

Пока<ем, что дл) такой модели решение Aадачи wM P «байеса дл) бедных» соответству-
ет решени6 Aадачи оптимиAации классической логистической регрессии с l2 -регул)риAацией:

wM P = arg max p(w | X, T ) = arg max log p(w | X, T ) = arg max log[p(T | w, X)p(w)]. (86)
w w w

31
Продол<а) (86):

= arg max (log p(T | w, X) + log p(w)) = (87)


w
' N (
$ / / 00 1 T
T
= arg max − log 1 + exp −tn w xn − w Aw = (88)
w
n=1
2
'N (
$ / / 00 1 T
T
= arg min log 1 + exp −tn w xn + w Aw . (89)
w
n=1
2

Выбира) матрицу ковариации априорного распределени) A = αI, получаем:


-& / / 00 α T .
N
wM P = arg minw T
n=1 log 1 + exp −tn w xn + 2w w . (90)

Читател6 осталос@ проверит@, что Aадача (90) )вл)етс) классическим функционалом


log-loss дл) логистической регрессии с l2 -регул)риAацией. Данный функционал — строго вы-
пукла) функци) по w (вед@ логарифм сигмоиды выпуклый, а wT Aw поло<ител@но опреде-
ленна) квадратична) форма). Uадачу поиска единственной точки оптимума мо<но решат@
с помощ@6 метода IRLS (Iteratively Reweighted Least Squares), итеративна) формула дл)
которого имеет вид:
- .−1
w(k+1) = X T R(w(k) )X + αI X T R(w(k) )z(w(k) ), (91)
9 :; <
d×d

где
C E
1 x21 ... xd1
J1 x22 ... xd2 K
J K
X = J .. .. .. .. K — матрица приAнаков (92)
D. . . . F
x2N . . . xdN
1
/ 0 1
R(w) = diag s1 (1 − s1 ), . . . , sN (1 − sN ) , sn = (93)
1 + exp(−tn wT xn )
C EC E
t1 0 1 − s1
J .. K J .. K
z(w) = Xw + R−1 (w) D . FD . F. (94)
0 tN 1 − sN

Л6бопытный читател@ мо<ет так<е проверит@, что IRLS )вл)етс) ни чем иным, как
самым обыкновенным методом Н@6тона. Как правило, IRLS метод сходитс) Aа достаточ-
но малое количество шагов дл) л6бого начал@ного прибли<ени) w(0) . Cтоит учитыват@,
что в данном методе приходитс) обращат@ матрицу d × d, поэтому дл) Aадач с бол@шим
числом приAнаков d, стоит рассмотрет@ метод оптимиAации первого пор)дка, например,
градиентный спуск.
/ 0
Pамечание 1. Матрица: − X T R(wk )X + αI — гессиан оптими3ируемой функции:
/ 0
∇2 [log p(T | X, w) + log p(w)] = − X T R(w)X + αI . (95)

5.2 Метод релевантных векторов


Мы описали Aадачу логистической регрессии на «байесовском )Aыке», введ) априорное
распределение на параметры модели N (w|0, A−1 ). Uатем мы продемонстрировали св)A@
такого выбора априрорного распредлени) с испол@Aованием l2-регурелиAации в Aадаче обу-
чени) логистической регрессии. Действу) по аналогии с предыдущей лекцией, мы мо<ем
выбрат@ дл) ка<дого параметра wi свой «коэфициент регул)риAации»:
d
!
/ 0 / 0
p(w | A) = N w | 0, A −1
= N wi | 0, αi−1 , A = diag(α1 , . . . , αd ).
i=1

32
Uабега) вперёд, ска<ем, что в данной лекции будет продемонстрирован конструктивный
алгоритм оптимиAации αi . Но пре<де давайте рассмотрим, что будет происходит@, если
некоторое αi → +∞. Так как i-ый вес wi ∼ N (0, αi−1 ), получаем
d
wi −
→ 0. (96)

Таким обраAом, если мы будем оптимиAироват@ обоснованност@ модели по параметрам


априорного распределени) diag(α1 , . . . , αd ), то бол@шим Aначени)м αi будут соответство-
ват@ блиAкие к нул6 веса и менее релевантные приAнаки, а малым αi — более релевантные.
Таким обраAом, в процессе оптимиAации мы получим автоматическое раAре<ивание при-
Aнаков, как и на предыдущей лекции.
Однако, ест@ нескол@ко сло<ностей. В данном случае мы не мо<ем сделат@ полноцен-
ный байесовский вывод в силу того, что распределени) p(t | w, x) и p(w | A) не сопр)га6тс).
А Aначит, во-первых, мы не смо<ем найти аналитическое выра<ени) дл) обоснованности,
и непон)тно, как ее прооптимиAироват@ по A. Во-вторых, мы не смо<ем посчитат@ апосте-
риорное распределение на веса w. Втору6 проблему мы мо<ем решит@ по-бедному: найдем
точечну6 оценку на веса, с помощ@6 максимиAации апостериорного распределени). Эта
мо<но сделат@ с помощ@6 того <е самого IRLS, который в данном случае он будет выгл)-
дет@ так:
/ 0−1 T
wk+1 = X T R(wk )X + A X R(wk )z(wk ), (97)
где X, R(w) и z(w) определены, соответственно, в (92), (93) и (94). Метод IRLS гарантирует,
что wk → wM P .
Тепер@ вернемс) к самому интересному вопросу, как оптимиAироват@ обоснованност@ по
A? Чтобы решит@ эту проблему, предлагаетс) пойти по пути «байеса дл) среднего класса»,
то ест@ испол@Aоват@ прибли<ённый байесовский вывод, который носит наAвание вариа-
ционный байесовский вывод. Отметим, что вариантов вариационного байесовского вывода
существует огромное количество: метод в насто)щей лекции лиш@ один иA многих. Однако
ну<но <е с чего-то начинат@!
Pамечание 2. Пре:де чем мы перейдем к вариационному байесовскому выводу, хочет-
с1 ска3ат2, что он применим и к так на3ываемой обобщённой логистической регрессии.
d
Пуст2 у нас ест2 набор функций (будем на3ыват2 их ба3исными функци1ми) {ϕi (x)}i=1 .
Iадача состоит в построении оптимал2ной линейной комбинации этих функций с веса-
ми — параметрами w. При этом, распространена ситуаци1, при которой число ба3исных
функций совпадает с числом обJектов. В качестве примера мо:но привести радиал2ные
ба3исные функциии — функции вида
- .
2
ϕj (x) = exp −γ.x − xj . (98)

Радиал2ные ба3исные функции примен1<тс1 дл1 построени1 существенно нелинейных


ра3дел1<щих поверхностей. По факту, обобщённа1 логистическа1 регресси1 — это класси-
ческа1 логистическа1 регресси1 тол2ко с преобра3ованной матрицей при3наков. По этой
причине мы не будем приводит2 формулы дл1 обобщённой логистической регрессии, дабы
не перегру:ат2 обо3начени1.

5.3 Прибли<енное вычисление обоснованности методом Лапласа


Мы будем оптимиAироват@ A, реша) Aадачу максимиAации обоснованности:
#
p(T | X, A) = p(T | X, w)p(w | A) dw −→ max . (99)
A

Дл) решени) такой Aадачи оптимиAации ну<но умет@ вычисл)т@ интеграл в (99), ко-
торый, увы, не беретс) аналитически. Однако мы мо<ем его оценит@ дл) ка<дого фик-
сированного Aначени) параметра A! Один иA способов приблиAит@ Aначение интеграла —
это Aаменит@ его подытгерал@ну6 функци6 на удобну6 оценку. По этой причине введём
обоAначение:
Q(w) := p(T | X, w)p(w | A). (100)

33
Дл) того чтобы предло<ит@ оценку дл) Q(w), подумаем, что мы вообще мо<ем скаAат@
об этой функции. Давайте воA@мём от неё логарифм:
N
$ d
$
/ / T
00
log Q(w) = − log 1 + exp −tn w xn − αj wj2 . (101)
n=1 j=1

&d
Данна) функци) — строго вогнута) (вед@ логарифм сигмоиды строго вогнутый, а j=1 αj wj2 —
это парабола). Uначит, максимум у данной функции единственный, а при бол@ших по нор-
ме w функци) log Q(w) будет стремит@с) к минус бесконечности. Поэтому, вA)в от такой
функции exp(·) мы получим колокообраAну6 функци6, котора) выгл)дит примерно так:

Q(w)

Данный колокол@чик у< очен@ напоминает гауссиану, а гауссианы мы успешно умеем инте-
грироват@. Мы воспол@Aуемс) данным фактом и попробуем приблиAит@ Q(w) гауссовским
колокол@чиком. Метод прибли<ени) колокообраAных функций гауссианами носит наAвание
метода Лапласа. Схематично, мы хотим получит@ таку6 картину:

Q(w)

где красный колол@чик — это"гауссиана. Ещё раA подчеркнём, что главной нашей Aадачей
)вл)етс) подсчёт интеграла Q(w) dw. Основной вклад в Aначение интеграла внос)т об-
ласти носител) с наибол@шими Aначени)ми подынтеграл@ной функции (в нашем случае
Q(w)). По этой причине найдём прибли<ение унимодал@ной log Q(w) с помощ@6 первых
трёх слагаемых в раAло<ении в р)д Тейлора в точке wM P — точке максимума log Q(w):

log Q(w) ≈ log Q(wM P ) + (w − wM P )T ∇ log Q(wM P )+


1
+ (w − wM P )T ∇2 log Q(wM P )(w − wM P ). (102)
2 9 :; <
гессиан

Итак, что мы тут мо<ем упростит@? Во-первых, ∇ log Q(wM P ) = 0, так как wM P точка
экстремума. Во-вторых, ∇2 log Q(wM P ) мо<но посчитат@ )вно:

∇2 log Q(wM P ) = −(X T R(wM P )X + A), (103)

где X, R(w) определены выше (92), (93). Вывод формулы (103) предоставл)етс) чита-
тел6 в качестве упра<нени).

34
ОбоAначив Σ := (X T R(wM P )X + A)−1 , поло<ител@но определенну6 иA сообра<ений
выпуклости, подстановкой получаем прибли<енное Aначение обоснованности модели:
# # ) *
1 √
Q(w)dw ≈ Q(wM P ) exp − (w − wM P )T Σ−1 (w − wM P ) dw = Q(wM P )(2π)d/2 det Σ.
2
(104)
ИA полученного выра<ени) видно, что мы считаем модел@ тем более обоснованной,
чем, во-первых, шире наш (гауссовский) колокол@чик (Aа так наAываему6 ширину отвечает
det Σ) и, во-вторых, чем бол@ше Aначение в точке Maximum Posterior, т.е. Q(wM P ). Отметим
так<е, что чем шире наш колол@чик, тем устойчивее будет модел@, вед@ Q(w) будет в таком
случае слабо иAмен)т@с) в окрестности Aначений параметра wM P .
Распишем чут@ подробнее (104) как функиц6 от A:

log p(T | X, A) ≈
d / 0 1 / 0
≈ log(2π) + log p(T | X, wM P ) + log N wM P | 0, A−1 − log det X T R(wM P )X + A .
2 2
(105)
Полученну6 функци6 у<е мо<но оптимиAироват@ по A. Эффективный подход к этой
Aадаче оптимиAации рассмотрен в следу6щем раAделе.

5.4 ОптимиHаци) обоснованности


на основе аппроксимации Лапласса
Pамечание 3. Вплот2 до этого момента мы обо3начали wM P точку максимума p(T |
X, w)p(w | A) при некоторой фиксированной матрице A. В данном ра3деле нам придётс1
переобо3начит2 wM P как wMA
P:
A
wM P = arg max p(T | X, w)p(w | A), (106)
w

дл1 того чтобы подчеркнут2 3ависимост2 wM P от матрицы A, по которой мы оптими-


3ируем.
Итак, мы хотим решит@ Aадачу
log p(T | X, A) → max . (107)
A

Воспол@Aовавшис@ прибли<ением (105), оптимал@ну6 A мо<но найти, оптимиAиру) по


A функци6:
A A
/ A −1
0 1 / 0
F (A, wM P ) := log p(T | X, wM P ) + log N wM P | 0, A − log det X T R(wM
A
P )X + A .
2
(108)
Дл) этого мы решим с помощ@6 метода Н@6тона систему уравнений относител@но αj
(напомним, что A = diag(α1 , . . . , αd )).
A A
∂F (A, wM P) ∂F (A, wM P)
= αj = 0, j = 1, . . . , d. (109)
∂ log αj ∂αj
Основна) проблема Aакл6чаетс) в том, что Aависимост@ величины wM
A
P от A очен@
∂wA
сло<на, а при вA)тии проиAводной (109) беA нахо<дени) ∂αMjP не обойтис@. Однако, мо<-
но Aаметит@, что F (A, wM
A
P ) ≥ F (A, w)), дл) л6бого w, при фиксированной матрице A.
Дифференцирование такой оценки аналогично вA)ти6 проиAводной, счита) wM A
P = const
относител@но A.
Давайте распишем F (A, wM A
P ) подробнее:

N
$
A
/ / A T
00 1 A T A
F (A, wM P) =− log 1 + exp tn (wM P ) xn − (wM P ) AwM P + (110)
n=1
2
1 1 / 0
log det A − log det X T R(wM A
P )X + A + const . (111)
2 2

35
ВоA@мём логарифмическу6 проиAводну6 F (A, wM
A
P ), счита) wM P = const. Рассмотрим
A

самое нетривиал@ное слагаемое подробно:


∂ / 0 ∂ / 0
log det X T R(wM
A
P )X + A = αj log det X T R(wMA
P )X + A = (112)
∂ log αj ∂αj
-/ 0−1 .
= αj tr X T R(wM A
P )X + A E jj = (113)
3/ 0 −1
4
= αj X T R(wM A
P )X + A . (114)
jj

Таким обраAом, при wM


A
P = const:

∂F (A, wMA
P) α j 3/ A 0 42 1 α j 3/ T A
0−1 4
0= =− wM P j + − X R(wM P )X + A . (115)
∂ log αj 2 2 2 jj

Шаг метода оптимиAации дл) такой Aадачи мо<но Aаписат@ так:


N- .−1 O
Aold
1 − αjold X T R(wM P )X + A old
jj
αjnew = 3/ 0 42 . (116)
Aold
wM P j

По факту, мы дол<ны делат@ итеративно следу6щие два шага18 :


old
1. Найти wM
A
P дл) текущей матрицы A
old

2. Найти Anew по формуле (116)


И это будет работат@! Интуитивно это мо<но представит@ себе так: мы итеративно шага-
ем в сторону оптимал@ного Aначени) A, посто)нно подкручива) веса wM A
P . На практике
такой подход часто работает очен@ неплохо: довол@но быстро αj , которые соответству6т
нерелевантным приAнакам, начина6т стремит@с) к бесконечности.
Мы рассмотрели, как мо<но оптимиAироват@ оценку на правдоподобие модели, пол@Aу-
)с@ прибли<ением Лапласа дл) оценки Aначени) интеграла. Этот способ хорошо работает
на практике, однако, существу6т и другие методы оценит@ интересу6щий нас интеграл.
Рассмотрим еще один такой способ, чтобы лучше раAобрат@с) с техникой вариационных
ни<них оценок, котора) еще не раA пригодитс) нам в дал@нейшем.

5.5 Вариационна) ни<н)) оценка сигмоиды


В предыдущем пункте мы прибли<али подынтеграл@ну6 функци6 в выра<ении дл)
обоснованности с помощ@6 гауссианы, после чего интеграл легко бралс). Тепер@ мы бу-
дем действоват@ иначе и построим вариационну6 ни<н66 оценку к подынтеграл@ному
выра<ени6, причем таку6, чтобы после прибли<ени) мо<но было аналитически посчи-
тат@ интеграл. Напомним, что функци) g(x, ξ) наAываетс) вариационной ни<ней оценкой
функции f (x), если

1. ∀x, ξ f (x) ≥ g(x, ξ)

2. ∀x ∃ξ(x) : f (x) = g(x, ξ(x))


Про вариационну6 ни<н66 оценку мо<но думат@ так: у нас ест@ не одна ни<н))
оценка, а целый континуум, индексируемый параметром ξ. При этом, дл) л6бого x най-
детс) така) функци) иA этого континуума, Aначение которой точно совпадает со Aначением
исходной функции в точке x (см. Рис.6). Как обсу<далос@ ранее, если итеративно мак-
симиAироват@ вариационну6 ни<н66 оценку g(x, ξ) по вариационным параметрам ξ и по
18 Sаметим, что данна; итеративна; процедура аналогична той, котору6 мы получили дл; %адачи ре-

грессии на предыдущей лекции

36
Рис. 6: ВоAмо<ный вид вариационной ни<ней оценки при раAличных Aначени)х вариаци-
онного параметра

исходным параметрам x, то така) процедура в итоге сойдетс) к локал@ному максимуму


исходной функции f (x) (см. выра<ение 72).19
Итак, построим вариационну6 ни<н66 оценку к подынтеграл@ной функции. Подын-
теграл@на) функци) в выра<ении дл) обоснованности ест@ проиAведение N сигмоид и
нормал@ного распределени):

# # !
N
1 / 0
p(T | X, A) = p(T | X, w)p(w | A) dw = T
N w | 0, A−1 dw (117)
n=1
1 + exp(−tn w xn )

Попробуем оценит@ проиAведение сигмоид чем-нибуд@ хорошим (чтобы интеграл потом


вA)лс) аналитически). Uабега) вперед, ска<ем, что это мо<но сделат@ ненормированными
гауссианами (см Рис. 7). Как мы увидим далее, така) оценка будет и ни<ней, и вариаци-
онной, но наскол@ко такое прибли<ение хорошо описывает исходну6 функци6? На самом
деле, не очен@ хорошо, слишком у< гауссиана не похо<а на сигмоиду. Однако, дл) нашей
Aадачи такое прибли<ение подходит, поскол@ку нам ну<но оценит@ не одну сигмоиду, а
их проиAведение, а оно имеет колоколообраAный вид и хорошо описываетс) проиAведением
гауссиан (поэтому ка<ду6 отдел@ну6 сигмоиду мо<но оценит@ гауссианой).

Рис. 7: Вариационна) ни<н)) оценка сигмоиды ненормированными гауссианами (слева).


Cигмоиды и их проиAведение (справа)

Итак, будем искат@ вариационну6 ни<н66 оценку дл) сигмоиды. Uаметим, что если
функци) выпукла), то ее вариационна) ни<н)) оценка ест@ все ее касател@ные20 . Логисти-
19 Sаметим, что мы строим вариационну6 ни<н66 оценку не к самому интегралу, а к подынтеграл)-

ному выра<ени6, поэтому %дес) мы не мо<ем гарантироват) сходимост) оптими%ации нашей оценки к
локал)ному максимуму исходного интеграла.
20 Действител)но, дл; выпуклой f (x) вариационна; ни<н;; оценка имеет вид:

f (x) ≥ f ′ (ξ)(x − ξ) + f (ξ),


где точка касани; ξ – вариационный параметр.

37
ческа) функци) не )вл)етс) выпуклой, поэтому напр)му6 построит@ касател@ные к ней не
имеет смысла. Но мо<но преобраAоват@ её к выпуклой функции, построит@ касател@ные в
новых координатах, а Aатем найти их уравнение в исходных координатах.
Применим сери6 преобраAований:

log σ(x) = − log(1 + exp(−x))

— вогнута) функци) (а нам ну<на выпукла)). Продол<им:


- - x. -x. - x. .
log σ(x) = − log(1 + exp(−x)) = log exp − (exp + exp − ) =
2 2 - 2- x . - x ..
x
= − log exp − + exp (118)
2 2 2
Рассмотрим второе слагаемое, )вл)6щеес) чётной функцией. Сделаем Aамену y = x2 :
/ x x0
- √y √ .
y
− log e− 2 + e 2 = − log e− 2 + e 2 (119)

Полученна) функци) )вл)етс) выпуклой и определена на полуинтервале [0, +∞). Ее вари-


ационну6 ни<н66 оценку мо<но построит@ касател@ной. Выпишем проиAводну6 по y:
- - √y √ ..

d − log e− 2 + e 2
y
)√ *
y 1
= − tanh √ . (120)
dy 2 4 y

С учетом общего вида уравнени) касател@ной в точке ξ: f ′ (ξ)(x − ξ) + f (ξ),, получаем:


)√ * - √ξ √ .
) * - |η| .
1 ξ ξ 1 |η| |η|
− √ tanh (y − ξ) − log e− 2 + e 2 = − tanh (x2 − η 2 ) − log e− 2 + e 2 .
4 ξ 2 4|η| 2
√ (121)
где мы переопределили вариационный параметр как |η| = ξ. Итого, дл) σ(x) получаем
следу6щу6 ни<н66 оценку:
) ) * - |η| .*
x 1 |η| 2 2 − 2
|η|
σ(x) ≥ exp − tanh (x − η ) − log e +e 2 = (122)
2 4|η| 2
) -η . - η . *
x 1 η
= exp − tanh (x2 − η 2 ) − log e− 2 + e 2 = (123)
2 4η 2
) * ) -η . *
x−η 1
= σ(η) exp exp − tanh (x2 − η 2 ) , (124)
2 4η 2

где мы убрали модули у второго и трет@его слагаемого под экспонентой, т.к. эти функции
четные, и воспол@Aовалис@ выра<ением 118.
Как мы говорили ранее, полученна) оценка21 , как функци) от x, )вл)етс) ненормиро-
ванной гауссианой (как экспонента от квадратичной по аргументу функции). Интеграл от
проиAведени) гауссиан беретс) аналитически и итоговое выра<ение мо<но промаксимиAи-
роват@ по параметрам матрицы ковариациии A. На практике чаще испол@Aуетс) вариант с
прибли<ением Лапласа. Однако, ал@тернативный подход интересен в качестве математи-
ческого упра<нени), которое помогает лучше пон)т@ общий принцип испол@Aовани) вари-
ационных оценок.

21 Эта вариационна; оценка именна;, получена Д<ааккола и Д<орданом (Tommi S. Jaakkola, Michael

Jordan) в 2000 году. Так <е %аметим, что касание сигмоиды и гауссианы происходит в двух точках, при
x = η и x = −η

38
6 Лекци/ 6. EM-алгоритм и модели со скрытыми пере-
менными
Это кл6чева) лекци) курса, в которой мы поймём как и Aачем ну<но строит@ модел@
со скрытыми (или латентными) переменными и какими методами мо<но такие модели
обучат@.22 В классическом курсе по машинному обучени) ЕМ-алгоритм обычно рассмат-
риваетс) на примере раAделени) смеси гауссиан. В этом курсе рассмотрим нескол@ко более
интересных примеров.
Итак, мы будем решат@ следу6щу6 Aадачу:

Pадача 1. По выборке X восстановит@ параметры θ распределени) методом максимал@-


ного правдоподоби):
p(X | θ) → max .
θ

Вопрос. В каких параметрических семействах эту Aадачу мо<но решит@ эффективно?

Ответ. Если плотност@ распределени) p(X | θ) ле<ит в экспоненциал@ном классе, то мы


мо<ем эффективно найти оценку максимал@ного правдоподоби) дл) параметров θ. Ино-
гда это воAмо<но в )вном виде (дифференцируем логарифм правдоподоби), приравниваем
к нул6, и находим иA полученной системы уравнений параметры θ), а в остал@ных слу-
ча)х мо<но построит@ эффективну6 численну6 процедуру оценки (благодар) тому, что
логарифм функции правдоподоби) — вогнута) функци)23 ).
Проблема Aакл6чаетс) в том, что экспоненциал@ный класс не такой широкий, как могло
бы покаAат@с). Uачасту6 на практике набл6даемые данные име6т гораAдо более сло<ное
распределение, которое в экспоненциал@ный класс никак не вписываетс). ВоAникает ди-
лемма:

• либо пытат@с) «нат)нут@ е<а на глобус» и вписат@ распределение иA экспоненциал@-


ного класса в выборку, котора) пришла иA более сло<ного распределени) (оно будет
плохо описыват@ данные, но Aато мы смо<ем эффективно решит@ Aадачу 1);
• либо переходит@ к гораAдо более сло<ным семействам распределений, облада6щим
достаточной гибкост@6, чтобы описат@ данные, но в этом случае процесс нахо<дени)
максимума в Uадаче 1 мо<ет сходит@с) слишком медленно

Пример. Рассмотрим следу6щу6 одномерну6 выборку:

Мо<но попытат@с) восстановит@ плотност@ распределени) выбрав какое-то парамет-


рическое семейство иA экспоненциал@ного класса. Например, нормал@ные распределени).
Получим примерно следу6щу6 гауссиану:

22 Как мы увидим далее, многие методы обучени; моделей со скрытыми переменными ;вл;6тс; вариа-

ци;ми ЕМ-алгоритма.
23 Да<е в пространствах высокой ра%мерности дл; вогнутых функций существу6т эффективные способы

нахо<дени; глобал)ного (он единственный) максимума.

39
Она наиболее правдоподобно описывает набл6даемые данные в семействе нормал@ных
распределений. Однако, с точки Aрени) Aдравого смысла, модел@ не очен@ хороша). Данные
)вно пришли не иA гауссианы.
С другой стороны мо<ем предполо<ит@, что данные приход)т иA нескол@ких гауссиан:

Тогда мо<ем восстановит@ параметры ка<дой иA гауссиан:

К со<алени6, у нас нет информации о цветах, т.е. мы не Aнаем, какой обXект иA какой
гауссианы пришёл. Однако, если бы у нас была така) информаци), то Aадача восстанов-
лени) плотности распределени) сраAу стала бы гораAдо проще, потому что свелас@ бы к
решени6 Uадачи 1 дл) нескол@ких плотностей иA экспоненциал@ного класса.
На этом и строитс) идеологи) моделей с латентными переменными: мы говорим, что
наши данные пришли иA довол@но сло<ного распределени), и име6т сло<ну6 природу; но
если бы мы Aнали что-нибуд@ ещё, какие-то дополнител@ные переменные, то наше распре-
деление стало бы гораAдо более простым.
Мо<но покаAат@, что дл) л6бого распределени) не иA экспоненциал@ного класса мо<но
ввести дополнител@ные (латентные) переменные так что совместное распределение на
исходные и латентные переменные будет ле<ат@ в экспоненциал@ном классе. Итак, вместо
того чтобы решат@ Aадачу 1 мы будем решат@ следу6щу6 Aадачу:

Pадача 2. Введём латентные переменные Z так, чтобы совместное распределение


p(X, Z | θ) ле<ало в экспоненциал@ном классе. Вместо решени) исходной Aадачи (кото-
ру6 мы тепер@ будем наAыват@ 3адачей максими3ации неполного правдоподоби1) будем
решат@ Aадачу
p(X, Z | θ) → max .
θ

Pамечание. Помимо того что мы решим исходну6 Aадачу, мы так<е получим информа-
ци6 о воAмо<ных Aначени)х латентных переменных. На практике существует много Aадач,
в которых информаци) о Z гораAдо ва<нее информации о θ. В дал@нейшем мы рассмотрим
нескол@ко таких примеров.

6.1 Вывод EM-алгоритма


Итак, пуст@ мы смогли ввести такие дополнител@ные переменные Z, что совместное
распределение p(X, Z | θ) стало ле<ат@ в экспоненциал@ном классе. Таким обраAом, мы
мо<ем сравнител@но легко найти оценку максимал@ного правдоподоби) на параметры θ. В
частности, функци) log p(X, Z | θ) вогнута по θ при фиксированных X и Z.

40
Uаписываем цепочку то<деств:24
#
log p(X | θ) = q(Z) log p(X | θ)dZ =
#
p(X, Z | θ)
= q(Z) log dZ =
p(Z | X, θ)
# N O (125)
p(X, Z | θ) q(Z)
= q(z) log dZ =
p(Z | X, θ) q(Z)
# #
p(X, Z | θ) q(Z)
= q(Z) log dZ + q(Z) log dZ.
q(Z) p(Z | X, θ)
Uдес@ q(Z) — проиAвол@ноое распределение в пространстве латентных переменных. Рас-
смотрим повнимател@нее получившиес) слагаемые. Дл) этого вспомним определение и
некоторые свойства дивергенции Кул@бака-Лейблера.
Определение 6. Дивергенци1 Кул2бака—Лейблера ме<ду двум) распределени)ми p и q
определ)етс) следу6щим обраAом:
#
p(x)
KL(p(x) . q(x)) = p(x) log dx.
q(x)
Свойство (KL-дивергенции). KL(p . q) ≥ 0, причём KL(p . q) = 0 если и тол@ко если эти
распределени) почти вс6ду (веAде кроме мно<ества меры нол@) совпада6т.
Упра4нение. Дока<ите это свойство при помощи неравенства Йенсена.
Pамечание. У KL-дивергенции ест@ теоретико-информационный смысл. Если мы работа-
ем с дискретными случайными величинами, KL-дивергенци) покаAывает, на скол@ко допол-
нител@ных бит длиннее будет сообщение при не оптимал@ном кодировании: если символы
приход)т иA распределени) p, а кодируем мы их как будто они приход)т иA распределени) q.
Вернемс) к (125). Uаметим, что первое слагаемое не )вл)етс) KL-дивергенцией, по-
скол@ку у него под логарифмом стоит отношение совместного распределени) p(X, Z | θ) и
q(Z), а эти распределени) ле<ат в раAных пространствах. А вот второе слагаемое )вл)етс)
KL-дивергенцией распределений q(Z) и p(Z | X, θ). Тогда, вследствие неотрицател@ности
KL-дивергенции мо<ем Aаписат@ следу6щее неравенство:
#
p(X, Z | θ)
log p(X | θ) ≥ q(Z) log dZ (126)
q(Z)
Иде) EM-алгоритма Aакл6чаетс) в том, чтобы вместо оптимиAации логарифма непол-
ного правдоподоби) оптимиAироват@ полученну6 ни<н66 оценку, но тепер@ у<е как по θ
так и по распределени6 q.
Определение 7. Права) част@ выра<ени) 126 наAываетс) ни:ней границей на обосно-
ванност2 (ELBO, evidence lower bound) и обоAначаетс) L(q, θ).
Вопрос. ^вл)етс) ли ни<н)) граница на обоснованност@ вариационной ни:ней оценкой.
Почему?
Ответ. Напомним, что вариационна) ни<н)) оценка требует выполнени) двух свойств:
• она всегда не превосходит выра<ени) которое она оценивает (этому как раA удовле-
твор)ет (126));
• дл) л6бого аргумента исходной функции (θ) найдутс) такие Aначени) вариационных
(q), дл) которых неравенство превращаетс) в равенство. В самом деле, если вA)т@
q(Z) = p(Z | X, θ), тогда их KL-дивергенци) обратитс) в нол@, а неравенство — в
равенство.
24 Поскол)ку log p(X | θ) от Z не %ависит, то первый переход ;вл;етс; домно<ением на единицу:
!
q(Z)dZ = 1. Во втором переходе испол)%уетс; правило дл; условной веро;тности. Третий переход —
оп;т) <е умно<ение на единицу. Наконец в последнем переходе мы сгруппировали числители и %намена-
тели под логарифмом «накрест» и ра%били логарифм прои%ведени; на сумму двух логарифмов.

41
Благодар) этому свойству мы мо<ем перейти от оптимиAации неполного правдоподо-
би) к оптимиAации ни<ней оценки на обоснованност@. Будем решат@ полученну6 Aадачу
итерационно:

• оптимиAироват@ по q при фиксированном θ (E-шаг):

L(q, θ0 ) → max =⇒ q(Z) = p(Z | X, θ); (127)


q

• оптимиAироват@ по θ при фиксированном q (M-шаг):


#
L(q0 , θ) → max ⇐⇒ q(Z) log p(X, Z | θ)dZ → max . (128)
θ θ

На E-шаге у нас Aадача функционал@ной оптимиAации. В общем случае такие Aада-


чи решат@ эффективно невоAмо<но. Однако, ест@ одно обсто)тел@ство, которое поAвол)ет
легко с этим раAобрат@с). А именно, сумма в (125) не Aависит от q, а потому максимиAа-
ци) по q первого слагаемого эквивалентна минимиAации по q второго слагаемого, а второе
слагаемое — KL-дивергенци). Мы Aнаем, где она достигает минимума, потому и прирав-
ниваем q(Z) = p(Z | X, θ). Таким обраAом, если модел@ поAвол)ет выполнит@ аналитиче-
ский байесовский вывод на латентные переменные (т.е. найти апостериорное распределение
p(Z | X, θ)), то E-шаг проделываетс) в )вном виде.

6.2 Обсу<дение ЕМ-алгоритма и примеры


Вопрос. Что делат@, если невоAмо<но аналитически посчитат@ апостериорное распреде-
ление p(Z | X, θ)) на E-шаге?
Ответ. В этом случае Е-шаг выполн)етс) прибли<енно25 . Как было Aамечено выше, макси-
миAаци) ни<ней оценки на обоснованност@ по q эквивалентна минимиAации KL-дивергенции
ме<ду q(Z) и апостериорным распределением p(Z|X, θ). Поэтому прибли<енный Е-шаг бу-
дет выгл)дет@ так:
q(Z) = arg min KL(q(Z) . p(Z | X, θ),
q∈Q

где Q — некоторое параметрическое семейство, в котором мы ищем оптимал@ное q(Z).

Вопрос. Что будет, если Q = ∆, где ∆ – семейство всевоAмо<ных δ-функций?

Ответ. Получим «байесовский вывод дл) бедных», т.е. точечну6 оценку на параметры θ,
максимиAиру6щу6 апостериорное распределение p(Z | X, θ):
#
δ(Z − Z0 )
δ(Z − Z0 ) log dZ → min,
p(Z | X, θ) Z0

что эквивалентно #
C− δ(Z − Z0 ) log p(Z | X, θ)dZ → min,
Z0
или <е
log p(Z0 | X, θ) → max .
Z0

Т.е. «байесовский вывод дл) бедных» )вл)етс) прибли<ением апостериорного распре-


делени) с помощ@6 дел@та-функции.
Таким обраAом, E-шаг всегда мо<но проделат@ прибли<ённо, да<е если сопр)<енных
распределений нет и аналитический вывод невоAмо<ен.
25 ЕМ-алгоритм с таким Е-шагом на%ываетс; прибли<енным. Тем не менее, он будет обладат) р;дом

при;тных свойств. В частности, вариационна; ни<н;; оценка будет монотонно расти, а потому алгоритм
будет гарантированно сходит)с;. Но, вообще говор;, необ;%ател)но к точке локал)ного максимума непол-
ного правдоподоби;

42
Pамечание. В дал@нейших лекци)х будет рассмотрен «проме<уточный» случай когда
аналитический байесовский вывод невоAмо<ен, но семейство Q более широкое чем семей-
ство дел@та-функций. ОкаAываетс), что в некоторых случа)х такие Aадачи мо<но эффек-
тивно решат@. Эти идеи ле<ат в основе современных нейробайесовских методов, когда эта
парадигма примен)етс) к нейронным сет)м.
Вопрос. Что мо<но скаAат@ про M-шаг? На первый вAгл)д, максимиAируетс) какое-то
мато<идание, какой-то интеграл, который мо<ет да<е не вA)т@с). Что делат@?

Ответ. Напомним, что log p(X, Z | θ) вогнута) по θ функци) (мы так вводили скрытые
переменные Z). Однако мы оптимиAируем не её саму а её мато<идание. К счаст@6, ма-
то<идание вогнутой функции — функци) так<е вогнута).26 Таким обраAом, да<е если
аналитическа) оптимиAаци) такого выра<ени) невоAмо<на, то численна) всегда воAмо<-
на и эффективна, да<е в пространствах высокой раAмерности.
Итак, реA6миру), Е-шаг иногда мо<но выполнит@ аналитически или хот) бы сделат@
«байеса дл) бедных», а на М-шаге у нас Aадача оптимиAации вогнутой функции. Так вы-
гл)дит классический EM-алгоритм (формулы 140 141). Существу6т раAные эксперимен-
тал@ные постановки при которых эти процессы необходимо модифицироват@. Например,
ест@ стохастический EM-алгоритм, ME-алгоритм, вариационный EM-алгоритм и мно<е-
ство других модификаций. Все они так или иначе опира6тс) на эту баAову6 схему, немного
её модифициру).

Пример. Предполо<им мы попали в следу6щу6 ситуаци6: на E-шаге воAмо<но анали-


тически рассчитат@ распределение p(Z | X, θ0 ), а на M-шаге неберущийс) интеграл и дл)
нахо<дени) максимума приходитс) выполн)т@ бол@шое количество итераций численного
метода оптимиAации.

Вопрос. Как мо<но тогда оптимиAироват@ (сделат@ более эффективной) процедуру?

Ответ. Например, на M-шаге необ)Aател@но до<идат@с) сходимости, мо<но выполнит@


одну либо небол@шое количество итераций численного метода оптимиAации.
Pамечание. Бывает и наоборот, когда M-шаг быстрый, а на E-шаге приходитс) численно
оптимиAироват@ KL-дивергенци6. Тогда оп)т@ <е мо<но останавливат@ численный метод
оптимиAации ран@ше.
В л6бом иA таких случаев у нас всё равно будет выполн)т@с) свойство монотонного
роста вариационной ни<ней оценки, а потому сходимост@ нам гарантирована.

Пример. Наиболее иAвестным примером EM-алгоритма, беAусловно, выступает раAделе-


ние смеси гауссиан.

Вопрос. Что выступает в роли латентных переменных дл) Aадачи раAделени) смеси гаус-
сиан?

Ответ. Номера гауссиан иA которых пришли обXекты.

Если вспомнит@, то алгоритм раAделени) смеси гауссиан представл)ет собой как раA-
таки (127) и (128): на E-шаге мы дл) ка<дого обXекта рассчитываем веро)тност@ того что
он пришёл иA ка<дой иA гауссиан, а на M-шаге, хот) нигде )вно и не Aаписываем интеграл,
но пол@Aуемс) вAвешенными оценками максимал@ного правдоподоби). Которые как раA и
)вл)6тс) аргмаксимумами (128)

6.3 Байесовский метод главных компонент


В этой части лекции мы посмотрим на классический метод главных компонент с бай-
есовской точки Aрени). Конкретнее, мы сформулируем эту модел@ на )Aыке моделей с
латентными переменными и обсудим какие преимущества нам это даёт.
26 Поскол)ку выпукла; комбинаци; вогнутых функций – вогнута; функци;, а л6бое мато<идание – это

выпукла; комбинаци; и% бесконечного числа слагаемых.

43
Напомним, что метод главных компонент решает Aадачу умен@шени) раAмерности при-
Aнакового пространства. Итак, пуст@ мы набл6даем данные x ∈ RD и хотим найти линейное
подпространство Aаданной раAмерности d в котором содер<итс) наибол@ша) част@ диспер-
сии набл6даемых данных. Uадача решаетс) в )вном виде: строим ковариационну6 матрицу
раAмера D × D по нашим обXектам X, приводим её к главным ос)м и проецируем её на d
собственных векторов, отвеча6щих наибол@шим собственным Aначени)м.
ОкаAываетс), то <е самое мо<но сделат@ на веро)тностном )Aыке. Вводим модел@ с
латентными переменными:

p(x, z | θ) = p(x | z, θ)p(z) = N (x | µ + W z, σ 2 I)N (z | 0, I), (129)

где z ∈ Rd и играет рол@ с<атого представлени) исходного вектора x ∈ RD . В роли па-


раметров модели θ выступа6т вектор µ ∈ RD , линейный оператор W ∈ RD×d и скал)р σ.
Эта веро)тностна) модел@ говорит, что у ка<дого x раAмерности D ест@ некоторое латент-
ное представление z раAмерности d такое, что x )вл)етс) реAул@татом действи) линейного
оператора W на z пл6с какой-то сдвиг µ и пл6с какой-то шум.
Поскол@ку мы набл6даем тол@ко X = (x1 , . . . , xn ), в модели 129 переменные z )вл)6тс)
скрытыми. Соответственно, исходна) Aадача подбора параметров модели θ ставитс) как

θM L = arg max P (X | θ). (130)


θ

Представим неполное правдоподобие как интеграл от совместной плотности:


#
θM L = arg max p(X | θ) = arg max p(X | Z, θ)p(Z)dZ. (131)
θ θ

Pамечание. Если устремит@ σ → 0 то полученное θM L дл) остал@ных параметров будет


стремитс) к классической оценке иA метода главных компонент.

Интеграл в выра<ении 131 беретс) аналитически, поскол@ку априорное распределение


и правдоподобие сопр)<ены. Предполо<им однако, что мы не умеем брат@ такой интеграл,
и выпишем дл) этой <е Aадачи EM-алгоритм. Во-первых это полеAное упра<нение, а во-
вторых в некоторых ситуаци)х примен)т@ EM-алгоритм окаAываетс) более эффективно
чем решат@ Aадачу аналитически. Итак,

• Е-шаг:
q(Z) = p(Z | X, θ) =
p(X | Z, θ)p(Z)
=" =
p(X | Z, θ)p(Z)dZ
%n
p(xi | zi , θ)p(zi )
= " %ni=1 =
i=1 p(xi | zi , θ)p(zi )dzi (132)
!n
p(xi | zi , θ)p(zi )
= " =
i=1
p(x i | zi , θ)p(zi )dzi
n
!
= p(zi | xi , θ).
i=1

Если аккуратно расписат@ распределени) в последних двух строчках 132, получим:


/ 0
zi ∼ N (σ 2 WT W )−1 W T (xi − µ), (I + σ −2 W T W )−1 .

44
• M-шаг:
EZ log p(X, Z | θ) =
' n (
$
= EZ log p(xi | zi , θ) + log p(zi ) =
i=1
n
$ P Q
=C+ Ezi − D
2 log 2π − D log σ −
1
2σ 2 (xi − µ − W zi )T (xi − µ − W zi ) =
i=1
n
$ / / 00
=C+ −D
2 log σ − 2σ 2 Ezi
1
(xi − µ)T (xi − µ) − 2(xi − µ)T W zi + ziT W T W zi =
i=1
$n - - 3 4..
=C+ −D
2 log σ −
1
2σ 2 (xi − µ)T (xi − µ) − 2(xi − µ)T W Ezi + tr W T W E[zi ziT ] .
i=1
(133)
Осталос@ пон)т@ что происходит с мато<идани)ми. На самом деле Ezi мы у<е выпи-
сывали на E-шаге, а дл) x ∼ N (X | µ, Σ) имеет место ExxT = Σ + µµT , что )вл)етс)
матричным (многомерным) обобщением того факта, что мато<идание квадрата ест@
дисперси) пл6с квадрат мато<идани).

Тепер@ это выра<ение необходимо прооптимиAироват@ по σ, µ, и W . Проделаем это


дл) W , дифиренцируем полученное выра<ение дл) W и приравниваем проиAводну6
к нул6:
$n
1 P Q
2
−2(xi − µ)EziT + 2W E[zi ziT ] = 0,
i=1

откуда
n
$ n
$
(xi − µ)EziT − W Ezi ziT = 0,
i=1 i=1
и наконец
' n
(' n
(−1
$ $
W = (xi − µ)EziT Ezi ziT . (134)
i=1 i=1

Упра4нение. Выведите формулы дл) µ и σ.

6.3.1 Вычислител8на& сло4ност8


Формула 134 представл)ет практический интерес, потому что её вычислител@на) сло<-
ност@ составл)ет O(nDd + nd2 + d3 ). На практике часто n > D > d, т.е. вычислител@на)
сло<ност@ 134 равна O(nDd). В то <е врем) сло<ност@ метода главных компонент ест@
O(nD2 + D3 ) = O(nD2 ). Если D ≫ d, то Aа врем) выполнени) аналитических расчётов
мо<но успет@ сделат@ достаточно много итераций EM-алгоритма дл) сходимости.

Пример. Если D = 10′ 000 и d = 5, а EM-алгоритм сходитс) Aа 200 итераций, то он будет


работат@ в 10 раA быстрее классического метода главных компонент. Похо<а) ситуаци)
набл6даетс) и с другими классическими методами которые в пространствах бол@шой раA-
мерности работа6т медленнее чем итерационные процессы.

6.3.2 Пропуски в данных


Предполо<им, что в наших данных ест@ пропуски.
Вопрос. Что делает баAовый метод главных компонент, если в данных ест@ пропуски?

Ответ. В общем случае — ничего, он не умеет работат@ с такими данными. Если пропусков
мало, или они относ)тс) к малому числу приAнаков или к малому числу обXектов, то мо<но
Aаполн)т@ средними Aначени)ми или просто выбрасыват@ обXекты или приAнаки в которых
ест@ пропуски, но в общем случае это не работает.

45
С точки Aрени) EM-алгоритма, однако, мо<но считат@ пропущенные Aначени) дополни-
тел@ными латентными переменными. Это в каком-то смысле стирает гран@ ме<ду X и Z:
част@ исходных приAнаков мо<ет быт@ неиAвестна, а част@ реAул@тиру6щих приAнаков мо-
<ет быт@ иAвестна, или по крайней мере мы мо<ем располагат@ какой-то дополнител@ной
информацией о них.

X Z X Z
1 2 3 ? ? ? 3 0
1 3 2 ? 1 3 2 ?
2 1 3 ? 2 ? ? 1
2 3 1 ? 2 3 1 ?
3 1 2 ? ? 1 ? 2
3 2 1 ? 3 2 1 ?

Таблица 3: Данные дл) баAового PCA. Таблица 4: Данные дл) EM-алгоритма.

Пример. Предполо<им, что нас интересу6т всё те <е векторные представлени) слов, но
на сей раA мы )вно требуем, чтобы перва) компонента отобра<ала эмоционал@ну6 окрас-
ку слова. Тогда у слов «дурак», «сволоч@», «негод)й» перва) компонента дол<на быт@
отрицател@ной, а у слов «умница», «хорошист», «молодец» — поло<ител@ной. Мо<но Aа-
ло<ит@ таку6 информаци6 в модел@, после чего остал@ные слова непременно раст)нутс)
по эмоционал@ной шкале.

Это свойство байесовского метода главных компонент представл)ет практический ин-


терес, потому что ручна) раAметка данных обычно стоит дорого. Поэтому крайне ва<но
имет@ модели, способные обучат@с) по частично раAмеченной выборке, т.е. по данным, в
которых дл) части обXектов какие-то приAнаки неиAвестны.

6.3.3 Расширени&
1. Смес@ методов главных компонент.

Расширим номенклатуру латентных переменных: введём дополнител@ну6 дискрет-


ну6 латентну6 переменну6 T :

p(x, z, t | θ) = p(x | x, t, θ)p(z)p(t | θ) = N (x | µt + Wt z, σt2 I)N (z | 0, I)Cat(t | θ). (135)

Така) модел@ говорит, что данные ле<ат в одном и3 нескол2ких линейных подпро-
странств ниAкой раAмерности:

Рис. 8: Данные дл) баAового PCA. Рис. 9: Данные дл) смеси PCA.

46
2. Нелинейные методы.

Вместо того чтобы считат@ что x получаетс) иA z посредством линейного преобра-


Aовани) мо<но вA)т@ л6бу6 другу6 настраиваему6 нелинейну6 функци6, напри-
мер, нейросет@. Применение нейросети в качестве нелинейной функции в байесовском
методе главных компонент приведёт нас к вариационному автокодировщику (VAE,
ariational autoencoder).
Вопрос. Какие проблемы могут воAникнут@ при таком подходе и как их решат@?

Ответ. Распределени) переста6т сопр)гат@с), а потому на E-шаге невоAмо<но вы-


полнит@ аналитический байесовский вывод. Тем не менее, как мы увидим далее в
курсе, Е-шаг мо<но сделат@ прибли<енно, подобрав вариационное распределение иA
Aаданного семейства, ле<ащее максимал@но блиAко к насто)шему апостериорному
распределени6.

Вопрос. Какова геометрическа) интерпретаци) такого нелинейного подхода?

Ответ. Многомерные данные Aачасту6 ле<ат в (нелинейных) многообраAи)х более


ниAких раAмерностей, и основна) проблема состоит в том чтобы эти многообраAи)
находит@. Эту Aадачу и решает такой подход.

6.4 Пример применени) EM-алгоритма на практике


Рассмотрим пример совмещени) EM-алгоритма в модели word2vec. Данна) модел@ поA-
вол)ет строит@ векторные представлени) слов естественного )Aыка, при этом полученные
векторные представлени) сохран)6т семантический смысл слов: алгебраические операции
над векторными представлени)ми соответству6т семантическим операци)м над словами
(пример: «корол@» - «му<чина» + «<енщина» = «королева»). Однако в Aависимости от
контекста слово мо<ет имет@ раAличные Aначени), а векторное word2vec-представление
этого слова останетс) неиAменным. Например, слово «bank» мо<ет оAначат@ как «банк»,
так и «побере<@е».
Иде) — построит@ векторные представлени) не дл) слов, а дл) их смыслов. Пуст@ дан
корпус текстов — последовател@ност@ вхо<дений слов в предло<ени). При этом нам не
дана раAметка смыслов слов — Aаранее неиAвестно, оAначает ли в текущем контексте сло-
во «bank» «банк» или «побере<@е». Естественным обраAом в Aадаче воAника6т латентные
переменные — дл) ка<дого вхо<дени) слова Aаводим дискретну6 латентну6 переменну6,
котора) покаAывает индекс Aначени) слова в конкретном контексте. Количество воAмо<-
ных смыслов Aаранее не фиксируем, автоматически определ)ем структуру пространства ла-
тентных переменных (непараметрические Байесовские методы, будут рассмотрены в конце
курса). Полученну6 Aадачу мо<но решит@ с помощ@6 EM-процедуры и тепер@ дл) ка<-
дого многоAначного слова мо<но определит@, какое Aначение слово имело в конкретном
контексте, — этой информации не было в исходных данных (раAметки смыслов слов нет)!
В реAул@тате дл) слова «bank» было обнару<ено целых 5 смыслов:
1. Побере<@е: «The bank of the river».

2. Банк как Aдание: «Turn right at the bank».

3. Банк как место работы: «Yesterday, I started working in a bank».

4. Микрофинансовый смысл — банк как место, где л6ди хран)т ден@ги.

5. Макрофинансовый смысл — банк как элемент финансовой системы государства.

47
7 Лекци/ 7. Вариационный Байесовский вывод
7.1 EM-алгоритм
7.1.1 Классический ЕМ-алгоритм
Дл) начала вспомним классический ЕМ-алгоритм, который мы рассматривали на про-
шлой лекции. Пуст@ дана модел@ с набл6даемыми переменными X и латентными перемен-
ными Z, параметриAованна) вектором θ:

p(X, Z | θ). (136)

Мы бы хотели оценит@ вектор параметров θ по методу максимал@ного правдоподоби),


но в качестве выборки нам даны тол@ко X, а Z мы не Aнаем. Таким обраAом, мы пытаемс)
получит@ оценку максимал@ного правдоподоби) по набл6даемым данным, то ест@ решит@
Aадачу максимиAации неполного правдоподоби):
#
θM L = arg max p(X | θ) = arg max p(X, Z | θ)dZ. (137)
θ θ

Неполного потому, что мы не набл6даем Z; если бы набл6дали и X, и Z, то у нас была


бы стандартна) Aадача максимиAации (полного) правдоподоби). При этом на практике
часто воAмо<но посчитат@ тол@ко Aначение совместной плотности (136) при иAвестных X
и Z, но невоAмо<но посчитат@ неполное правдоподобие в данной точке X (т.е. не мо<ем
посчитат@ интеграл в правой части (137)).
Пример. Латентные переменные естественно воAника6т в случае, когда плотност@ на-
бл6даемых переменных p(X | θ) имеет очен@ сло<ный характер. Тогда один иA способов
упрощени) Aадачи — добавление латентных переменных до тех пор, пока совместное рас-
пределение (136) не станет принадле<ат@ экспоненциал@ному классу распределений. У экс-
поненциал@ного класса распределений функци) правдоподоби) )вл)етс) логарифмически
вогнутой, в этом случае легко решат@ Aадачу её максимиAации.
ВоAникает иде) свести невыпуклу6 Aадачу (137) к выпуклой путём добавлени) латент-
ных переменных. Перейдём к логарифму:

θM L = arg max p(X | θ) = arg max log p(X | θ). (138)


θ θ

Логарифм неполного правдоподоби) мо<но раAло<ит@ на вариационну6 ни<н66 оцен-


ку и KL-дивергенци6 ме<ду вариационным распределением q(Z) и апостериорным распре-
делением p(Z | X, θ):

log p(X | θ) = L(q, θ) + KL(q(Z) . p(Z | X, θ)), ∀q(Z). (139)


Далее Aамен)ем Aадачу максимиAации левой части по θ на Aадачу максимиAации вари-
ационной ни<ней оценки L(q, θ) по θ и по q. Распределение q в данном случае )вл)етс)
вариационным параметром:
• ∀q, θ L(q, θ) ≥ log p(X | θ), потому что KL ≥ 0
• ∀θ ∃q(Z) = p(Z | X, θ) : log p(X | θ) = L(q, θ), потому что KL(p . p) = 0
Отс6да воAникает итерационный EM-алгоритм:
E-step
qn (Z) = arg max L(q, θn ) = p(Z | X, θn ) (140)
q

M-step
θn+1 = arg max L(qn , θ) = arg max Eqn (Z) log p(X, Z | θ) (141)
θ θ
В последнем равенстве мы воспол@Aовалис@ определением вариационной ни<ней оцен-
ки:
# # #
p(X, Z | θ)
L(q, θ) = q(Z) log dZ = q(Z) log p(X, Z | θ)dZ − q(Z) log q(Z)dZ. (142)
q(Z)

48
Второе слагаемое мо<но отбросит@, потому что энтропи) q не Aависит от θ.
Преимущества такой процедуры:
1. На E-шаге мо<ем выполнит@ пересчёт в )вном виде (если умеем считат@ апостериор-
ное распределение на Z).

2. На M-шаге воAникает Aадача оптимиAации Eqn (Z) log p(X, Z | θ) — вогнутой функ-
ции по θ, так как log p(X, Z | θ) вогнута, а мато<идание, как выпукла) комбинаци)
выпуклых функций, то<е )вл)етс) вогнутой функцией от θ

3. Итак, Aадача максимиAации вогнутой функции. Если повеAёт, то мо<но решит@ в


)вном виде. Если нет, то её мо<но хот) бы эффективно решат@.

7.1.2 Модификаци& EM-алгоритма: априорное распределение на веса


Рассмотрим пример небол@шой модификаци6 ЕМ-алгоритма, который пригодитс) нам
в дал@нейшем. Предполо<им, что веро)тностна) модел@ полност@6 Aадана, то ест@ иAвест-
но совместное распределение на X, Z, θ:

p(X, Z, θ) = p(X, Z | θ)p(θ). (143)

Пуст@ тепер@ мы хотим найти максимум не у оценки максимал@ного неполного правдо-


подоби) (137), а у апостериорного распределени):
P Q
θM P = arg max p(θ | X) = arg max log p(θ | X) = arg max log p(X | θ) + log p(θ) . (144)
θ θ θ

В выкладках выше мы применили теорему Байеса, Aнаменател@ не Aависит от θ, поэтому


максимум апостериорной плотности эквивалентен максимуму числител). В числителе —
логарифм неполного правдоподоби) пл6с логарифм априорного распределени).
Как иAменитс) EM-алгоритм при такой постановке Aадачи?
Выра<ение (139) примет вид:

log p(X | θ) + log p(θ) = L(q, θ) + KL(q(Z) . p(Z | X, θ)) + log p(θ). (145)

На M-шаге (141) воAникнет ещё одно аддитивное слагаемое:


P Q
θn+1 = arg max L(qn , θ) + log p(θ) = arg max Eqn (Z) log p(X, Z | θ) + log p(θ) . (146)
θ θ

На E-шаге мы максимиAируем по q при фиксированном θ. Добавленное слагаемое не


Aависит от q, поэтому E-шаг (140) не иAменитс).
Таким обраAом, EM-алгоритм практически не мен)етс) при Aамене оценки максимума
правдоподоби) на максимиAаци6 апостериорного распределени). Это набл6дение приго-
дитс) нам в дал@нейшем.

7.1.3 От EM-алгоритма к вариационному выводу


Что будет, если на E-шаге распределени) не сопр)га6тс) и мы не мо<ем точно выпол-
нит@ Байесовский вывод? Придётс) выполн)т@ его прибли<ённо. Uаметим, что E-шаг (140)
эквивалентен минимиAации KL-дивергенции:

qn (Z) = arg max L(q, θn ) = arg min KL(q(Z) . p(Z | X, θn )). (147)
q q

Проблема: дл) минимиAации KL-дивергенции (147) мы дол<ны умет@ её считат@, но мы


не Aнаем p(Z | X, θn ). Тем не менее, эту Aадачу мо<но решит@ прибли<ённо. Будем дл)
простоты минимиAироват@ KL-дивергенци6 не по всевоAмо<ным распределени)м q, а по
распределени)м q иA какого-то ограниченного семейства (например, иA параметрического
или функционал@ного) — то ест@ будем искат@ вариационну< аппроксимаци< истинного
апостериорного распределени).

49
Рис. 10: Пример аппроксимации распределени) в семействе дел@та-функций.

Пример. Что будет, если мы ограничим семейство распределений q, к примеру, мно<е-


ством дел@та-функций? То ест@ Aахотим аппроксимироват@ p(Z | X, θn ) в классе дел@та-
функций, минимиAиру) KL-дивергенци6 ме<ду аппроксимацией и исходным распределе-
нием. Ранее мы у<е вы)снили, что дл) этого ну<но вA)т@ точку в моде этого распреде-
лени) (рис. 10). С точки Aрени) KL-дивергенции это сама) репреAентативна) точка. Если
рассматриват@ другие дивергенции, ответ мо<ет помен)т@с).

7.2 Вариационный Байесовский вывод: mean-field аппроксимаци)


Mean-field аппроксимаци1 (теори) среднего пол)) была раAработана фиAиками дл) ре-
шени) Aадач теории пол). ^вл)етс) частным случаем более общего подхода, который носит
наAвание вариационный Байесовский вывод (так скаAат@, «Байес дл) среднего класса»).
Пуст@ у нас ест@ сло<ное апостериорное распределение, которое мы бы хотели прибли-
Aит@ каким-то распределением, дл) которого Aнаем (умеем считат@) нормировочну6 кон-
станту. Мы не хотим примен)т@ Байес дл) бедных, так как при этом тер)етс) существенное
количество информации, а Aначит, и ухудшаетс) качество.
Пуст@ модел@ состоит иA набл6даемых и латентных переменных:

p(X, Z). (148)

При этом дл) апостериорного распределени) p(Z | X) мы мо<ем посчитат@ числител@


в формуле Байеса, а Aнаменател@ — нет (интеграл не беретс)). Давайте попробуем прибли-
Aит@ p(Z | X) распределением q(Z) иA некоторого ограниченного семейства распределений,
дл) которого мы Aнаем, как считат@ нормировочные константы. Прибли<аем, минимиAи-
ру) KL-дивергенци6:
q(Z) = arg min KL(q(Z) . p(Z | X)). (149)
q∈Q

Дл) простоты Aдес@ мы не предполагаем Aависимости от дополнител@ных параметров


θ, но и на этот случай все текущие рассу<дени) тривиал@но обобща6тс).
Какое семейство Q нам вA)т@? Обычно ограничива6тс) параметрическим семейством,
например, классом нормал@ных распределений. Однако давайте рассмотрим не параметри-
ческое, а функционал@ное mean-field ограничение. РаAоб@ем мно<ество переменных Z на
непересека6щиес) подмно<ества (факториAируем) и будем рассматриват@ лиш@ фактори-
3ованные распределени) q:
l
!
Z = ⊔li=1 zi ; zi ∩ zj = ∅; q(Z) = qi (zi ). (150)
i=1

В св)Aи с тем, что мы ввели ограничение на мно<ество рассматриваемых распределений,


KL-дивергенци6, как правило, мы у<е не смо<ем сделат@ нулевой. Как у<е упоминалос@,
KL-дивергенци) Aависит от апостериорного распределени), которое мы не умеем считат@.
Uаменим (149) на эквивалентну6 Aадачу максимиAации вариационной ни<ней оценки:
#
p(X, Z)
q(Z) = arg min KL(q(Z) . p(Z | X)) = arg max q(Z) log dZ. (151)
q∈Q q∈Q q(Z)

50
Апостериорное распределение Aдес@ нигде не фигурирует, и мы мо<ем посчитат@ все со-
ставл)6щие интеграла. Будем решат@ Aадачу блочно-координатно: Aафиксируем все груп-
пы латентных переменных zi , кроме одной — zj , дл) которой в )вном виде получим урав-
нени) дл) обновлени).
Подставим в праву6 част@ (151) факториAаци6 (150):
# !
l l # !l # ! l l
p(X, Z) ! P$ Q
qi (zi ) log %l dzi = qi (zi ) log p(X, Z)dZ− qi (zi ) log qk (zk ) dZ =
i=1 i=1 qi (zi ) i=1 i=1 i=1 k=1
(152)
Во втором слагаемом вынесем сумму по k Aа Aнак интеграла (мато<идание суммы равно
сумме мато<иданий). Получили сумму мато<иданий, в которой дл) ка<дого мато<идани)
подынтеграл@на) функци) Aависит тол@ко от одной zk , то ест@ по всем i ∕= k мы получим
интеграл по плотности, т.е. 1:
# ! l $l #
= qi (zi ) log p(X, Z)dZ − qk (zk ) log qk (zk )dzk = (153)
i=1 k=1

Фиксируем все zi , кроме zj . Распишем выра<ение как функци6 от qj . В первом слагае-


мом вынесем её нару<у. Во втором — от zj Aависит тол@ко 1 член, остал@ные выносим в
константу:
C E
# # ! #
= qj (zj ) D qi (zi ) log p(X, Z)dZ∕=j F dzj − qj (zj ) log qj (zj )dzj + Const. (154)
i∕=j
"%
Посмотрим на выра<ение qi (zi ) log p(X, Z)dZ∕=j . ОбоAначим
i∕=j
C E
# !
p̂(zj ) ≡ expD qi (zi ) log p(X, Z)dZ∕=j F. (155)
i∕=j

То ест@ исходное выра<ение — это логарифм ненормированной плотности p̂(zj ):


# !
qi (zi ) log p(X, Z)dZ∕=j = log p̂(zj ) (156)
i∕=j

p̂(zj ) p̂(zj )
p(zj ) = " ≡ ; p̂(zj ) = A · p(zj ) (157)
p̂(zj )dzj A
После перенормировки (A — нормировочна) константа) p(zj ) мо<но рассматриват@ как
плотност@ веро)тности. Подставим её в (154) и обXединим интегралы, при этом составл)-
6ща) интеграла с константой A будет вынесена в нову6 константу:
# # #
p(X, Z)
q(Z) log dZ = . . . = qj (zj ) log(Ap(zj ))dzj − qj (zj ) log qj (zj )dzj + Const
q(Z)
#
p(zj )
= qj (zj ) log dzj + Const′ . (158)
qj (zj )
Напомним, что в соответствии с (151) мы хотим максимиAироват@ это выра<ение по
qj . Uаметим, что если помен)т@ числител@ и Aнаменател@ под логарифмом местами, то
получим KL-дивергенци6:
#
p(X, Z)
q(Z) log dZ = . . . = −KL(qj (zj ) . p(zj )) + Const′ . (159)
q(Z)
Наша Aадача максимиAаци) по qj эквивалентна минимиAации KL(qj (zj ) . p(zj )). Реше-
ние — поло<ит@ qj (zj ) = p(zj ). Подставим выра<ение дл) p(zj ) (155) с учётом нормировки
и получим финал@ное выра<ение дл) обновлени) qj (zj ):
/ 0
exp Eq(Z∕=j ) log p(X, Z)
qj (zj ) = " / 0 (160)
exp Eq(Z∕=j ) log p(X, Z) dzj

51
Обычно эту формулу п