Открыть Электронные книги
Категории
Открыть Аудиокниги
Категории
Открыть Журналы
Категории
Открыть Документы
Категории
Д.П. Ветров
Содер&ание
1 Лекци& 1. Байесовский подход к теории веро&тностей 3
1.1 Основные пон)ти) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2 Частотный и байесовский подходы . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.3 При)тные пл6сы байесовского подхода . . . . . . . . . . . . . . . . . . . . . . 7
1.4 Байесовский подход как обобщение булевой логики . . . . . . . . . . . . . . . 7
1.5 Пример байесовских рассу<дений . . . . . . . . . . . . . . . . . . . . . . . . . 8
1
7 Лекци& 7. Вариационный Байесовский вывод 47
7.1 EM-алгоритм . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
7.1.1 Классический ЕМ-алгоритм . . . . . . . . . . . . . . . . . . . . . . . . . 47
7.1.2 Модификаци) EM-алгоритма: априорное распределение на веса . . . . 48
7.1.3 От EM-алгоритма к вариационному выводу . . . . . . . . . . . . . . . . 48
7.2 Вариационный Байесовский вывод: mean-field аппроксимаци) . . . . . . . . . 49
7.2.1 Условна) сопр)<енност@ (conditional conjugate). . . . . . . . . . . . . . 51
7.2.2 Св)A@ mean-field аппроксимации и EM-алгоритма . . . . . . . . . . . . 51
7.3 Концептуал@на) схема . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
2
Введение
В рамках данного курса мы будем иAучат@ применение байесовских методов к Aадачам
машинного обучени). Нам бы хотелос@, чтобы читател6 было пон)тно, как байесовские
методы помога6т решат@ конкретные практические Aадачи. Поэтому по ходу курса мы
будем рассматриват@ как общие инструменты дл) работы с байесовскими веро)тностными
модел)ми (инструменты точного и прибли<енного байесовского вывода), так и конкретные
примеры байесовских моделей машинного обучени). Модели, которые мы будем рассмат-
риват@, будут достаточно простые (обобщенна) линейна) модел@ регрессии, обобщенна)
линейна) модел@ классификации, раAделение смеси распределений, умен@шение раAмер-
ности, тематическое моделирование). Однако, после раAбора баAовых моделей, мы будем
говорит@ о том, какие они допуска6т расширени) и как их мо<но комбинироват@ с друг с
другом. Более сло<ные байесовские модели машинного обучени) раAобраны в курсе "Ней-
робайесовские методы машинного обучени)".
3
1 Лекци/ 1. Байесовский подход к теории веро/тностей
В этой лекции мы раAберем, что такое байесовские методы и чем они отлича6тс) от
обычных статистических методов.
p(x, y)
p(x | y) = . (1)
p(y)
Смысл этого определени) в следу6щем: условное распределение покаAывает то, как
ведет себ) x, если мы у<е пронабл6дали y. Uаметим, что если величины x и y неAависимы,
т.е. p(x, y) = p(x)p(y), то p(x | y) = p(x). Что оAначает, что никакой информации об x в y
не содер<итс).
Далее иA формулы (1), совместное распределение мо<но выраAит@ череA условное и
маргинал@ное:
Обобща) это на случай n величин, получаем, что в (3) то<е не ва<ен пор)док выбора
случайных величин x1 , . . . , xn — декомпоAици) всё равно будет верна.
ИA равенства (4) сраAу <е получаетс) правило обращени1 условной веро1тности:
p(x | y)p(y)
p(y | x) = . (5)
p(x)
1 Стоит %аметит), что когда пишут p(x), обычно подра%умева6т плотност) в смысле математической
статистики. Если случайна; величина x дискретна, то p(x) равна веро;тности того, что она будет равна
какому-то числу x. Если <е рассматриваетс; абсол6тно непрерывна; случайна; величина, то p(x) ест)
плотност) в обычном смысле в точке x. Данное обо%начение первоначал)но мо<ет ка%ат)с; очен) непри-
вычным, но со временем оно станет интуитивно пон;тным.
4
Тепер@ проинтегрируем обе части равенства (5) по y.2 Uаметим, что слева получитс) еди-
ница, так как интегрируетс) плотност@ распределени). Тем самым получаем, что
" # #
p(x | y)p(y)dy
1= ⇒ p(x) = p(x | y)p(y)dy = p(x, y)dy. (6)
p(x)
Данное то<дество носит наAвание правила суммировани1 (sum rule). Оно покаAывает, как
перейти от совместного распределени) к маргинал@ному или <е совместному на какое-то
подмно<ество величин: просто интегрируем по всем остал@ным переменным. Этот процесс
наAыва6т выинтегрированием (integrate out) или маргинали3ацией. Поэтому полученное
после интегрировани) распределение наAываетс) маргинал@ным. Так <е, как и с правилом
проиAведени), правило суммировани) обобщаетс) по индукции:
Теорема 2 (Правило суммировани)). Пуст2 x1 , . . . , xn — случайные величины. Если и3-
вестно их совместное распределение p(x1 , . . . , xn ), то совместное распределение подмно-
:ества случайных величин x1 , . . . , xk будет равно
#
p(x1 , . . . , xk ) = p(x1 , . . . , xn )dxk+1 . . . dxn . (7)
Тепер@ посмотрим внимател@нее на равенство (6). Мо<но Aаметит@, что правило сум-
мировани) ест@ не что иное как вA)тие математического о<идани):
#
p(x) = p(x | y)p(y)dy = Ey [p(x | y)].
Таким обраAом, если мы умеем считат@ p(x | y) при всех воAмо<ных y, а хотим Aнат@ p(x),
то нам ну<но просто усреднит@ p(x | y) по всем y.
ИA правила обращени) условной веро)тности (5) и правила суммировани) (6) получаем
широко иAвестну6 теорему:
Теорема 3 (Байес). Пуст2 x и y — случайные величины. Тогда
p(x | y)p(y)
p(y | x) = " . (8)
p(x | y)p(y)dy
5
1.2 Частотный и байесовский подходы
В рамках классических курсов иAучалс) подход, который в англо)Aычной литературе
наAыва6т частотным или фреквентистским (frequentist). Вспомним, как в нём решаетс)
следу6ща) Aадача: оценка параметров распределени) по выборке иA него. Ска<ем, что
ест@ выборка X = (x1 , . . . , xn ) иA параметрического распределени) pθ (x). Uаметим, что
такое распределение вполне мо<но писат@ как p(x | θ), т.е. рассматриват@ параметры θ
как случайные величины, — смысл от этого не мен)етс). Чтобы оценит@ параметры θ, в
классическом частотном подходе испол@Aуетс) метод максимал@ного правдоподоби) 5 :
n
! n
$
θML = arg max p(X | θ) = arg max p(xi | θ) = arg max log p(xi | θ). (10)
θ θ θ
i=1 i=1
Во многих частных случа)х сумма логарифмов правдоподобий будет выпуклой вверх
функцией, то ест@ у неё один максимум, который достаточно легко найти да<е в про-
странствах высокой раAмерности. Uаметим, что θML – случайна) величина, поскол@ку она
)вл)етс) функцией от выборки.
Оценка максимума правдоподоби) (ОМП) обладает очен@ хорошими свойствами:
• Состо)тел@ност@: ОМП сходитс) к истинному Aначени6 параметров по веро)тности
при n → +∞ (где n – раAмер выборки)
• Асимптотическа) несмещенност@: θML = E[θ] при n → +∞
• Асимптотическа) нормал@ност@: θML распределена нормал@но при n → +∞
• Асимптотическа) эффективност@: ОМП обладает наимен@шей дисперсией среди всех
состо)тел@ных асимптотически нормал@ных оценок.
Поэтому часто говор)т, что лучше ОМП ничего придумат@ нел@A). Но если всё так
хорошо, то Aачем вообще ну<ны другие подходы?
На самом деле всё не так просто. Что мы делаем при оценке максимал@ного правдопо-
доби)? Мы пытаемс) найти такие параметры, чтобы веро)тност@ пронабл6дат@ то, что мы
пронабл6дали, была максимал@на. Говор) на )Aыке машинного обучени), мы подстраиваем
параметры под обуча6щу6 выборку. Но мы Aнаем, что пр)ма) подгонка под данные часто
черевата переобучением.
Давайте поймём, каку6 ал@тернативу нам дает применение теоремы Байеса. Пуст@ у
нас ест@ априорное распределение p(θ), которое отра<ает неку6 внешн66 информаци6 о
воAмо<ных Aначени)х параметров (если такой информации нет, мы всегда мо<ем ввести
неинформативное распределение). Тогда реAул@татом применени) теоремы Байеса будет
апостериорное распределение на параметры:
%n
p(xi | θ) · p(θ)
p(θ|X) = " %ni=1 (11)
i=1 p(xi | θ) · p(θ)dθ
6
Таблица 1: Отличи) частотного и байесовского подходов (n — количество элементов в вы-
борке, d — число параметров)
распределение.
7
не выполн)6тс), и лучше работает байесовский подход. А какой метод лучше примен)т@
при бол@ших n? ОкаAываетс), что при бол@ших раAмерах выборки один подход переходит
в другой: мо<но покаAат@, что при n → +∞ апостериорное распределение коллапсиру-
ет в дел@та-функци6 в точке максимума правдоподоби). Поэтому мо<но не мучит@с) с
байесовским выводом апостериорных распределений и примен)т@ частотный подход.
Тут у самых вXедливых читателей дол<ен воAникнут@ вопрос, а Aачем мы в век бол@-
ших данных вообще рассу<даем про малые выборки? Строго говор), мы дол<ны сделат@
оговорку, что раAмер выборки мы дол<ны сравниват@ с числом параметров модели. И вот
если n/d → ∞ то мы мо<ем испол@Aоват@ ОМП. Но в современных нейросет)х часто воA-
никает ситуаци), когда n/d ≪ 1, что ставит под сомнение корректност@ применени) метода
максимал@ного правдоподоби).
3. Обработка данных «на лету»: нет необходимости хранит@ все данные дл) построе-
ни) прогноAа — достаточно хранит@ апостериорное распределение и постепенно его
пересчитыват@: оно будет хранит@ в себе информаци6 иA всех данных.
4. Построение моделей с скрытыми (латентными) переменными: воAмо<ност@ корректно
обрабатыват@ пропуски в данных (об этом будет расскаAано поAднее).
5. Масштабируемост@: в некоторых случа)х байесовский подход переноситс) на бол@шие
данные, при этом остава)с@ вычислител@но эффективным. Это свойство подробнее
будет описыват@с) на курсе нейробайесовских методов.
Обратна) Aадача будет Aвучат@ так: нам иAвестны p(B | A), p(A) и иAвестно то, что
B проиAошло; что мо<но скаAат@ про A? По теореме Байеса мо<но сраAу <е рассчитат@
p(A | B):
p(B | A)p(A)
p(A | B) = & (14)
p(B | A)p(A)
A
Тем самым в байесовском подходе мо<но сделат@ то, чего нел@A) сделат@ в булевой
логике.
8
1.5 Пример байесовских рассу<дений
Предполо<им, что в квартире установлена сигналиAаци). Её иAготовител@ утвер<дает,
что она гарантированно сработает на грабител), но в 10% случаев быва6т ло<ные сра-
батывани) иA-Aа небол@ших Aемлетр)сений, о которых иногда предупре<да6т по радио.
Попробуем Aадат@ это в виде веро)тностной модели. Пуст@ ест@ четыре случайные величи-
ны:
• a ∈ {0, 1} — индикатор того, что сработала сигналиAаци),
• t ∈ {0, 1} — индикатор того, что грабител@ проник в квартиру,
• e ∈ {0, 1} — индикатор того, что проиAошло небол@шое Aемлетр)сение,
• r ∈ {0, 1} — индикатор того, что о Aемлетр)сении обX)вили по радио.
ИAобраAим св)Aи этих величин в виде ориентированного графа, где ребро иA b в a оAначает
то, что a Aависит от b:
t e
a r
p(a = 1 | t = 1)p(t = 1)
p(t = 1 | a = 1) = . (15)
p(a = 1 | t = 0)p(t = 0) + p(a = 1 | t = 1)p(t = 1)
Тогда
1 · 2 · 10−4 1
p(t = 1 | a = 1) = −3 −4 −4
≈ (17)
10 · (1 − 2 · 10 ) + 1 · 2 · 10 6
Тем самым, скорее всего было ло<ное срабатывание. Но что будет, если квартира распо-
ло<ена в криминал@ном районе и p(t = 1) = 2 · 10−3 ? В таком случае ситуаци) кардинал@но
мен)етс), так как веро)тност@ будет примерно равна 2/3, т.е. примерно 67%.
Тепер@ пуст@ квартира находитс) в криминал@ном районе, сработала сигналиAаци), но
при этом по радио было обX)влено о Aемлетр)сении. Какова веро)тност@ ограблени) в
9
таком случае? Другими словами, ну<но найти p(t = 1 | a = 1, r = 1). Воспол@Aуемс)
определением условной веро)тности, правилом суммировани) и правилом проиAведени):
&
p(a = 1, e, t = 1, r = 1)
p(a = 1, t = 1, r = 1)
p(t = 1 | a = 1, r = 1) = = e& (18)
p(a = 1, r = 1) p(a = 1, e, t, r = 1)
e,t
&
p(a = 1 | e, t = 1)p(r = 1 | e)p(e)p(t = 1)
= e & . (19)
p(a = 1 | e, t)p(r = 1 | e)p(e)p(t)
e,t
После упрощений получим, что эта веро)тност@ примерно равна 1/51, то ест@ около 2%.
Обратите внимание, как трансформиру6тс) наши предполо<ени) о наличии вора в квар-
тире при поступлении новой информации (сравните с предыдущим реAул@татом, когда у
нас не было никакой информации о Aемл)тр)сении).
УAнав это, владелец квартиры спокойно продол<ил Aанимат@с) своими делами. Вечером
он воAвращаетс) в квартиру и видит, что она обчищена. Вопрос: что пошло не так? Выклад-
ки верны, но веро)тностна) модел@ неправил@на). Ну<но было учест@ то, что грабители
то<е могут слушат@ радио и испол@Aоват@ факт о ло<ных срабатывани)х: p(t, e) ∕= p(t)p(e)
и p(t = 1 | e = 1) > p(t = 1 | e = 0).
10
2 Лекци/ 2. Сопр/&енные распределени/, экспоненци-
ал9ный класс распределений
2.1 Cопр)<ённые распределени)
Пуст@ нам дана выборка иA некоторого параметрического семейства X = {xi }ni=1 , xi ∼
p(x | θ), и у нас ест@ некоторое априорное распределение на параметры p(θ). Тогда, пол@-
Aу)с@ формулой Байеса, мы мо<ем найти апостериорное распределение на θ при условии
того, что мы пронабл6дали X.
p(X | θ)p(θ)
p(θ | X) = " (21)
p(X | θ)p(θ)dθ
11
Рис. 2: Пример распределени), у которого мода нерепреAентативна.
Метод Aамены апостериорного распределени) его модой получил наAвание “Байес дл1
бедных” (“Poor man’s Bayes”), как довол@но простой вычислител@но, но име6щий весомые
недостатки. Подробно иAучат@ его мы не будем; предполагаетс), что он у<е достаточно
Aнаком иA прочих курсов по машинному обучени6. Нас <е интересу6т более эффективные
и интересные подходы к байесовскому выводу.
Начнём с рассмотрени) ва<ного частного случа), когда интеграл аналитически вычис-
лит@ всё-таки воAмо<но: это случай сопр1:ённых семейств распределений.
Определение 2. Пуст@ функци) правдоподоби) и априорное распределение принадле<ат
некоторым параметрическим семейсвам распределений: p(X | θ) ∼ A(θ) и p(θ | β) ∼ B(β).
Семейства A и B )вл)6тс) сопр1:ёнными (conjugate) тогда и тол@ко тогда, когда p(θ|X) ∼
B(β ′ ).
ИA этого определени) следует, что если функци) правдоподоби) p(X | θ) и априорное
распределение p(θ | β) сопр)<енны, то апостериорное распределение p(θ | X) ле<ит в том
<е параметрическом семействе B(β ′ ), что и априорное p(θ | β). То ест@, апостериорное
распределение p(θ | x) мо<но вычислит@ аналитически. Рассмотрим нескол@ко примеров:
) * ) 2 *
1 (x − µ)2 1 x µ2
p(x | µ) = √ exp − = √ exp − + xµ − (24)
2π 2 2π 2 2
Ну<но подобрат@ такое p(µ), чтобы его функционал@ный вид не иAменилс) при умно-
<ении на вышеприведённое выра<ение (“перевёрнута) парабола под экспонентой”).
Легко Aаметит@, что дл) этого нам подойдёт такой <е вид:
) *
1 µ2 µm m2
p(µ) = √ exp − 2 + 2 − 2 = N (µ | m, s2 ) (25)
2πs 2s s 2s
Тепер@ проверим:
) 2 * ) *
1 x µ2 1 µ2 µm m2
p(x | µ)p(µ) = √ exp − + xµ − ·√ exp − 2 + 2 − 2 ∝ (26)
2π 2 2 2πs2 2s s 2s
) * ' ) *2 (
2 2 2 2 2 2 2
µ (s + 1) µ(m + xs ) x s + m s +1 m + xs2
∝ exp − + − ∝ exp − µ− 2 ∝
2s2 s2 2s2 2s2 s +1
(27)
) + *
+ m + xs2 s2
∝N µ+ 2 , 2 (28)
s +1 s +1
12
2. p(x | γ) = N (x | 0, γ −1 ); p(γ)−?
, - γ .
γ
p(x | γ) = exp − x2
2π 2
β α α−1
p(γ) = γ exp(−γβ) ∼ G(γ | α, β)
Γ(α)
f (x) / 0
p(x | θ) = exp θT u(x) , f (·) ! 0, g(·) > 0, (29)
g(θ)
Параметры θ наAыва6тс) естественными параметрами.
Несмотр) на довол@но необычный вид выра<ени), окаAываетс), что подавл)6щее бол@-
шинство табличных распределений ле<ит в экспоненцал@ном классе (нормал@ное, все дис-
кретные распределени), бета-распределение, гамма-распределение, хи-квадрат распреде-
ление и т.д.). То ест@ бол@шинство распределений, с которыми приходитс) имет@ дело в
прикладных Aадачах, принадле<ат экспоненциал@ному классу распределений.7 Такие рас-
пределени) облада6т нескол@кими довол@но примечател@ными свойствами, и мы рассмот-
рим некоторые иA них. Начнем с достаточных статистик.
Дл) начала вспомним, что <е такое достаточна) статистика распределени). Нефор-
мал@ное определение мо<но сформулироват@ так: достаточна1 статистика — это функ-
ци) от выборки, котора) содер<ит вс6 информаци6, необходиму6 дл) оценки параметров
неиAвестного распределени).
Определение нескол@ко раAмытое. ФормалиAуем его, воспол@Aовавшис@ критерием фак-
тори3ации Фишера:
7 Стоит %аметит), что такое попул;тное в прило<ени;х распределение, как смес) нормал)ных распреде-
13
Определение 4. a(X) — достаточна тогда и тол@ко тогда, когда p(X | θ) = f1 (X)f2 (θ, a(X))
В общем случае таких статистик мо<ет не быт@. Однако дл) экспоненциал@ного клас-
са распределений они существу6т. ИA функционал@ного вида распределени) и критери)
Фишера легко следует, что u(x) )вл)етс) достаточной статистикой (мо<но вA)т@ f1 (X) =
exp(θ T u(X))
f (X), f2 (θ, u(X)) = g(θ) ).
Рассмотрим одно Aамечател@ное свойство экспоненциал@ного класса распределений. Uа-
метим, что
# #
/ 0 f (x) / 0
g(θ) = f (x) exp θT u(x) dx, т.к. exp θT u(x) dx = 1 (30)
g(θ)
Прродифференцируем по θj
# #
∂ ∂ / 0 / 0
g(θ) = f (x) exp θT u(x) dx = f (x) exp θT u(x) uj (x)dx = (31)
∂θj ∂θj
# #
f (x) / T 0
= g(θ) exp θ u(x) uj (x)dx = g(θ) p(x | θ)uj (x)dx = g(θ)Ex∼p(x|θ) uj (x) (32)
g(θ)
∂
log g(θ) = Ex∼p(x|θ) uj (x) (33)
∂θj
∂2
log g(θ) = Cov(uj (x), uk (x)) (34)
∂θj ∂θk
f (x) / 0
X = {xi }ni=1 , xi ∼ p(x | θ) = exp θT u(x)
g(θ)
n
$ n -
$ .
θM L = arg max p(X | θ) = arg max log p(xi | θ) = arg max log f (xi )−log g(θ)+θT u(xi )
θ θ θ
i=1 i=1
14
ИA выра<ени) выше видно, что
γ
θ1 = u1 (x) = x2
2
θ2 = γµ u2 (x) = x
, 1γ 2
2π
g(θ) = exp µ2
γ 2
/ 0 1 1
p(θ | η, ν) = exp θT η (35)
g ν (θ) h(η, ν)
Всё довол@но очевидно, кроме последнего мно<ител). Мо<ет покаAат@с), что нет гаран-
тий на существование нормировочной константы дл) л6бых η и ν, так как интеграл мо<ет
быт@ невоAмо<но вычислит@ аналитически. Это не Aр) — её действител@но мо<ет не быт@,
и это будет оAначат@ несуществование аналитически Aаданного сопр)<ённого семейства.
Вычислим апостериорное распределение:
n
1 !
p(θ | X) = p(xi | θ)p(θ | ν, η) = (36)
Z i=1
5 ' n (6
1 !3 4
n $
1 T
7 8 1 1
= f (xi ) · n exp θ u(xi ) exp θT η ν
= (37)
Z i=1 g (θ) i=1
g (θ) h(η, ν)
5 ' n
(6
1 $ 1 1 / 0 1
= ′ exp θ T
η+ u(xi ) ν+n
= ′ ′
exp θT η ′ ν ′ (38)
Z i=1
g (θ) h(η , ν ) g (θ)
Легко Aаметит@, что функционал@ный вид действител@но совпадает. Так <е видно, как
именно мы пересчитываем η и ν при переходе к апостериорному распределени6:
n
$
η′ = η + u(xi ) (39)
i=1
ν′ = ν + n (40)
15
3 Лекци/ 3. Байесовские методы выбора моделей. Прин-
цип наибол9шей обоснованности.
В этой лекции мы будем говорит@ о байесовских критери)х выбора модели. Дл) начала
вспомним, какие ест@ общенаучные принципы дл) выбора одной теории иA нескол@ких.
16
1. Генеративна) модел@
p(x, t, θ) = p(x, t | θ)p(θ) = p(t | x, θ)p(x | θ)p(θ) (42)
Uдес@ и далее мы испол@Aуем стандартное предполо<ение о том, что априорные Aна-
ни) о параметрах не Aавис)т от данных.
2. Дискриминативна) модел@
p(t, θ | x) = p(t | x, θ)p(θ) (43)
Генеративна) модел@ более обща), поскол@ку если нам иAвестно p(x, t, θ), то мы всегда
мо<ем получит@ p(t, θ | x). Обратное, вообще говор), неверно. Кроме того, несомненным
достоинством генеративной модели )вл)етс) воAмо<ност@ поро<дат@ новые x, или <е пары
(x, t). В рамках дискриминативной модели такое сделат@ не получитс).
Однако, в традиционном машинном обучении чаще рассматрива6т дискриминативные
модели. При этом на практике часто окаAываетс) так, что пространство целевых перемен-
ных проще, чем пространство набл6даемых переменных. Поэтому традиционные дискри-
минативные модели обычно на пор)док проще генеративных, так как они реша6т гораAдо
более просту6 Aадачу. Например, пуст@ пространство набл6даемых переменных — карти-
ны иAвестных худо<ников, а пространство целевых переменных — имена этих худо<ников.
Тогда определит@ автора по картине (дискриминативна) Aадача) проще, чем нарисоват@
картину в стиле автора (генеративна) Aадача). Однако, многие современные дискримина-
тивные модели на практике такие <е сло<ные как и генеративные, потому что простран-
ство целевых переменных не проще пространства набл6даемых переменных. Например, в
Aадаче машинного перевода с немецкого на француAский: x — предло<ение на немецком, t
— предло<ение на француAском.
17
#
p(ttest | xtest , Xtr , Ttr ) = p(ttest | xtest , θ)p(θ | Xtr , Ttr )dθ (46)
На данном этапе мы по сути делаем следу6щее: примен)ем все воAмо<ные (со все-
ми воAмо<ными Aначени)ми θ) алгоритмы прогноAировани) p(ttest | xtest , θ) и усредн)-
ем полученные Aначени) с весами, которые Aада6тс) нам апостериорным распределени-
ем p(θ | Xtr , Ttr ). Т.е. интеграл в выра<ении 46 мо<но рассматриват@ как вAвешенное
усреднение по алгоритмам прогноAировани).8 Ва<но отметит@, что качество предскаAани)
такого ансамбл) моделей окаAываетс) лучше, чем качество предскаAани) лучшей иA этих
моделей.
Но что делат@, если аналитический байесовский вывод по формуле 45 невоAмо<ен, т.е.
если интеграл в Aнаменателе формулы Байеса не беретс)? В этом случае ест@ два пути:
прибли<енно оценит@ апостериорное распределение9 или перейти к точечной оценке пара-
метров, воспол@Aовавшис@ у<е Aнакомым нам «Байесом дл) бедных»:
Uдес@ параметры θ оценива6тс) тол@ко в одной точке, что соответсвует Aамене честного
апостериорного распределени) 45 на дел@та-функци6 с центром в точке θM P
Тепер@ иA этих моделей ну<но выбрат@ ту, котора) не тол@ко хорошо описывает обу-
ча6щу6 выборку, но и обладает наибол@шей обобща6щей способност@6. Как выраAит@
обобща6щу6 способност@ на математическом )Aыке? С этой проблемой человечество столк-
нулос@ у<е давно, и на сегодн)шний ден@ существует мно<ество раAличных критериев10
В нашем курсе мы рассмотрим один иA них — принцип наибол@шей обоснованности11 . Как
мы увидим далее, этот принцип в некотором смысле )вл)етс) математическим аналогом
Бритвы Оккама и критери) фал@сифицируемости Поппера.
Теорема 4 (Принцип наибол@шей обоснованности). Лучша1 модел2 выбираетс1 по пра-
вилу: #
∗
j = arg max pj (Ttr | Xtr ) = arg max pj (Ttr | Xtr , θ)pj (θ)dθ (51)
j j
8 Типичный пример ансамблировани; или в%вешенного голосовани;
9 О ра%личных способах прибли<енной оценки апостериорного распределени; мы поговорим в следу6-
щих лекци;х.
10 Например, теори; Вапника-Червоненкиса, принцип миними%ации длины описани;, информационные
18
Распределение pj (Ttr | Xtr ) наAываетс) обоснованност@6 (evidence). Напомним, что
именно эта величина стоит в Aнаменателе теоремы Байеса (см. выра<ение 45). Uаметим, что
по параметрам модели θ мы проводим маргиналиAаци6, поэтому от конкретных Aначений
параметров обоснованност@ не Aависит.
ФиAический смысл обоснованности модели следу6щий: наскол@ко веро)тно в рамках
данной модели пронабл6дат@ обуча6щу6 выборку. Поэтому чем выше обоснованност@,
тем лучше модел@ описывает набл6даемые данные. По сути, принцип наибол@шей обосно-
ванности )вл)етс) методом максимума правдоподоби), но не в пространстве параметров
модели θ, а в пространстве моделей j.
Давайте тепер@ убедимс), что приведённый выше критерий мо<но наAват@ математи-
ческой формалиAацией Бритвы Оккама и критери) фал@сифицируемости Поппера. ИAоб-
раAим дл) ка<дой иA трех моделей совместное распределение на параметры θ и целеву6
переменну6 T при условии X: pj (T, θ | X). Дл) илл6стративности будем считат@ T и θ
одномерными (см. Рис. 3).
Спроецируем совместное распределение pj (T, θ | X) на ос@ θ. Дл) этого его ну<но мар-
гиналиAоват@ по T :
# #
pj (T, θ | X)dT = pj (T | θ, X)pj (θ)dT = pj (θ) (52)
19
практически схлопываетс) в дел@та-функци6 в точке, где пр)ма) Ttr | Xtr касаетс) линий
уровн) совместной плотности распределени) p3 (T, θ | X) (считаем, что рассматриваемые
совместные распределени) определены на всей плоскости, а на рисунке эллипсами пока-
Aаны тол@ко области высокой веро)тности). Это происходит иA-Aа того, что в этой точке
Aначение совместной плотности, хот) и очен@ мален@кое, но все <е гораAдо бол@ше, чем во
всех остал@ных точках, которые пересекает пр)ма) Ttr | Xtr 12 .
Кака) иA трех моделей лучше всего описывает набл6даемые данные? Uаметим, что тре-
т@) модел@ имеет самый высокий пик апостериорного распределени), однако очен@ плохо
описывает данные. Поэтому по Aначени6 пика никаких выводов о качестве модели делат@
нел@A). А вот перва) и втора) модели хорошо обX)сн)т данные, поскол@ку содер<ат такие
Aначени) θ при которых правдоподобие данных p(Ttr |Xtr , θ) достаточно высокое. Кака) <е
иA этих моделей лучше? Чтобы ответит@ на этот вопрос рассмотрим небол@шой пример.
1. 1 2 3 4 5 6
2. 1 2 3 1 2 3
3. 1 2 1 2 1 2
Пуст@ в эксперименте был наугад подброшен один иA кубиков и выпала тройка. Какой иA
кубиков скорее всего был подброшен? Это точно был не третий кубик, т.к. на его гран)х
нет тройки, т.е. он не описывает набл6даемые данные. Первые два кубика описыва6т на-
бл6даемые данные, но второй делает это лучше, потому что в рамках этой модели у тройки
бол@ше шансов выпаст@ благодар) тому, что второй кубик мо<ет обX)снит@ мен@шу6 со-
вокупност@ фактов. Действител@но второй кубик мо<ет обX)снит@ выпадение 1, 2, 3, а
выпадение 4, 5, 6 не мо<ет, поэтому выпадение тройки при подбрасывании этого кубика
окаAываетс) более веро)тно, чем выпадение тройки при подбрасывании первого кубика.
p3 (T, θ|X). В частности, если совместное распределение имеет квадратичные хвосты в логарифмической
шкале (как, например, нормал)ное распределение), то апостериорное распределение будет становит)с; все
«у<е и у<е» при удалении от областей высокой плотности совместного распределени;, постепенно, кол-
лапсиру; в дел)та-функци6.
20
2. v — раса <ертвы. 0 — синий, 1 — Aеленый.
Статистика по каAн)м:
m v m v m v m v
d d d d
1) 2) 3) 4)
#1
19 19
p1 (Data) = C151 θ (1 − θ)132 · C90 θ0 (1 − θ)9 · C63
11 11
θ (1 − θ)52 · C103
6
θ6 (1 − θ)97 dθ =
0
= C · C · C · C · B(36, 292) ≈ C · C · C · C · 2.8 · 10−51
где B(., .) — это бета-функци). Несмотр) на то, что в рамках первой модели веро)тност@
каAни не Aависит от расы, мы не мо<ем сло<ит@ числа каAней в раAных случа)х и смотрет@
на данные как на одну сери6 испытаний Бернулли. Это было бы ошибкой, поскол@ку мы
21
Aнаем, что данные пришли иA раAличных серий (да<е если мы предполагаем, что веро)т-
ност@ каAни в этих сери)х одинакова) и эту информаци6 так<е необходимо учитыват@.
Аналогично посчитаем обоснованности дл) остал@ных моделей:
#1 #1
19 19
p2 (Data) = C151 α (1 − α)132 · C90 β 0 (1 − β)9 · C63
11 11
α (1 − α)52 · C103
6
β 6 (1 − β)97 dαdβ =
0 0
= C · C · C · C · . . . ≈ C · C · C · C · 4.7 · 10−51
#1 #1
19 19
p3 (Data) = C151 γ (1 − γ)132 · C90 γ 0 (1 − γ)9 · C63
11 11
δ (1 − δ)52 · C103
6
δ 6 (1 − δ)97 dγdδ =
0 0
= C · C · C · C · . . . ≈ C · C · C · C · 0.27 · 10−51
#1 #1 #1 #1
19 19
p4 (Data) = C151 τ (1 − τ )132 · C90 ν 0 (1 − ν)9 · C63
11 11
χ (1 − χ)52 · C103
6
ξ 6 (1 − ξ)97 dτ dχdνdξ =
0 0 0 0
= C · C · C · C · . . . ≈ C · C · C · C · 0.18 · 10−51
Четверта) модел@ мо<ет идеал@но подстроит@с) под ка<ду6 иA четырех серий испы-
таний (выставив параметры в частоты каAней в ка<дой серии), поэтому она имеет ниAку6
обоснованност@ (слишком много всего мо<ет хорошо обX)снит@). Перва) модел@ — сама)
проста) и у нее неплоха) обоснованност@. Но набл6даемые данные покаAыва6т, что все-
таки модели с одним параметром недостаточно и ну<но брат@ втору6 модел@.
22
4 Лекци/ 4. Метод релевантных векторов дл/ ?адачи ре-
грессии. Автоматическое определение ?начимости.
Погорим о том, как мо<но испол@Aоват@ метод наибол@шей обоснованности дл) авто-
матического выбора модели при решении Aадач машинного обучени). В данной лекции мы
сделаем это на примере линейной регрессии. Примечател@но, что сформулировав класси-
ческу6 модел@ на байесовском )Aыке, мо<но сделат@ нескол@ко элегантных обобщений,
которые придадут старой, хорошо иAвестной модели некоторые новые удивител@ные свой-
ства. Но дл) начала вспомним нескол@ко ва<ных пон)тий, которые потребу6тс) нам в
данной лекции.
∂ det A
2. = det A · (A−1 )T ;
∂A
∂ log | det A| 1 ∂| det A| 1
3. = = | det A| · (A−1 )T = (A−1 )T ;
∂A | det A| ∂A | det A|
' (
∂xT Ay ∂ &
4. = xi aij yj = Ay, x, y ∈ Rn ;
∂x ∂x ij
' (
∂xT Ay ∂ &
5. = xi aij yj = AT x, x, y ∈ Rn ;
∂y ∂y ij
' (
∂xT Ax ∂ & / 0
6. = xi aij xj = AT + A x, x, y ∈ Rn .
∂x ∂x ij
23
котора) легко решаетс), так как AT A обратима (т.к. rk(AT A) = rk(A) = n). Таким
обраAом, получаем
/ 0−1 T
x ∗ = AT A A b
/ 0−1 T
Матрица AT A A наAываетс) псевдообратной матрицей, а x∗ - псевдорешением
Матрица AT A+λI невыро<дена при л6бом λ > 0, так как собственные числа матрицы
AT A бол@ше или равны нул6, и при добавлении λ все собственные числа матрицы
будут строго бол@ше нул). Тогда рассмотрим следу6щий предел
/ 0−1 T
x∗ = lim AT A + λI A b.
λ→0
Мо<но строго докаAат@, что данный предел существует и что x∗ будет нормал@ным
решением.
p(w | X, T ) = N (w | µ, Σ) (56)
13 В общем случае t мо<ет быт) многомерной, но дл; простоты выкладок бе% ограничени; общности мы
24
Чтобы найти µ и Σ воспол@Aуемс) формулой Байеса:
p (T | X, w) p(w)
p(w | X, T ) = N (w | µ, Σ) = " (57)
p (T | X, w) p(w)dw
Uнаменател@ нам сейчас не очен@ ва<ен, так как мы Aнаем какое распределение по-
лучитс) в итоге и, вычислив параметры µ и Σ, легко найдем нормировочну6 константу.
Распишем числител@ выра<ени) (57):
n >) *? m 1- α .2
β2 β 2 α2
p (T | X, w) p(w) = n exp − .T − Xw. m exp − wT w =
(2π) 2 2 (2π) 2 2
n m >) *?
β2α2 β/ T T T T T
0 α T
= m+n exp − T T − 2w X T + w X Xw − w w
(2π) 2 2 2
@C EG
n
β2α2
m A 1 β H
= m+n exp D− w T
(βX T
X + αI) w + βw T
X T
T − T T F
T (58)
(2π) 2 B 2 9 :; < 2 I
Σ−1
Интеграл в формуле (64) всегда имеет таку6 <е сло<ност@ как и интеграл в Aнаменате-
ле формулы Байеса на обучении, то ест@ либо оба берутс), либо оба не берутс). В нашем
14 Sаметим что в обычной линейной регрессии мы ограничены тол)ко нахо<дением w
M P и поэтому мо<ем
посчитат) тол)ко точечну6 оценку на t∗
25
случае распределени) сопр)<ены, поэтому мо<ем брат@ оба интеграла. В реAул@тате ин-
тегрировани) получаем нормал@ное распределение15 :
#
/ 0
p(t∗ | x∗ , X, T ) = p(t∗ | x∗ , w)p(w | X, T )dw = N t∗ | xT∗ wM P , . . . (65)
1. α → 0
lim wM P = wM L
α→0
2. α → ∞
lim wM P = 0
α→∞
26
выбираем модели, не конечно, то ест@ необходимо посчитат@ обоснованност@ от A и β так,
чтобы по A и β мо<но было бы вести оптимиAаци6.
Рассчитаем обоснованност@:
#
p (T | X, A, β) = p (T | X, w, β) p (w|A) dw (67)
модели, где эта матрица равна A−1 , выра<ени; дл; параметров апостериорного распределени; сохран;тс;
с точност)6 до %амены αI на A
27
1. ∀x, ∀ξ f (x) ≥ g(x, ξ)
2. ∀x ∃ξ(x) : f (x) = g(x, ξ(x)),
наAываетс) вариационной ни<ней оценкой функции f .
Вариационна) ни<н)) оценка )вл)етс) ни<ней оценкой, и при этом в л6бой точке x
мо<ем так подобрат@ параметр ξ так, что оценка становитс) точной. Простейшим примером
вариационной ни<ней оценки слу<ит касател@на) к выпуклой функции.
Если g(z, ξ) — вариационна) ни<н)) оценка дл) f (x), то мы мо<ем решит@ Aадачу
максимиAации функции f (x) по x с помощ@6 следу6щей итеративной процедуры:
@
Axn = arg max g(x, ξn−1 ),
x
(72)
Bξn = arg max g(xn , ξ)
ξ
Мо<но покаAат@, что така) итеративна) процедура сходитс) в стационарну6 точку функ-
ции f (x). Така) Aамена оптимиAируемой функции мо<ет быт@ удобна, если максимум ис-
ходной функции f (x) искат@ т)<ело, а максимиAироват@ вариационну6 ни<н66 оценку
g(x, ξ) — просто. Мы еще не раA встретимс) с подобными случа)ми в последу6щих лекци)х.
ВоAвраща)с@ к нашей Aадаче, функционал (71) мо<но рассмотрет@ как
n n 1 β 2
log p (T | X, A, β) =
log β − log 2π + log det A − .T − XwM P . −
2 2 2 2
1 T 1
− wM P AwM P − log det Σ−1 ≥ (73)
2 2
n n 1 β 2
≥ log β − log 2π + log det A − .T − Xw. −
2 2 2 2
1 1
− wT Aw − log det Σ−1 (74)
2 2
Оценка (73) верна, поскол@ку Q(wM P ) ≥ Q(w) т.к. wM P — точка максимума Q(w).
Полученна) оценка )вл)етс) вариационной ни<ней оценкой, потому что дл) л6бых A и β
существует w = wM P , при котором достигаетс) равенство.
Тепер@ Aадача оптимиAации выгл)дит как
n β 2 1 1 1
log β − .T − Xw. + log det A − wT Aw − log det Σ−1 → max (75)
2 2 2 2 2 A,β,w
28
Uаметим, что в данном выра<ении Σjj Aависит от A, β. Поскол@ку мы оптимиAируем
итеративным методом, дл) вычислени) αj на следу6щей итерации мы мо<ем воспол@-
Aоват@с) Aначени)ми A, β с предыдущей итерации. Эта хитрост@ не что иное как метод
простой итерации и он не нарушит сходимост@ процесса. Однако на практике, если мы
будем пересчитыват@ A по формуле (77), то сходит@с) процесс будет довол@но медленно.
Почему?
1 − αjnew wjM
2 old
P − αj Σjj = 0, (79)
29
откуда получаем
1 − αjold Σjj
αjnew = 2 . (80)
wjM P
30
5 Лекци/ 5. Метод релевантных векторов дл/ ?адачи
классификации
В предыдущей лекции мы рассмотрели веро)тностну6 модел@ линейной регрессии, Aа-
дав функции правдоподоби) и априорное распределение на параметры модели. Дл) ка<-
дого обXекта обуча6щей выборки xn мы определили правдоподбие плотност@6 нормал@-
ного распределени), где среднее соответствует стандартной модели линейной регрессии:
xTn w, xn , w ∈ Rd . Априорное распределение дл) вектора параметров w выбрали сопр)-
<енным к правдоподоби6: нормал@ное распределение c нулевым средним и матрицей ко-
вариации A−1 . Cопр)<ение ме<ду функцией правдоподоби) и априорным распределени-
ем, оAначает, что апостериорное распределение ле<ит в том <е классе, что и априорное,
но с другими параметрами. Такой выбор поAволил нам вычислит@ обоснованност@ модели
(Aнаменател@ в формуле Байеса) и оптимиAироват@ её по матрице ковариации A−1 . Специ-
ал@ный выбор пространства оптимиAации: A = diag(α1 , . . . , αd ) приводит к раAр)<енному
решени6 в пространстве параметров w, где приAнаки выбира6тс) "автоматически". Мо<но
ли получит@ аналогичный метод, но дл) Aадачи классификации?
В этой лекции мы предло<им конструктивный алгоритм в качестве ответа на этот во-
прос. Мы переформулируем классическу6 модел@ логистической регрессии как веро)т-
ностну6. Дл) того чтобы выбират@ приAнаки «автоматически», мы испол@Aуем такое <е
априорное распределение, как и дл) Aадачи регрессии, но отличну6 функци6 правдоподо-
би). Она ока<етс) несопр)<енной с априорным распределением: полноценный «байес дл)
богатых» невоAмо<ен. В частности, аналитическое выра<ение дл) обоснованности выве-
сти не выйдет. Мы рассмотрим раAличные способы оценки обоснованности и предло<им
алгоритм её оптимиAации по параметрам априорного распределени) A = diag(α1 , . . . , αd ).
Пока<ем, что дл) такой модели решение Aадачи wM P «байеса дл) бедных» соответству-
ет решени6 Aадачи оптимиAации классической логистической регрессии с l2 -регул)риAацией:
wM P = arg max p(w | X, T ) = arg max log p(w | X, T ) = arg max log[p(T | w, X)p(w)]. (86)
w w w
31
Продол<а) (86):
где
C E
1 x21 ... xd1
J1 x22 ... xd2 K
J K
X = J .. .. .. .. K — матрица приAнаков (92)
D. . . . F
x2N . . . xdN
1
/ 0 1
R(w) = diag s1 (1 − s1 ), . . . , sN (1 − sN ) , sn = (93)
1 + exp(−tn wT xn )
C EC E
t1 0 1 − s1
J .. K J .. K
z(w) = Xw + R−1 (w) D . FD . F. (94)
0 tN 1 − sN
Л6бопытный читател@ мо<ет так<е проверит@, что IRLS )вл)етс) ни чем иным, как
самым обыкновенным методом Н@6тона. Как правило, IRLS метод сходитс) Aа достаточ-
но малое количество шагов дл) л6бого начал@ного прибли<ени) w(0) . Cтоит учитыват@,
что в данном методе приходитс) обращат@ матрицу d × d, поэтому дл) Aадач с бол@шим
числом приAнаков d, стоит рассмотрет@ метод оптимиAации первого пор)дка, например,
градиентный спуск.
/ 0
Pамечание 1. Матрица: − X T R(wk )X + αI — гессиан оптими3ируемой функции:
/ 0
∇2 [log p(T | X, w) + log p(w)] = − X T R(w)X + αI . (95)
32
Uабега) вперёд, ска<ем, что в данной лекции будет продемонстрирован конструктивный
алгоритм оптимиAации αi . Но пре<де давайте рассмотрим, что будет происходит@, если
некоторое αi → +∞. Так как i-ый вес wi ∼ N (0, αi−1 ), получаем
d
wi −
→ 0. (96)
Дл) решени) такой Aадачи оптимиAации ну<но умет@ вычисл)т@ интеграл в (99), ко-
торый, увы, не беретс) аналитически. Однако мы мо<ем его оценит@ дл) ка<дого фик-
сированного Aначени) параметра A! Один иA способов приблиAит@ Aначение интеграла —
это Aаменит@ его подытгерал@ну6 функци6 на удобну6 оценку. По этой причине введём
обоAначение:
Q(w) := p(T | X, w)p(w | A). (100)
33
Дл) того чтобы предло<ит@ оценку дл) Q(w), подумаем, что мы вообще мо<ем скаAат@
об этой функции. Давайте воA@мём от неё логарифм:
N
$ d
$
/ / T
00
log Q(w) = − log 1 + exp −tn w xn − αj wj2 . (101)
n=1 j=1
&d
Данна) функци) — строго вогнута) (вед@ логарифм сигмоиды строго вогнутый, а j=1 αj wj2 —
это парабола). Uначит, максимум у данной функции единственный, а при бол@ших по нор-
ме w функци) log Q(w) будет стремит@с) к минус бесконечности. Поэтому, вA)в от такой
функции exp(·) мы получим колокообраAну6 функци6, котора) выгл)дит примерно так:
Q(w)
Данный колокол@чик у< очен@ напоминает гауссиану, а гауссианы мы успешно умеем инте-
грироват@. Мы воспол@Aуемс) данным фактом и попробуем приблиAит@ Q(w) гауссовским
колокол@чиком. Метод прибли<ени) колокообраAных функций гауссианами носит наAвание
метода Лапласа. Схематично, мы хотим получит@ таку6 картину:
Q(w)
где красный колол@чик — это"гауссиана. Ещё раA подчеркнём, что главной нашей Aадачей
)вл)етс) подсчёт интеграла Q(w) dw. Основной вклад в Aначение интеграла внос)т об-
ласти носител) с наибол@шими Aначени)ми подынтеграл@ной функции (в нашем случае
Q(w)). По этой причине найдём прибли<ение унимодал@ной log Q(w) с помощ@6 первых
трёх слагаемых в раAло<ении в р)д Тейлора в точке wM P — точке максимума log Q(w):
Итак, что мы тут мо<ем упростит@? Во-первых, ∇ log Q(wM P ) = 0, так как wM P точка
экстремума. Во-вторых, ∇2 log Q(wM P ) мо<но посчитат@ )вно:
где X, R(w) определены выше (92), (93). Вывод формулы (103) предоставл)етс) чита-
тел6 в качестве упра<нени).
34
ОбоAначив Σ := (X T R(wM P )X + A)−1 , поло<ител@но определенну6 иA сообра<ений
выпуклости, подстановкой получаем прибли<енное Aначение обоснованности модели:
# # ) *
1 √
Q(w)dw ≈ Q(wM P ) exp − (w − wM P )T Σ−1 (w − wM P ) dw = Q(wM P )(2π)d/2 det Σ.
2
(104)
ИA полученного выра<ени) видно, что мы считаем модел@ тем более обоснованной,
чем, во-первых, шире наш (гауссовский) колокол@чик (Aа так наAываему6 ширину отвечает
det Σ) и, во-вторых, чем бол@ше Aначение в точке Maximum Posterior, т.е. Q(wM P ). Отметим
так<е, что чем шире наш колол@чик, тем устойчивее будет модел@, вед@ Q(w) будет в таком
случае слабо иAмен)т@с) в окрестности Aначений параметра wM P .
Распишем чут@ подробнее (104) как функиц6 от A:
log p(T | X, A) ≈
d / 0 1 / 0
≈ log(2π) + log p(T | X, wM P ) + log N wM P | 0, A−1 − log det X T R(wM P )X + A .
2 2
(105)
Полученну6 функци6 у<е мо<но оптимиAироват@ по A. Эффективный подход к этой
Aадаче оптимиAации рассмотрен в следу6щем раAделе.
N
$
A
/ / A T
00 1 A T A
F (A, wM P) =− log 1 + exp tn (wM P ) xn − (wM P ) AwM P + (110)
n=1
2
1 1 / 0
log det A − log det X T R(wM A
P )X + A + const . (111)
2 2
35
ВоA@мём логарифмическу6 проиAводну6 F (A, wM
A
P ), счита) wM P = const. Рассмотрим
A
∂F (A, wMA
P) α j 3/ A 0 42 1 α j 3/ T A
0−1 4
0= =− wM P j + − X R(wM P )X + A . (115)
∂ log αj 2 2 2 jj
36
Рис. 6: ВоAмо<ный вид вариационной ни<ней оценки при раAличных Aначени)х вариаци-
онного параметра
# # !
N
1 / 0
p(T | X, A) = p(T | X, w)p(w | A) dw = T
N w | 0, A−1 dw (117)
n=1
1 + exp(−tn w xn )
Итак, будем искат@ вариационну6 ни<н66 оценку дл) сигмоиды. Uаметим, что если
функци) выпукла), то ее вариационна) ни<н)) оценка ест@ все ее касател@ные20 . Логисти-
19 Sаметим, что мы строим вариационну6 ни<н66 оценку не к самому интегралу, а к подынтеграл)-
ному выра<ени6, поэтому %дес) мы не мо<ем гарантироват) сходимост) оптими%ации нашей оценки к
локал)ному максимуму исходного интеграла.
20 Действител)но, дл; выпуклой f (x) вариационна; ни<н;; оценка имеет вид:
37
ческа) функци) не )вл)етс) выпуклой, поэтому напр)му6 построит@ касател@ные к ней не
имеет смысла. Но мо<но преобраAоват@ её к выпуклой функции, построит@ касател@ные в
новых координатах, а Aатем найти их уравнение в исходных координатах.
Применим сери6 преобраAований:
d − log e− 2 + e 2
y
)√ *
y 1
= − tanh √ . (120)
dy 2 4 y
где мы убрали модули у второго и трет@его слагаемого под экспонентой, т.к. эти функции
четные, и воспол@Aовалис@ выра<ением 118.
Как мы говорили ранее, полученна) оценка21 , как функци) от x, )вл)етс) ненормиро-
ванной гауссианой (как экспонента от квадратичной по аргументу функции). Интеграл от
проиAведени) гауссиан беретс) аналитически и итоговое выра<ение мо<но промаксимиAи-
роват@ по параметрам матрицы ковариациии A. На практике чаще испол@Aуетс) вариант с
прибли<ением Лапласа. Однако, ал@тернативный подход интересен в качестве математи-
ческого упра<нени), которое помогает лучше пон)т@ общий принцип испол@Aовани) вари-
ационных оценок.
21 Эта вариационна; оценка именна;, получена Д<ааккола и Д<орданом (Tommi S. Jaakkola, Michael
Jordan) в 2000 году. Так <е %аметим, что касание сигмоиды и гауссианы происходит в двух точках, при
x = η и x = −η
38
6 Лекци/ 6. EM-алгоритм и модели со скрытыми пере-
менными
Это кл6чева) лекци) курса, в которой мы поймём как и Aачем ну<но строит@ модел@
со скрытыми (или латентными) переменными и какими методами мо<но такие модели
обучат@.22 В классическом курсе по машинному обучени) ЕМ-алгоритм обычно рассмат-
риваетс) на примере раAделени) смеси гауссиан. В этом курсе рассмотрим нескол@ко более
интересных примеров.
Итак, мы будем решат@ следу6щу6 Aадачу:
22 Как мы увидим далее, многие методы обучени; моделей со скрытыми переменными ;вл;6тс; вариа-
ци;ми ЕМ-алгоритма.
23 Да<е в пространствах высокой ра%мерности дл; вогнутых функций существу6т эффективные способы
39
Она наиболее правдоподобно описывает набл6даемые данные в семействе нормал@ных
распределений. Однако, с точки Aрени) Aдравого смысла, модел@ не очен@ хороша). Данные
)вно пришли не иA гауссианы.
С другой стороны мо<ем предполо<ит@, что данные приход)т иA нескол@ких гауссиан:
К со<алени6, у нас нет информации о цветах, т.е. мы не Aнаем, какой обXект иA какой
гауссианы пришёл. Однако, если бы у нас была така) информаци), то Aадача восстанов-
лени) плотности распределени) сраAу стала бы гораAдо проще, потому что свелас@ бы к
решени6 Uадачи 1 дл) нескол@ких плотностей иA экспоненциал@ного класса.
На этом и строитс) идеологи) моделей с латентными переменными: мы говорим, что
наши данные пришли иA довол@но сло<ного распределени), и име6т сло<ну6 природу; но
если бы мы Aнали что-нибуд@ ещё, какие-то дополнител@ные переменные, то наше распре-
деление стало бы гораAдо более простым.
Мо<но покаAат@, что дл) л6бого распределени) не иA экспоненциал@ного класса мо<но
ввести дополнител@ные (латентные) переменные так что совместное распределение на
исходные и латентные переменные будет ле<ат@ в экспоненциал@ном классе. Итак, вместо
того чтобы решат@ Aадачу 1 мы будем решат@ следу6щу6 Aадачу:
Pамечание. Помимо того что мы решим исходну6 Aадачу, мы так<е получим информа-
ци6 о воAмо<ных Aначени)х латентных переменных. На практике существует много Aадач,
в которых информаци) о Z гораAдо ва<нее информации о θ. В дал@нейшем мы рассмотрим
нескол@ко таких примеров.
40
Uаписываем цепочку то<деств:24
#
log p(X | θ) = q(Z) log p(X | θ)dZ =
#
p(X, Z | θ)
= q(Z) log dZ =
p(Z | X, θ)
# N O (125)
p(X, Z | θ) q(Z)
= q(z) log dZ =
p(Z | X, θ) q(Z)
# #
p(X, Z | θ) q(Z)
= q(Z) log dZ + q(Z) log dZ.
q(Z) p(Z | X, θ)
Uдес@ q(Z) — проиAвол@ноое распределение в пространстве латентных переменных. Рас-
смотрим повнимател@нее получившиес) слагаемые. Дл) этого вспомним определение и
некоторые свойства дивергенции Кул@бака-Лейблера.
Определение 6. Дивергенци1 Кул2бака—Лейблера ме<ду двум) распределени)ми p и q
определ)етс) следу6щим обраAом:
#
p(x)
KL(p(x) . q(x)) = p(x) log dx.
q(x)
Свойство (KL-дивергенции). KL(p . q) ≥ 0, причём KL(p . q) = 0 если и тол@ко если эти
распределени) почти вс6ду (веAде кроме мно<ества меры нол@) совпада6т.
Упра4нение. Дока<ите это свойство при помощи неравенства Йенсена.
Pамечание. У KL-дивергенции ест@ теоретико-информационный смысл. Если мы работа-
ем с дискретными случайными величинами, KL-дивергенци) покаAывает, на скол@ко допол-
нител@ных бит длиннее будет сообщение при не оптимал@ном кодировании: если символы
приход)т иA распределени) p, а кодируем мы их как будто они приход)т иA распределени) q.
Вернемс) к (125). Uаметим, что первое слагаемое не )вл)етс) KL-дивергенцией, по-
скол@ку у него под логарифмом стоит отношение совместного распределени) p(X, Z | θ) и
q(Z), а эти распределени) ле<ат в раAных пространствах. А вот второе слагаемое )вл)етс)
KL-дивергенцией распределений q(Z) и p(Z | X, θ). Тогда, вследствие неотрицател@ности
KL-дивергенции мо<ем Aаписат@ следу6щее неравенство:
#
p(X, Z | θ)
log p(X | θ) ≥ q(Z) log dZ (126)
q(Z)
Иде) EM-алгоритма Aакл6чаетс) в том, чтобы вместо оптимиAации логарифма непол-
ного правдоподоби) оптимиAироват@ полученну6 ни<н66 оценку, но тепер@ у<е как по θ
так и по распределени6 q.
Определение 7. Права) част@ выра<ени) 126 наAываетс) ни:ней границей на обосно-
ванност2 (ELBO, evidence lower bound) и обоAначаетс) L(q, θ).
Вопрос. ^вл)етс) ли ни<н)) граница на обоснованност@ вариационной ни:ней оценкой.
Почему?
Ответ. Напомним, что вариационна) ни<н)) оценка требует выполнени) двух свойств:
• она всегда не превосходит выра<ени) которое она оценивает (этому как раA удовле-
твор)ет (126));
• дл) л6бого аргумента исходной функции (θ) найдутс) такие Aначени) вариационных
(q), дл) которых неравенство превращаетс) в равенство. В самом деле, если вA)т@
q(Z) = p(Z | X, θ), тогда их KL-дивергенци) обратитс) в нол@, а неравенство — в
равенство.
24 Поскол)ку log p(X | θ) от Z не %ависит, то первый переход ;вл;етс; домно<ением на единицу:
!
q(Z)dZ = 1. Во втором переходе испол)%уетс; правило дл; условной веро;тности. Третий переход —
оп;т) <е умно<ение на единицу. Наконец в последнем переходе мы сгруппировали числители и %намена-
тели под логарифмом «накрест» и ра%били логарифм прои%ведени; на сумму двух логарифмов.
41
Благодар) этому свойству мы мо<ем перейти от оптимиAации неполного правдоподо-
би) к оптимиAации ни<ней оценки на обоснованност@. Будем решат@ полученну6 Aадачу
итерационно:
Ответ. Получим «байесовский вывод дл) бедных», т.е. точечну6 оценку на параметры θ,
максимиAиру6щу6 апостериорное распределение p(Z | X, θ):
#
δ(Z − Z0 )
δ(Z − Z0 ) log dZ → min,
p(Z | X, θ) Z0
что эквивалентно #
C− δ(Z − Z0 ) log p(Z | X, θ)dZ → min,
Z0
или <е
log p(Z0 | X, θ) → max .
Z0
при;тных свойств. В частности, вариационна; ни<н;; оценка будет монотонно расти, а потому алгоритм
будет гарантированно сходит)с;. Но, вообще говор;, необ;%ател)но к точке локал)ного максимума непол-
ного правдоподоби;
42
Pамечание. В дал@нейших лекци)х будет рассмотрен «проме<уточный» случай когда
аналитический байесовский вывод невоAмо<ен, но семейство Q более широкое чем семей-
ство дел@та-функций. ОкаAываетс), что в некоторых случа)х такие Aадачи мо<но эффек-
тивно решат@. Эти идеи ле<ат в основе современных нейробайесовских методов, когда эта
парадигма примен)етс) к нейронным сет)м.
Вопрос. Что мо<но скаAат@ про M-шаг? На первый вAгл)д, максимиAируетс) какое-то
мато<идание, какой-то интеграл, который мо<ет да<е не вA)т@с). Что делат@?
Ответ. Напомним, что log p(X, Z | θ) вогнута) по θ функци) (мы так вводили скрытые
переменные Z). Однако мы оптимиAируем не её саму а её мато<идание. К счаст@6, ма-
то<идание вогнутой функции — функци) так<е вогнута).26 Таким обраAом, да<е если
аналитическа) оптимиAаци) такого выра<ени) невоAмо<на, то численна) всегда воAмо<-
на и эффективна, да<е в пространствах высокой раAмерности.
Итак, реA6миру), Е-шаг иногда мо<но выполнит@ аналитически или хот) бы сделат@
«байеса дл) бедных», а на М-шаге у нас Aадача оптимиAации вогнутой функции. Так вы-
гл)дит классический EM-алгоритм (формулы 140 141). Существу6т раAные эксперимен-
тал@ные постановки при которых эти процессы необходимо модифицироват@. Например,
ест@ стохастический EM-алгоритм, ME-алгоритм, вариационный EM-алгоритм и мно<е-
ство других модификаций. Все они так или иначе опира6тс) на эту баAову6 схему, немного
её модифициру).
Вопрос. Что выступает в роли латентных переменных дл) Aадачи раAделени) смеси гаус-
сиан?
Если вспомнит@, то алгоритм раAделени) смеси гауссиан представл)ет собой как раA-
таки (127) и (128): на E-шаге мы дл) ка<дого обXекта рассчитываем веро)тност@ того что
он пришёл иA ка<дой иA гауссиан, а на M-шаге, хот) нигде )вно и не Aаписываем интеграл,
но пол@Aуемс) вAвешенными оценками максимал@ного правдоподоби). Которые как раA и
)вл)6тс) аргмаксимумами (128)
43
Напомним, что метод главных компонент решает Aадачу умен@шени) раAмерности при-
Aнакового пространства. Итак, пуст@ мы набл6даем данные x ∈ RD и хотим найти линейное
подпространство Aаданной раAмерности d в котором содер<итс) наибол@ша) част@ диспер-
сии набл6даемых данных. Uадача решаетс) в )вном виде: строим ковариационну6 матрицу
раAмера D × D по нашим обXектам X, приводим её к главным ос)м и проецируем её на d
собственных векторов, отвеча6щих наибол@шим собственным Aначени)м.
ОкаAываетс), то <е самое мо<но сделат@ на веро)тностном )Aыке. Вводим модел@ с
латентными переменными:
• Е-шаг:
q(Z) = p(Z | X, θ) =
p(X | Z, θ)p(Z)
=" =
p(X | Z, θ)p(Z)dZ
%n
p(xi | zi , θ)p(zi )
= " %ni=1 =
i=1 p(xi | zi , θ)p(zi )dzi (132)
!n
p(xi | zi , θ)p(zi )
= " =
i=1
p(x i | zi , θ)p(zi )dzi
n
!
= p(zi | xi , θ).
i=1
44
• M-шаг:
EZ log p(X, Z | θ) =
' n (
$
= EZ log p(xi | zi , θ) + log p(zi ) =
i=1
n
$ P Q
=C+ Ezi − D
2 log 2π − D log σ −
1
2σ 2 (xi − µ − W zi )T (xi − µ − W zi ) =
i=1
n
$ / / 00
=C+ −D
2 log σ − 2σ 2 Ezi
1
(xi − µ)T (xi − µ) − 2(xi − µ)T W zi + ziT W T W zi =
i=1
$n - - 3 4..
=C+ −D
2 log σ −
1
2σ 2 (xi − µ)T (xi − µ) − 2(xi − µ)T W Ezi + tr W T W E[zi ziT ] .
i=1
(133)
Осталос@ пон)т@ что происходит с мато<идани)ми. На самом деле Ezi мы у<е выпи-
сывали на E-шаге, а дл) x ∼ N (X | µ, Σ) имеет место ExxT = Σ + µµT , что )вл)етс)
матричным (многомерным) обобщением того факта, что мато<идание квадрата ест@
дисперси) пл6с квадрат мато<идани).
Ответ. В общем случае — ничего, он не умеет работат@ с такими данными. Если пропусков
мало, или они относ)тс) к малому числу приAнаков или к малому числу обXектов, то мо<но
Aаполн)т@ средними Aначени)ми или просто выбрасыват@ обXекты или приAнаки в которых
ест@ пропуски, но в общем случае это не работает.
45
С точки Aрени) EM-алгоритма, однако, мо<но считат@ пропущенные Aначени) дополни-
тел@ными латентными переменными. Это в каком-то смысле стирает гран@ ме<ду X и Z:
част@ исходных приAнаков мо<ет быт@ неиAвестна, а част@ реAул@тиру6щих приAнаков мо-
<ет быт@ иAвестна, или по крайней мере мы мо<ем располагат@ какой-то дополнител@ной
информацией о них.
X Z X Z
1 2 3 ? ? ? 3 0
1 3 2 ? 1 3 2 ?
2 1 3 ? 2 ? ? 1
2 3 1 ? 2 3 1 ?
3 1 2 ? ? 1 ? 2
3 2 1 ? 3 2 1 ?
Пример. Предполо<им, что нас интересу6т всё те <е векторные представлени) слов, но
на сей раA мы )вно требуем, чтобы перва) компонента отобра<ала эмоционал@ну6 окрас-
ку слова. Тогда у слов «дурак», «сволоч@», «негод)й» перва) компонента дол<на быт@
отрицател@ной, а у слов «умница», «хорошист», «молодец» — поло<ител@ной. Мо<но Aа-
ло<ит@ таку6 информаци6 в модел@, после чего остал@ные слова непременно раст)нутс)
по эмоционал@ной шкале.
6.3.3 Расширени&
1. Смес@ методов главных компонент.
Така) модел@ говорит, что данные ле<ат в одном и3 нескол2ких линейных подпро-
странств ниAкой раAмерности:
Рис. 8: Данные дл) баAового PCA. Рис. 9: Данные дл) смеси PCA.
46
2. Нелинейные методы.
47
7 Лекци/ 7. Вариационный Байесовский вывод
7.1 EM-алгоритм
7.1.1 Классический ЕМ-алгоритм
Дл) начала вспомним классический ЕМ-алгоритм, который мы рассматривали на про-
шлой лекции. Пуст@ дана модел@ с набл6даемыми переменными X и латентными перемен-
ными Z, параметриAованна) вектором θ:
M-step
θn+1 = arg max L(qn , θ) = arg max Eqn (Z) log p(X, Z | θ) (141)
θ θ
В последнем равенстве мы воспол@Aовалис@ определением вариационной ни<ней оцен-
ки:
# # #
p(X, Z | θ)
L(q, θ) = q(Z) log dZ = q(Z) log p(X, Z | θ)dZ − q(Z) log q(Z)dZ. (142)
q(Z)
48
Второе слагаемое мо<но отбросит@, потому что энтропи) q не Aависит от θ.
Преимущества такой процедуры:
1. На E-шаге мо<ем выполнит@ пересчёт в )вном виде (если умеем считат@ апостериор-
ное распределение на Z).
2. На M-шаге воAникает Aадача оптимиAации Eqn (Z) log p(X, Z | θ) — вогнутой функ-
ции по θ, так как log p(X, Z | θ) вогнута, а мато<идание, как выпукла) комбинаци)
выпуклых функций, то<е )вл)етс) вогнутой функцией от θ
log p(X | θ) + log p(θ) = L(q, θ) + KL(q(Z) . p(Z | X, θ)) + log p(θ). (145)
qn (Z) = arg max L(q, θn ) = arg min KL(q(Z) . p(Z | X, θn )). (147)
q q
49
Рис. 10: Пример аппроксимации распределени) в семействе дел@та-функций.
50
Апостериорное распределение Aдес@ нигде не фигурирует, и мы мо<ем посчитат@ все со-
ставл)6щие интеграла. Будем решат@ Aадачу блочно-координатно: Aафиксируем все груп-
пы латентных переменных zi , кроме одной — zj , дл) которой в )вном виде получим урав-
нени) дл) обновлени).
Подставим в праву6 част@ (151) факториAаци6 (150):
# !
l l # !l # ! l l
p(X, Z) ! P$ Q
qi (zi ) log %l dzi = qi (zi ) log p(X, Z)dZ− qi (zi ) log qk (zk ) dZ =
i=1 i=1 qi (zi ) i=1 i=1 i=1 k=1
(152)
Во втором слагаемом вынесем сумму по k Aа Aнак интеграла (мато<идание суммы равно
сумме мато<иданий). Получили сумму мато<иданий, в которой дл) ка<дого мато<идани)
подынтеграл@на) функци) Aависит тол@ко от одной zk , то ест@ по всем i ∕= k мы получим
интеграл по плотности, т.е. 1:
# ! l $l #
= qi (zi ) log p(X, Z)dZ − qk (zk ) log qk (zk )dzk = (153)
i=1 k=1
p̂(zj ) p̂(zj )
p(zj ) = " ≡ ; p̂(zj ) = A · p(zj ) (157)
p̂(zj )dzj A
После перенормировки (A — нормировочна) константа) p(zj ) мо<но рассматриват@ как
плотност@ веро)тности. Подставим её в (154) и обXединим интегралы, при этом составл)-
6ща) интеграла с константой A будет вынесена в нову6 константу:
# # #
p(X, Z)
q(Z) log dZ = . . . = qj (zj ) log(Ap(zj ))dzj − qj (zj ) log qj (zj )dzj + Const
q(Z)
#
p(zj )
= qj (zj ) log dzj + Const′ . (158)
qj (zj )
Напомним, что в соответствии с (151) мы хотим максимиAироват@ это выра<ение по
qj . Uаметим, что если помен)т@ числител@ и Aнаменател@ под логарифмом местами, то
получим KL-дивергенци6:
#
p(X, Z)
q(Z) log dZ = . . . = −KL(qj (zj ) . p(zj )) + Const′ . (159)
q(Z)
Наша Aадача максимиAаци) по qj эквивалентна минимиAации KL(qj (zj ) . p(zj )). Реше-
ние — поло<ит@ qj (zj ) = p(zj ). Подставим выра<ение дл) p(zj ) (155) с учётом нормировки
и получим финал@ное выра<ение дл) обновлени) qj (zj ):
/ 0
exp Eq(Z∕=j ) log p(X, Z)
qj (zj ) = " / 0 (160)
exp Eq(Z∕=j ) log p(X, Z) dzj
51
Обычно эту формулу п