Академический Документы
Профессиональный Документы
Культура Документы
Бишоп М Распознавание Образов и Машинное Обучение 2020
Бишоп М Распознавание Образов и Машинное Обучение 2020
и машинное обучение
Christopher M.Bishop
PATTERN RECOGNITION
and MACHINE LEARNING
~ Springer
Кристофер М. Бишоп
РАСПОЗНАВАНИЕ ОБРАЗОВ
и МАШИННОЕ ОБУЧЕНИЕ
Москва· Санкт-Петербург
2020
ББК 22.176
Б67
УДК 004.93(076.5)
ООО "Диалектика"
Зав. редакцией С.Н. Тригуб
Перевод с английского и редакция докт. физ.-мат. наукД.А. Клюшина
Бишоп, Кристофер М.
Б67 Распознавание образов и мапшнное обучение. : Пер. с англ. - СПб. : ООО "Диа-
лектика", 2020. - 960 с.: ил. - Парал. тит. англ.
Никакая часть настоящего издания ни в каких целях не может быть воспроизведена в какой бы то ни
было форме и какими бы то ни было средствами, будь то электронные или механические, включая фото
копирование и запись на магнитный носитель, если на это нет письменного разрешения издательства
Springer-Verlag.
Copyright © 2019 Ьу Dialektika Computer PuЫishing Ltd.
Authorized Russian translation of the English edition of Pattern Recognition and Machine Learning
(ISBN 978-0387-31073-2), puЬ!ished Ьу Springer-Verlag © 2006 Springer Science+Business Media, LLC.
Тhis translation is puЫished and sold Ьу peпnission ofSpringer-Verlag, which owns or contro\s all rights to
puЬ!ish and sell the same.
А\\ rights reserved. No part of this book may Ье reproduced in any form Ьу any electronic or mechanical
means (including photocopying, recording, or information storage and retrieval) without permission in writing
from the puЫisher.
Научно-популярное издание
Кристофер М. Бишоп
ООО "Диалектика", 195027, Санкт-Петербург, Магнитогорская ул" д. 30, лит. А, пом. 848
Предисловие 15
Математические обозначения 17
Глава 1. Введение 23
Глава 2. Распределения вероятностей 109
Глава 3. Модели линейной регрессии 199
Глава 4. Линейные модели классификации 251
Глава 5. Нейронные сети 309
Глава 6. Ядерные методы 395
Глава 7. Разреженные ядерные методы 435
Глава 8. Графовые модели 479
Глава 9. Смеси распределений и ЕМ-алгоритм 563
Глава 10. Приближенный вывод 609
Глава 11. Выборочные методы 687
Глава 12. Непрерывные латентные переменные 735
Глава 13. Последовательные данные 795
Глава 14. Комбинирование моделей 857
Приложение А. Наборы данных 887
Приложение Б. Плотности распределений 895
Приложение В. Свойства матриц 907
Приложение Г. Вариационное исчисление 917
Приложение Д. Множители Лагранжа 921
Библиография 927
Предметный указатель 953
Содержание
!'l_редисnовие 15
Упражнения 16
Благодарности 16
Математические обозначения 17
Глава 1. Введение 23
----
Распознавание образов берет свое начало в технике, тогда как машинное обу
чение выросло из компьютерных наук. Однако эти виды деятельности можно
рассматривать как две грани одной и той же области, и вместе они за последние
десять лет достигли значительных успехов. В частности, байесовские методы
вышли за пределы специализированной ниши и стали мейнстримом, а графовые
модели стали основой для описания и применения вероятностных моделей.
Упражнения
детали, имеют решения, доступные в виде файла PDF с веб-сайта книги. Такие
упражнения обозначаются символами www. Решения остальных упражнений
Благодарности
От издательства
ваше мнение и хотим знать, что было сделано нами правильно, что можно было
сделать лучше и что еще вы хотели бы увидеть изданным нами. Нам интересно
услышать и любые другие замечания, которые вам хотелось бы высказать в наш
адрес.
E-mail: info.dialektika@gmail.com
WWW: http://www.dialektika.com
http://go.dialektika.com/recognition
1
броска кубиков и производить сильный ход в качестве выхода. Это было до
стигнуто благодаря тому, что сеть сыграла миллион игр против своей копии.
Главная проблема заключается в том, что игра в нарды может длиться десятки
ходов и только в конце игры достигается вознаграждение в виде победы. Затем
вознаграждение должно быть приписано надлежащим образом ко всем ходам,
которые привели к нему, хотя некоторые ходы были хорошими, а другие - нет.
о о
о
о
о
о о
о
о
о
о
-1
о х
Наша цель состоит в том, чтобы использовать это обучающее множество для
предсказания значения i целевой переменной при некотором новом значении х
входной переменной. Как мы увидим позже, это подразумевает неявное стрем
ление обнаружить основную функцию sin(2trx). Это, по сути, сложная задача,
так как мы должны сделать обобщение на основе конечного набора данных.
Кроме того, наблюдаемые данные искажены шумом, поэтому для заданного х
существует неопределенность относительно соответствующего значения i. Тео
рия вероятностей, обсуждаемая в разделе 1.2, обеспечивает основу для точной
квадратов разностей между предсказаниями у (х"' w) для каждой точки данных х" и
соответствующими целевыми значениями t"' так что мы минимизируем функцию
1N 2
E(w)=-I{y(xп,w)-tп} , (1.2)
2 n=l
если и только если функция у(х, w) проходит точно через каждую точку обуча
ющего множества. Геометрическая интерпретация суммы квадратов ошибок по
казана на рис. 1.3.
/
о
_..-./ у(х., w)
/-----.
х. х
о о М= О о о М= 1
о
о о
v ...,
о о
о
о о
о о
-1 -1
о о х
х
о
-] -1
о о х
х
бора М мы можем затем вычислить невязку E(w°), заданную формулой (1.2) для
обучающих данных, и также можем вычислить E(w·) для набора тестовых дан
ных. Иногда удобнее использовать среднеквадратическую ошибку (root-mean-
square - RМS), определяемую формулой
(1.3)
--&- Обучение
--&- Тест
J 0,5
о 3 6 9
м
W1
• -1,27 7,99 232,37
• -25,43 -5321,83
W2
• 17,37 48568,31
W3
• -231639,30
W4
• 640042,26
W5
• -1061800,18
w6
W7
• 1042400,18
•
.
Wg
~
-557682,99
125201,43
о
N= 15
о о
о
о
-1 -1
о о
о о х
х
график) и N = 100 точек данных (правый график) . Как видим, увеличение размера
его включения результаты зависят от выбора начала координат для целевой пе
ременной (Hastie et а/., 2001). Иногда его все же включают, но с собственным
коэффициентом регуляризации (более подробно эта тема обсуждается в разде
ле 5.5.1). Как и выше, функцию ошибок в (1.4) можно свести к точному мини
lnЛ = - 18 о о lnЛ =О
о
о
о
о о о
о о
о о
о
о о
-1 -1
о о
х х
.
Wo
ln А.=-«>
0,35
lnA.=-18
0,35
ln
0,13
А.= О
-- Обучение
-- Тест
~ 0,5
~
Представьте, что у нас есть два ящика: красный и синий, при этом в красном
ящике лежат 2 яблока и 6 апельсинов, а в синем - 3 яблока и 1 апельсин
(рис. 1.9). Теперь предположим, что мы случайным образом выбираем один из
ящиков, извлекаем из него случайным образом один фрукт, смотрим, какой
именно фрукт мы извлекли, и возвращаем его обратно в ящик. Мы можем по
вторить этот процесс много раз. Предположим, что при этом мы выбираем крас
ный ящик в 40% случаев, а синий - в 60%, и когда мы извлекаем фрукт из ящи
ка, мы можем выбирать любой из фруктов.
В этом примере идентификатор ящика является случайной величиной, кото
рую будем обозначать буквой В. Эта случайная величина может принимать одно
из двух возможных значений, а именно: r (соответствующее красному ящику)
или Ь (соответствующее синему ящику). Идентичность фрукта тоже является
38 ГЛАВА 1. ВВЕДЕНИЕ
вероятности будем обозначать как р(В = r) = 4110 и р(В = Ь) = 6110. Заметим, что
00
ООО о
OGO ООО
щий в себя две случайные величины Х и У (которые могут быть, например, рас
смотрены выше как переменные Ящик и Фрукт). Предположим, что Х может
принимать любое из значений Х;, где i = 1, .. " М, а У может принимать значе-
1.2. Теория вероятностей 39
С;
,,_,,_,
пи
Рис. 1.10. Мы можем вывести правила сложения н умножения вероятностей с учетом двух
количество Jкземпляров этих переменных, которое равно N, будем обозначать как niJ
(1.5)
(1.6)
40 ГЛАВА 1. ВВЕДЕНИЕ
р (у = уj Х = Х; ) = пij .
1 (1.8)
С;
(1.9)
= р (У =у j Х = Х;) р ( Х = Х; ) .
1
_p(XIY)p(Y)
р уХ - р(Х) (1.12)
( 1 )
р(Х, У) р(У)
• • 1. •
У=2
• ••• ~· t • •
Y= l ...
•"' '- ~. •' •
• •• •
•
•
х
р(Х) p(XI У= 1)
--
- -
- -
п
х х
и аналогичным образом
p(F =а)= p(F =alB = r)p(B = r)+ p(F =alB =Ь)р(В =Ь) =
1 4 3 6 11 (1.22)
=-·-+-·-=-.
4 10 4 10 20
р (В = rl F = 0 ) = р ( F = ol В = r) р (В = r) = ~. _±_. 20 = ~. (1.23)
p(F=o) 4 10 9 3
p(YIX) =р(У), и поэтому условное распределение У при условии Хна самом деле не
зависит от значения Х Например, если в примере с фруктами в каждом ящике ле
жала бы одинаковая доля яблок и апельсинов, то p(FIB) =p(F), так что вероятность
выбора, скажем, яблока не зависела бы от того, какой ящик бьm выбран.
J
р(хЕ(а,Ь))= p(x)dx. (1.24)
а
1.2. Теория вероятностей 45
ох х
f p(x)dx=1. (1.26)
Py(y)=px(x)l:I= (1.27)
= Рх (g(y))lg'(y)I·
46 ГЛАВА 1. ВВЕДЕНИЕ
ность вероятности р(х) = р(х 1 , •• " xv), так что вероятность попадания векторах в
бесконечно малый объем х, содержащий точку х, равна р(х)дх. Эта многомер
ная плотность вероятности должна удовлетворять условиям
f
р(х) = p(x,y)dy, (1.31)
р(х, у)= p(ylx)p(x). (1.32)
Формальное обоснование правил сложения и умножения вероятностей для
непрерывных случайных величин (Feller, 1966) требует использования отрасли
математики, называемой теорией меры, и выходит за рамки рассмотрения этой
книги. Однако их корректность можно обосновать неформально, разделив каж
дую действительную переменную на интервалы ширины Л и рассмотрев распре
деление дискретных вероятностей по этим интервалам. При переходе к пределу
при Л ~О суммы превращаются в интегралы, что дает желаемый результат.
1.2. Теория вероятностей 47
сти вероятности:
(1.35)
(1.36)
(1.39)
2 2
var[x] = Щх ] - Е[х] . (1.40)
рицей
т т т т
cov[x, у]= Ех,у [ {х -Е [ х]} {у - Е[у ]} ] = Ех,у [ху ] - Е[х]Щу ]. (1.42)
Все это может быть достигнуто благодаря элегантной и очень общей байесов
ской интерпретации вероятности.
Если мы хотим уважать здравый смысл, делая рациональные последовательные
выводы, то использование вероятности как меры неопределенности является не
Томас Байес
1701-1761
Томас Байес (Thomas Bayes) родился в Танбридж
Уэллсе (Tunbridge Wells) и был священнослужителем,
а также ученым-любителем и математиком. Он изучал
логику и теологию в Эдинбургском университете и
бьш избран членом Королевского общества в 1742 го
ду. В течение XVIII века возникли вопросы относи-
тельно вероятности в азартных играх и новой концепции страхования. Од
на особенно важная проблема касается так называемой обратной вероят
ности. Ее решение было предложено Томасом Байесом в его статье "Очер
ки к решению проблемы доктрины шансов", которая бьша опубликована в
1764 году, спустя три года после его смерти, в "Философских трудах Ко
ролевского общества". На самом деле Байес сформулировал свою теорию
только для случая равномерного априорного распределения вероятностей,
- p(Vlw)p(w)
р w1V - (1.43)
( )
p(V) ,
1.2. Теория вероятностей 51
(1.45)
(1.46)
1
Написано в 2006 г. - Примеч. ред.
54 ГЛАВА 1. ВВЕДЕНИЕ
N (xlµ,u2 )
µ х
(1.47)
00
Пьер-Симон Лаплас
1749-1827
Говорят, что ЛaIUiac был очень нескромным и называл се
бя лучшим в то время математиком Франции, и это
утверждение бьmо правдой. Помимо того, что он был вы
дающимся математиком, он также внес большой вклад в
астрономию, в том числе сформулировал гипотезу туман
ности, согласно которой Земля образовалась путем кон
денсации и охлаждения большого вращающегося диска
газа и пъmи. В 1812 году он опубликовал первое издание Анш~итической
теории вероятностей, в котором утверждал: "теория вероятностей - это не
что иное, как здравый смысл, сведенный к вычислению". Эга работа вюnоча
ла в себя обсуждение вычисления обратной вероятности (позднее названной
Пуанкаре теоремой Байеса), которую он использовал для решения задачи об
ожидаемой продолжительности жизни, а также вопросы юриспрудеющи, вы
числения IUiанетарных масс, триангуляции и оценки ошибок.
00
(1.52)
56 ГЛАВА 1. ВВЕДЕНИЕ
ным распределением, хотя его свойства будут подробно изучены в разделе 2.3.
р(х)
т
Предположим теперь, что у нас есть набор данных х = (х 1 , "., xN) , представ-
ляющий собой N наблюдений скалярной случайной величины х. Заметим, что
мы используем шрифт х, чтобы отличить это множество от одного наблюдения
векторной случайной величины (х 1 , "" хп/, которую обозначим как х. Мы будем
предполагать, что наблюдения независимо друг от друга извлекаются из гене
ральной совокупности, имеющей нормальное распределение, математическое
2 ~ б
ожидание µ, и дисперсия а которои неизвестны, и мы хотели ы определить эти
N
р(хJµ,ст 2 )= ПN(хпJµ,ст 2 ). (1.53)
n=I
2
Если рассматривать эту вероятность как функцию от µ и ст , то получим функ-
цию правдоподобия для нормального распределения, схематически показанную
на рис. 1.14.
Часто для определения параметров распределения вероятности на основе
наблюдаемого набора данных вычисляют значения параметров, которые макси
мизируют функцию правдоподобия. Это может показаться странным, потому
что из нашего предыдущего обсуждения теории вероятностей представляется
более естественным максимизировать вероятность параметров при заданных
данных, а не вероятность данных при заданных параметрах. На самом деле эти
два способа взаимосвязаны, как будет показано в контексте аппроксимации кри
вой (см. раздел 1.2.5).
Однако на данный момент мы определим значения для неизвестных парамет-
2
ров µ и ст нормального распределения, максимизируя функцию правдоподобия
(1.53). На практике удобнее максимизировать логарифмическую функцию прав
доподобия. Поскольку логарифм является монотонно возрастающей функцией
своего аргумента, максимизация логарифма функции эквивалентна максимиза
ции самой функции. Взятие логарифма не только упрощает последующие мате
матические преобразования, но также облегчает вычисления, потому что произ
ведение большого числа малых вероятностей может легко привести к потере
значимости при компьютерных вычислениях, и эта опасность устраняется путем
(1.54)
1 ~(
2 = NL,, )2 , (1.56)
О-мL хп -µМL
n=\
Е[.имr,] = µ, (1.57)
11"[ 0-МL
JrJ
2 J-N-1
-
N
0- 2
'
(1.58)
-2
О-
N 2
=--O-мL=--L,, Xn-µML
N ~( )1 · (1.59)
N-1 N-1 n=I
1.2. Теория вероятностей 59
а)
!\,
б)
в)
наборам данных, каждая из которых состоит из двух точек, показанных синим цветом,
проксимации кривой (см. раздел 1.1) с вероятностной точки зрения, тем самым
Хо х
N
p(tlx,w,fi)= ПN(t11 ly(x11 ,w),p- 1 ). (1.61)
n=I
дает
(1.63)
(1.65)
Р N 2 а т
-I{y(xп,w)-tп} +-w w. (1.67)
2 n=I 2
Таким образом, мы видим, что максимизация апостериорного распределения
эквивалентна минимизации регуляризованной суммы квадратов ошибок, встре
чавшейся ранее в форме (1.4), с параметром регуляризации, равным А,= а/р.
Хотя мы учли априорное распределение p(wl а), мы до сих пор все еще не по
лучили точечную оценку w, и поэтому это еще не совсем байесовский подход.
В полностью байесовском подходе мы должны последовательно применять пра
вила сложения и умножения вероятностей, что требует, как мы вскоре увидим,
интегрирования по всем значениям w. Именно такая маргинализация лежит в ос
нове байесовских методов распознавания образов.
В задаче аппроксимации кривой мы имеем обучающие данные х и t вместе
с новой тестовой точкой х, и наша цель - предсказать значение t. Следователь
нормального распределения:
Т N
т(х)=/ЗФ(х) SLФ(хп)tп, (1.70)
n=I
(1.71)
(1.72)
о
-1
о х
сложность модели влияет коэффициент регуляризации А., в то время как для бо
лее сложных моделей, таких как смеси распределений или нейронные сети, мо
жет существовать множество параметров, определяющих их сложность. Для
практического применения нам необходимо определить значения таких пара
метров, и главная цель при этом - достижение наилучших прогностических ха
рактеристик для новых данных. Кроме того, чтобы найти подходящие значения
параметров сложности в данной модели, мы можем рассмотреть ряд различных
видов моделей, пытаясь найти наилучшую для нашего конкретного приложения.
Мы уже видели, что в методе максимального правдоподобия точность на обу
чающем множестве не является хорошим показателем прогностической точности
на неизвестных данных из-за проблемы переобучения. Если данных много, то один
из возможных подходов состоит в том, чтобы просто использовать некоторые из
доступных данных для обучения целого ряда моделей или одной выбранной моде-
1.3. Выбор модели 65
попытка 1
попытка 2
попытка 3
После этого описанная процедура повторяется для всех возможных вариантов выбора S
групп, обозначенных здесь красным цветом, а показатели точности, полученные
стоит в том, что у нас может быть несколько параметров сложности одной модели
2
Используется также термин кроссвалидация. - Примеч. ред.
66 ГЛАВА 1. ВВЕДЕНИЕ
Inp(VlwМL)-м (1.73)
как это создает серьезные проблемы и почему является важным фактором, вли
яющим на разработку методов распознавания образов.
Чтобы проиллюстрировать проблему, рассмотрим искусственный набор дан
ных, представляющий собой измерения, взятые из трубопровода, содержащего
смесь нефти, воды и газа (Вishop and James, 1993). Эти три материала могут при
сутствовать в одной из трех различных геометрических конфигураций, известных
как однородные, кольцевые и ламинарные, причем фракции трех материалов так-
1.4. Проклятие размерности 67
классу. Однако поблизости есть множество зеленых точек, поэтому мы можем по
думать, что он может принадлежать зеленому классу. Кажется маловероятным,
что он принадлежит синему классу. Интуитивное предположение заключается в
том, что идентичность крестика должна сильнее определяться соседними точками
в которых крас ный цвет обоз нач ает однорощ1ый кла с с , зеле ный - кол ьце во й класс ,
0,25 0,75
точка. Как мы вскоре увидим, этот упрощенный подход имеет серьезные недостатки
Хз
D= 1 D =2 D=3
Рис. 1.21. Проклятие размерности: количество областей регулярной сетки
D D D D D D
y(x,w)=w0 + LW;X; +
i=l
IIw11 x x1 + LLLW/lkx x1xk.
i=I J=I
1
i=I }=1 k=I
1 (1.74)
(1.76)
График этой функции для различных значений D приведен на рис. 1.22. Мы видим,
что при больших D эта доля стремится к единице даже при малъ~х значениях &.
Таким образом, в пространствах большой размерности большая часть объема шара
сосредоточена в тонкой оболочке вблизи поверхности!
0,8
"'::;;
Q)
..а
1О
о
о;
i::;
о
i::t
0,2
для плотности p(r) как функции расстояния r от начала координат (см. упраж
нение 1.20). Таким образом, p(r)дr - это масса вероятности внутри тонкой обо
лочки толщиной дr, расположенной на расстоянии r от начала координат. На
рис. 1.23 это распределение построено для различных значений D, и мы видим,
что при больших D масса вероятности нормального распределения сосредоточе
на в тонкой оболочке.
1.4. Проклятие размерности 71
знавании образов.
Предположим, у нас есть входной вектор х вместе с соответствующим векто
ром t целевых переменных, и наша цель - предсказать t с учетом нового зна
(с )
= p(xlCk)p(Ck)
(1.77)
р х р(х)
1
k .
Отметим, что любая из величин, входящих в теорему Байеса, может быть по
лучена из совместного распределения р(х, Ck) либо с помощью маргинализации,
либо путем обусловливания относительно соответствующих переменных. Те
перь мы можем интерпретировать p(Ck) как априорную вероятность класса Ck, а
p(Ckjx)- как соответствующую апостериорную вероятность. Таким образом,
р(С 1 ) представляет собой вероятность того, что у человека есть рак, до того как
мы сделаем рентгеновский снимок. Аналогично p(C1 jx)- это соответствующая
вероятность, пересмотренная с использованием теоремы Байеса в свете инфор
мации, содержащейся на рентгеновском снимке. Если наша цель состоит в том,
зом, если р(х, С 1 ) > р(х, С2 ) при заданном значении х, то мы должны назначить
эту точку х классу С 1 • Из правила умножения вероятностей следует, что
р(х, Ck) = p(Ckix)p(x). Поскольку множитель р(х) является общим для обоих сла
гаемых, мы можем повторить этот результат, указав, что минимальная вероят
Рис. 1.24. Графики совместных вероятностей р(х, Ck) для каждого из двух классов в
зависимости от х вместе с границей решений х = х . Значения, удовлетворяющие
условие х ~ х, классифицируются как принадлежащие классу С2 и, следовательно,
относятся к области решения Rz, тогда как точки, удовлетворяющие условие х < х,
классифицируются как принадлежащие классу С 1 и относятся к области R 1. Ошибки
возникают в синей , зеленой и красной областях: при х <х ошибки возникают из-за
Эrа вероятность достигает максимума, если области Rk выбраны так, что каждому
значению х присваивается класс, для которого вероятность р(х, Ck) является
наибольшей. Опять же, используя правило умножения вероятностей р(х, Ck) =
76 ГЛАВА 1. ВВЕДЕНИЕ
=p(Cklx)p(x) и отмечая, что множитель р(х) является общим для всех слагаемых,
мы видим, что каждое значение х должно быть отнесено к классу, имеющему
наибольшую апостериорную вероятность p(Cklx).
матрица потерь говорит о том, что при принятии правильного решения нет потерь,
рак норма
рак ( о
1~00 )
норма 1
Рис. 1.25. Пример матрицы потерь с элементами LkJ для пробJiемы диагностики рака.
(1.81)
р(х, Ck) имеют сопоставимые значения. Это те области, где мы не совсем уверены
в решении. В некоторых приложениях бьmо бы целесообразно избегать принятия
решений в сложнъ~х случаях, стремясь понизить частоту ошибок на тех образцах,
для которь~х принято решение о классификации. Это называется непринятием ре
шения. Например, в нашей гипотетической медицинской иллюстрации может быть
целесообразным использовать автоматическую систему для классификации тех
рентгеновских снимков, в отношении которых нет никаких сомнений, предостав
ры будут отЮiонены, тогда как для К Юiассов условие В< 1/К гарантирует, что ни
один пример не будет оТЮiонен. Таким образом, доля примеров, которые оТЮiо
няются, контролируется значением условия()= 1.
Мы можем легко расширить критерий отЮiонения, чтобы свести к минимуму
математическое ожидание потерь при заданной матрице потерь, с учетом по
р(С1 lx)
1,0 i-- - - -
()
0,0...__ _ _......____________,.
х
область неприятия
решения
р
( с Iх )= p(xlck)p(Ck)
k р(х)
(1.82)
в случае двух классов функция/(·) может быть бинарной, так что условие
f= О соответствует классу С 1 , а условие f= 1 - классу ~. В этом случае
вероятности не играют никакой роли.
5 1,2
р(С 1 1х) p(C2lx)
p(x lC2)
<D
о
4
(.)
(.)
ctl
;2 0,8
:s: 3
"""
(.)
о 0,6
~
о
с:;
2
i::: 0,4
0,2
о
0,2 0,4 0,6 0,8 о 0,2 0,4 0,6 0,8
х х
Рис. 1.27. Пример двух условных по классу плотностей, имеющих одну входную
(1.84)
ос
Р( Cklx1)P( Cklxв)
p(Ck)
Таким образом, нам нужны априорные вероятности класса р( Ck), которые
легко можно вычислить на основе долей данных в каждом классе. Затем нам
нужно нормировать полученные апостериорные вероятности, чтобы их сумма
равнялась единице. Особое предположение об условной независимости (1.84)
является примером наивной модели Байеса (см. раздел 8.2.2). Обратите внима
ние на то, что совместное маргинальное распределение р(х 1 , хв) обычно не будет
факторизоваться в рамках этой модели. В последующих главах мы увидим, как
строить модели для объединения данных, которые не требуют предположения
об условной независимости (1.84).
Наша цель - выбрать у(х) так, чтобы минимизировать JE[L]. Если мы пред
положим, что функция у(х) является достаточно гладкой, то можем сделать это
формально, используя вариационное исчисление (с.и. приложеиие I):
84 ГЛАВА 1. ВВЕДЕНИЕ
дЕ(L)
( ) = 2f{ у ( х) - t} р ( х, t) dt = о. (1.88)
ду х
Jtp(x,t)dt
у(х)= р(х) J
= tp(tlx)dt=E 1 [tlx]. (1.89)
Мы также можем получить этот результат несколько иначе, что также проли
вает свет на характер задачи о регрессии. Учитывая то, что оптимальным реше
дующим образом:
2 2
{у(х) - t} = {у(х)- IEl[tlx] + E[tlx] - t} =
= {y(x)-E[tlx]} 2 + 2{y(x)-E[tlx]}{E[tlx] - t} + {E[tlx] - t} 2 ,
f
JE(L) = J{y( х )-JE(tlx )} 2 р( х )dx + var[tlx ]Р( x)dx. (1.90)
ных и может рассматриваться как шум. Она не зависит от у(х) и поэтому пред
ставляет собой минимально возможное значение функции потерь.
Как и в задаче классификации, мы можем либо определить соответствующие
вероятности, а затем использовать их для принятия оптимальных решений, либо
строить модели, которые принимают решения напрямую. В самом деле, мы мо
жем выделить три подхода к решению регрессионных задач, перечисленных ни
(1.91)
86 ГЛАВА 1. ВВЕДЕНИЕ
q=О,З
"
= =
"
1 1
~ ~
-1 о 2 -1 о
y-t y- t
2
q = 10
"
=1
=
"
1
~ ~
о~~~~~~~~~~~~~
-2 -1 о 2
о
-2 -1
~ о
)
2
y- t y-t
Рис. 1.29. Графики функции Lq = ly - tlq при разных значениях q
событие, мы получим больше информации, чем если бы нам сказали, что про
изошло очень вероятное событие, и если бы мы знали, что событие обязательно
произойдет, то не получили бы никакой информации. Поэтому наша мера ин
формационного содержания будет зависеть от распределения вероятности р(х),
поэтому мы ищем величину h(x), которая является монотонной функцией веро
ятности р(х) и выражает информационное содержание. Форму функции h(")
можно найти, заметив, что если мы имеем два событиях и у, которые не связаны
друг с другом, то выигрыш информации от наблюдения за ними должен быть
суммой информации, полученной от каждого из них по отдельности, так что
что lim р log 2 р =О, поэтому будем считать, что р(х) log 2 р(х) =О всякий раз, ко
р~о
rда мы сталкиваемся со значением х, для которого р(х) = О.
1 1
Н [х] = -8 · - log 2 - = 3 бита.
8 8
Рассмотрим теперь пример
(Cover and Thomas, 1991) случайной величины,
имеющей восемь возможных значений {а, Ь, с, d, e,f, g, h}, для которых соответ
ствующие вероятности равны (1/2, 114, 1/8, 1/16, 1164, 1164, 1164, 1164). В этом
случае энтропия задается выражением
1 1 1 1 1
средняя длина кода = - ·1 + - · 2 + - · 3 + - · 4 + 4 · - · 6 = 2 бита.
2 4 8 16 64
Это значение совпадает с энтропией случайной величины. Обратите внимание,
что более короткие строки кода использовать невозможно, потому что разложе
(1.94)
1 1 1
Н =-lnW =-lnN!--"lnn.!. (1.95)
N N N~ 1
1
Теперь перейдем к пределу при N ~ оо, выделяя дроби n/N, и применим при
ближение Стирлинга:
lnN!=NlnN-N, (1.96)
Н =- ~im L (!!!__)
N--)ooN i
1n (!!!__) =- L Р; 1n Р; ·
N i
(1.97)
90 ГЛАВА 1. ВВЕДЕНИЕ
Здесь Р; = lim !i. - это вероятность того, что объект будет размещен в i-й
N~ooN
ячейке. В терминологии физики конкретные расположения объектов в ячейках
Н= 1,77 Н=З,09
t
о
:>::
~
t
о
:>::
:;: 0,25 ~ 0,25
g_ о
а.
Q) Q)
СХ1 СХ1
r ,_
о
В результате находим, что все р(х;) равны между собой и задаются формулой
р(х;) = 1/М, где М - общее количество значений xi. Соответствующее значение
энтропии равно Н = ln М. Этот результат можно также получить из неравенства
Йенсена, которое мы вскоре рассмотрим. Чтобы убедиться, что стационарная
точка действительно является точкой максимума, мы можем вычислить вторую
82 Н 1
-----=-1"- (1.100)
ор(х;)ор(х;) у PiJ'
(i+l)Л
перь мы отбросим второй член -ln Л в правой части (1.102), а затем перейдем к
пределу при Л ~О. Первое слагаемое в правой части (1.102) будет стремиться к
интегралу от р(х) ln р(х), так что
Людвиг Больцман
1844-1906
Людвиг Эдуард Больцман - австрийский физик, осно
воположник статистической механики. Еще до Больцма
на понятие экrропии было известно из классической
термодинамики, где оно количественно оценивает тот
00
00
Jxp(x)dx = µ, (1.106)
-<Ю
00
-Ip(x)lnp(x)dx+A, [I p(x)dx-1)+
(1.108)
Р ( х) =
1
1;2 ехр
{ (х-µ)
2
2}
• (1.109)
( 21ra2) 2а
Таким образом, мы снова видим, что энтропия возрастает по мере того, как
2
распределение становится более широким, т.е. при увеличении а . Этот результат
также показывает, что дифференциальная энтропия, в отличие от дискретной эн
тропии, может быть отрицательной, так как в (1.110) Н(х) <О при а2 < 1/(2tre).
Предположим, что мы имеем совместное распределение р(х, у), из которого
извлекаем пары значений х и у. Если значение х уже известно, то объем допол
КL(pllq) J КL(ql[p).
Покажем теперь, что дивергенция Кульбака-Лейблера удовлетворяет усло
вию КL(pllq) ~О, причем равенство достигается, если и только если р(х) = q(x).
Для этого мы вначале введем понятие выпуклых функций. Функцияf(х) называ
ется выпуклой, если каждая хорда лежит на графике или над графиком этой
функции, как показано на рис. 1.31. Любое значение х в интервале от х = а до
х = Ь может быть записано в виде Аа + (1 - Л)Ь, где О ::;; Л::;; 1. Соответствующая
точка на хорде задается выражением Лf(а) + (1 - Л)f(Ь), а соответствующее зна
чение функции равно f(м + (1- Л)Ь). Тогда выпуклость подразумевает следую
щее свойство:
f(x)j
хорда\. /
~
а ь х
Клод Шеннон
1916-2001
После окончания Мичиганского университета и Масса
чусетсского технологического института в 1941 году
Шеннон поступил на работу в компанию АТ &Т Bell
Telephone Laboratories. Его статья "А Mathematical Тhe
ory of Communication", опубликованная в Bell Systeт
Technical Journal в 1948 году, заложила основы совре
менной теории информации. В этой статье было введе-
но слово "бит" и изложена теория о том, что информация может быть от
правлена как поток единиц и нулей, которая открыла путь для революции
в области систем связи. Говорят, что фон Нейманн рекомендовал Шенно
ну использовать термин "энтропия" не только из-за его сходства с величи
ной, используемым в физике, но также и потому, что "никто не знает, что
такое энтропия, поэтому в любом обсуждении вы всегда будете иметь
преимущество".
(1.115)
где А;~ О и ~)-; = 1 для любого множества точек {х;}. Результат (1.115) изве-
; ~
стен как неравенство Иенсена. Если мы интерпретируем А; как распределение
вероятности дискретной переменной х, принимающей значения {х;}, то (1.115)
можно записать как
1.6. Теория информации 97
/(E[x])~JE/([x]), (1.116)
1 N
КL(Pllq) ==- L {-Inq(xnlB)+ lnp(xп)}. (1.119)
N n=I
Упражнения
1.1. (*) WWW Рассмотрим сумму квадратов ошибок, заданную формулой (1.2), в
которой функция у(х, w) задается полиномом (1.1). Покажите, что коэф
фициенты w = {w;}, минимизирующие эту функцию, являются решением
следующей системы линейных уравнений:
м
где
(1.123)
n=l n=l
1.7. (**) WWW В этом упражнении мы докажем условие нормировки (1.48) для
одномерного нормального распределения. Для этого рассмотрим интеграл
1=
-оо
f exp(-~x2 )dx,
2а
(1.124)
1 2= OOJ 1
OOJ ехр ( --х 1 2) dxdy.
2--у (1.125)
-00-00
2а 2 2а 2
2
по а, убедитесь, что нормальное распределение удовлетворяет условию
(1.50). Наконец, покажите, что выполняется условие (1.51 ).
1.9. (*) WWW Покажите, что мода (т.е. максимум) нормального распределения
(1.46) равнаµ? Аналогично покажите, что мода многомерного нормально
го распределения (1.52) равнаµ.
влетворяет условиям
(1.130)
ражением
(1.131)
Покажите, что
(1.132)
D D D
Х;1 Х;2 ."хiм . Для начала покажем, как избавиться от лишних коэффициен-
(1.134)
D
n(D,M) = Ln(i,M -1). (1.135)
i=I
следующий результат:
D (i+M-2)! (D+M-1)
~(i-l)!(M-1)!= (D-l)!M!'
(1.136)
п (D М) = _(D_+_M_-_1_)! (1.137)
' (D-l)!M!.
Для этого сначала покажите, что результат верен для М = 2 и любого зна
1.16. (***)В упражнении 1.15 мы доказали результат (1.135) для количества не
ров во всех членах вплоть до М-го порядка. Сначала покажем, что вели
_ (D+M)!
N ( D,M ) - . (1.139)
D!M!
Это можно сделать, предварительно доказав, что результат справедлив для
М = О и произвольного D ~ 1, а затем предположив, что он выполняется
(1.140)
для больших п, чтобы показать, что при D » М величина N(D, М) растет
как пМ, а при М » D она растет как MD. Рассмотрите кубический (М = 3)
полином в D-измерениях и вычислите общее число независимых парамет
ров для случаев а) D = 10 и б) D = 100, что соответствует типичным малым
и средним приложениям в области машинного обучения.
J
Г(х)= ux-le-"du. (1.141)
о
целым числом.
1.18. (**) WWW Мы можем использовать результат (1.126) для вывода выражения
f е
-xtdx; -- S D f
оо
е
_,2
r D-ldr. (1.142)
i=l -«) о
21lD/2
S=--- (1.143)
D Г(D/2).
vv-- SD
D (1.144)
объем сферы
=------ (1.145)
объем куба D2D-'Г(D/2) ·
р(х) = 1 exp[-~J.
2а2
(1.147)
( 2па 2)D/2
1.22. (*) www. При заданной матрице потерь с элементами Lkj ожидаемый риск
достигает минимума, если для каждого х мы выбираем класс, который
минимизирует выражение (1.81). Убедитесь, что когда матрица потерь за
дается формулой Lkj = 1- Ikj• где Ikj - элементь1 единичной матрицы, зада
ча сводится к выбору класса, имеющего наибольшую апостериорную веро
ятность. Какова интерпретация этой формы матрицы потерь?
1.23. (*)Выведите критерий минимизации ожидаемых потерь при заданных
общей матрице потерь и общих априорных вероятностях для классов.
106 ГЛАВА 1. ВВЕДЕНИЕ
1.25. (*) WWW Рассмотрите обобщение квадратичной функции потерь (1.87) для
одной целевой переменной t на случай нескольких целевых переменных,
описываемых вектором t, заданных формулой
Е[ L( t,y(x))] = Jf lly(x)-tll 2 р(х, t)dxdt. (1.151)
у(х) = E 1[t 1 х]. Покажите, что для случая одной целевой переменной t
этот результат сводится к (1.89).
1.26. (*)Раскрыв квадрат в (1.151), получите результат, аналогичный (1.90), и,
как следствие, покажите, что функция у(х), которая минимизирует ожида
емые квадратичные потери для вектора t целевых переменных, снова за
ны х и у статистически независимы.
значений х, таких, что р(х) > О, переменная у должна быть функцией, зави
сящей от х, иначе говоря, для каждого х существует только одно значе
1.36. (*)Строго выпуклая функция- это функция, у которой любая хорда ле
жит над графиком функции. Покажите, что это эквивалентно условию по
ложительности второй производной функции.
а) Н[х]
б) Н[у]
в) Н[уlх]
r) H[xly]
д) Н[х,у]
е) I[x,y]
Нарисуйте диаграмму, чтобы показать взаимосвязь между этими величи
нами.
х о 1/3 1/3
1 о 1/3
что это неидеальная монета, так что вероятность выпадения орла не обязательно
совпадает с вероятностью выпадения решки. Вероятность х =1 обозначим пара
где О$µ$ 1, откуда следует, что р(х = 01µ) = 1 - µ. Поэтому распределение ве
роятности по х можно записать в виде
Е[х] = µ, (2.3)
N N
lnp(VIµ) =LlnP( хпlµ) =L {хп lnµ + (1-хп )In(l- µ)}. (2.6)
n=I n=I
(2.8)
о 2 3 4 5 6 7 8 9 10
т
Якоб Бернулли
1654-1705
Якоб Бернулли, также известный как Жак или
Джеймс Бернулли, был швейцарским математиком и
первым из многочисленных ученых в семье Бернулли.
Хотя родители заставили его изучать философию и
теологию против его воли, он много путешествовал
т_
сN- N!
(2.10)
(N-m)!m!
114 ГЛАВА 2. РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ
2.1.1. Бета-распределение
лезные аналитические свойства. Для того чтобы обосновать этот выбор априор
ного распределения, отметим, что функция правдоподобия имеет вид произве
дения множителей вида µx(l - µ) 1 -х. Если мы выберем априорное распределение
пропорциональным степеням µ и 1 - µ, то апостериорное распределение, про
Г( а+ Ь) a-I ( )ь-1
Beta µа,Ь =г(а)Г(Ь)µ (2.13)
( 1 )
1-µ ,
2.1. Бинарные случайные величины 115
Е[µ]=~ь'
а+
(2.15)
а = О,1 а= 1
Ь= 0,1 Ь= 1
2 2
о о
о 0,5 µ о 0,5 µ
3 3
а= 2 а= 8
Ь= з Ь= 4
2 2
0 '-----"'=----~-----~
0,5 µ о 0,5 µ
Рис. 2.2. Графики бста-распрсдслс11ия Bcta(µ ia, Ь), заданные формулой (2 .13), как
р (µ 1 т, /
, а, ь) ос µ т+а-\ (l _ µ )l+b-\ , (2.17)
где /= N- т и, следовательно, соответствует количеству решек в примере с под
брасыванием монеты. Мы видим, что распределение (2.17) имеет ту же функци
ональную зависимость от µ, что и априорное распределение. Это отражает свой
0,5
µ
1 1
Эту величину можно интерпретировать как полную долю наблюдений (как ре
альных, так и фиктивных априорных), которые соответствуют значению х = 1.
Заметим, что в пределе, при бесконечно большом наборе данных, когда т, 1~ оо,
результат (2.20) сходится к результату, полученному с помощью оценки макси
мального правдоподобия (2.8). Как мы увидим, это универсальное свойство: как
байесовские результаты, так оценки максимального правдоподобия согласуются
в пределе при бесконечно большом наборе данных. Для конечного набора дан
ных апостериорное математическое ожидание параметра µ всегда лежит между
Однако обратите внимание на то, что этот результат выполняется только в сред
нем и что для определенного наблюдаемого набора данных возможно, что апо
стериорная дисперсия больше априорной дисперсии.
нице, а все остальные элементы равны нулю. Итак, например, если у нас есть
задается формулой
к
и что
120 ГЛАВА 2. РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ
(2.28)
х
NК К (LXпk) К
p(DIµ)= ппµ:·k = пµk • = пµ:k. (2.29)
n=I k=I k=I k=I
(2.30)
(2.31)
(2.33)
(2.34)
2.2. Мультиномиальные случайные величины 121
(2.35)
ется формулой
к
µ3
Рис. 2.4. Вследствие ограничений О s Jik s 1и L Jlk = 1 распределение Дирихле для трех
k
переменных р 1 , р2 , µ 3 ограничено симплексом (ограниченным линейным
(2.38)
(2.39)
··:·
.·.
'.···
Рис. 2.5. Графики распределения Дирихле для трех переменных, где две горизонтальные
значению плотности. Здесь {щ} = 0,1 на левом графике , { ak} = 1 в центре графика
и {щ } = 1О на правом графике
Лежен Дирихле
1805-1859
Иоганн Петер Густав Лежен Дирихле был скромным и
сдержанным математиком, который внес вклад в тео
рию чисел, механику и астрономию и дал первый
строгий анализ рядов Фурье. Его семья родом из го
родка Ришле в Бельгии, а имя Лежен Дирихле проис
ходит от фразы "le jeune de Richelet" ("молодой чело
век из Ришле") . Первая статья Дирихле, опубликован-
ная в 1825 году, принесла ему мгновенную славу. Она была посвящена по
следней теореме Ферма, в которой утверждается, что для п >2 не суще
этой теоремы. Позже Дирихле дал полное доказательство для п = 14, хотя
полное доказательство последней теоремы Ферма для любого п должно
было дождаться работы Эндрю Уайлса в последние годы ХХ века.
N(x\µ,a 2 )= 1
112 ехр{-~(х-µ) 2 }, (2.42)
( 2tra2 ) 2а
2
где µ- математическое ожидание, а а - дисперсия. Для D-мерного вектора х
многомерное нормальное распределение принимает вид
(2.43)
З N= 1 З N=2
2 2
(2.44)
которая появляется в экспоненте. Величина Л называется расстоянием Махш~а
нобиса от µдо х и сводится к евклидову расстоянию, когда 1: - единичная мат
рица. Нормальное распределение будет постоянным на поверхностях в про
странстве переменных х, для которых эта квадратичная форма постоянна.
Прежде всего отметим, что матрицу 1: без потери общности можно считать
симметричной, так как любой антисимметричный компонент из экспоненты ис
чезает. Рассмотрим теперь уравнение для собственных значений ковариацион
ной матрицы (см. упражиение 2.17):
(2.45)
где i = 1, ... , D. Поскольку 1:- действительная симметричная матрица, ее соб
ственные значения будут действительными, а ее собственные векторы могут
быть выбраны так, чтобы образовывать ортонормированный набор векторов
(см. упражие1111е 2.18), так что
(2.46)
1, если i = j,
{
= О, в противном случае.
1iJ (2.47)
1:-l = f
i=l
_!._U;UJ.
Л;
(2.49)
(2.50)
2.3. Нормальное распределение 127
где
(2.51)
где U - матрица, строки которой заданы векторами uJ. Из (2.46) следует, что
U - ортогональная матрица, т.е. удовлетворяет условию UUт = 1, а значит, и
UтU = 1, где 1 является единичной матрицей (с.111. прило:ж:е11ие В).
Квадратичная форма и, следовательно, плотность нормального распределения
будут постоянными на поверхностях, для которых величина (2.50) является по
стоянной. Если все собственные значения А; положительны, то эти поверхности
представляют собой эллипсоиды с центрами в точке µ и осями, ориентирован
ными вдоль векторов U; с коэффициентами масппабирования в направлениях
осей, равными л/1 2 (рис. 2.7).
дх.
J ij -- дуj
1 -и
- }i' (2.53)
(2.56)
1 (2.57)
J=I ( 1 2}.J
JE[x] = µ. (2.59)
D
z= LY1UJ' (2.60)
J=l
(2.61)
D
= Lu;uJ А; =1:,
i=l
(2.62)
Xz Xz Xz
~ а)
Х1
с@)
б)
Х1
(@)
в)
Х1
концентрические окружности
совская версия марковского случайного поля (см. раздел 8.3), широко использу
емая в качестве вероятностной модели при анализе изображений, является нор
мальным распределением в совместном пространстве интенсивности пикселей,
х=[::} (2.65)
2.3. Нормальное распределение 133
µ=(::) (2.66)
Iаь). (2.67)
Iьь
Заметим, что симметрия I:т = I: ковариационной матрицы означает, что I:aa и I:ьь
являются симметричными, а I:ьа = I:~ь.
Во многих ситуациях удобно работать с обратной ковариационной матрицей
(2.68)
которая называется матрицей точности (precision matrix). На самом деле мы
увидим, что некоторые свойства нормальных распределений наиболее есте
ственно выражаются через ковариацию, тогда как другие принимают более про
стую форму при рассмотрении с точки зрения точности. Поэтому мы также вво
дим блочную форму матрицы точности
(2.69)
ратными к ее блокам.
Начнем с нахождения выражения для условного распределения р(хаlхь). Из
правила умножения вероятностей следует, что это условное распределение
получим:
134 ГЛАВА 2. РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ
_!(х-µ)т Г 1 (х-µ) =
2
=-~(ха -µа)т Ааа(ха -µа)-~(ха -µа)т Ааь(хь-µь)- (2.70)
_!(хь -µь)т Аьа (ха -µа )-!(хь -µь)т Аьь (хь -µь)·
2 2
Как видим, это выражение, рассматриваемое как функция от Ха снова пред
ставляет собой квадратичную форму, и, следовательно, соответствующее услов
ное распределение р(хаlхь) будет нормальным. Поскольку это распределение
полностью характеризуется его математическим ожиданием и ковариацией,
наша цель будет заключаться в определении выражений для математического
ожидания и ковариациир(хаlхь) путем проверки условия (2.70).
Это пример довольно распространенной операции, связанной с нормальными
дание и ковариацию. Такие задачи можно решать прямо, заметив, что показатель
в общем нормальном распределении N(xlµ, I:) можно записать в виде
1 т
-lxaAaaxa, (2.72)
( Ас в)- 1 ( м -мвn- 1 )
(2.76)
D = -n- 1 см n- 1 + n- 1 смвn- 1 '
(2.78)
(2.79)
(2.80)
(2.83)
ния р( ха).
Квадратичная форма совместного распределения может быть выражена с ис
пользованием блочной матрицы точности в виде (2.70). Поскольку наша цель
состоит в том, чтобы интегрировать по хь, этого легче всего достичь, сначала
рассмотрев члены, связанные с хь, а затем выделить полный квадрат, чтобы об
легчить интегрирование. Выбрав только те члены, которые содержат хь, имеем:
1 т т 1( )т ( 1 т -1
-1 -1
-2хьАььХь+хьm=-2 хь-Аььm Аьь Хь-Аььm
)
+2m Аььm, (2.84)
m= Аььµь-Аьа(Ха-µа). (2.85)
Таким образом, мы получили сумму стандартной квадратичной формы нор
мального распределения, соответствующей первому члену в правой части (2.84)
и зависящей от хь, и слагаемого, не зависящего от хь, но зависящего от Ха. Та
ким образом, вычисляя экспоненту этой квадратичной формы, мы видим, что
интегрирование по хь в (2.83) принимает вид
(2.87)
(2.88)
(2.90)
(2.91)
138 ГЛАВА 2. РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ
(2.95)
(2.98)
мя переменными.
2.3. Нормальное распределение 139
0,5 5
Рис. 2.9. График слева показывает изолинии нормального распределения р(ха, xh) по
z=[;). (2.101)
1 т( Л+А т LA ) х--у
--х
1 т Ly+-y
1 т LAx+-x
1 т А т Ly=
2 2 2 2
(2.106)
(2.107)
(2.108)
(2.117)
N N
LXn
n=I
и LXnX~.
n=I
(2.119)
д N
-lnp(XJµ,I.:) =LI.:- 1 (хп -µ). (2.120)
дµ n=I
1 N
µМL =-Iхп. (2.121)
N n=I
1 N Т
I:МL = N~(хп -}lмL)(xn -µМL) , (2.122)
которая содержит величину JJмL, потому что это результат совместной максимиза
~щи поµ и I:. Заметим, что решение (2.121) относительно JJмL не зависит от I:мL,
поэтому мы можем сначала вычислить величину µML• а затем использовать ее
(2.123)
144 ГЛАВА 2. РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ
(2.124)
(N) _
µ ML ~х
_!_ L., -
- п -
N n=1
1 1 N-1
=-xN+-Lx =
N N n=1 п (2.126)
- 1 N -1 (N-1) -
--XN +--µML -
N N
_ (N-1) 1( (N-1))
- µМL +N х N - µМL .
Результат (2.126) явно дает тот же ответ, что и результат (2.121), полученный
пакетной обработкой, потому что эти две формулы эквивалентны. Однако мы не
всегда можем вывести последовательный алгоритм таким способом и поэтому
ищем более общую формулировку последовательного обучения, что приводит нас
к алгоритму Роббинса-Монро. Рассмотрим пару случайных величин 8 и z, опре
деляемых совместным распределением p(z, 8). Условное математическое ожида
ние z при заданном В представляет собой детерминированную функцию f( В), за
данную формулой
(2.127)
Наша цель - найти корень В*, при котором f(В*) =О. Если бы мы имели
большой набор данных наблюдений z и В, то могли бы непосредственно модели
ровать функцию регрессии, а затем получить оценку ее корня. Предположим,
однако, что мы наблюдаем значения z по одному и хотим найти соответствую
щую последовательную схему оценки для параметра В*. Следующая общая про
цедура для решения таких задач была предложена Роббинсом и Монро (Robbins
and Monro (1951 )). Будем считать, что условная дисперсия z конечна, так что
IE[(z - Л 2 1 В] < оо. (2.128)
146 ГЛАВА 2. РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ
(2.131)
(2.132)
Затем можно показать (Robblns and Monro, 1951; Fukunaga, 1990), что последо
вательность оценок, заданных (2.129), действительно сходится к корню с веро
ятностью, равной единице. Заметим, что первое условие (2.130) гарантирует, что
последовательные поправки уменьшаются по модулю, чтобы процесс мог схо
диться к предельному значению. Второе условие (2.131) необходимо для обес
печения сходимости алгоритма, а третье условие (2.132) необходимо для обес
печения того, чтобы накопленный шум имел конечную дисперсию и, следова
тельно, не портил сходимость.
д { -1 ~)np(xnl8)
-- N }
=0. (2.133)
88 N n=I L}
"ML
- lim
N~(X)
_!_
N
f ~1np(xnl8)
88
n=I
= l&x [-~lnp(xl8)].
88
(2.134)
вид прямой линии, пока3анной красным цветом. В этом случае случайная величина z
соответствует проюводной логарифмической функции правдоподобия и 3адастся
(2.137)
(2.141)
(2.142)
2.3. Нормальное распределение 149
0'--"""""=:...~~~~ ............-<::.-~..:._--===~~
-1 о
поµ (кривая, обозначенная N =О), которое в этом случае само по себе является
(2.144)
2 2 2
а= 0,1 а=1 а=4
Ь= 0,1 Ь= 1 Ь=б
l 1 2 l 1 2 2
(2.150)
(2.151)
ления Дирихле. Эти распределения (см. раздел 2.2) являются примерами экспо
ненциального семейства, и мы увидим, что интерпретация сопряженного
априорного распределения с точки зрения фиктивных эффективных наблюдений
является общей для экспоненциального семейства распределений.
Вместо того чтобы работать с точностью, мы можем рассмотреть дисперсию.
Сопряженное априорное распределение в этом случае называется обратным
гамма-распределением, хотя мы не будем обсуждать его дальше, потому что нам
удобнее работать с точностью.
Теперь предположим, что и математическое ожидание, и точность неизвест
ны. Чтобы найти сопряженное априорное распределение, рассмотрим зависи
мость функции правдоподобия от µ и Л:
2.3. Нормальное распределение 153
р(хlµ,Л.)= П
N ( А -µ)
-2trА )1/2 ехр {--(хп 2} ос
n=I 2
2 n=I 2 n=I
где с, d и /3- констангы. Так как мы всегда можем записать р(µ, А.)= р(µIЛ.)р(Л.), то
можем найти p(µl...t) и р(А,) путем проверки. В частности, мы видим, что распре
деление р(µIЛ.) является нормальным распределением, точность которого явля
ется линейной функцией от А., и что р(Л.) является гамма-распределением, так что
нормированное априорное распределение принимает вид
по А., так как точность распределения по µявляется линейной функцией от А.. Даже
если бы мы выбрали априорное распределение, в котором µ и А. были бы независи
мыми, апостериорное распределение будет иметь связь между точностью распре
деления µи значением А..
В случае многомерного нормального распределения N(xlµ, л-') для D-мерной
случайной величины х сопряженное априорное распределение для математиче
ского ожидания µ при известной точности также является нормальным. При из
вестном математическом ожидании и неизвестной матрице точности А сопря
женное априорное распределение является распределением Уишарта, которое
задается формулой (см. упраж11е11ие 2.45)
(2.155)
154 ГЛАВА 2. РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ
л 1
о~------~-------~
-2 о 2
µ
(2.156)
(2.157)
00
p(xlµ,a,b) f
= N(xlµ,r- 1 )Gam( •la,b )dr =
о
0,4 v = 1,0
v = 0,1
0,3
0,2
0,1
о~------~------~
-5 о 5
Рис. 2.15. График t-распределения Стыодснта (2. 159) приµ= О и Л = 1
при различных значениях v. Предел 11 ---). оо соответствует нормальному
f
St(xlµ,A.,v)= N{xlµ,(17A.)- 1 )Gam(111v/2,v/2)d17. (2.160)
о
f
St( xlµ,A, v) = N{ хlµ,(17Л)- 1 )Gam(11lv/2, v/2 )d17. (2.161)
о
0,5 0,5
0,4 \ 0,4
0,3 0,3
~ ~
0,2 0,2
0,1 0,1
о
-5
)
о
\ 5 10 о 5 10
а) б)
оно дает почти такое же решение, как и нормальное; б) тот же набор данных , но с тремя
чайных величинах.
Примером периодической случайной величины является направление ветра в
ние. Если выберем начало координат в 0°, тогда среднее выборочное значение
этого набора данных будет равно 180° со стандартным отклонением 179°, если
же мы выберем начало в 180°, то среднее выборочное значение будет равно 0° и
стандартное отклонение будет равно 1°. Нам явно необходимо разработать осо
бый подход для обработки периодических случайных величин.
Рассмотрим задачу оценки математического ожидания периодической слу
а затем найти соответствующий угол В для этого среднего вектора. Ясно, что
это определение гарантирует, что местоположение среднего не зависит от нача
(2.169)
х
Х2
Х1
х1
р(О)~О, (2.170)
21r
f p(8)d8=1, (2.171)
о
( -
)- 1 { ( Х1 - µ1 )
2
+ ( Х2 - µ2 )
2
}
р Х1,Х2 - - 2 ехр 2 . (2.173)
2;ro- 2о-
(2.175)
- 2 ~ 2 {(rcosB-r cosB0 0)
2
+(rsinB-r0 sinB0 ) 2 } =
(2.176)
r.
=.-.Тсоs( В-В0 ) + const,
а
(2.179)
1 2tr
10 (m)=-J exp{mcosB}dB. (2.180)
2tr о
ir/ 4
- - т = 5, В0 = n/ 4 Зir/4
--т = 1, В0 = 3 ir/ 4
-- т =5, В0 = ir/ 4
- - т = 1, В0 = 3 ir/4
2000
l 0 (m) А(т) 0,5
1000
OL...------==----___J
о 5 10
о~----~-----~
о 5 10
т т
N
lnp( DIB0 ,m) =-Nln(2tr)-Nln/0 (т) + т:Lcos( Вп - 80 ). (2.181)
n=I
N
L sin ( Вп - В0 ) =О . (2.182)
n=I
2.3. Нормальное распределение 163
(2.184)
( ) 11 ( т)
А т = Io(m)' (2.186)
А ( тмJ = (__!__
N
± Оп
n=I
cos ) cos Oci'1L + (_!_
N
± Оп
n=I
sin ) sin 0~. (2.187)
собно отобразить эту структуру, тогда как линейная суперпозиция двух нормаль
ных распределений дает более точную характеристику этого набора данных.
Такие суперпозиции, образованные линейными комбинациями базовых рас
пределений, таких как нормальные, могут быть представлены как вероятностные
модели, которые называются смесями распределений (McLachlan and Basford,
1988; McLachlan and Peel, 2000). На рис. 2.22 видно, что линейная комбинация
нормальных распределений может приближать очень сложные плотности. Ис
пользуя достаточное количество нормальных распределений и подбирая их ма
тематические ожидания и ковариации, а также коэффициенты в линейной ком
бинации, почти любую непрерывную плотность можно аппроксимировать с
произвольной точностью.
2.3. Нормальное распределение 165
80 80 @
60 60
40'--~~~~~~~~~ 40~~~~~~~~---'
1 2 3 4 5 6 1 2 3 4 5 6
Рис. 2.21. Графики данных о гейзере Старый Служака, в которых синие кривые
Обратите внимание, что это распределение не может отобразить два скопления данных
р(х)
а) б)
0,5
@/~.~ 0,2
0,5
0,5
о о
о 0,5 о 0,5
L,яk = 1. (2.189)
k=I
Кроме того, при условии, что N(xlµk, :Ek) ~О, требования р(х) ~О достаточно,
чтобы выполнялись неравенства яk ~О для всех k. Объединяя это требование с
условием (2.189), получим
(2.190)
Как видим, коэффициенты смешивания удовлетворяют требованиям, предъ
являемым к вероятности.
2.3. Нормальное распределение 167
р ( х) = L р (k) р ( xl k ), (2.191)
k=l
сти p(klx), которые также называются весами. Из теоремы Байеса следует, что
они задаются формулой
Yk(x)=p(klx)=
p(k )p(xlk)
=
----'--с--'"- (2.192)
LP(l)p( xll)
1
_ яkN(xlµk,:Ek)
- L"zN( xlµz,:I:z).
1
где мы использовали обозначение я= (tr1, ••• , trк}, µ= {µ 1, .•• , µк} и :I: = {1: 1, ••• , :Ек}.
Одним из способов задания значений этих параметров является использование
принципа максимального правдоподобия. Из (2.188) следует, что логарифмическая
функция правдоподобия задается формулой
= (1-µ)expHI~µ Н
(2.197)
1
0-(17)---- (2.199)
- 1+ ехр ( -17)
и(х) = х, (2.201)
h(x) = 1, (2.202)
g(17) = 0-(-17). (2.203)
Далее рассмотрим мультиномиальное распределение, которое при одном
(2.204)
где х = (х 1 , "., хм)т. И снова, мы можем записать это в стандартном виде (2.194),
так что
т
р(х177) = ехр(71 х), (2.205)
где 1Jk = In(µk) и Т/ = (17 1, "., 1Jм)т. И снова, сравнивая с (2.194), имеем
u(x) = х, (2.206)
h(x) = 1, (2.207)
g(ТJ) = 1. (2.208)
Заметим, что параметры 17 k не являются независимыми, поскольку параметры
µk подчиняются ограничению
(2.209)
пользуя соотношение (2.209), чтобы исключить µм, выразив его через параметры
{µk}, где k= 1, ... , М-1, тем самым оставляя М-1 параметр. Обратите внима
ние, что эти оставшиеся параметры по-прежнему зависят от ограничений
М-1
exp{~xk mµk} =
=ехр{~х. hlµ, +(1- ~х}(1- ~µ, )}= (2.211)
М-1
=ехр Ixkm
k=I
(2.212)
которое можем решить относительно µk, сначала суммируя обе части по k, а за
тем переставляя и выполняя обратную подстановку, чтобы получить
(2.213)
(2.214)
м 1
g(17)= ( 1+ ~exp(17k)
)-1 (2.217)
(2.218)
(2.219)
[ µ/ J (72
(2.220)
1]= -1/(2а 2 )'
u(x)=[;,} (2.221)
J
Vg ( 17) h ( х) ехр {17 т u(х)} d х +
(2.224)
J
+ g (17) h ( х) ехр {17 т u(х)} u(х) dх = О
Заметим, что ковариация u(x) и моменты более высокого порядка можно выра
зить через вторые производные от g( 1/ ). Таким образом, при условии, что мы мо
жем нормировать распределение из экспоненциального семейства (см. упраж"е
" "е 2.58), мы всегда можем найти его моменты простым дифференцированием.
Теперь рассмотрим набор независимых одинаково распределенных данных,
обозначаемых Х = {х 1 , "., xN}, для которых функция правдоподобия задается
формулой
(2.227)
1 N
-Vlng(Т/мr.)=-L:u(xп), (2.228)
N n=I
(2.194). Нам не нужно хранить весь набор данных - необходимо знать только
значения достаточных статистик. Для распределения Бернулли, например, функ
ция u(x) зависит только от переменной х, поэтому нам нужно сохранить только
сумму точек {хп}, тогда как для нормального распределения u(x) = (х, х2 )т, и по
этому мы должны сохранить как сумму {хп}, так и сумму {х;} .
Если мы рассмотрим предел при N ~ оо , то правая часть (2.228) примет вид
E[u(x)], и поэтому, сравнивая с (2.226), мы видим, что в этом пределе 1/мr. будет
равно истинному значению 1/·
На самом деле это свойство достаточности справедливо и для байесовского
вывода, хотя мы отложим обсуждение этого факта до главы 8, когда освоим
графовые модели и сможем глубже понять эти важные концепции.
(2.229)
rдe/(z, v)- нормировочный коэффициент, а g(77)- та же функция, что и в
(2.194). Чтобы убедиться, что это действительно сопряженное априорное рас
пределение, умножим априорное распределение (2.229) на функцию правдопо
добия (2.227), чтобы получить апостериорное распределение с точностью до ко
(2.230)
and Тiао, 1973; Bernardo and Smith, 1994). Иногда этот принцип формулируют
так: "Позвольте данным самим говорить за себя".
Если мы имеем распределение р(х!Л), определяемое параметром Л, может
возникнуть соблазн предложить априорное распределение р(Л) = const как под
ходящее априорное распределение. Если Л - дискретная переменная с К значе
ниями, то задача сводится к установлению априорной вероятности каждого зна
чения, равной 1/К. Однако в случае непрерывных параметров существуют две
потенциальные трудности, связанные с этим подходом. Во-первых, если область
изменения Л не ограничена, это априорное распределение не может быть кор
ректно нормировано, так как интеграл по Л расходится. Такие априорные рас
пределения называются несобственными. На практике несобственные априор
ные распределения часто используются при условии, что соответствующее апо
р 1/ ( 17) = рл ( л) 1~~1 = рл ( 77 2
) 277 ос 17 ' (2.231)
В В-с В
(2.236)
где а> О. Заметим, что эта плотность является нормированной, если f(x) кор
(2.237)
В В/с В ( 1 )1
Jp(u)du= J p(u)du= Jр -u -du (2.238)
А А/с А С С
(2.239)
(2.240)
ские байесовские методы привлекают все больший интерес (Walker et al., 1999;
Neal, 2000; Miiller and Quintana, 2004; Teh et al., 2006).
Начнем с обсуждения методов оценки плотности с помощью гистограмм, ко
торые уже встречались в контексте маргинальных и условных распределений на
(2.241)
50~0,25 ~ 1
L -~4=~
о 0,5
Рис. 2.24. Гистограммный подход к оценке плотности,
Обратите внимание на то, что метод гистограмм имеет одну особенность (в от
личие от методов, которые будут обсуждаться в ближайшее время): после вычис
ления гистограммы сам набор данных может бьrrь отброшен, что может бьrrь вы
годно, если набор данных является большим. Кроме того, подход, основанный на
гистограммах, легко применяется, если точки поступают последовательно.
М ячеек, то общее число ячеек будет равно Mv. Эта степенная зависимость от D
является примером проклятия размерности. В пространстве высокой размерности
2.5. Непараметрические методы 179
сти этого места. Заметим, что понятие локальности требует, чтобы мы приняли
какую-то меру расстояния, в данном случае мы использовали евклидово рассто
f
Р= p(x)dx. (2.242)
R
К=МР. (2.244)
Если область R достаточно мала, чтобы внутри нее плотность вероятности р(х)
бьmа приблизительно постоянной, то
Р =p(x)V, (2.245)
где V- объем области R. Комбинируя (2.244) и (2.245), получим нашу оценку
плотности в виде
к
р(х)=-. (2.246)
NV
(2.248)
р(х)= NL(
1 N 1
z)D/2 ехр
{
-
llx-x"ll
2h2
2
}
, (2.250)
n=l 2тrh
ближения кривой.
л~I
h= 0,005
:1 л f\ Ьгн
о 0,5 1
~
h= 0,07
:1
о
:
0,5
h = 0,2
:1о 0,5
•
Рис. 2.25. Модель плотности ядра (2.250), приме11енная к тому же набору данных,
зашумленная модель плотности, тогда как если он слишком велик (нижняя панель),
Мы можем выбрать любую другую функцию ядра k(u) в (2.249) при условиях
k(u) ~О, (2.251)
J
k(u)du=1, (2.252)
личных вариантов параметра К при том же наборе данных, что и на рис. 2.24-
2.25. Мы видим, что значение К теперь регулирует степень сглаживания и что
снова существует оптимальный выбор для числа К, которое не слишком велико
и не слишком мало. Заметим, что модель, созданная К ближайшими соседями,
не является настоящей моделью плотности, поскольку интеграл по всему про
Предположим, эта сфера имеет объем V и содержит Kk тоЧек из класса Ck. Тогда
(2.246) дает оценку плотности, связанной с каждым классом
(2.253)
184 ГЛАВА 2. РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ
тех же данных, что и на рис. 2.24--2.25. Мы видим, что параметр К определяет степень
(2.254)
(2.255)
р
(сkx
1 )
= p(xlCk)p(C~:) = Kk
(} . (2.256)
рх К
• •
• •
а) б)
среди К ближайших точек и:з обучающего набора данных, в данном случае К= 3 (а).
К= К=3
.
..," ..
1
. ." ..," ..К=Зl
."..," .• •.
2 2 2
t • •' • . # • • • t • •1 • •
"
Х7 Х7 Х7
. ••• . . •• ••
...... ..
•
. .....
'••
. ... . ..-. . .' ....- ... .. .
00 2 00 2 00 2
хб хб хб
Рис. 2.28. График для 200 точек из набора данных о потоке нефти,
Упражнения
2.1. (*) WWW Проверьте, что распределение Бернулли (2.2) обладает следую
щими свойствами:
1
LP(xlµ) =1, (2.257)
х=О
+
p(xlµ)= ( :
l-
-f-
J(t-x)/2 ( l J(t+x)/2
, (2.261)
ст
N + ст-1
N = стN+t· (2.262)
Используя этот результат, докажите по индукции, что
N N
(1+х) = 2,С~хт. (2.263)
т=О
N
2,С~µт(1-µ(-т =1. (2.264)
т=О
N
Для этого сначала вынесите из-под знака суммирования множитель (1-µ) ,
а затем примените биномиальную теорему.
му, что
0
Г(а+Ь) ·
(2.265)
00 00
J
Г(а )Г(Ь) = ехр(-х )x 0- 1dx Jехр(-у )/- dy.
1 (2.266)
о о
t фиксировано.
Е[µ]=~ь' (2.267)
а+
Наша цель - найти выражение для См. Для этого проинтегрируйте по µм_ 1 ,
соблюдая пределы интегрирования, а затем сделайте замену переменной,
чтобы этот интеграл имел пределы О и 1. Предполагая правильность ре
(2.273)
- а1 ( а 0 - а 1 )
var [ µ 1 ] - 2( ) , (2.274)
а0 а0 +1
а1 а1
cov [ µ J µ 1 ] =- 2( ) , j i:- l, (2.275)
а 0 а0 +1
lf/(a)=~lnГ(a) (2.277)
da
является дигамма-функцией.
1
U(xla,b) = - , а'$ х '$Ь. (2.278)
Ь-а
J p(x)dx=l, (2.280)
J p(x)xdx=µ, (2.281)
1 D
н[ х] =-InlII
2
+-(1+1n(21r)),
2
(2.283)
00
J
р ( х) = р ( xl х2 ) р ( х2 ) dx2 (2.284)
Упражнения 191
сти матрицы 1: является то, что все ее собственные значения Л;, опреде
ленные формулой (2.45), являются положительными.
(2.286)
( Ас во) (2.287)
(2.288)
2.26. (**) Очень полезный результат из линейной алгебры - это формула Вуд
бери для обращения матрицы:
(2.289)
Докажите правильность этого результата, умножив обе стороны тождества
на (А+ BCD).
Упражнения 193
z=(;). (2.290)
(2.108).
2.31. (**)Рассмотрите два многомерных случайных вектора, х и z, имеющих
нормальные распределения р(х) = N(xlµx, Ix) и p(z) = N(xlµz, Iz) соответ
ственно вместе с их суммой у= х + z. Используя результаты (2.109) и
(2.11 О), найдите выражение для маргинального распределения р(у ), рас
2.34. (**) WWW Чтобы найти оценку максимального правдоподобия для ковариа
ционной матрицы многомерного нормального распределения, необходимо
максимизировать логарифмическую функцию правдоподобия (2.118) по 1:,
учитывая, что ковариационная матрица должна быть симметричной и поло
жительно определенной. Здесь мы переходим к игнорированию этих огра
ничений и безусловной максимизации. Используя результаты (В.21 ), (В.26)
и (В.28) из приложения В, покажите, что ковариационная матрица 1:, мак
симизирующая логарифмическую функцию правдоподобия (2.118), задается
выборочной ковариационной матрицей (2.122). Обратите внимание на то,
что конечный результат обязательно является симметричным и положи
тельно определенным (при условии, что выборочная ковариационная мат
рица не вырождена).
риационную матрицу 1:, а Inm обозначает (п, т)-й элемент единичной мат
рицы. Отсюда следует результат (2.124).
2.36. (**) WWW Используя процедуру, аналогичную используемой для получения
формулы (2.126), выведите выражение для последовательной оценки дис
персии одномерного нормального распределения, начиная с выражения
максимального правдоподобия:
2 1 N 2
О'мL =-I(x-µ). (2.292)
N n=I
Упражнения 195
эффициентов aN.
(2.293)
196 ГЛАВА 2. РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ
(2.294)
2.46. (*) WWW Докажите, что вычисление интеграла в (2.158) приводит к резуль
тату (2.159).
2.47. (*) WWW Докажите, что в пределе при v~ оо t-распределение (2.159) стано
вится нормальным. Подсказка: игнорируйте коэффициент нормировки и
просто посмотрите на зависимость от х.
корректно.
формулой (2.162).
отношения
exp(iA)exp(-iA) = 1, (2.297)
докажите результат (2.177). Аналогично, используя тождество
2.52. (**)При больших т распределение фон Мизеса (2.179) имеет высокий пик
в окрестности моды В 0 • Определяя q = т 112 (В- В0 ) и выполняя разложение
Тейлора для косинуса по формуле
а2
cosa=l- 2 +o(a 4 ), (2.299)
2.59. (*) Проведя замену переменных у= х/а, покажите, что плотность (2.236)
будет нормирована корректно, если.f(х) нормирована корректно.
которого расходится.
3
До сих пор в этой книге основное внимание уделялось обучению без учителя,
в частности, оценке плотности и кластеризации данных. Теперь мы переходим
(3.1)
где х = (х 1 , "., хv)т. Часто ее просто называют линейной регрессией. Ключевым
свойством этой модели является то, что она является линейной функцией от па
раметров w0, .", wv. Однако в то же время она является линейной функцией
входных переменных xi, что накладывает значительные ограничения на модель.
М-1
ная х, а базисные функции принимают вид степеней х, так что ф1 (х) = х1. Недо
статок полиномиальных базисных функций состоит в том, что они являются
глобальными функциями входной переменной, так что изменения в одной обла
сти входного пространства влияют на все остальные области. Этот недостаток
(3.4)
(3.5)
1
и(а)--- (3.6)
-1 + ехр(-а)
0,5 0,75
о 0,5
- 0,5 0,25
-1
-1 о
Рис. 3.1. Примеры базисных функций: полиномы (слева), гаусс овски е функции
t = у(х, w) + е, (3.7)
f
E[tlx ]= tp(tlx)dt=y(x,w). (3.9)
N
p(tlX,w,P)= ПN(tпlwтф(хп),р- 1 ), (3.1 О)
n=I
N
lnp(tlw,p) = ~)nN(tпlwтф(xп ),р- 1 ) =
n=I
(3 .11)
N N
=-1nP--ln(2:r)-PED (w),
2 2
1 N Т 2
ED(w)=-I{tn-w Ф(хп)}. (3.12)
2 n=I
3.1. Модели с линейными базисными функциями 205
(3.14)
луб и Ван Лоан, 1996). Ее можно рассматривать как обобщение понятия матрицы,
обратной к неквадратным матрицам. Действительно, если Ф -квадратная и обра
тимая матрица, то, используя свойство (АВ)- 1 = В- 1 А- 1 , получаем, что Фt ф- 1 . =
На этом этапе мы можем получить некоторое представление о роли парамет
М-1
w0 =t - L wj~'
}=\
(3.19)
где
(3.20)
ство S. Это действительно так, что легко проверить, заметив, что решение для у
задается вектором ФwмL• а затем убеждаясь, что этот вектор является ортого
нальной проекцией (см. упраж11е11ие 3.2).
ния, или метода SVD (Press et а/" 1992; Bishop and Nabney, 2008). Заметим, что
добавление регуляризирующего члена гарантирует, что матрица не является вы
рожденной, даже если вектры коллинеарные.
торые включают в себя обработку всего обучающего множества за один раз, при
большом объеме данных могут оказаться дорогостоящими с вычислительной
точки зрения. Как мы обсуждали в главе 1, если набор данных достаточно велик,
может оказаться целесообразным использовать последовательные алгоритмы,
также известные как алгоритмы реального времени, в которых точки рассматри
где Фп = ф(хп). Этот метод называется методом наименьших квадратов, или Шl
горит.мом LMS (least-mean-squares). Значение rt должно быть выбрано с осто
рожностью, чтобы алгоритм сходился (Bishop and Nabney, 2008).
(3.24)
(3.25)
(3.26)
(3.28)
Это выражение представляет собой простое обобщение решения, полученного с
помощью метода наименьших квадратов (3.15).
Иногда используется более общий регуляризатор, для которого регуляризо
ванная ошибка принимает вид
(3.29)
Рис.
+ 3.3.
1
q = 0,5 q= l
1
(3.30)
для соответствующего значения параметра rJ, где два подхода можно связать
(3.32)
(3.33)
(3.34)
(3.35)
212 ГЛАВА 3. МОДЕЛИ ЛИНЕЙНОЙ РЕГРЕССИИ
вариации. По этой причине отныне для простоты будем рассматривать одну целе
вую переменную t (ем. упражнеиие 3.6).
J
h(x) =E[tlx] = tp(tlx)dt. (3.36)
Ev [ {у (х; V )- h ( х)} 2 J=
(3.40)
= {Ev [y(x;V)]-h(x)} 2 +Ev [{y(x;V)-Ev [y(x;V)J} 2 ].
(смещение )2 дисперсия
ln J. = 2,6
о ~~ _
~· е~
о
-1 -1
о о
х х
ln J. = - 0,31
-1 -1
о о
х х
ln J. = -2,4
-1 -1
о о
х х
(3.45)
ются по формулам
N
f
(смещение) 2 =_!_ {у(хп)-h(хп)} 2 ,
n=I
(3.46)
дисперсия =-
1
L -1 L
N L {
у 1 ( хп )- у (хп) ,
( ) }2 (3.47)
N п=l L 1=1
рис. 3.6. Мы видим, что небольшие значения А, позволяют модели тонко настра
иваться на шум на каждом отдельном наборе данных, что приводит к большой
дисперсии . И наоборот, большое значение А, тянет весовые параметры к нулю,
что приводит к большому смещению .
0,15 ~--~--~--~-----~
-- (смещение) 2
0,12 -- дисперсия
- - - (смещение )2 + дисперсия
0,09 - - - тестовая ошибка
0,06
lnЛ
ный апостериорный вектор весов просто задается формулой wМАР = тN. Если
рассматривать априорное распределение с бесконечной дисперсией S0 = а- 1 1 при
а--+ О, то математическое ожидание тN апостериорного распределения сводится
к значению максимального правдоподобия wМL, заданному формулой (3.15).
Аналогично, если N = О, то апостериорное распределение совпадает с априор
ным. Кроме того, если данные поступают последовательно, то апостериорное
распределение на любом этапе играет роль априорного распределения по отно
шению к следующим данным, так что новое апостериорное распределение снова
(3.55)
у(х, w) = w0 + w 1x. Поскольку эта модель имеет только два регулируемых парамет
ра, мы можем построить априорное и апостериорное распределения непосред
орное, когда поступают новые данные. Имеет смысл подробно изучить этот рису
нок, поскольку он иллюстрирует несколько важных аспектов байесовского выво
да. Первый ряд этого рисунка соответствует ситуации до того, как будут наблю
даться какие-либо точки данных. Он демонстрирует график априорного распреде
ления в пространстве w вместе с шестью примерами функции у(х, w), в которых
значения w определены с помощью априорного распределения. Во втором ряду мы
видим ситуацию после наблюдения одной точки. Координаты (х, t) этой точки по
казаны синим кружком в правом столбце. В левом столбце изображен график
функции правдоподобия p(tl.x, w), соответствующий этой точке как функция от w.
Обратите внимание на то, что функция правдоподобия задает мягкое ограничение
того, что линия должна проходить близко к точке, причем близость определяется
точностью шума fЗ. Истинные значения параметров а 0 = -0,3 и а1 = 0,5, использо
ванные для создания набора данных, указаны для сравнения белым крестиком на
графиках в левом столбце рис. 3.7. Умножая эту функцию правдоподобия на
априорное распределение из верхней строки и нормируя результат, получаем апо
стериорное распределение, показанное на среднем графике во втором ряду. При
меры функции регрессии у(х, w), полученные путем извлечения выборок w из ге
неральной совокупности с этим апостериорным распределением, показаны на пра
вом графике. Обратите внимание, что эти выборочные линии проходят близко к
точке данных. Третий ряд этого рисунка демонстрирует эффект наблюдения вто
рой точки, снова показанной синим кружком на графике в правом столбце. На ле
вом графике показана соответствующая функция правдоподобия для этой второй
точки. Умножая эту функцию правдоподобия на апостериорное распределение из
второго ряда, получаем апостериорное распределение, показанное на среднем
графике третьего ряда. Обратите внимание на то, что это точно такое же апостери
орное распределение, которое бьmо бы получено сочетанием априорного распре
деления с функцией правдоподобия для двух точек наблюдения. На это апостери
орное распределение влияют две точки, и поскольку для определения линии до
то, что апостериорное распределение имеет намного более узкий пик, чем в треть-
222 ГЛАВА 3. МОДЕЛИ ЛИНЕЙНОЙ РЕГРЕССИИ
1 1 ~-----~
о о
-1 - 1 ~----~~
-1 0 Wo -1 о х
о о о
-1 -1 - 1 ~~----~
-1 0 Wo -1 0 Wo -1 о х
о о о
-1 -1 - 1 ------~
-1 0 Wo -1 0 Wo -1 о х
о о о
-1 -1 -1 ~r:.__ _ _ ____,
х
-1 0 Wo -1 0 Wo -1 о
вида у(х, w) = и.· 0 + w 1x. Подробное описание этого рисунка приведено в тексте
3.3. Байесовская линейная регрессия 223
[ (3.56)
f
p(t!t,a,/J) = p(tlw,/J)p( wlt,a,/J)dw, (3.57)
ждений, чтобы упростить обозначения. У славное распределение p(t lx, w, /J) це
левой переменной вычисляется по формуле (3.8), а апостериорное распределе
ние весов- по формуле (3.49). Мы видим, что формула (3.57) включает свертку
двух нормальных распределений, и, поэтому, используя результат (2.115) из
раздела 2.3.3, приходим к выводу, что прогностическое распределение имеет
(3.59)
224 ГЛАВА 3. МОДЕЛИ ЛИНЕЙНОЙ РЕГРЕССИИ
Первый член в (3.59) представляет шум в данных, тогда как второй отража
ет неопределенность, связанную с параметрами w. Поскольку шум и парамет
(Qazaz et а/" 1997), что о-~+ 1 (х)~о-~(х) (см. упражнеиие 3.11). В пределе
при N ~ оо второй член в (3.59) обращается в нуль, а дисперсия прогностиче
ского распределения возникает исключительно из-за аддитивного шума, опре
деляемого параметром р.
набору данных из раздела 1.1. На рис. 3.8 мы сначала обучаем модель, состо
ящую из линейной комбинации гауссовских базисных функций на множествах
данных разных размеров, а затем смотрим на соответствующие апостериорные
о о
-1 -1
о о
х х
о о
о OQ
-1 -1
00
о
х
о х
о о
х х
о о
-1 -1
о о
х х
(3 .60)
N
y(x,mN)= ~)(х,хп)tп, (3.61)
n=I
где функция
(3.62)
называется матрицей сглаживания, или эквивШ1ентным ядром. Регрессионные
функции, такие как эта, которые делают предсказания, получая линейные ком
бинации целевых значений из обучающего набора, называются линейными
сглаживателями. Обратите внимание, что эквивалентное ядро зависит от вход
ных значений хп из набора данных, поскольку оно появляется в определении SN.
Эквивалентное ядро проиллюстрировано для случая гауссовских базисных
функций на рис. 3.10, в которых функции ядра k(_x, х') были построены как
функция от х' для трех разных значений х. Мы видим, что они локализованы во
круг х, поэтому математическое ожидание прогностического распределения по
Рис. 3.10. Эквивалентное ядро k(x, х') для гауссовских базисных функций (см . рис . 3.1 ),
представленное в виде графика зависимости х от х', вместе с тремя срезами через
эту матрицу , соответствующими трем различным значениям х .
Набор данных, используемый для генерации Jтого ядра, состоял из 200 значений х,
0,04
0,02
о о
-1 о -1 о
Рис. 3.11. Примеры эквивалентных ядер k(x, х') для х =О, построенных как функция
базисным функциям (справа), пока3анным на рис. 3.1. Заметим, что это локали3ованные
предсказание для нового значения х, и можно показать, что сумма этих весов
N
L,k(x,xп)=l (3.64)
n=I
для всех значений х (см. упражпеиие 3.14). Этот интуитивно приятный резуль
тат можно легко доказать неформально, отметив, что суммирование эквивалент
(
но рассмотрению прогнозного среднего у х) для набора целевых данных, в ко
торых tn = 1 для всех п. Если базисные функции линейно независимы, т.е. точек
наблюдения больше, чем базисных функций, и если одна из базисных функций
является постоянной (соответствующей параметру смещения), тогда ясно, что
мы можем точно подогнать данные обучения и, следовательно, прогнозное
среднее будет равно .У( х) =1, из которого мы получим (3.64). Обратите внима
ние, что функция ядра может быть как отрицательной, так и положительной, по
этому, хотя она удовлетворяет суммарному ограничению, соответствующие
цию более подробно. Обоснованность модели (model evidence) иногда также назы
вают маргинш~ьным правдоподобием, поскольку его можно рассматривать как
функцию правдоподобия над пространством моделей, в которых параметры были
маргинализированы. 1 Отношение между уровнями обоснованности двух моделей
p('DIM;)lp(DIM1) называется коэффициентом Байеса (Кass and Raftery, 1995).
Определив апостериорное распределение по моделям, прогнозное распреде
ление можно получить, просто применив правила сложения и умножения веро
ятностей:
L
p(tjx,D) = LP(tlx,M;, D)p(M;jv). (3.67)
i=l
1
Используется также термин "свидетельство в пользу модели". - Примеч. ред.
3.4. Сравнение байесовских моделей 231
(3.68)
- p(Vlw,M,)p(wlM,)
р w1 ТJ,М, - I ) (3.69)
( )
(VM, р
- л wposterior
для данных, тогда как второй член будет уменьшаться вследствие зависимости
от М. Оптимальная сложность, определяемая максимальной обоснованностью
модели, является результатом компромисса между этими двумя конкурирую
p(D)
Рис. 3.13. Схематическое распределение наборов данных для трех моделей различной
жится в рамках рассматриваемого набора моделей. Если это так, мы можем по
казать, что сравнение байесовских моделей в среднем будет благоприятствовать
правильной модели. Чтобы убедиться в этом, рассмотрим две модели, М 1 и М 2 ,
в которых истинной является М 1• Для данного конечного набора данных воз
можно, что коэффициент Байеса будет больше для неправильной модели. Одна
ко, если мы усредним коэффициент Байеса по распределению наборов данных,
то получим его ожидаемое значение в виде
(3.73)
где p(tlw, fJ) задается формулой (3.8), а p(wlt, а, fJ) - формулой (3.49) с mN и Sм
определяемыми соответственно по формулам (3.53) и (3.54). Здесь мы опустили
зависимость от входной переменной х, чтобы сохранить обозначения относи
тельно простыми. Если апостериорное распределение р( а,/Jlt) резко достигает
'
максимума в окрестности значений а и fз то прогностическое распределение
получается простой маргинализацией по w, в которой параметры а и fJ полага
ются равными а и fз ' так что
(3.75)
N/2 ( )М/2
p(tla,p) = ( ~ ) 2: Jexp{-E(w)}dw, (3.78)
(3.80)
где
(3.81)
и
(3.82)
А= V'V'E(w) (3.83)
Jexp{-E(w)}dw=
= exp{-E(mN )}f exp{-~(w-mN )т A(w-mN)}dw = (3.85)
М N 1 N
ln(t la,p) =-lna +-lnР-Е(тн )--ln[A[--In(21Z"), (3.86)
2 2 2 2
который является искомым выражением для функции обоснованности модели.
Возвращаясь к задаче полиномиальной регрессии, мы можем вычислить
о 2 4 6 8
м
(3.87)
м 1 т 1" 1
0=---тNтN -- L.--. (3.89)
2а 2 2 i Лi +а
Умножая на 2аи переставляя члены, получим
т
атNтN " 1
=M-aL.--=y. (3.90)
i Л;+а
А,. -.
r= "L.--' (3.91)
i а+Лi
(3.92)
Заметим, что это неявное уравнение относительно а не только потому, что у за
висит от а, но и потому, что сама мода тN апостериорного распределения зависит
-dl n 11 d"
А =-L..ln(Лi 1"Лi
+а)=- у
L.--=-. (3.93)
dp dp ; Р i ,\ +а Р
3.5. Аппроксимация обоснованности 241
(3.94)
Это также неявное уравнение относительно /З, и его можно решить, выбирая
начальное значение для /З, а затем используя его для вычисления mN и у, а затем
заново вычисляя /З, используя (3.95) и повторяя процесс до сходимости. Если оба
значения, а и /З, должны определяться по данным, их значения можно пересчи
тывать вместе после каждого обновления у.
Wz
Uz
Рис. 3.15.
-+-- 1
определяется оценкой максимального правдоподобия wмL, тогда как при ненулевом а мода
2 1 N 2
(ТML = N ~ ( хп - µМL ) (3.96)
2 1 N 2
О"мАР =--~)хп - µмL) · (3.97)
N-1 п;t
3.5. Аппроксимация обоснованности 243
базисных функций, содержащей девять базисных функций, так что общее число
параметров в модели задается равным М = 1О, включая смещение. Здесь для
-5 о 5 -5 о 5
lna lna
Рис. 3.16. На левой диаграмме показан график у (красная кривая) и 2;rE w(тN) (синяя
Также показана ошибка тестового набора (синяя кривая), свидетельствующая о том, что
о
2 8
W;
о 6
3
-1
7
-2
о 2 4 6 8 10
у
(3.98)
(3.99)
Упражнения
(3.101)
м th (х-µ
y(x,u)=u 0 +~) 1 - -1
) (3.102)
J=l 2s
и найдите выражения, связывающие новые параметры {и 0 , ".,им} с исход
ными параметрами {w0, "" wм}.
Ф(ФТФ)-IФТ (3.103)
проектирует любой вектор v на пространство, натянутое на столбцы матри
цы Ф. Используя этот результат, покажите, что оценка по методу наимень
ших квадратов (3.15) соответствует ортогональной проекции вектора t на
многообразие S, как показано на рис. 3.2.
3.3. (*)Рассмотрим набор данных, в котором каждая точка данных tn связана с
весовым коэффициентом rn > О, так что сумма квадратов ошибок прини
мает вид
1 N Т 2
ED(w)=- ~>п{tп -W ф(хп)} · (3.104)
2 n=I
Найдите выражение для решения w•, которое минимизирует эту функцию
ошибок. Дайте две альтернативные интерпретации взвешенной функции
суммы квадратов ошибок в терминах 1) данных, зависящих от дисперсии
шума и 2) реплицированных точек.
D
y(x,w)=w0 + Iwixi (3.105)
i=l
Упражнения 247
(3.106)
ление вида
(3.109)
N
L f//
n=l
j ( хп) f// k ( хп) = Ijk' (3.115)
где ~k равно единице, еслиj = k, и нулю в противном случае, кроме того, по
ложим f//o(x) = 1. Покажите, что для а= О эквивалентное ядро можно запи
сать в виде k(x, х') = f//(х)т 'l'(x'), где 1f1 = ( f//o, .", f//м-~)т. Используя этот ре
зультат, покажите, что ядро удовлетворяет суммарному ограничению
N
Lk(x,xп) = 1. (3.116)
n=I
3.18. (**) WWW Выделяя полный квадрат по w, покажите, что функцию оши
бок (3.79) в байесовской модели линейной регрессии можно записать в
виде (3.80).
(3.117)
() 1 ь;0 Г(aN)lsA12
р t = (2я(/2 b~N г(ао) ISoll/2 '
(3.118)
ных, классы которых могут быть точно разделены линейной поверхностью ре
шения, называются линейно разделимыми.
252 ГЛАВА 4. ЛИНЕЙНЫЕ МОДЕЛИ КЛАССИФИКАЦИИ
р
(сk 1х ) = Р ( xlр(х)
ck) Р ( ck)
. (4.2)
(4.5)
(4.6)
у(х)
(4.7)
r=м
у > О Х2
у= О
у< О
(4.8)
рис. 4.2, слева, приведен пример с тремя классами, в котором этот подход при
водит к неоднозначности классификации областей исходного пространства.
(4.9)
а затем присвоив точку х классу Сь еслиу~х) > у1 (х) для всех}*- k. Следовательно,
граница решения между классами Ck и (j задается выражением Yk(x) = у1 (х) и соот
ветствует (D - 1)-мерной гиперплоскости, определяемой формулой
т
(wk -wj) х + (wю - w10 ) =О. (4.10)
4.1. Дискриминантные функции 257
Это уравнение имеет ту же форму, что и граница решения для случая двух
классов, рассмотренного в разделе 4.1.1, и поэтому оно обладает аналогичными
геометрическими свойствами.
(4.11)
(4.12)
----::------хв
Рис. 4.3. Области принятия решений для многоклассовой линейной дискриминантной
функции с границами решения, указанными красным цветом. Если две точки, хл и Хв,
лежат в одной и той же области решений Rk, то любая точка .Х , которая лежит на линии,
соединяющей эти две точки, также должна лежать в Rk, и, следовательно, область
Поскольку точки Хд и Хв лежат в области nk, то Уk(хл) > уj(хл) и Уk(хв) > уj(хв)
для всех j ::1- k, и, следовательно, Yk( х) > у1 ( х ), то х также лежит внутри nk. Та
ким образом, область nk является односвязной и выпуклой.
Заметим, что для двух классов мы можем либо использовать обсуждаемый
здесь формализм, основываясь на двух дискриминантных функцияху 1 (х) иу 2 (х),
либо использовать более простую, но эквивалентную формулировку, описанную
в разделе 4.1.1, на основе одной дискриминантной функцииу(х).
Теперь рассмотрим три подхода к изучению параметров линейных дискри
минантных функций: метод наименьших квадратов, линейный дискриминант
Фишера и алгоритм персептрона.
258 ГЛАВА 4. ЛИНЕЙНЫЕ МОДЕЛИ КЛАССИФИКАЦИИ
(4.13)
(4.14)
(4.17)
атtп+Ь=О, (4.18)
Рис. 4.4. Слева показаны данные из двух классов, обозначенных красными крестиками
6 6
х х
4 4
xx~'fc/: xXX.'fc/:
2 хХ( ~ 2 хХ ( ЗЬ/<
хх:.; х хх:.;х
о х •*• ~о о х •*lf
~tto
х
х х
/,
1· / )(
х х
-2
-4
/
о о
0;1 -2
-4 о о
о
о
-6 -6
-6 -4 -2 о 2 4 6 --6 -4 -2 о 2 4 6
Рис. 4.5. Пример искусственного набора данных , состоящий из трех классов,
(4.20)
Если мы установим порог для значения у и классифицируем точки, удовле
творяющие условию у ~ -w0 как точки класса С1 , а в противном случае отнесем
их к классу С2 , то получим стандартный линейный классификатор, рассмотрен
ный в предыдущем разделе. В общем случае проекция на одно измерение при
водит к значительной потере информации, а классы, хорошо разделенные в ис
ходном D-мерном пространстве, могут сильно перекрываться в одном измере
(4.21)
деление их средних векторов. Это значит, что мы можем выбрать w, чтобы мак
симизировать величину
(4.22)
где
т
mk = w mk (4.23)
является средним значением проецируемых данных из класса Ck. Однако это вы
ражение можно сделать сколь угодно большим, просто увеличивая длину векто
ра w. Чтобы решить эту проблему, можно ограничить вектор w единичной дли
ной, так что L w; =1. Используя метод множителей Лагранжа (см. прило.же-
;
11ие Д) для осуществления максимизации с ограничениями, мы найдем, что
w ос (m2 - m1) (с.м. упраж:11еиие 4.4). Но у этого подхода по-прежнему существу
4 .• .. 4
·:. '·.: .
: "·:.'.-i;'"
. .:·. :./.•':·;•. . ..• . .
·-:..: ....
2
·....... 2
-2 -2
-2 2 6 -2 2 6
Рис. 4.6. Слева показаны выборки из двух классов (изображены красным и синим
где Уп = wтх". Мы можем определить общую дисперсию в классе для всего мно
жества данных просто как s~ + si .
Критерий Фишера определяется как отноше
ние дисперсии между классами к дисперсии в классе и задается формулой
(4.25)
(4.26)
(4.27)
а Sw - объединенная матрица внутриклассовой ковариации, заданная формулой
(4.29)
Из формулы (4.27) видно, что вектор
S8 w всегда направлен параллельно векто
ру m2 - m1. Кроме того, длина вектора w не имеет значения, важно ШШIЬ его
направление, поэтому мы можем отбросить скалярные множители wтSвw и wтSww.
Умножая обе части (4.29) на sy), получим:
(4.30)
Фишера может быть получен как частный случай метода наименьших квадратов.
До сих пор мы рассматривали схему кодирования 1 из К для целевых значений.
Если же принять несколько иную схему кодирования, то решение, полученное с
Фишера (Duda and Hart, 1973). В частности, возьмем в качестве целевого значения
для класса С 1 величину NIN1, где N1 - количество примеров в классе С1 , а N-
общее количество примеров. Это целевое значение аппроксимирует обратную
оценку априорной вероятности для класса С 1 • Для класса ~ мы положим целевое
значение равным -NIN2, где N2 - количество примеров в классе ~.
Сумму квадратов ошибок можно записать в следующем виде:
1 N Т 2
E=-L,(w xn+w0 -tn). (4.31)
2 n=I
N
L,(wтxn +w0 -tп)=О, (4.32)
n=l
N
L,(wтxn +w0 -tп)хп =0. (4.33)
n=l
(4.35)
(4.36)
(4.38)
(4.39)
(4.40)
где
(4.42)
(4.43)
1 N 1 К
m=- Iхп =-INkmk (4.44)
N n=I N k=I
Sт = Sw + Sв, (4.45)
где
(4.46)
и
к
где
(4.49)
(4.50)
Существует один важный результат, который является общим для всех таких
{+
f (а) = 1, а ~ О,
-1,а<О.
(4.53)
Вектор ф(х), как правило, включает в себя компонент смещения ф 0 (х) = 1. В бо
лее ранних обсуждениях задач бинарной классификации мы сосредоточились на
схеме кодирования целевых переменных, в которой t Е {О, 1}, что является под
ходящим в контексте вероятностных моделей. Однако для персептрона более
удобно использовать целевые значения t = +1 для класса С 1 и t = -1 для класса ~'
который соответствует выбору функции активации.
Алгоритм, используемый для определения параметров персептрона w, наиболее
везде, где изменение w заставляет граmщу решения проходить через одну из точек.
(4.55)
где 11- параметр скорости обучения; r- целое число, которое нумерует этапы
• •
0,5
• •
0,5 0,5
• •
•
о о
- 0,5
-1~~~~~~~~~~~~~~~
•
-1 --0,5 о 0,5
Фрэнк Роэенблап
1928-1971
Персеmрон Розенблапа сыграл важную роль в исто
рии машинного обучения. Первоначально Розенблап
моделировал персептрон на компьютере IВМ 704 в
Корнуэлле в 1957 году, но к началу 1960-х годов он
ных параметров w1 (рис. 4.8). Исходные данные были получены с помощью про
стой системы камер, основанной на массиве фотодатчиков, тогда как базисные
функции ф можно бьmо выбирать различными способами, например, в виде про
стых фиксированных функций от случайно выбранных подмножеств пикселей
исходного изображения. Типичные приложения включали обучение распознава
нию простых фигур или символов.
Одновременно с развитием персептрона Уидроу и его коллеги изучали тесно
связанную с ним систему - адалайн (adaline) (сокращение от "адаптивный ли
нейный элемент"). Функциональная форма модели была такой же, как и для пер
септрона, но для нее был принят другой подход к обучению (Widrow and Hoff,
1960; Widrow and Lehr, 1990).
4.2. Вероятностные порождающие модели 273
Рис. 4.8. Аппаратура персептрона Mark 1. На фотографии слева показано , как были
фотографии справа показана одна из стоек адаптивных весов. Каждый вес был
Р (с; х) -
1 р ( xl с; )р (с; ) =
- p(xlc;)p(c;)+ p(xlc;)p(C2 )
(4.57)
1
=1+ ехр (-а) =О" (а)'
274 ГЛАВА 4. ЛИНЕЙНЫЕ МОДЕЛИ КЛАССИФИКАЦИИ
где мы определили
1
ст(а)= l+exp(-a) (4.59)
а= ln(_!!._)
1-ст
(4.61)
Рис. 4.9. График л огистич ес кой сигмоиды ст(а), определяемой (4.59), показ анный
красным цветом, вместе с масштабированной обратной пробит-функцией Ф(м),
для Л 2 = л/8, показанной пунктирной синей линией, где Ф(а) определяется
формул ой (4.114). М асштабный множител ь л/8 выбирается так ,
р ( ck 1х) = р ( xl ck )р ( ck ) =
LP( xjC; )Р( с})
j
(4.62)
Нормализованная экспонента также известна как функция softmax, так как она
представляет собой сглаженную версию функции max, поскольку, если ak » а1
для всех} '1= k, то p(Cklx):::: 1 и р(С1 1х):::: О.
Теперь мы исследуем последствия выбора конкретных форм для функций
правдоподобия классов, рассмотрев сначала непрерывные исходные перемен
ные х, а затем кратко обсудив случай дискретных исходных данных.
форму для апостериорных вероятностей. Для начала предположим, что все классы
имеют одну и ту же ковариационную матрицу. Таким образом, условная плот
ность вероятности при фиксированном классе ck задается формулой
(4.64)
т
р(С 1 1х) = a(w х + w0), (4.65)
276 ГЛАВА 4. ЛИНЕЙНЫЕ МОДЕЛИ КЛАССИФИКАЦИИ
где мы определили
.....
.....·
0,4
0,3 0,8
0,2 0,6
.... .
0,4
0,1 ~.
0,2
о
-] о
о -1
1-1
доли красных чернил, определяемой вероятностью р(С 1 lx), и доли синих чернил,
определяемой вероятностью p(C2 ix) = 1 - р(С 1 lx)
(4.68)
4.2. Вероятностные порождающие модели 277
где мы определили
(4.69)
(4.70)
2,5 2,5
2 2
1,5 1,5
@
0,5 0,5
о о
©
-0,5 -0,5
-1 -1
-1,5 -1,5
-2 -2
-2,5 -2,5
-2 -1 о 2 -2 -1 о 2
Рис. 4.11. Слева показаны функции правдоподобия трех классов, каждый из которых
ционной матрицей, и предположим, что мы имеем набор данных {хт tп}, где
п = 1, ... , N. Здесь tn = 1 обозначает класс С 1 , а tn =О - класс С2 • Обозначим апри
орную вероятность класса р(С 1 ) = 1i, так что р(~) = 1-tт. Для точки Хп из класса
С 1 имеем tn = 1 и, следовательно,
N
Р( t,Xl1i,Jli,µ2,I:) =П[ 1iN( xnlJli,I:)J" [ (1-tт )N( xпl~,I:)J- 1", (4.71)
n=I
где t = (t1, ••• , tN)т. Как обычно, удобно максимизировать логарифм функции
правдоподобия. Рассмотрим сначала максимизацию по tт. Слагаемые функции
логарифмического правдоподобия, зависящие от 1Т, имеют вид
N
L {tn ln1i + (1-tn )ln(l-tт)}. (4.72)
n=I
(4.75)
которое является средним для всех исходных векторов х"' назначенных клас
(4.76)
которое снова является средним для всех исходных векторов х"' назначенных
S= NI
N
s t
+ N2
N
s2• (4.78)
отдельно.
D
Р( x!Ck) =Пµ~ (1- µю )1-х;' (4.81)
i=l
Как мы видели, как для нормально распределенных, так и для дискретных ис
тивации softmax (К~ 2). Это частные случаи более общего результата, получен
ного при условии, что условные по классу плотности вероятности p(xlCk) при
надлежат экспоненциальному семейству распределений. Используя форму
(2.194) для членов экспоненциального семейства, видим, что распределение х
можно записать в виде
(4.85)
пределениям.
смотренными в главе 3.
..
.,..-".. .
•
.. '1 ..,,
· ~"·
••
~~,
.••ta~:
" . .
...
Ф2 •
• •
Х2
• • •
. ~ · J, •
~"
о
• ...1..•"..1"'#-.""•
• 1.· ~": 0,5
1 '·
• 1\
• ••
" .., 1• . .,..1
-1 .........
• ~ .".to
~- .
"
\
о
• • •
-1 о
Х1
о 0,5 Ф1
(4.87)
грессии.
da
-=а(1-а). (4.88)
da
Для набора данных {ф",t"}, где tпЕ{О, 1}, фN=ф(хп) и п= 1, ... ,N, функция
правдоподобия может быть записана в виде
N
р ( tl w) = п у~· {1- у п} н. ' (4.89)
n=I
где t=(t 1, ••• , tN)т иуп=р(С 1 1фN). Как обычно, мы можем определить функцию
ошибок, взяв отрицательный логарифм вероятности и построив функцию пере
крестной энтропии в виде
N
Е( W) = -lnp(tlw) = - L {tn lnyn + (1-tп )!n(l- Уп )}, (4.90)
n=I
N
VE(w)= L(Уп -tп)9t. (4.91)
n=I
N
VE{w) = L(wтфп -tп)Фп =ФТФw-Фтt, (4.93)
n=l
N
H=VVE{w)= LФпФ} =ФтФ, (4.94)
n=l
где Ф - матрица плана N х М, п-я строка которой задается вектором Ф:
(см. раздел 3.1.1). Итерация метода Ньютона-Рафсона принимает вид
N
VE{w)= L(Уп -tп)t =ФТ(у-t), (4.96)
n=l
N
H=VVE{w)= LУп(1-уп)ttт =ФТRФ, (4.97)
n=I
вой вектор w для вычисления уточненной матрицы весов R. По этой причине этот
алгоритм называется методом наименьших квадратов с итеративным пересче
том весов, или IRLS (iterative reweighted least squares) (RuЬin, 1983). Как и в задаче
наименьших квадратов с весами, элементы диагональной весовой матрицы
R можно интерпретировать как дисперсии, поскольку математическое ожидание
и дисперсия переменной t в модели логистической регрессии задаются формулами
2 2 ( 2
var[t] = 111'
.1Г..1[t ] - E[t] = ст х) - ст(х) = y(l - у), (4.102)
(4.103)
4.3. Вероятностные дискримннантные модели 289
(4.104)
ak =wr;. (4.105)
помощью теоремы Байеса, тем самым неявно определив параметры {wk}· Здесь
мы рассмотрим использование принципа максимального правдоподобия для
непосредственного определения параметров {wk} этой модели. Для этого нам
понадобятся производные от Yk по всем а1 (c,w. упра:щнеиие 4.17). Они опреде
ляются формулой
(4.106)
(4.107)
n=I k=I n=I k=I
где Упk =у~ ф,,), а Т - матрица N х К целевых переменных с элементами tnk· Вы
числяя отрицательный логарифм, получим функцию ошибок:
N К
N
У' " 1E(w1,···•WK) =L(YnJ -tnJ )Фп, (4.109)
n=I
У' "k У' " 1 Е( W1 , •.• , WК)= LYnk ( fkj - YnJ )ФпФпТ· (4.110)
n=I
4.3.5. Пробит-регрессия
Мы видели, что для многих условных по классу плотностей вероятности,
tn = 1, если ап ~ 8,
{ (4.112)
tn =О в противном случае.
0,8
0,6
0,4
0,2
о..._ .......
..:::..~--~~--~--:::::...
о 2 3 4
Рис. 4.13. Схематический пример плотности вероятности р( В), показанной синей
кривой и заданной в данном примере смесью двух нормальных распределений,
Обратите внимание на то, что значение синей кривой в любой точке, например,
площади зеленой фигуры под синей кривой. В стохастической пороговой модели метка
2 а
erf (а) = г Jехр ( -8 2 ) d В , (4.115)
"\/~о
которая называется функцией erf, или функцией ошибок (не следует путать ее с
функцией ошибок в модели машинного обучения). Она связана с обратной про·
бит-функцией формулой (см. упраж11ение 4.21)
(4.116)
4.3. Вероятностные дискриминантные модели 293
выводится из данных.
(4.118)
(4.119)
через 17 = lf/(y).
Следуя Nelder and Wedderburn (1972), определим обобщенную линейную мо
дель как модель, в которой у является нелинейной функцией, зависящей от ли
нейной комбинации исходных переменных (или признаков), так что
(4.120)
(4.122)
что дает f( lfl(y)) =у и, следовательно, f'(y )V''(y) =1. Кроме того, поскольку
а= Г 1 (у), имеем а= lflИ, следовательно, /'(а )V''(y) = 1. В этом случае градиент
функции ошибок сводится к формуле
(4.124)
1
p(z)=-f(z), (4.125)
z
296 ГЛАВА 4. ЛИНЕЙНЫЕ МОДЕЛИ КЛАССИФИКАЦИИ
=0. (4.126)
dz z=zo
где
d2
A=--1nf(z) (4.128)
2 dz z=zo
Заметим, что член первого порядка в разложении Тейлора отсутствует, так как
z0 является локальным максимумом распределения. Взяв экспоненту, получим:
(4.129)
А 2А (z-z0 )
12 2}
q(z)= ( 2" ) ! ехр { - • (4.130)
0,8 40
0,6 30
0,4 20
0,2 10
о
-2 -1 о 2 3 4 -1 о 2 3 4
p(z) ос exp(- z2/2)a(20z + 4), где a(z) - логистическая сигмоида, определяемая формулой
a(z) = ( 1 + е -z) 1• Слева желтым цветом показано нормализованное распределение p(z),
а красным - аппроксимация Лапласа, центрированная по моде z0 р аспределения p(z).
А =-VVln/(z)I z-a
_0 (4.132)
112
q(z)= IAl м; 2 ехр { --(z-z
1 0 )т A(z-z 0 ) } =N(zlz 0 ,A- 1 ), (4.134)
(2tr) 2
где IAI обозначает определитель матрицы А. Это нормальное распределение бу
дет определено корректно, если его матрица точности, соответствующая матри
Z= J/(z)dz=
= f (z 0 ) Jехр {- ~ ( z - z т А ( z - z
0) 0 )} d z = (4.135)
( 2tr )М/2
=/(zo) IAl1/2 '
где мы отметили, что подынтегральное выражение является нормальным рас
(4.136)
4.5. Байесовская логистическая регрессия 299
"точно определенными" (см. раздел 3.5.3). Как будет показано в разделе 5. 7 в кон
тексте нейронных сетей, результат (4.137) позволяет получить более точную оцен
ку обоснованности модели, исходя из аппроксимации Лапласа.
(4.144)
4.5. Байесовская логистическая регрессия 301
лью прогнозирования.
f f
P(CilФ,t)= P(CilФ,w)p(wlt)dw=:: a(wтф)q(w)dw (4.145)
где
(4.148)
(4.149)
f
а; = var [а) = р (а) {а 2 - Е [а )2 } da =
(4.150)
= q(w){(wтф) 2
f -(m1Ф) 2 }dw=фтSNф.
302 ГЛАВА 4. ЛИНЕЙНЫЕ МОДЕЛИ КЛАССИФИКАЦИИ
(4.151)
JФ(ll.a)N(alµ,G'2 )da=Ф[ µ
( /1. -2 + (1'2 )
1; 2 J· (4.152)
где мы определили
(4.154)
Упражнения 303
Упражнения
4.1. (**) Имея множество точек {хп}, можно определить выпуклую оболочку
как множество всех точек х, заданных формулой
(4.156)
ляр Wo, такой, что "' Xn + Wo >О для всех Xn и "' Уп + Wo <О для всех Уп·
Покажите, что если их выпуклые оболочки пересекаются, то два множе
ства точек не могут быть линейно разделимыми, и, наоборот, если они ли
(4.157)
(4.158)
Для этого предположите, что одна из базисных функций ф 0 (х) = 1, так что
соответствующий параметр w0 играет роль смещения.
4.3. (**) Обобщите результат упражнения 4.2, чтобы показать, что если сразу
несколько целевых векторов удовлетворяют одновременно нескольким
4.4. (*) WWW Покажите, что максимизация критерия разделения классов, задан
ная формулой (4.22) относительно w с помощью множителей Лагранжа
т
для выполнения ограничения w w = 1, приводит к результату w ос (m 2 - m1).
4.5. (*)Используя (4.20), (4.23) и (4.24), покажите, что критерий Фишера (4.25)
можно записать в виде (4.26).
4.6. (*) Используя определения матриц межклассовой и внутриклассовой кова
риации, заданных соответственно формулами (4.27) и (4.28), а также фор
мулы (4.34) и (4.36) и целевые значения, описанные в разделе 4.1.5, пока
жите, что выражение (4.33), которое минимизирует сумму квадратов оши
бок, можно записать в виде (4.37).
(4.160)
(4.162)
где
(4.163)
бесконечности.
4.17. (*) WWW Покажите, что производные функции активации softmax (4.104),
где ak определяются формулой (4.105), задаются формулой (4.106).
4.18. (*) Используя результат (4.106) для производных функции активации
softmax, покажите, что градиенты перекрестной энтропии (4.108) задаются
формулой (4.109).
деленной. Заметим, что полная матрица Гессе для этой задачи имеет раз
мер МК х МК, где М - количество параметров, а К - количество клас
4.23. (**) WWW В этом упражнении мы выводим результат BIC (4.139) из ап
проксимации Лапласа для вычисления обоснованности модели по форму
ле (4.137). Покажите, что если априорные распределения являются нор
мальными вида р(О) = N(OI т, V 0), то логарифмическая модель обоснован
ности в аппроксимации Лапласа принимает вид
вычислить аналитически.
5
(5.1)
(5.2)
функции h(-) обычно выбираются в виде сигмоидальных функций, таких как ло
гистическая сигмоидальная функция или гиперболический тангенс (см. упра,tе
неиие 5.1). Следуя (5.1), эти значения снова линейно объединяются в выходные
элементы активации:
(5.4)
(5.5)
где
1
а(а)=--- (5.6)
1+ ехр(-а)
Yk { х, w) =а ( LМ
J=I
(2)
wkJ h (DL w 1(!); Х; + w10(1) ) + wko2 J,
r=l
(5 .7)
Эта функция может быть представлена в виде сетевой диаграммы, как пока
зано на рис. 5 .1 . Процесс вычисления ( 5. 7) можно интерпретировать как прямое
скры т ые элементы
XD
Ук
ВХОДЫ выходы
У1
х,
Хо
(5.8)
(5.9)
Как видно на рис. 5.1, модель нейронной сети состоит из двух этапов обра
ботки, каждая из которых напоминает модель персептрона из раздела 4.1. 7, и по
этой причине нейронная сеть также называется многослойным персептроном,
или MLP (multilayer perceptron). Однако ключевое отличие от персептрона за
ключается в том, что нейронная сеть использует непрерывные сигмоидальные
рис. 5.1. Однако она легко обобщается, например, путем включения дополни
тельных слоев, каждый из которых состоит из взвешенной линейной комбина
ции вида (5.4), за которой следует по элементное преобразование с помощью не
линейной функции активации. Обратите внимание, что в литературе существует
некоторая путаница в отношении терминологии для подсчета количества слоев в
таких сетях. Сеть, показанная на рис. 5.1, может быть описана как трехслойная
(с учетом количества слоев элементов и интерпретации входов как элементов)
или как сеть с одним скрытым слоем (с учетом количества слоев скрытых эле
ментов). Мы рекомендуем терминологию, в которой сеть на рис. 5.1 называется
двухслойной, потому что это название отражает количество слоев адаптивных
(5.10)
316 ГЛАВА 5. НЕЙРОННЫЕ СЕТИ
а) б)
/
/
1
1
1
/
/
в) г)
различные функции, в частности, a)j(x) = х 2 , б).f(х) = sin(x), в)j(х) = lxl, и r).f(x) = Н(х),
где Н(х) - ступенчатая функция Хевисайда . В каждом случае в интервале ( -1, 1)
на оси х случайным образом выбирались N = 50 точек, показанных синим цветом,
3 х
х
/
/
2 х хх /
о о<е
о х/
о
о
Q_ х
Q / )(ХСХ
о
oaъ - Qoxg )( 'Ь
о /
/о е
- -х - -2<
0
/ Q) 0 X(j>~x )( -
-1 / хХ
~
/
-2 ~ )(
о Ох о
-2 -1 о 1 2
Рис. 5.4. Пример решения простой задачи бинарной классификации
Штриховые синие линии показывают контур z = 0,5 для каждого из скрытых элементов,
а красная линия показывает поверхность решения у = 0,5 для сети. Для сравнения
этому мы получаем два разных вектора весов, которые приводят к одной и той
бок. Имея обучающее множество, содержащее набор входных векторов {хп}, где
п= 1, ". , N, а также соответствующий набор целевых векторов {tп}, мы мини
мизируем функцию ошибок:
(5.11)
зов в разделе 1.5.4. Здесь оно также даст нам более ясную мотивацию как для
выбора нелинейности выходного элемента, так и для выбора функции ошибок.
Начнем с обсуждения задачи регрессии и на данный момент рассмотрим одну
целевую переменную t, которая может принимать любое действительное значе
ние. Следуя обсуждениям, приведенным в разделах 1.2.5 и 3.1, предположим,
что случайная величина t имеет нормальное распределение с математическим
дим, как расширить этот подход, чтобы обеспечить более общие условные рас
пределения. Для условного распределения, заданного формулой (5.12), доста
точно, чтобы функция активации выходного элемента была тождественной,
потому что такая сеть может аппроксимировать любую непрерывную функцию,
отображающую х в у. Имея набор данных из N независимых, одинаково распре
деленных наблюдений Х = {х 1 , "., xN}, а также соответствующие целевые зна
чения t = {t1, "., tN}, мы можем построить соответствующую функцию правдо
подобия:
N
p(tlX,w,/J) = Пp(tnlxn,w,/J).
n=l
2/З ~{у(хп,w)-tп
N }2 -2ln/J+2ln(21Z'),
N N
(5.13)
(5.14)
5.2. Обучение сетей 321
1 1 N 2
- = - L{y(xп,wМL)-tп} · (5.15)
/JмL N n=I
Обратите внимание на то, что эту величину можно вычислить после заверше
ния итеративной оптимизации, необходимой для поиска wмL· Если мы имеем не
сколько целевых переменных и предположим, что они не зависят от х и wс об
1 1 N 2
/JМL = NK ~lly(xп,WмL)-tпll ' (5.17)
(5.18)
322 ГЛАВА 5. НЕЙРОННЫЕ СЕТИ
Бернулли вида
p(tlx, w) = у(х, w)1 { 1 - у(х, w)} 1-1_ (5.20)
Если мы рассмотрим обучающий набор независимых наблюдений, то функ
ция ошибок, которая задается отрицательной логарифмической функцией прав
доподобия, является функцией перекрестной энтропии вида
N
Е ( W) =- L {tn ln Уп + (1- tn) ln (1- Уп)}, (5.21)
n=\
где Уп обозначает у(хт w). Обратите внимание, что в этой формуле нет аналога
точности шума Р, поскольку предполагается, что целевые значения размечены
правильно. Тем не менее эта модель легко обобщается на ситуацию, в которой
допускаются ошибки разметки (см. упраж11е11ие 5.4). Simard et а/. (2003) обна
ружили, что использование функции перекрестной энтропии вместо суммы
квадратов для задачи классификации приводит к более быстрому обучению, а
также к улучшению обобщения.
Если у нас есть К отдельных бинарных классификаций, то мы можем исполь
зовать сеть, имеющую К выходов, каждый из которых имеет функцию актива
ции в виде логистической сигмоидальной функции. С каждым выходом связана
бинарная метка класса tk е {О, 1}, где k = 1, ... , К. Если предположить, что метки
классов являются независимыми при заданном входном векторе, то условное
N К
такого типа, как показано на рис. 5.1. Мы видим, что весовые параметры в
первом слое сети распределяются между различными выходами, тогда как в
улучшить обобщение.
Наконец, рассмотрим стандартную задачу классификации с несколькими
классами, в которой каждый вход присваивается одному из К взаимоисключаю
N К
(5.25)
E(w)
'\/ Е
Рис. 5.5. Геометрический вид функции ошибок E(w)
в виде поверхности над пространством весов.
Наша цель - найти вектор w, такой, что E(w) принимает наименьшее значе
ние. Однако функция ошибок обычно имеет сильно нелинейную зависимость от
веса и смещения, и поэтому в весовом пространстве будет много точек, в кото
рых градиент будет равен нулю или будет очень маленьким. Действительно, из
обсуждения в разделе 5.1.1 следует, что для любой точки w, являющейся ло
кальным минимумом, существуют другие точки в весовом пространстве, экви
( Н) = дЕ (5.30)
ij дw.дw.
1 } w=w
(5.32)
где матрица Гессе Н вычисляется в точке w". Чтобы дать геометрическую интер
претацию этого, рассмотрим уравнение дrIЯ собственных значений матрицы Гессе:
(5.33)
(5.34)
(5.35)
(5.38)
(5.39)
328 ГЛАВА 5. НЕЙРОННЫЕ СЕТИ
>0. (5.40)
метода градиентного спуска, эти алгоритмы обладают тем свойством, что функ
ция ошибок всегда уменьшается на каждой итерации, пока весовой вектор не до
стигнет локального или глобального минимума.
Чтобы найти достаточно хороший минимум, может потребоваться много
кратное выполнение алгоритма с использованием градиента, каждый раз с по
мощью другой случайно выбранной начальной точки, и сравнение результиру
ющей производительности на независимом тестовом множестве.
N
E(w) = LEn (w). (5.42)
n=I
(5.43)
N
E(w)= LEп(w). (5.44)
Здесь мы рассмотрим задачу вычисления У' Еп(w) для одного такого члена в
функции ошибок. Ее можно использовать непосредственно для последователь
ной оптимизации или же для накопления результатов по обучающим множе
ствам в случае пакетных методов.
(5.45)
(5.46)
где Упk = Уk(хп, w). Градиент этой функции ошибок относительно веса w1; задается
формулой
(5.47)
жения ошибки УпJ- tn1, ассоциированной с выходом связи w1;, на переменную Хп;,
ассоциированную со входом связи. В разделе 4.3.2 мы видели аналогичную
(5.48)
ли, что в эту сумму можно включить смещения, вводя дополнительный элемент,
или ввод, с активацией, равной единице. Поэтому нам не нужно явно рассматри
(5.49)
Обратите внимание на то, что одна или несколько переменных z; в сумме (5.48)
могут быть входами, и аналогичным образом элемент j в (5.49) может быть вы
ходом.
(5.51)
334 ГЛАВА 5. НЕЙРОННЫЕ СЕТИ
да.
_1_=z. (5.52)
дwji ,.
элемента на входном конце веса (где z=1в случае смещения). Заметим, что это
выражение имеет тот же вид, что и для простой линейной модели, рассмотрен
ной в начале этого параграфа. Таким образом, для вычисления производных нам
нужно только вычислить значение д1 для каждого скрытого и выходного эле
мента в сети, а затем применить (5.53).
Как мы уже видели, для выходных элементов мы имеем
(5.54)
если в качестве функции активации выходного элемента мы используем канони
ческую связь. Чтобы вычислить д1 для скрытых элементов, мы снова используем
правило дифференцирования сложных функций,
ние на то, что элементы с меткой k могут включать в себя другие скрытые эле
менты и/или выходные элементы. При записи (5.55) мы используем тот факт,
что изменения в а1 приводят к изменениям функции ошибок только за счет вари
аций переменных ak. Если теперь подставить в (5.55) определение д, заданное
формулой (5.51), и воспользоваться (5.48) и (5.49), мы получим следующую
формулу обратного распространения:
Z;
следующим образом.
дЕ -I дЕп (5 .57)
дwji - п дwji.
336 ГЛАВА 5. НЕЙРОННЫЕ СЕТИ
или выходной элемент в сети имеет одну и ту же функцию активации h(-). Одна
ко этот вывод легко обобщить и позволить отдельным элементам иметь отдель
ные функции активации, просто отслеживая соответствие между формой функ
ции h(-) и элементами.
а -а
th{a)= е -е . (5.59)
еа +е-а
1 к 2
Eп=2~(yk-tk), (5.61)
а1 = L w1(1)i xi,
D
(5.62)
1=0
z1 = th(a1), (5.63)
м (2)
Yk = L wkJ z1. (5.64)
}=О
(5.65)
Затем выполняем обратное распространение ошибки, получая ~ для скрытых
элементов, используя формулу
к
~ = (t-z;),LwkJбk. (5.66)
k=I
ти. Отдельное вычисление функции ошибок (для заданного входного примера) по
требует О( W) операций при достаточно большом W. Это следует из того факта,
что, за исключением сети с очень разреженными соединениями, количество весов
обычно намного больше, чем количество элементов, поэтому основная часть вы
числительных операций в сети прямого распространения связана с вычислением
сумм (5.48) и вычислением функций активации, связанных с небольшими затра
тами. Каждому члену в сумме (5.48) требуется одно умножение и одно сложение,
что приводит к общей вычислительной стоимости, равной O(W).
Альтернативным подходом к обратному распространению ошибок для вы
числения производных функции ошибок является использование конечных раз
ностей. Это можно сделать путем возмущения каждого веса по очереди и ап
проксимации производных выражением
дЕ Еп ( W}i + Е ) - Еп ( W}i)
_п = +О(в), (5.68)
дwji Б
338 ГЛАВА 5. НЕЙРОННЫЕ СЕТИ
ностей:
дЕ = Еп ( w1i + 8 )- Еп ( w1i -
п
8)
+О
( 2}
е .
__ (5.69)
дwji 28
(5.70)
5.3. Обратное распространение ошибки 339
в которой матрица Якоби для красного модуля, показанного на рис. 5.8, появля
ется в среднем члене.
u--•
t---•Y
х--• w
(5.72)
которое справедливо при условии, что IЛx;I невелики. В общем случае сетевое
отображение, представленное обученной нейронной сетью, будет нелинейным,
поэтому элементы матрицы Якоби не будут константами, а будут зависеть от
конкретного используемого входного вектора. Таким образом, формула (5.72)
справедлива только для малых возмущений входов, а сама матрица Якоби долж
на быть заново вычислена для каждого нового входного вектора.
340 ГЛАВА 5. НЕЙРОННЫЕ СЕТИ
(5.73)
(5.74)
(5.75)
(5.76)
пых элементов в сети. Далее, для каждой строки k матрицы Якоби, соответству
дуk
-=
Yk ( Х; +с)- Yk ( Х; - с)
+О с
( 2) , (5.77)
дх; 2&
которое подразумевает 2D операций прямого распространения в сети с D входами.
производных ошибки
д2Е
(5.78)
дwjiдwlk
Заметим, что иногда удобно рассматривать все веса и смещения как элементы w;
одного вектора, обозначаемого w, и тогда вторые производные образуют элементы
Hij матрицы Гессе Н, где i,j Е {1, "., W}, где W- общее количество весов и сме
щений. Матрица Гессе играет важную роль во многих аспектах нейронных сетей.
меры, а затем суммируя результаты по всем примерам. Из (5.48) следует, что диа-
гональные элементь1 матрицы Гессе для примера п можно записать так:
д2 Еп д2 Еп 2
--2-=--2-z; · (5.79)
дw;; да;
(5.80)
(5.81)
1 N 2
Е=-L(Уп-tп)' (5.82)
2 n;J
где мы предполагаем, что сеть имеет один выход, чтобы упростить обозначения
(обобщение на несколько выходов не составляет труда). Тогда мы можем напи
сать матрицу Гессе в виде (с.1\1. упраж11е11ие 5.16)
(5.83)
n;\ n;J
(5.84)
где bn =У' ап = У'уп , потому что функция активации для выходных элементов яв
ляется просто тождественной. Оценка аппроксимации векторного произведения
для матрицы Гессе является простой, поскольку она включает только первые
пренебрежимо малым.
В случае функции перекрестной энтропии для сети с логистической сигмои
дальной функцией активации выходного элемента (см. упраJ1сиение 5.19) соот
ветствующая аппроксимация задается формулой
N
Н= LУп(1-уп)ЬпЬ~. (5.85)
n=I
N
HN = Iьпь~, (5.86)
n=I
(5.87)
Это тождество является просто частным случаем тождества Вудбери (В. 7). Если
теперь отождествить матрицу HL с матрицей М и вектор bL + 1 с вектором v, по
лучим:
ьт н-1
н-1 -
L+1 -
н-1
L
- н -1ь
L L+1 L+1 L
Т -1 (5.89)
1+ bL+lHL bL+1
д2Е 1
---=-- 2 {в(w1 ; +c,w1k +c)-E(w1; +&, w1k -c)-
дw1;дw1k 4& (5.90)
k-c)}+o(c 2).
-E(w1; -&,wzk +c)+E(w1; -c,w1
(5.91)
(5.92)
где Еп - вклад в ошибку точки п. Затем матрицу Гессе для этой сети можно раз
делить на три отдельных блока следующим образом.
1. Оба веса во втором слое:
(5.93)
(5.94)
(5.95)
Здесь ~'J - элемент j, j' тождественной матрицы. Если один или оба веса явля
ются членами смещения, то соответствующие выражения получаются путем
(5.98)
z1 = h(a), (5.99)
Yk = LWkJzJ. (5.100)
j
n{ а1 } = L vjixi' (5.101)
j
(5.108)
(5.109)
(5.110)
(5.111)
М= З
о
-~ )(
)(
о
)(
о
-1 -1 -1
о о о
160 +
140
:f
+
120 + f
• + + +- +
~
100 +
+ i +f *l
80
60
+
... + +
+ ,j.
t
+ i 1 :. t .j
о 2 4 6 8 10
Рис. 5.1 О. Зависимость суммы квадратов ошибок на множестве тестирования для
(5.113)
Yk = LWkJzi+wko· (5.114)
j
(5.116)
(5.117)
(5.118)
(5.120)
5.5. Регуляризация в нейронных сетях 353
(5.121)
(].~ = 1,
4г----~---~--~----.
«t = 1, (].~ = 1, ~=1
40
(].~ = 1, «t = 1, (].~ = 10, ~ = 1
2 20
о о
-2 -20
-4 -40
-6'----~---~--~------' -60
-1 --0,5 о 0,5 -1 --0,5 о 0,5
(].~ = 103,
5г----~---~--~----,
«t = 10 2, (].~ = 1, ~ = 1 а.~ = 10
3,
5г----~---~--~----.
dt = 103, а.~ = 1, ~=1
о о
-5 -5
-10~--~---~--~------' -10~--~---~--~--~
-1 --0,5 о 0,5 -1 --0,5 о 0,5
,
четырьмя гиперпараметрами, а1ь , a 1w , а~ и а; которые представляют собой точности
нормальных распределений смещений первого слоя, весов первого слоя, смещений
(5.123),
где
(5.124)
0,45
0,25
~ 0,4
0,2
~. 1 11 lllllllD
1
0,15 о 0,35 о
10 20 30 40 50 10 20 30 40 50
от лапа итерации для множества синусоидал ьных данных. Цель достижения наилучшего
5.5.3. Инварианты
торая использует такие функции, как входы, обязательно будет также учи
тывать эти инварианты.
рис. 5.14. Для последовательных алгоритмов обучения это можно сделать, пре
образовывая каждый входной пример до того, как он будет представлен модели,
чтобы при повторном использовании примеров каждый раз добавлялось друтое
преобразование (взятое из соответствующего распределения). Для пакетных ме
тодов аналогичный эффект может быть достигнут путем многократного тиражи
рования каждой точки и независимого преобразования каждой копии. Использо
вание таких дополненных данных может привести к значительным улучшениям
Xz
(5.126)
где Jld- элемент (k, i) матрицы Якоби J, рассмотренной в разделе 5.3.4. Резуль
тат (5.126) можно использовать для модификации стандартной функции ошибок,
чтобы стимулировать локальную инвариантность в окрестности точек путем до
бавления к исходной функции ошибок Е регуляризирующей функции П, чтобы
получить полную функцию ошибок в виде
E=E+m, (5.127)
(5.128)
а) б)
в) г)
как описано в разделе 1.5.5. Там мы рассмотрели сеть, имеющую один вывод,
(5.130)
E=~fJ{y(x)-t} 2 p(tlx)p(x)dxdt+
+JE[;]fJ{у( х )-t}-rтvy( x)p(tlx )dxdt
+JE[ q2 ]~ п {у( х )-t}{( -r')т Vy( х) +-rтVVy( х )-r} +
+( 'tтVy( х )2 )p(tlx )р( x)dxdt +0( q3 ).
Поскольку распределение преобразований имеет нулевое математическое ожи
дание, мы имеем JE[q] =О. Кроме того, обозначим JE[q 2] через Л. Если отбросить
члены порядка О(;\ то функция средней ошибки принимает вид
E=E+m, (5.131)
(5.134)
(5.135)
ющие инварианты.
ключается в том, что соседние пиксели сильнее коррелированы, чем более отда
ленные. Многие из современных подходов к компьютерному зрению использу
лей. Таким образом, вся карта признаков имеет 25 регулируемых весов и один
регулируемый параметр смещения. Входные значения из фрагмента образуют
линейную комбинацию с помощью весов и смещения, а результат преобразу
ется сигмоидальной нелинейной функцией по формуле (5.1). Если мы рас
1
Синоним: субдискретизация. - Примеч. ред.
366 ГЛАВА 5. НЕЙРОННЫЕ СЕТИ
сов. Кроме того, разделение весов на группы, вычисление среднего веса для
каждой группы и распространение значений внутри групп становятся частью
процесса обучения.
Напомним, что простой регуляторизатор на основе редукции весов, приве
денный в (5.112), можно рассматривать как отрицательный логарифм априорно
го нормального распределения по весам. Мы можем назначать значения весов
для нескольких групп, а не только для одной группы, рассматривая распределе
где
м
(5.138)
E(w)=E(w)+O(w). (5.139)
Эта ошибка минимизируется как по весам w;, так и по параметрам смеси {"J, µ, Oj}.
Если бы веса бьmи постоянными, то параметры смеси можно бьшо бы определить с
помощью алгоритма ЕМ, рассмотренного в главе 9. Однако распределение весов
само эволюционирует во время процесса обучения, и поэтому, чтобы избежать вы
числительной неустойчивости, выполняется совместная оптимизация весов и пара
метров смеси. Это можно сделать с помощью стандартного алгоритма оптимиза
(5.140)
(5.141)
(5.142)
(5.143)
(5.146)
(5.147)
локоть
вверх
манипулятора, и, как показано на рисунке справа, эта обратная кинематика имеет два
решения , соответствующие положениям "ло коть вверх" и "локоть вниз"
о о
о о
Рис. 5.19. Слева показан набор данных для простой прямой задачи , в которой красная
p(tlx)
(5.150)
(5.151)
(5.152)
(5.153)
(5.154)
дЕп
--" = nk -rпk· (5.155)
даk
(5.156)
(5.157)
f
e[tlx]= tp(tlx)dt= Ink(x)µk(x),
k=I
(5.158)
о о
о о
а) б)
о о
о о
в) г)
Рис. 5.21. График коэффициентов смешивания п,(х) как функция от х для трех функций
ядер имеет высокую априорную вероятность, тогда как при промежуточных значениях х,
целевых данных для той же сети со смешанной плотностью (в). График приближенной
ограниченную ценность.
где мы использовали формулы (5.148) и (5.158). Это более общий результат, чем
соответствующий результат для метода наименьших квадратов, потому что
ское ожидание может дать плохое представление данных. Например, при управ
лении простым манипулятором робота (см. рис. 5 .18) нам нужно выбрать одно
из двух возможных значений шарнирного угла, чтобы достичь желаемой пози
ции манипулятора, тогда как среднее этих двух решений само по себе не являет
ся решением. В таких случаях большую ценность может иметь условная мода.
Поскольку условная мода для сети со смешанной плотностью не имеет простого
аналитического решения, для этого потребуется численная итерация. Простая
альтернатива - принять математическое ожидание наиболее вероятного компо
нента (т.е. того, который имеет наибольший коэффициент смешивания) при
каждом значении х. Это решение показано для модельного множества данных,
представленного на рис. 5.21, г.
(обратной дисперсией) р:
p(tlx, w, Д) = N(tly(x, w), /Т 1 ). (5.161)
а Р N
2 2 n=I
L
lnp(wlV) = --wтw-- {у(хп,w)-tп} + const,
2
(5.165)
(5.167)
J
p(tlx,V)= p(tlx,w)q(wlV)dw. (5.168)
(5.169)
где мы определили вектор
9 =У'. у( х, w)1 -
w-wМAP
. (5.170)
(5.171)
1 W N N
lnp(Vla,/J) = -Е(wМАР )- 2lnlAI + 2 lna + 2 ln/J- 2 ln(2я), (5.175)
/JN 2 а Т
Е(wмАР)=-I{у(хп,WмАР)-tп} +-wмАР"мАР· (5.176)
2 n=I 2
Как видно, эта функция имеет тот же вид, что и соответствующий результат
(3.86) для модели линейной регрессии.
В рамках подхода, основанного на обоснованности моделей, делаем точечные
вычисления для а и fJ, максимизируя ln p('DI а, fЗ). Рассмотрим сначала максими
зацию по а, что можно сделать по аналогии со случаем линейной регрессии,
(5.177)
382 ГЛАВА 5. НЕЙРОННЫЕ СЕТИ
а= r (5.178)
т
WмАРWМАР
r=f_i_. (5.179)
i=I а+А;
Заметим, что этот результат был точным для случая линейной регрессии. Од
нако для нелинейной нейронной сети он не учитывает тот факт, что изменения в
{Звызовут изменения в матрице Гессе Н, что, в свою очередь, изменит собствен
ные значения. Поэтому мы неявно проигнорировали слагаемые, входящие в
производные от А; относительно а.
Аналогично из (3.95) следует, что максимизация обоснованности относи
тельно fЗ дает формулу для уточнения:
1 1 N 2
-=-I{у{хп,WмАР)-tп} · (5.180)
/З N-r n=I
лентных решений будет найдено ((:,и, раздел 5.1.1). Однако могут существовать
и неэквивалентные решения, и они, как правило, дают разные значения для оп
тимизированных гиперпараметров.
где tn е {О, 1} - целевые значения, ауп =у(хп, w). Обратите внимание на то, что
в этой формуле нет гиперпараметра /З, поскольку предполагается, что точки раз
мечены правильно. Как и ранее, априорное распределение считается изотроп
ным и нормальным (5.162).
На первом этапе применения аппроксимации Лапласа к этой модели выпол
няется инициализация гиперпараметра а, а затем путем максимизации логариф
мической функции правдоподобия определяется вектор параметров w. Это экви
валентно минимизации регуляризованной функции ошибок
(5.182)
384 ГЛАВА 5. НЕЙРОННЫЕ СЕТИ
а Т
Е( WмАР) = - LN {tn lnyn + (1-tn )ln(l- Уп )} +-wМАРwМАР,
n=I 2
(5.184)
2 о о~
о
-1
-2
-2 -1 о 2
где аМАР(х) = а(х, Wмлр), а вектор Ь =Va(x, •мАР) можно найти с помощью алго
ритма обратного распространения ошибки.
Поскольку теперь мы имеем гауссовскую аппроксимацию к апостериорному
распределению по w, а модель для а является линейной функцией w, можно об
ратиться к результатам раздела 4.5.2. Распределение значений активации вы
ходного элемента, обусловленное распределением по сетевым весам, определя
ется формулой
f
р( alx, v) = д( а -аМАР ( х)-ьт (х )(w-wМAP) )ч( wlV )dw, (5.187)
з з
2 2
о о
о о
-1 -1
-2 -2
ох
-2 -1 о 2 -2 -1 2
Рис . 5.23. Аппроксимация Лапласа для байесовской нейронной сети, имеющей восемь
Упражнения
сначала найдите связь между о-(а) и th(a), а затем покажите, что парамет
ры двух сетей отличаются линейными преобразованиями.
5.2. (*) WWW Покажите, что максимизация функции правдоподобия при услов
ном распределении (5.16) для нейронной сети с несколькими выходами
эквивалентна минимизации суммы квадратов ошибок (5.11 ).
5.3. (**)Рассмотрим задачу регрессии с несколькими целевыми переменными, в
которой предполагается, что распределение целевых переменных, обуслов
ленное входным вектором х, является нормальным распределением вида
5.6. (*) WWW Покажите, что производная функции ошибок (5.21) относительно
активации ak выходного элемента, имеющего логистическую сигмоидаль
5.10. (*) WWW Рассмотрим матрицу Гессе Нс уравнением для собственного век
тора (5.33). Устанавливая вектор v в (5.39) равным каждому из собствен
ных векторов ui по очереди, покажите, что матрица Н положительно опре
делена, если и только если все ее собственные значения положительны.
5.19. (*) WWW Выведите выражение (5.85) для аппроксимации матрицы Гессе с
помощью векторного произведения для сети, имеющей один выходной
элемент с логистической сигмоидальной функцией активации и функцией
перекрестной энтропии, соответствующее результату (5.84) для суммы
квадратов ошибок.
5.23. (**)Обобщите результаты раздела 5.4.5 для точной матрицы Гессе двух
слойной сети, чтобы учесть соединения с пропуском слоев, которые идут
непосредственно от входов к выходам.
(5.195)
(5.197)
Упражнения 391
(5.198)
Покажите, что при •~ оо это дает ..,<т) ~ w·, как и ожидалось, при условии
ll-p7711<1. Теперь предположим, что обучение прекращается после конеч
ного числа шагов •· Покажите, что компоненты весового вектора, парал
лельного собственным векторам матрица Гессе, удовлетворяют условиям
(5.201)
д
9=:L•;-·
; дх1
(5.202)
(5.204)
392 ГЛАВА 5. НЕЙРОННЫЕ СЕТИ
(5.206)
где мы определили
(5.207)
дJТk
а111 = о1;1Т1 -JТ11Тk. (5.208)
5.34. (*) WWW Выведите результат (5.155) для производной функции ошибок
по активациям выходов сети, управляющим коэффициентами смешивания
в сети со смешанной плотностью.
смешанной плотностью.
алгоритмов, используя ядерный трюк, также известный как за.мена ядра. Общая
идея состоит в следующем. Если у нас есть алгоритм, сформулированный так,
что исходный вектор х входит только в скалярные произведения, то мы можем
заменить это скалярное произведение другим выбором ядра. Например, метод
замены ядра может быть применен к анализу главных компонентов (см. раз
дел 12.3), что приводит к нелинейному варианту РСА (Schбlkopf et а/" 1998).
Другими примерами замены ядра являются метод ближайших соседей и ядер-
6.1. Двойственные представления 397
ный дискриминант Фишера (Mika et а/" 1999; Roth and Steinhage, 2000; Baudat
and Anouar, 2000).
Существует множество форм ядра, и несколько примеров ядер описано в этой
главе. Многие из них являются функцией разности между аргументами, так что
k(x, х') = k(x - х'). Они называются стационарными ядрами, потому что они ин
вариантны к сдвигам в пространстве входных переменных. Другая разновид
1N { 2 А
J(w)=-:L wтф(хп)-tп} +-wтw, (6.2)
2п~ 2
где Л ~О. Если мы приравняем градиент J(w) по wк нулю, то увидим, что реше
ние для w принимает вид линейной комбинации векторов ф(хп) с коэффициен
тами, являющимися функциями w, вида
1 N N
W=--:L{wтф(хп)-tп}Ф(хп)= Lапф(хп)=Фта, (6.3)
А п=\ n=\
где Ф - матрица плана (design matrix), в которой п-я строка задается вектором
~ т
.,,(хп) . Здесь вектор а= (а 1 , "., aN) т , и мы определили
(6.4)
1 1 л
J(a) =-атФФтФФт а-атФФтt +-tтt+-атФФт а (6.5)
2 2 2 '
где t = (t 1, ... , tN)т. Определим теперь матрицу Грама К= ФФт, являющуюся
симметричной матрицей с N х N элементами
(6.6)
где мы ввели ядро k(_x, х'), определенное формулой (6.1). В терминах матрицы
Грама сумма квадратов ошибок может быть записана как
1 1 л
J( а) =-аткка-а ткt +-tтt +-атка. (6.7)
2 2 2
Исключая w из (6.4) с помощью формулы (6.3) и решая уравнение относи
тельно а, получаем:
(6.8)
(6.9)
где мы определили вектор k(x) с элементами kп(х) = k(x"' х). Таким образом, мы
видим, что двойственная формулировка позволяет полностью выразить решение
задачи, полученное методом наименьших квадратов, через ядро k(x, х'). Эта
формулировка называется двойственной, потому что решение а можно предста
вить как линейную комбинацию элементов из ф(х), восстанавливая исходную
формулировку в терминах вектора параметров w (см. упражнение 6.1). Обрати
те внимание, что предсказание в точке х задается линейной комбинацией целе
вых значений из обучающего множества. На самом деле мы уже получили этот
результат в разделе 3.3.3, используя несколько иное обозначение.
В двойственной формулировке мы определяем вектор параметров а, инвер
тируя матрицу N х N, тогда как в исходной пространственной формулировке нам
пришлось инвертировать матрицу М х М для определения w. Поскольку N обычно
намного больше М, двойственная формулировка, по-видимому, не особенно по
лезна. Однако преимущество двойственной формулировки, как мы увидим, со
стоит в том, что она полностью выражается через ядро k(x, х'). Поэтому мы мо
жем работать непосредственно в терминах ядер и избегать явного введения век
тор-функции ф(х), позволяющей неявно использовать пространства признаков с
высокой, даже бесконечной размерностью.
6.2. Конструирование ядер 399
Двойственность также будет играть важную роль при обсуждении метода опор
ных векторов в главе 7.
т м
k(x,x') =Ф(х) Ф(х') = Lф,(х)Фi(х'), (6.10)
i=I
где фi(х)-базисные функции.
0,5
-0,5
-1'---------~
-1 о
6,0~-------~
3,0
0,0
-04~----~---~
'-1 о о
В каждом столбце нижний график показывает ядро k(x, х'), определенное формулой (6.1 О),
как функцию от х при х' =О, а верхний график показывает соответствующие базисные
выми коэффициентами.
Однако в более общем плане нам нужен простой способ проверить, является
ли функция корректным ядром без необходимости явно строить функцию ф(х).
Необходимым и достаточным условием того, что функция k(x, х') является кор
ректным ядром (Shawe-Taylor and Cristianini, 2004), является то, что матрица
Грама К, элементы которой заданы значениями k(хт хт), должна быть положи
тельно полуопределенной для всех возможных вариантов множества {хп}. Заме-
тим, что положительно полуопределенная матрица - это не то же самое, что
Если ядра k1(x, х') и k2(x, х') являются корректными, то следующие ядра тоже
будут корректными:
(6.23)
402 ГЛАВА 6. ЯДЕРНЫЕ МЕТОДЫ
(6.24)
и получая
т 2 т 2 т 2
k(x, х') = ехр(-х х/2а )ехр(х х'/а )ехр(-(х') х'/2а ), (6.25)
а затем используя (6.14) и (6.16) вместе с утверждением о корректности линей
ного ядра k(x, х') = хтх. Заметим, что вектор признаков, соответствующий гаус
сову ядру, имеет бесконечную размерность (см. упраж·нение 6.11).
Гауссово ядро не ограничивается использованием евклидова расстояния. Ес
ли мы используем замену ядра в (6.24) для замены хтх, нелинейным ядром
к(х, х'), получим:
(6.27)
отображением р(х). Говорят, два входа х и х' являются похожими, если оба они
имеют высокие вероятности. Мы можем использовать (6.13) и (6.17) для расшире
ния этого класса ядер путем рассмотрения сумм по произведениям разных распре
f
k(x,x')= p(xlz)p(x'lz)p(z)dz, (6.30)
тельностей длины L, так что набmодение задается выражением Х = {х 1 , "" xr}. По
пулярной порождающей моделью для последовательностей является скрытая
(6.34)
1 N Т
F=-:Lq(8,xп)q(8,xп). (6.35)
N n=I
1 N 2
E=- Lf{y(xп +')-tп} v(,)d,. (6.39)
2 n=l
Используя вариационное исчисление, мы можем выполнить оптимизацию по
(6.41)
для любого значения х. Эффект такой нормализации показан на рис. 6.2. Норма-
лизация иногда используется на практике, чтобы избежать появления областей
пространства входных переменных, где все базисные функции принимают не
большие значения, из-за чего прогнозные значения в таких областях обязательно
будут либо малы, либо зависеть исключительно от параметра смещения.
6.3. Радиальные базисные функции 407
0,8 0,8
0,6 0,6
0,4 0,4
0,2 0,2
о
-0,5 о 0,5 -1 -0,5 о 0,5
y(x)=E[tlx ]= J tp(tlx)dt=
Jtp(x,t)dt
(6.43)
= f р (х, t) dt =
Lf tf(x-xn,t-tп)dt
п
Lf f(x-xm,t-tт)dt.
т
00
f f (х, t) dt =о
--«;
(6.44)
Lg(x-xп)tп
у(х)= Ig(x-xm) (6.45)
т
6.3. Радиальные базисные функции 409
g(х-хп)
k ( х, хп) = I g (x-xm ), (6.46)
т
тогда
"'
g(x)= Jf(x,t)dt. (6.47)
Результат
(6.45) известен как модель Надарая-Ватсона, или ядерная регрес
сия (Nadaraya, 1964; Watson, 1964). Для локализованного ядра она придает
больший вес точкам хт близким к х. Заметим, что ядро (6.46) удовлетворяет
ограничению на сумму
N
Lk(x,xп)=l.
n=l
(6.48)
т
щих точек, что приводит к модели, которая быстрее вычисляется для тестовых
точек. Таким образом, мы несем повышенные вычислительные затраты на этапе
обучения, чтобы ускорить работу модели при составлении прогнозов.
1,5
0,5
-0,5
-1
функция покюана зеленой кривой, точки исходных данных покюаны синим цветом, и
показанного красным цветом. Синий эллипс вокруг каждой точки данных показывает
у= Фw, (6.51)
ние (см. упра:ж:11е11ие 2.31). Таким образом, нам нужно найти только его матема
тическое ожидание и ковариационную матрицу, которые следуют из (6.50):
(6.54)
В тех случаях, когда входной вектор х является двумерным, это также можно
назвать гауссовским случайным полем. В более общем случае стохастический
процесс у(х) задается путем совместного распределения вероятностей для любо
го конечного набора значенийу(х 1 ), ".,y(xN) согласованным образом.
Ключевым моментом гауссовских случайных процессов является тот факт,
что совместное распределение по N переменным у 1 , "., YN полностью определя
ется статистиками второго порядка, а именно математическим ожиданием и ко
(6.55)
3 3
1,5 1,5
о о
- 1,5 -1,5
-3
-1 -0,5 о 0,5 -0,5 о 0,5
Рис. 6.4. Примеры гауссовских процессов для гауссового ядра (слева)
(6.59)
(6.63)
нием для различных значений параметров 00, •.• , Вз, а на рис. 6.6 показан набор
точек, извлеченных из генеральной совокупности с совместным распределением
(6.60) вместе с соответствующими значениями, определяемыми (6.61).
(1,00; 4,00; 0,00; 0,00) (9,00; 4,00; 0,00; 0,00) (1,00; 64,00; 0,00; 0,00)
1,5
-1,5
-3
-1 --0,5 о 0,5 --0,5 о 0,5
(1,00; 0,25; 0,00; 0,00) (1,00; 4,00; 10,00; 0,00) (1,00; 4,ОО; 0,00;5,ОО)
3 9~-~-~-~-~
1,5 4,5 2
о о о
-1,5 -4,5 -2
-3 -9~-~-~-~-~
-1 --0,5 о 0,5 -1 --0,5 о 0,5 --0,5 о 0,5
-з~------~------~
-1 о х
Рис. 6.6. Выбор точек {t,J из гауссовского процесса. Синяя кривая показывает
-] о
Из (6.61) следует, что совместное распределение по t1, ••• , tN+ 1 задается выра
жением
(6.64)
(6.65)
0,5
о
/~
о
- 0,5
-1
набору данных, показанному на рис. А . 6, в котором три крайних правых точки были
где ап - п-й компонент вектора C~t . Таким образом, если ядро k(хт xm) зави
сит только от расстояния llxn - Xmll, то получим разложение по радиальным ба
зисным функциям .
Результаты (6.66) и (6.67) определяют прогностическое распределение для ре
грессии на основе гауссовского процесса с произвольным ядром k(хт xm). В част
ном случае, когда ядро k(x, х') определено с помощью конечного набора базисных
функций, мы можем получить результаты, полученные в разделе 3.3. 2 для линей
ной регрессии, придерживаясь концепции гауссовского процесса (с.м. упра:нсне-
11ие 6.21).
Следовательно, для таких моделей мы можем получить прогностическое рас
(6.69)
~ln
д(}. р
(tiO) =-_!_2 Tr(c-N дСN)
1
д(}.
+_!_t1c-N дСN
2
1 c- t.
д(}. N
1 (6.70)
1 1 1
Так как ln p(tl О) в общем случае является невыпуклой функцией, он может иметь
несколько максимумов.
-1
1
10°
10-4 ~-~--~--~-~-~
о 20 40 60 80 100
(6.72)
10
5 0,75
о 0,5
-5 0,25
-10 о
-1 -0,5 о 0,5 -1 -0,5 о 0,5
Как обычно, обозначаем входные обучающие данные через х 1 , ••• ,хн с соот-
т
ветствующими наблюдаемыми целевыми переменными tн= (t 1, •• " tн) . Мы так-
же рассмотрим одну контрольную точку Хн+~ с целевым значением tN+i· Наша
(6.75)
что ядро k(x, х') определяется вектором параметров (} и позже обсудим, как
можно извлечь (} из обучающих данных.
Для задач бинарной классификации достаточно предсказать p(tN+ 1 = 1ltн), по
тому что значение p(tN+ 1 = Oltн) затем задается равным 1 - p(tN+ 1 = 1ltн). Необхо
димое прогностическое распределение задается формулой
(6.76)
(6.78)
N t 1-t N
1
Р (t N а N ) = Па ( ап ) " (1- а ( ап )) " = П еа" 1" а (-ап ) . (6.79)
n=I n=\
=-.!.ат
2 NNN
с- 1 а - N
2
ln(2tr)-..!...1n1c
2 N1+ еNN
а - (6.80)
N
-L ln (1+ еа" ).
n=I
(6.81)
(6.82)
6.4. Гауссовские процессы 427
Эти формулы вычисляются повторно до тех пор, пока не сойдутся к моде, кото
рую обозначим через а;.. В моде градиент V''l'(aN) равен нулю и, следовательно,
а;. будет удовлетворять условию
(6.84)
(6.86)
(6.88)
Теперь, когда мы имеем нормальное распределение для p(aN+ 1ltN), можно ап
проксимировать интеграл (6.76), используя результат (4.153). Как и в байесов
ской логистической регрессионной модели (см. раздел 4.5), если нас интересует
428 ГЛАВА 6. ЯДЕРНЫЕ МЕТОДЫ
только граница решения, соответствующая p(tN+ 1ltN) = 0,5, то нужно только рас
смотреть математическое ожидание и можно игнорировать эффект дисперсии.
Необходимо также определить параметры (} функции ковариации. Один из
подходов состоит в том, чтобы ~аксимизировать функцию правдоподобия, задан
ную распределением p(tNI 8), для которой нужны выражения для логарифмической
функции правдоподобия и его градиента. При желании также можно добавить
подходящие члены регуляризации, что приведет к решению с оштрафованным
максимальным правдоподобием. Функция правдоподобия определяется так:
(6.89)
(6.90)
где 'Р (а.~ )=ln р (а.~ 1(}) + ln р ( t N 1а~) . Нам также необходимо вычислить гради
ент ln p(t,yj 8) относительно параметра fJ. Обратите внимание на то, что измене
что аппроксимация Лапласа бьmа построена таким образом, что 'l'(aN) имеет ну
левой градиент в точке а N =а.~ , и поэтому функция '1' (а~) не дает вклада в
градиент из-за ее зависимости от а~ . Это дает следующий вклад в производную
по компоненту ~ выражения
6.4. Гауссовские процессы 429
_! f дlnjwн.+C~1 j да:=
2 n=I дап д()J
(6.92)
1~[( l+CNWN )-1 CN J
=-- L... •(
Un 1-un •)(1-2un•)да:
--,
2 n=I пп д(}j
2 2
о о
-2 -2
-2 о 2 -2 о 2
Упражнения
6.5. (*) WWW Проверьте результаты (6.13) и (6.14) для построения корректных
ядер.
6.6. (*) Проверьте результаты (6.15) и (6.16) для построения корректных ядер.
6.8. (*) Проверьте результаты (6.19) и (6.20) для построения корректных ядер.
6.10. (*) Покажите, что ядро k(x, х') = f(x)f(x') - отличный выбор ядра для
обучения функцииf(х), показав, что линейная обучающая машина, осно
ванная на этом ядре, всегда будет находить решение, пропорциональ
ное f(х).
1, если И ~ А,
Фи( А)= { (6.95)
О в противном случае.
6.13. (*) Покажите, что ядро Фишера, определенное в (6.33), остается инвари
антным, если мы делаем нелинейное преобразование вектора параметров
О~ 'lf(O), где функция l/f(·) обратима и дифференцируема.
6.14. (*) WWW Запишите форму ядра Фишера, определяемую (6.33), для распре
деления p(xlµ) = N(xlµ, S), которое является гауссовским с математиче
ским ожиданиемµ и фиксированной ковариационной матрицей С.
6.17. (**) WWW Рассмотрим суммы квадратов ошибок (6.39) для данных, име
ющих шум, где v( i;) - распределение шума. Используя вариационное
исчисление, минимизируйте эту функцию ошибок относительно функции
у(х) и покажите, что оптимальное решение задается разложением вида
(6.40), в котором базисные функции задаются формулой (6.41).
6.18. (*)Рассмотрим модель Надарая-Ватсона с одной входной переменной х
и одной целевой переменной t, имеющей гауссовы компоненты с изо-
2
тропными ковариациями, так что ковариационная матрица имеет вид CJ' 1,
где 1- единичная матрица. Запишите выражения для условной плотно
сти p(tlx) и условного математического ожидания E[tlx] и дисперсии
var[tlx] в терминах ядра k(_x, хп).
6.19. (**)Альтернативная точка зрения на ядерную регрессию возникает из
рассмотрения задач регрессии, в которых входные переменные, а также
1N 2
E=- LJ{y(xп -~;п)-tп} g(i;п)di;n. (6.99)
2 n=I
Минимизируя Е относительно функции y(z) с использованием вариацион
ного исчисления (eow. прило.жепие Г), покажите, что оптимальное реше
ние для у(х) задается ядерным регрессионным решением Надарая-Ватсона
вида (6.45) с ядром вида (6.46).
6.20. (**) WWW Проверьте результаты (6.66) и (6.67).
6.21. (**) WWW Рассмотрим модель регрессии на основе гауссовского процесса,
в которой ядро определено с помощью фиксированного набора нелиней
ных базисных функций. Покажите, что прогностическое распределение
идентично результату (3.58), полученному в разделе 3.3.2 для байесов
ской модели линейной регрессии. Для этого заметим, что обе модели
434 ГЛАВА 6. ЯДЕРНЫЕ МЕТОДЫ
t(xN+ 1), .. " t(xN+L) при заданных значениях t(x 1), ". , t(xN). Покажите марги
нальное распределение для одного из тестовых наблюдений t1, где индекс
N + 1 5, j 5, N + L задается обычным результатом регрессии на основе
гауссовского процесса (6.66) и (6.67).
6.23. (**) WWW Рассмотрим регрессионную модель на основе гауссовского про
цесса, в которой целевая переменная t имеет размерность D. Запишите
условное распределение tN+ 1 для тестового входного вектора xN+ 1 при за
определенной матрицей.
6.26. (*) Используя результат (2.115), выведите выражения (6.87) и (6.88) для
математического ожидания и дисперсии апостериорного распределения
один набор параметров w и Ь, такой, что функция вида (7.1) удовлетворяет усло
вию у(хп) >О для точек с tn = +1 и у(хп) <О для точек, удовлетворяющих усло
вию tn =-1, так что tпу(хп) >О для всех обучающих точек.
Конечно, существует множество таких решений, которые точно разделяют
классы. В разделе 4.1. 7 описан алгоритм персептрона, который гарантированно
найдет решение за конечное количество шагов. Однако решение, которое он
находит, будет зависеть от (произвольных) начальных значений, выбранных для
w и Ь, а также от порядка, в котором представлены обучающие точки. Если су
ществует несколько решений, которые точно классифицируют обучающее мно
жество, то мы должны попытаться найти то из них, которое дает наименьшую
7.1. Методы классификации с максимальным зазором 437
у= -1
В методе опорных векторов граница решения выбирается так, чтобы зазор бьm
максимальным. Решение о максимальном зазоре может бьпъ обосновано с помо
щью теории вычислителыюго обучения, также известной как теория статисти
ческого обучения (см. разде.;1 7.1.5). Тем не менее простое понимание истоков
концепции максимального зазора бьmо дано Tong and Koller (2000), которые рас
смотрели теорию классификации, основанную на гибриде порождающих и дис
криминационных подходов . Сначала они моделируют распределение по входным
векторам х для каждого класса с использованием оценки плотности Парзена с
гауссовыми ядрами, имеющими общий параметр (i. Вместе с априорным распре
делением класса это позволяет определить оптимальную границу принятия реше
ния с минимальным уровнем ошибок. Однако, вместо того чтобы использовать эту
оптимальную границу, они определяют лучшую гиперплоскость, минимизируя
(7.2)
(7.4)
для точки, ближе всего расположенной к поверхности. В этом случае все точки
исходных данных будут удовлетворять ограничениям
(7.5)
Это выражение называется каноническим представлением гиперплоскости реше
ния. Для точек, на которых выполняется равенство, ограничения считаются ак
тивными, в для остальных они - неактивными. По определению всегда будет
существовать хотя бы одно активное ограничение, потому что всегда найдется
7.1. Методы классификации с максимальным зазором 439
(7.7)
где а= (а 1 , "., aN{ Обратите внимание на знак "минус" перед множителем Ла
гранжа, поскольку мы минимизируем по w и Ь и максимизируем по а. Приравни
вая производные от L(w, Ь, а) по w и Ь к нулю, получим следующие два условия:
(7.8)
n;J
(7.9)
(7.1 О)
при ограничениях
(7.12)
Здесь ядро определяется как k(_x, х') = ф(х)тф(х'). Как и в предыдущем слу
чае, задача принимает форму задачи квадратичного программирования, в кото
рой мы оптимизируем квадратичную функцию при ограничениях в виде нера
венств. Мы обсудим методы решения таких задач квадратичного программиро
вания в разделе 7.1.1.
Решение задачи квадратичного программирования при М переменных в об
щем случае имеет вычислительную сложность порядка О(М3). При переходе к
двойственной формулировке мы преобразовали исходную задачу оптимизации,
которая предусматривала минимизацию (7.6) по Мпеременным, в двойственную
задачу (7.10), которая имеет N переменных. Для фиксированного набора базис
ных функций, количество которых М меньше количества точек исходных дан
ных N, переход к двойственной задаче оказывается невыгодным. Однако он поз
том, что ядро k(_x, х') положительно определено и, следовательно, функция Ла
гранжа L (а) ограничена сверху, т.е. задача оптимизации определена корректно.
Чтобы классифицировать новые точки с помощью обученной модели, мы
оцениваем знак у(х), определенный формулой (7.1). Это можно выразить в тер
минах параметров {ап} и ядра, подставив вместо w выражение (7.8):
N
у(х)= ~:апtпk(х,хп)+Ь. (7.13)
n=I
ап ~О, (7.14)
tпу(хп) - 1 ~О, (7.15)
ап{tпу(хп)-1} =О. (7.16)
Таким образом, для каждой точки данных либо ап =О, либо tпу(хп) = 1. Любая
точка данных, для которой ап =О, не будет учитываться в сумме (7.13) и, следо
вательно, не играет никакой роли в создании прогнозов для новых точек.
7.1. Методы классификации с максимальным зазором 441
знаков, как показано на рис. 7.1. Это свойство является основным для практиче
ского применения метода опорных векторов. После обучения модели
значительная часть точек исходных данных может быть отброшена и сохранены
только опорные векторы.
Джозеф-Луи Лагранж
1736-1813
Хотя Лагранж и считается французским математиком,
он родился в Турине (Италия). В возрасте девятнадца
ти лет он уже внес важный вклад в математику и бьт
назначен профессором Королевской артиллерийской
школы в Турине. В течение многих лет Эйлер упорно
убеждал Лагранжа переехать в Берлин, что он в конце
концов и сделал в 1766 году, когда он стал преемни-
ком Эйлера на посту директора математического департамента Берлин
ской академии. Позже он переехал в Париж, чудом оставшись в живых во
время французской революции благодаря личному вмешательству Лавуа
зье (французского химика, открывшего кислород), который сам впослед
ствии бьm казнен на гильотине. Лагранж внес важный вклад в вариацион
ное исчисление и основы динамики.
(7.17)
(7.18)
(7.19)
где E 00(z)- функция, равная нулю, если z ~ О, и оо в противном случае. Эта функ
ция гарантирует, что ограничения (7.5) выполнены. Заметим, что до тех пор, пока
параметр регуляризации удовлетворяет условию Л > О, его точное значение не иг
рает никакой роли .
На рис. 7.2 приведен пример классификации, полученный в результате обу
чения метода опорных векторов на простом искусственном множестве данных,
х
х
(7.20)
классифицируются ошибочно, как показано на рис. 7.3. Иногда это явление опи
сывается как ослабление жестких ограничений, чтобы создать мягкий зазор
и позволяет некорректно классифицировать некоторые точки обучающих дан
ных. Обратите внимание, что хотя фиктивные переменные допускают перекры
вающиеся распределения классов, эта структура по-прежнему чувствительна к
у= 1
Наша цель состоит в том, чтобы максимизировать зазор, мягко штрафуя точ
ки, которые лежат на неправильной стороне от границы зазора. Следовательно,
мы минимизируем функцию
cf qn +_!_llwl
n=\ 2
2
' (7.21)
N
дL = О ~ W= ~>пtпф(хп), (7.29)
дw n=I
(7.30)
(7.31)
_ N 1 N N
L(a) = ~>п - - L~>namtntтk(xп,xm), (7.32)
n=I 2 n=l m=I
(7.34)
(7.36)
(7.37)
(7.38)
с учетом ограничений
О~ ап ~ 1/N, (7.39)
N
Lain =0, (7.40)
n=I
N
Lan ~ v. (7.41)
n=I
7.1. Методы классификации с максимальным зазором 447
2
х
-2
-2 о 2
Рис. 7.4. Метод v-SVM, примененный к неразделимому набору данных
множителей Лагранжа в квадрате, даже это число может быть слишком больIШIМ,
чтобы поместиться в памяти компьютера для крупномасштабньIХ приложений.
Методы декомпозиции (Osuna et al" 1996) также сводятся к решению ряда задач
квадратичного программирования меньшего размера, но они сконструированы та
ким образом, что каждая из них имеет фиксированный размер, и поэтому метод
может применяться к произвольно большим множествам данных. Тем не менее он
по-прежнему связан с численным решением подзадач квадратичного программиро
ствах признаков, которые могут иметь большую или даже бесконечную размер
ность. Поскольку непосредственная работа с ядрами позволяет избежать явного
представления пространства признаков, может показаться, что метод опорных
k(x,z)=(l+xтz) 2 =(1+x1z1+x2 z2 ) 2 =
=1+2X1Z1 +2X2Z2 +xfzf +2X1Z1X2Z2 +x;z; =
(7.42)
= (1,J2x1,J2x2,x12,J2x1x2,x; )(1,J2z1,J2z2,zf ,J2z1z 2,z; )т =
=Ф(х)т Ф(z).
7.1. Методы классификации с максимальным зазором 449
Мы уже подчеркивали тот факт, что метод опорных векторов не дает вероят
ностных результатов, а вместо этого принимает решения о классификации но
вых входных векторов. Veropoulos et а/. (1999) предложили модификации мето
да SVМ, позволяющие контролировать компромисс между ложноположитель
ными и ложноотрицательными ошибками. Однако, если мы хотим использовать
SVМ в качестве модуля в большей вероятностной системе, нам необходимы ве
роятностные предсказания метки класса t для новых входов х.
цедура обучения SVM не предназначена для этого специально, этот метод может
дать плохую аппроксимацию апостериорных вероятностей (Тipping, 2001).
ем ;" =О, а для остальных точек ;" = 1-yntn. Таким образом, целевая функция
(7.21) может быть записана (с точностью до общей мультипликативной констан
ты) в виде
(7.44)
где А.= (2СТ 1 и Esv О - кусочно-линейная функция ошибок (hinge епоr), опреде
ляемая формулой
(7.45)
где [·]+ обозначает положительную часть. Кусочно-линейная функция ошибок,
называемая так из-за ее формы, показана на рис. 7.5. Ее можно рассматривать
как аппроксимацию ошибки классификации, т.е. функцию ошибок, которую мы
хотели бы свести к минимуму, что также показано на рис. 7.5.
(7.47)
где
ется "один против остальных". Однако на рис. 4.2 показано, что использование
решений отдельных методов классификации может привести к несогласованным
результатам, при которых вектор назначается нескольким классам одновремен
но. Иногда эту проблему можно решить, делая прогнозы для новых входных
данных х по правилу
ной графовой моделью), что приводит к методу DAGSVМ (Platt et al" 2000). Для
К классов метод DAGSVM имеет в общей сложности К(К - 1)/2 классификато
ров, и для классификации новой тестовой точки требуется вычислить только К - 1
бинарных классификаций с использованием конкретных классификаторов в за
висимости от пути в графе.
Другой подход к многоклассовой классификации основан на кодах с исправ
лением ошибок. Он был разработан Dietterich and Bakiri (1995) и применен для
метода опорных векторов в работе Allwein et al. (2000). Его можно рассматри
вать как обобщение схемы голосования "каждый против каждого", в которой
для подготовки отдельных классификаторов используются более общие разде
ления классов. Сами К классов представляются в виде отдельных наборов отве
тов выбранных бинарных классификаторов. Вместе с подходящей схемой деко
дирования это обеспечивает устойчивость к ошибкам и неоднозначности в вы
водах отдельных классификаторов. Хотя применение метода SVM к задачам
классификации многих классов остается открытой проблемой, на практике под
ход "один против остальных" используется наиболее широко, несмотря на его
специфическую формулировку и практические ограничения.
Существуют также одноклассовые методы опорных векторов, которые ре
шают задачу обучения без учителя, связанную с оценкой плотности вероятно
сти. Однако вместо моделирования плотности данных эти методы направлены
на то, чтобы найти гладкую границу, охватывающую область высокой плотно
сти. Граница выбирается так, чтобы представлять квантиль плотности, т.е. веро
ятность того, что точка данных, полученная из распределения, попадет в эту об
ласть, задается фиксированным числом от О до 1, которое задано заранее. Это
более ограниченная задача, чем оценка полной плотности, но ее может быть до
статочно для конкретных приложений. Предложены два подхода к этой задаче с
использованием метода опорных векторов. Алгоритм Schбlkopf et al. (2001) пы
тается найти гиперплоскость, которая отделяет все, кроме фиксированной
доли v обучающих данных от начала координат, и в то же время максимизирует
расстояние (зазор) гиперплоскости от начала координат, а Тах and Duin (1999)
строят наименьшую сферу в пространстве признаков, содержащую все, кроме
доли vточек исходных данных. Для ядер k(x, х'), которые являются функциями
только х-х', оба алгоритма эквивалентны.
(7.50)
Ec(y(x)-t ) = {
O,ecлиly(x)-tl<c,
(7.51)
IY( х )- tl-c в противном случае.
Она показана на рис. 7.6.
E(z)
-€ о € z
Рис. 7.6. График е-нечувствительной функции ошибок (красный цвет), при которой
(7.52)
у(х) y+i:
~> о у
Рис. 7.7. Применение метода SVM для регрессии. Показаны регрессионная кривая
Функция ошибок для регрессии по методу опорных векторов может быть за
писана как
f( q. + ;.А + -llwll
С L.J ) 1 . 2
(7.55)
n=I 2
(7.56)
N
дL =0 ~ w= ~)ап -ап)Ф(хп), (7.57)
дw n=I
N
дL =0 ~ L(ап - ап ) = о, (7.58)
дЬ n=I
дL =0 ~ ап + µп =С, (7.59)
дqп
а: =О ~ ап + µп =с. (7.60)
дqп
f
l(a,a)=-_!_ I(ап -ап)(ат -ат)k(хп,хт)-
2 n=lm=I
(7.61)
N N
-вL(ап +ап)+ L(ап -ап)tп
n=I n=I
относительно {ап} и {ап}, где мы ввели ядро k(x, х') = ф(х)тф(х'). Как и в
предыдущем случае, это задача максимизации с ограничениями, и чтобы найти
ограничения, заметим, что должны выполняться условия ап > о и ап ~ о ' потому
что это - множители Лагранжа. Кроме того, условия µ,, > О и fl,n ~О вместе с
(7.59) и (7.60) означают, что ап s С и ап s С, и поэтому снова получаем квадрат
ные ограничения:
Osan s С, (7.62)
Osan sC (7.63)
N
у(х)= L(ап -ап)k(х,хп)+Ь, (7.64)
n=I
тим, что коэффициент ап может быть отличным от нуля, если &+ .;п + Уп - tn =О,
откуда следует, что обучающая точка либо лежит на верхней границе &-трубки
(qп =О), либо над верхней границей (,;п >О). Точно так же ненулевое значение для
Qn подразумевает, ЧТО Е + ~п - Уп + tn = 0 И такие ТОЧКИ ДОЛЖНЫ лежать либо На
нижней границе трубки, либо ниже нее.
N (7.69)
=tn -Е- ~)ат -ат)k(хп,хт),
m=I
458 ГЛАВА 7. РАЗРЕЖЕННЫЕ ЯДЕРНЫЕ МЕТОДЫ
с учетом ограничений
N
L(ап +ап)$vС. (7.74)
n=I
/""
о о
о
-1 о
--i
о х
начально был разработан для двух классов, и его расширение на случай К> 2
классов проблематично. Существует параметр сложности С, или v (а также па
раметр & в случае регрессии), который должен быть найден с помощью контроля
на отложенных данных, например перекрестной проверки. Наконец, прогнозы
сификации.
N
у( Х) = L wnk( x,xn) + Ь, (7.78)
n=I
m= j11:Фтt, (7.82)
1: =(А+ РФТФ)- 1 , (7.83)
где Ф - матрица плана с N х Мс элементами Фп; = q);(хп) для i = 1, ... , N, ФпМ = 1 для
п= 1, .... , Nи А= diag(a;).
Значения а и .Р определяются с использованием метода максимального прав
доподобия второго типа (см. раздел 3.5), известного как аппроксимация обостю
ванности, в котором максимизируется маргинальное правдоподобие, получен
ное путем интегрирования по весовым параметрам:
p(tlX,a,p) = InN(tlo,c) =
(7.85)
= -~{ Nin(2n-) + 1n1c1 + ec-'t},
где t = (t1, ••• , tN)т, и мы определили матрицу С размера NxN, заданную формулой
С =/J11 + ФА- 1 Фт. (7.86)
a"ew
l
=Jj_
2 , (7.87)
т;
(7.88)
464 ГЛАВА 7. РАЗРЕЖЕННЫЕ ЯДЕРНЫЕ МЕТОДЫ
(7.89)
в которой Lu - i-я диагональный компонент апостериорной ковариационной
матрицы 1:, заданной формулой (7.83). Таким образом, обучение происходит пу
тем выбора начальных значений для а и /3, вычисления математического ожида
ния и ковариационной матрицы апостериорного распределения (7.82) и (7.83)
соответственно, а затем итеративного уточнения гиперпараметров по формулам
(7.87) и (7.88) и апостериорного математического ожидания и ковариационной
матрицы по формулам (7.82) и (7.83), до тех пор, пока не будет выполнен крите
рий сходимости.
f
p(tlx,X,t,a*,p") = p(tlx,w,p•)p(wlX,t,a•,p•)dw =
(7.90)
= N(tlmт Ф( х ),а 2 ( х) ).
Таким образом, прогностическое математическое ожидание задается выраже
жением
(7.91)
-1
о
х
Рис. 7.9. Регрессия с помощью метода RVM на основе того же набора данных и тех же
гауссовских ядер, что и на рис. 7.8 для модели регрессии v-SYM. Математическое
ожидание прогностического распределения в методе RVM показано красной кривой,
областью. Кроме того, точки данных показаны зеленым цветом, а релевантные векторы -
синими кружками . Обратите внимание на то, что в модели есть только три релевантных
сия шума определяются автоматически за один сеанс обучения, тогда как в ме
тоде опорных векторов параметры С и в (или v) обычно обнаруживаются с ис
1 1 т
C=-I+-qJffJ (7.92)
р а
где ffJ обозначает N-мерный вектор (ф(х 1 ), ф(х2 ))т и аналогично t = (t 1, t2 )т. Обра-
тите внимание на то, что это всего лишь модель гауссовского процесса с нуле
1, 1 t2
с,
. ... " ... ._" ...
'
'Xt
с
'Xt
1 '
i
1
-
'
t1 f1
.
··г
Рис. 7.10. Механизм разреженности в байесовской линейной регрессионной модели с
т
обучающим вектором целевых значений t= (t 1, t 2) , обозначенным крестиком , для модели
с одним базисным вектором qJ= (ф(х 1 ), ф(х2 ))т, которая слабо согласована с целевым
вектором t. Слева показана модель, имеющая только изотропный шум, так что С= /Г'I,
что соответствует а= оо, причем гиперпараметр /3 принимает свое наиболее вероятное
значение . Справа показана та же модель, но с конечным значением а. В каждом случае
рисунках ICI принимает одинаковое значение, в то время как пунктирный зеленый круг
демонстрирует вклад, возникающий из-за шума р - 1 • Мы видим, что любое конечное
значение а уменьшает вероятность наблюдаемых данных, поэтому для нахождения
(7.93)
где f/J; обозначает i-й столбец матрицы Ф, иначе говоря, N-мерный вектор с эле
ментами (ф(х 1 ), "., ф(хN)), в отличие от вектора ф,., который обозначает п-ю
строку матрицы Ф. Матрица С_; представляет собой матрицу С с удаленной i-й
базисной функцией. Используя матричные тождества (В.7) и (В.15), определи
тель и матрицу, обратную матрице С, можно записать:
(7.94)
(7.95)
Л( а;) =.!.[1n
2
а; - ln (а; + s;) + ___яl__]
а; +s;
(7.97)
(7.98)
qi Tc-lt
= f{J; -i . (7.99)
dA.(a;) a; 1sf-(qf-s;)
(7.100)
da; 2(а; +s;)2
равна нулю. Решение имеет две возможные формы. Вспоминая, что а;~ О, мы
видим, что если qf < s , то
получаем решение при а; ~ оо. И наоборот, если
q; > s , можно решить уравнение относительно а;:
2
s,
а, =-2-- (7.101)
q;
-S;
Эти два решения показаны на рис. 7 .11. Мы видим, что относительная величина
качества и разреженности определяет, будет ли конкретный базисный вектор ис
ключаться из модели или нет. Более полный анализ (Faul and Тipping, 2002), осно
ванный на вторых производных маргинального правдоподобия, подтверждает,
что эти решения действительно являются единственными максимумами А( iXj)
(с.м. упражиеиие 7.16).
-5 о 5 -5 о 5
Заметим, что этот подход позволил получить замкнутое решение для а; при
заданных значениях других гиперпараметров. Этот анализ также позволяет по
лучить представление о происхождении разреженности в методе RVМ, что так
же приводит к практическому алгоритму оптимизации гиперпараметров, обла
5. Если q; > s; и а;< оо, так что базисный вектор (/);уже включен в модель, то
обновите а;, используя (7.1О1 ).
Заметим, что если q;2 ~ s1 и а1 = оо, то базисная функция f/J; уже исключена из мо
дели и никаких действий не требуется. На практике удобно вычислять величины
(7.102)
(7.103)
(7.104)
a.S.
s. =--'-'-. (7.105)
1 al-si
472 ГЛАВА 7. РАЗРЕЖЕННЫЕ ЯДЕРНЫЕ МЕТОДЫ
чающих образов.
ную задачу классификации с целевой переменной t Е{О, 1}. Теперь модель при
нимает форму линейной комбинации базисных функций, преобразуемых
логистической сигмоидой:
чим модель, которая рассмотрена в главе 4. Разница в том, что в методе RVМ эта
проксимацию Лапласа (см. раздел 4.4), которая была применена к тесно связан
ной задаче байесовской логистической регрессии в разделе 4. 5.1.
Начнем с инициализации вектора гиперпараметров а. Затем при заданном
значении а построим гауссовскую аппроксимацию апостериорного распределе
ln р ( wl t, а) = ln {р ( tl w) р ( wl а)} - ln р ( tl а) =
N 1 (7.109)
=L {tn lnyn + (1-tn )ln{l- Уп )}--wт Aw + const,
n=I 2
где А = diag( а;). Это можно сделать, используя метод наименьших квадратов с
итеративным пересчетом весов (IRLS), как описано в разделе 4.3.3. Для этого
нам нужен вектор градиента и матрица Гессе (см. упра:11Сне11ие 7.18) для лога
рифма апостериорного распределения (7 .109):
Vlnp(wlt, а)=Фт(t-у)-Аw, (7.110)
V'Vln p(wlt, а) = - (ФтВФ +А), (7.111)
пределения.
w· = А- 1 Фт(t-у), (7.112)
~ = (ФтВФ + А)- 1 • (7.113)
__!_(w•) 2
+1- _ _!_L. =0. (7.115)
2 1
2а.1 2 11
(7.116)
где
С=В+ФАФт. (7.119)
Эта матрица имеет ту же форму, что и (7.85) в случае регрессии, поэтому можем
применить тот же анализ разреженности и получить тот же алгоритм быстрого
обучения, в котором мы полностью оптимизируем один гиперпараметр ~ на
каждом шаге.
(7.120)
7.2. Метод релевантных векторов 475
)(
)( )( " )(
2 )( )( \ 2
)(
)(
11<
)(
о )(
о
-2 -2
-2 о 2 -2 о 2
данных, в котором на левом графике показана граница решения и точки данных вместе с
что R VM дает намного более разреженную мод ель. Правый график показывает
цвета указывает вероятность того, что эта точка принадлежит красному (синему) классу
N К
ных векторов, а также дает вероятностные прогнозы для новых точек. Основным
недостатком является то, что матрица Гессе имеет размер МК х МК, где М - ко
Упражнения
7.1. (**) WWW Предположим, у нас есть множество входных векторов {хп} с со
ответствующими целевыми значениями tn Е {-1, 1} и мы моделируем
ность ядра Парзена (см. разде.r1 2.5.1) с ядром k(x, х'). Сформулируйте
правило принятия решения с минимальным уровнем ошибок, предполагая,
что два класса имеют одинаковую вероятность. Покажите, что если ядро
выбрано в виде k(x, х') = хтх', то правило классификации сводится к про
стому присвоению нового входного вектора классу, имеющему самое
каждого класса.
7.4. (**) WWW Покажите, что ширина максимального зазора р определяется вы
ражением
1 N
-2 =Lan, (7.123)
р n=I
~= 2L(a), (7.124)
р
(7.125)
7.18. (*) WWW Покажите, что вектор градиента и матрица Гессе логарифма апо
стериорного распределения (7 .109) в методе релевантных векторов для
классификации задаются формулами (7 .11 О) и (7 .111 ).
7.19. (**)Убедитесь, что максимизация аппроксимации маргинального правдо
подобия (7.114) в методе релевантных векторов для классификации при
водит к результату (7.116) для уточнения гиперпараметров.
8
Заметим, что это разложение выполняется для любого выбора совместного рас
пределения. Теперь мы представим правую часть (8.2) в терминах простой гра
фовой модели следующим образом. Сначала введем узел для каждой из случай
ных величин а, Ь и с и сопоставим каждый узел с соответствующим условным
распределением в правой части (8.2). Затем для каждого условного распределе
ния добавим в граф ориентированные связи (стрелки) из узлов, соответствую
щих переменным, на которых распределены вероятности . Таким образом, мно
жителю p(cla, Ь) будут соответствовать связи, идущие из узлов а и Ь в узел с, то
гда как множителю р(а) не будет соответствовать ни одна входящая связь. Ре
зультатом является граф, показанный на рис. 8.1. Если существует связь, идущая
от узла а к узлу Ь, то мы говорим, что узел а является родительским по отноше
нию к узлу Ь, а узел Ь - дочерним по отношению к узлу а. Обратите внимание
на то, что мы не будем делать никакого формального различия между узлом и
случайной величиной, которой он соответствует, и будем использовать для
ссылки на них один и тот же символ.
Интересной особенностью формулы (8.2) является то, что левая часть сим
метрична относительно трех переменных, а, Ь и с, тогда как правая часть - нет.
Действительно, при разложении в (8.2) мы неявно выбрали конкретный порядок,
а именно а, Ь, с, и если бы мы выбрали другой порядок, то получили бы другое
482 ГЛАВА 8. ГРАФОВЫЕ МОДЕЛИ
(8.3)
Для конкретного выбора К мы можем снова представить это распределение как
ориентированный граф, содержащий К узлов, по одному для каждого условного
распределения в правой части (8.3), причем каждый узел имеет входящие связи
из всех узлов с меньшим номером. Мы говорим, что этот граф полный, потому
что между каждой парой узлов существует связь.
До сих пор мы работали с совершенно абстрактным совместным распределе
нием, поэтому разложения и их представления в виде полных графов примени
мы к любому распределению. Как мы вскоре увидим, именно отсутствие свя
зей на графе отражает интересную информацию о свойствах класса распределе
ний, которые представляет граф. Рассмотрим граф, показанный на рис. 8.2. Это
не полный граф, потому что, например, в нем нет связи между х 1 и х 2 или х 3 и х 1 .
где pak- множество родителей узла xk, ах= {х 1 , ".,, хк}. Эта ключевая формула
выражает свойства факторизации совместного распределения для ориентиро
ванной графовой модели. Хотя до сих пор мы полагали, что каждый узел соот
ветствует одной переменной, мы можем также хорошо сопоставлять множества
N
p(t,w)= p(w)Пp(tnlw). (8.6)
n=I
Когда мы позже будем рассматривать более сложные модели, нам будет не
удобно записывать несколько узлов в виде t 1, ••• , tN явным образом, как на
рис. 8.3. Поэтому мы вводим графическое обозначение, позволяющее более
компактно представлять такие множества узлов, рисуя один репрезентативный
а.
N
Рис. 8.5. Модель, представленная на рис . 8.4,
но с детерминированными параметрами,
N
р( wlt) ос р( W) Пp(tnlw ), (8 .7)
n=I
486 ГЛАВА 8. ГРАФОВЫЕ МОДЕЛИ
p(i, t, wlx,x,a,a 2) =[ !]р(tп lхп, w,a2 ) ]Р( wla )p(ilx, w,a2 ). (8.8)
обработаем каждый из узлов по порядку, так что для узла п мы извлекаем выборку
из генеральной совокупности с условным распределением p(xпlPCln), в котором ро
дительские переменные бьmи зафиксированы на их выборочных значениях. Обра
тите внимание на то, что на каждом этапе эти родительские значения всегда будут
доступными, поскольку они соответствуют узлам с меньшими номерами, которые
Изображение
которое зави сит от идентичности объекта, а также от его пол ожения и ори ентации
турные блоки.
Такие модели имеют особенно хорошие свойства, если мы сделаем отноше
ние между каждым родительским и дочерним узлом отношением смежности.
а) ХЬ---:0
растет с увел ичени ем дл ины цени М. На11ротив , 1юJ 111ый граф из М узлов имел бы Км - 1
параметров, которые э кс1ю11снциш1ыю растут с увеличением М
Рис. 8.11. Расширение модсшr, 11оказанной на рис . 8.1О , для включения апр иорных
(8.10)
из этих методов.
(8.11)
D
lnp(x) = Llnp(x;jpa;) = (8.12)
i=I
(8.13)
х1 = L wiixJ + Ь; +-F:ci>
jepa 1
(8.14)
виям JE[c;] =О и
JE[&;&;] = lu, где lu - элемент i,j единичной матрицы. Учитывая
математическое ожидание (8.14), имеем:
8.1. Байесовские сети 495
Таким образом, мы можем найти компоненты Щх] = (Щх 1 ], •• " Щхп])т, начи
ная с наименьшего пронумерованного узла и рекурсивно обходя граф (здесь мы
снова предполагаем, что узлы пронумерованы так, что каждый имеет больший
номер, чем его родители). Аналогично мы можем использовать (8.14) и (8.15),
чтобы получить элемент i,j ковариационной матрицы для р(х) в виде рекур
рентного соотношения
= L w11;cov[x;.xk]+Iuv1,
kepa 1
Рассмотрим два крайних случая. Прежде всего предположим, что в графе нет
связей, т.е. он состоит из D изолированных узлов. В этом случае нет параметров
потому что матрица содержит элементы только ниже главной диагонали. В итоге
(8.17)
V1 Wz1V1 W3zW21V1
1:.= Wz1V1
2
Vz + Wz1V1 W32 ( Vz + w;\
V1) (8.18)
узла i в виде
(8.19)
этому его можно рассматривать как гиперпараметр. Поскольку значение этого ги
перпараметра может быть неизвестно, можем снова рассматривать его с байесов
ской точки зрения, введя априорное распределение по гиперпараметру, иногда
называемое гипераприорным, которое также является нормальным. Этот тип кон
(опять же оба при условии с). Это говорит о том, что переменные а и Ь статисти
чески независимы при фиксированном с. Заметим, что наше определение услов
ной независимости потребует, чтобы условия (8.20), или эквивалентно (8.21),
выполнялись для любого возможного значения с, а не только для некоторых его
значений. Иногда мы будем использовать сокращенное обозначение условной
независимости (Dawid, 1979), в котором выражение
allblc (8.22)
a-Jl.-bleJ (8.25)
где 0 обозначает пустое множество, а символ _J!.. означает, что свойство условной
независимости вообще не выполняется. Конечно, это может иметь место для кон
( bl ) = р(а,Ь,с) =
р а, с р(с)
= р ( al с) р ( bl с)
и получаем свойство условной независимости:
а Jl Ь 1 с.
(8.27)
как и прежде.
р а,
( ь')
с
=р(а,Ь,с)=
р(с)
_ p(a)p(cla)p(blc) _
- р(с) -
= p(alc)p(blc)
и поэтому снова получаем свойство условной независимости
а Jl Ь 1 с.
р(а, Ь) = р(а)р(Ь),
а ll Ь 1 0. (8.29)
Предположим теперь, что мы фиксируем значение с, как показано на
рис. 8.20. Тогда условное распределение а и Ь задается формулой
( bl) =p(a,b,c)=
р а, с р(с)
а$.. Ь 1 с.
502 ГЛАВА 8. ГРАФОВЪIЕ МОДЕЛИ
Рис. 8.20. Граф с рис. 8.19, обусловленный значением узла с. На этом графе
дый шаг пути следует направлениям стрелок. Тогда можно показать, что путь
"голова к голове" будет разблокирован, если будет наблюдаться либо узел, либо
любой из его потомков (см. упражиеиие 8.10).
Таким образом, узел "хвост к хвосту" и узел "голова к хвосту" оставляют
путь разблокированным, если они не наблюдаются, и блокируют путь, если они
наблюдаются. Наоборот, узел "голова к голове" блокирует путь, если он не
наблюдается, но как только узел и/или хотя бы один из его потомков наблюдает
ся, путь становится разблокированным.
Стоит потратить немного времени, чтобы еще глубже понять необычное по
ведение графа, представленного на рис. 8.20. Рассмотрим конкретный пример
такого графа, соответствующий задаче с тремя бинарными случайными величи
нами, относящимися к топливной системе автомобиля (рис. 8.21). Переменная В,
представляющая состояние аккумулятора, который либо заряжен (В = 1), либо
пуст (В = О), переменная F представляет состояние топливного бака, который
либо заполнен топливом (F = 1), либо пуст (F = О), и переменная G отражает со
стояние электрического топливного датчика и указывает либо полный бак
(G = 1), либо пустой (G =О). Аккумулятор заряжен или пуст, и независимо от
того, заполнен топливный бак или пуст, с вероятностями
р(В =1) = 0,9;
p(F= 1) = 0,9.
8.2. Условная независимость 503
Три узла представляют состояние аккумулятора (В), состояние топливного бака (F) и
так что это довольно ненадежный датчик! Все остальные вероятности опреде
ляются требованием, чтобы сумма вероятностей равнялась единице, поэтому мы
аналогично
p(G-OIF-O)p(F-0)
p(G=OIF=O)= - - - =0,257. (8.32)
р( G =О)
Следовательно, p(F = 01 G = О) > p(F = О). Таким образом, если мы видим, что
топливный датчик показывает, что бак пустой, более вероятно, что бак действи-
504 ГЛАВА 8. ГРАФОВЫЕ МОДЕЛИ
топливного датчика. Фактически это также будет иметь место, если вместо
наблюдения за топливным датчиком непосредственно мы наблюдаем состояние
некоторого потомка G. Заметим, что вероятность p(F = О 1G = О, В = О) ~ О, 111
больше, чем априорная вероятность p(F= О)= 0,1, поскольку наблюдение за
тем, что показания топливного датчика равны нулю, все же дает некоторые сви
8.2.2. D-разделение
а) б)
2
С точки зрения d-разделения такие параметры, как а и а на рис. 8.5, обозна-
ченные маленькими закрашенными кружочками, ведут себя так же, как наблю
даемые узлы. Тем не менее не существует никаких маргинальных распределе
N
а) б)
f
~ N
p(V) = p(Vlµ)p(µ )dµ * пр(х. ), (8.35)
-Ф
i Jl t. w. 1 (8.36)
8.2. Условная независимость 507
странстве. Оно также полезно, если входной вектор содержит как дискретные,
так и непрерывные переменные, так как каждую из них можно представить от
условных плотностей при фиксированном классе. Тем не менее, даже если это
предположение не выполняется точно, модель может по-прежнему обеспечивать
хорошую эффективность классификации на практике, поскольку границы при
нятия решений могут оказаться нечувствительными к некоторым деталям в
условных по классу плотностях (рис. 1.27).
Мы видели, что конкретный ориентированный граф представляет собой кон
кретное разложение совместного распределения вероятностей в произведение
проходящих через фильтр, обоз начается как DF. В качестве альтернативы мы можем
дочерние узлы узла Х;, потому что феномен объяснения означает, что наблюдения
дочерних узлов не будут блокировать пути к сородителям. Следовательно, мы
должны также наблюдать сородительские узлы.
ко тонким из-за наличия путей, имеющих узлы типа "голова к голове". Может
AJlBI С. (8.37)
Чтобы проверить, обладает ли этим свойством распределение вероятности,
определенное графом, рассмотрим все возможные пути, соединяющие узлы в
множестве А с узлами в множестве В. Если все такие пути проходят через один
или несколько узлов в множестве С, тогда все такие пути блокируются и сохра
няется свойство условной независимости. Однако, если существует хотя бы
один такой путь, который не блокируется, свойство не обязательно выполняется,
или, точнее, будут существовать по крайней мере некоторые распределения, со
ответствующие графу, которые не обладают свойством условной независимости.
Это иллюстрируется примером, показанным на рис . 8.27. Обратите внимание,
что он похож на критерий d-разделения, за исключением того, что в нем нет
"эффекта объяснения". Таким образом, проверять условную независимость в не
ориентированных графах проще, чем в ориентированных.
узла в множестве А до любого узла в множестве В проходит по крайней мере через один
(8.38)
щих графу.
Это приводит к рассмотрению графового понятия, называемого кликой, которая
определяется как подмножество узлов в графе, такое, что между всеми парами уз
лов в этом подмножестве существует связь. Иначе говоря, множество узлов в кли
ке является полносвязнъ1м. Кроме того, максимш~ьная клика - это клика, в кото
рую невозможно включить любые другие узлы из графа так, чтобы она не пере
ставала быть кликой. Эти понятия шшюстрируются неориентированным графом
из четырех переменных, показанных на рис. 8.29. Этот граф имеет пять клик из
двух узлов, заданных множествами {х 1 , х2 }, {х 2 , х3 }, {х3 , Х4}, {х4 , х2 } и {х 1 , х3 }, а
также две максимальные клики, заданные множествами {х 1 , х2 , х3 } и {хъ х3 , х4 }.
Множество {х 1 , Хъ х3 , х4 } не является кликой из-за отсутствия связи между х 1 и х4 .
х с
и алгоритма разреза графа (справа). Алгоритм !СМ создает изображение, в котором 96%
пикселей согласуются с исходным изображением, тогда как соответствующий показатель
поле для удаления шума с изображения, в котором х, представляет собой бинарную пере
делъ в сторону пикселей, которые имеют один конкретный знак, делая ее пред
(8.42)
1
р(х,у) =-ехр{-Е(х,у)}. (8.43)
z
Затем фиксируем элементы у на наблюдаемых значениях, заданных пикселя
ми изображения с шумом, которые неявно определяют условное распределение
p(xly) изображений без шума. Это пример модели Изинга, которая широко изу
чалась в статистической физике. Для восстановления изображения мы хотим
найти изображение х, имеющее высокую вероятность (в идеале максимальную).
Для этого будем использовать простой итерационный метод, называемый мето
дом последовательных условных мод, или !СМ (Кittler и Fбglein, 1984), который
является вариантом метода покоординатного градиентного подъема. Идея со
которое можно выполнить эффективно (см. упра.нс11е11ие 8.13). Затем эта проце
дура повторяется для другого узла и так далее до тех пор, пока не будет выпол
нен подходящий критерий остановки. Узлы могут изменяться как систематиче
ски, например, путем повторного сканирования растра по изображению, так и
путем выбора в случайном порядке.
Если у нас есть последовательность изменений, в которых каждый узел по
(8.44)
а) б)
в качестве фильтра (с.~н. раздел 8.2), так что множество всех возможных распре
делений по заданным переменным можно свести к подмножеству, которое соот
ветствует условно независимым значениям, подразумеваемым графом. Граф
называется D-картой распределения (от термина "dependency map"), если в гра
фе отображается каждое утверждение об условной независимости, удовлетворя
емое распределением. Таким образом, полностью несвязный граф (совершенно
без связей) будет тривиальной D-картой для любого распределения .
В качестве альтернативы можно рассмотреть конкретное распределение и
выяснить, какие графы имеют соответствующие свойства условной независимо
сти . Если для распределения выполняется каждое утверждение об условной не
зависимости, подразумеваемое графом, то такой граф называется !-картой этого
распределения (от термина "independence map"). Очевидно, что полный граф бу
дет тривиальной 1-картой для любого распределения.
Если каждое свойство условной независимости распределения отражается в
других узлов. Как мы увидим, теорию графов можно использовать как для поис
ка эффективных алгоритмов вывода, так и для того, чтобы сделать структуру
этих алгоритмов прозрачной. В частности, мы увидим, что многие алгоритмы
_ p(ylx)p(x)
р ху
( 1 )
- р(у) . (8.48)
х х х
у у у
а) б) в)
1
р( Х) = z lfl1,2 ( Х1 ,Х2 )lf/2,З (Х2 ,Х3) ". lfl N-1,N ( XN-1 •XN ). (8.49)
(8.50)
(8.51)
µа(хп)
[L lflп,n+I (хп
Xn+I
,Xn+l )".[Ll/f
XN
N-1,N ( XN-1 •XN ): ".]. (8.52)
µр(хп)
(8.54)
(8.55)
а затем несколько раз применяем (8.55), пока не достигнем нужного узла. Обрати
(8.57)
= L lflп,n+I { Хп' Xn+I )µр {Xn+l ).
Xn+I
ровки Z легко вычислить, суммируя правую часть (8.54) по всем состояниям Хп.
также, что константу нормировки Z достаточно вычислить только один раз, ис
пользуя любой удобный узел.
Если некоторые из узлов на графе являются наблюдаемыми, то соответству
ющие переменные фиксируются на их наблюдаемых значениях и суммирование
не производится. Чтобы убедиться в этом, обратите внимание, что эффект фик
сации переменной Хп на наблюдаемом значении хп можно выразить путем
умножения совместного распределения на (одну или несколько копий) дополни
тельную функцию /(хп, хп ), которая принимает значение 1, если хп = хп и О в
противном случае. Одна такая функция затем может быть поглощена каждым из
потенциалов, содержащих хп. Тогда суммирование по Хп будет содержать только
одно слагаемое, в котором Хп = хп .
Предположим теперь, что мы хотим вычислить совместное распределение
р(хп_ 1 , хп) для двух соседних узлов на цепочке. Это похоже на вычисление мар
гинального распределения для одного узла, за исключением того, что теперь
(8.58)
8.4.2. Деревья
Мы видели, что точный вывод на графе, содержащем цепочку узлов, можно
эффективно выполнить за времени, линейное по количеству узлов, используя
алгоритм, который можно интерпретировать в терминах сообщений, передавае
мых по цепочке. В более общем плане вывод можно эффективно выполнить с
использованием локального сообщения, передаваемого по более широкому
классу графов, называемых деревьями. В частности, мы в скором времени обоб
щим вышеприведенный формализм сообщения для цепей, чтобы сформулиро
вать ш~горитм sum-product (sum-product algorithm), который обеспечивает эф
фективный способ для точного вывода в древовидных графах.
В случае неориентированного графа дерево определяется как граф, в котором
существует один и только один путь между любой парой узлов. Следовательно,
такие графы не имеют циклов. В случае ориентированных графов дерево опреде
ляется таким образом, что существует один узел, называемый корнем, который не
имеет родительских узлов, а все остальные узлы имеют один родительский узел.
а) б) в)
8.4.3. Фактор-графы
Алгоритм sum-product, который мы опишем в следующем разделе, применя
ется к неориентированным и ориентированным деревьям, а также к полидеревь
ям. Его можно привести к особенно простому и универсальному виду, если вве
сти в рассмотрение новый вид графа - фактор-граф (Frey, 1998; Kschischnang
et а/" 2001 ).
Как ориентированные, так и неориентированные графы позволяют выразить
глобальную функцию нескольких переменных как произведение множителей
над подмножествами этих переменных. Фактор-графы делают это разложение
явным, вводя в дополнение к узлам, представляющим переменные, узлы для са
ведения сомножителей:
(8 .60)
а) б) в)
а) б) в)
Рис. 8.42. Ориентированный граф с факторизанией p(x 1)p(x2 )p(x 3 lx 1, х 2 ) (а). Фактор-граф,
на рис. 8.44.
а) б) в)
а) б)
Х3
а) б) в)
Рис. 8.45. Полный неориентированный граф (а). Два фактор-графа, каждый из которых
p(x)=Lp(x), (8.61)
х\х
р(х)= П [LF.(x,Xs)]=
sene(x) Х, (8.63)
= П µf,-_.x(x).
sene(x)
538 ГЛАВА 8. ГРАФОВЫЕ МОДЕЛИ
(8.65)
µf,-н(x)=L···Lfs(x,xp····xм) П [LGт(хт,Хsт)]=
х1 хм mene(/, ) \х Х,т (8.66)
= L···Lfs (х,Хр .. "Хм) П µxm---)fs (хт),
х1 хм mene(f, ) \ х
сообщениями (рис. 8.47). Важно отметить, что узел сомножителя может отпра
вить сообщение в узел переменной после того, как он получил входящие сооб
щения от всех других соседних узлов переменных.
где произведение вычисляется по всем соседям узла хт, за исключением узла fs.
Заметим, что каждый из сомножителей F1 (хт, Хiт) представляет собой поддерево
исходного графа точно такого же типа, как и в (8.62). Подставляя (8.68) в (8.67),
получим:
Напомним, что наша цель состоит в том, чтобы вычислить маргинальное рас
пределение для узла переменной х и что это маргинальное распределение зада
ется произведением входящих сообщений по всем связям, направленным в этот
узел. Каждое из этих сообщений можно вычислить рекурсивно по другим сооб
щениям. Чтобы начать эту рекурсию, мы можем рассматривать узел х как корень
дерева и начинать с листовых узлов. Из определения (8.69) видно, что если ли
стовой узел является узлом переменной, то сообщение, которое оно отправляет
по его единственной связи, задается формулой
(8.70)
8.4. Алгоритм max-sum 541
как показано на рис. 8.49, а. Аналогично, если листовой узел является узлом
сомножителя, то из (8.66) следует, что отправленное сообщение должно иметь вид
(8.71)
как показано на рис . 8.49, б.
хо-==-/ / --==ох
а) б)
является л и листовой узел узл ом псремсн11ой (а) или узл ом сомножителя (б)
общений (см. упражиение 8.20). Поскольку каждый узел переменной будет по
лучать сообщения от всех своих соседей, мы можем легко вычислить маргиналь
ное распределение для каждой переменной на графе. Количество сообщений, ко
торые должны бьnъ вычислены, задается удвоенным количеством связей на графе
и поэтому включает только в два раза больше вычислений, связанных с поиском
одного маргинального распределения. Для сравнения: если бы мы вьmолнили ал
горитм sum-product отдельно для каждого узла, то количество вычислений увели
чивалось бы квадратично в зависимости от размера графа. Обратите внимание на
то, что этот алгоритм фактически не зависит от того, какой узел бьш назначен кор
невым, и на самом деле понятие отдельного узла, имеющего особый статус, было
введено только как удобный способ объяснить протокол передачи сообщений.
Далее предположим, что мы хотим найти маргинальные распределения p(xs),
связанные с множествами переменных, принадлежащими каждому из сомножи
ния - именно те величины, которые нам нужно вычислить на шаге Е, как мы уви
дим, когда будем обсуждать скрытую марковскую модель в главе 13.
Как мы видели, сообщение, отправленное узлом переменной в узел сомножи
телей, является произведением входящих сообщений, поступающих по другим
связям. Мы можем, если захотим, представить алгоритм sum-product в несколь
ко ином виде, исключив сообщения из узлов переменных в узлы сомножителей
и рассматривая сообщения, отправленные сомножителями. Это легче всего уви
деть на примере, представленном на рис. 8.50. До сих пор мы пренебрегали нор
мировкой. Если фактор-граф был получен из ориентированного графа, то сов
местное распределение уже было правильно нормировано, и поэтому марги
нальные распределения, полученные с помощью алгоритма sum-product, будут
правильно нормированы аналогичным образом. Однако, если бы мы начали с
неориентированного графа, то в общем случае получили бы неизвестный коэф
фициент нормировки 1/Z. Как и в примере с простой цепью на рис. 8.38, эту
проблему легко решить, работая с ненормированной версией совместного рас
пределения р(х), где р =jj(x)/Z. Сначала мы выполняем алгоритм sum-
product, чтобы найти соответствующие ненормированные маргинальные распре
деления p(xi). Затем коэффициент 1/Z легко получается путем нормировки лю
(8.73)
Рис. 8.51 . Простой фактор-граф, ислолиусмый для иллюстрации алгоритма sum- product
(8.82)
8.4. Алгоритм max-sum 545
=LLL.P(x),
ражением
(8.88)
вб
о щем случае вектор х
max
не совпадает с на
б
ором значении
v•
xi , что легко
х=О x=I
у=О 0,3 0,4
y=I 0,3 0,0
который имеет место, если а~ О (что всегда будет иметь место для сомножите
лей в графовой модели). Это позволяет поменять местами произведение и опера
тор максимума.
(8.91)
µнf (х) = L
/ene(x)lf
µfi~x (х). (8.94)
(8.97)
xmax =argmax[
х
L µf,-н(х)].
sene(x)
(8.98)
k = 1[J
о
k = З
п - 2 п - 1 п п +1
Рис. 8.53. Решетчатая диаграмма, явно показывающая К возможных состояний (по
одному на строку) для каждой из переменных х" в цепной модели. На этом рисунке
(8.99)
Для того чтобы лучше понять, что происходит, полезно представить цепочку
переменных в виде решетчатой диаграммы (lattice, или trellis), как показано на
рис. 8.53. Обратите внимание, что это не вероятностная графовая модель, по
скольку узлы представляют собой отдельные состояния переменных, а каждая
(8.102)
max-sum, алгоритм ICM не может найти глобальный максимум даже для древо
видных графов.
8.4. Алгоритм max-sum 553
ний выглядит сложнее, в его основе лежит простая идея, которую мы уже ис
пользовали для обеспечения свойств факторизации распределения, чтобы можно
бьmо переставлять суммы и произведения для осуществления частичного сум
мирования, тем самым избегая необходимости работать напрямую с совместным
распределением. Роль дерева сочленений заключается в обеспечении точного и
эффективного способа организации этих вычислений. Следует подчеркнуть, что
это достигается с помощью чисто графовых операций!
Дерево сочленений для произвольных графов является точным и эффектив
ным в том смысле, что для данного графа вообще не существует более дешевого
с вычислительной точки зрения способа. К сожалению, алгоритм должен рабо
тать с совместными распределениями в каждом узле (каждый из которых соот
product, даже если нет гарантии, что он даст хорошие результаты. Этот подход
известен как циклическое распространение доверия (Frey и МасКау, 1998) и яв
ляется приемлемым потому, что правила передачи сообщений (8.66) и (8.69) для
алгоритма sum-product являются чисто локальными. Однако, поскольку граф те
перь имеет циклы, информация может многократно передаваться по графу. Для
некоторых моделей алгоритм будет сходиться, а для других - нет.
Для того чтобы применить этот подход, необходимо определить расписание
передачи сообщений. Предположим, что в один момент времени по любой связи и
в любом заданном направлении передается одно сообщение. Каждое сообщение,
отправленное с узла, заменяет любое предыдущее сообщение, отправленное в том
же направлении по одной и той же связи, и само зависит только от самых послед
них сообщений, полученных этим узлом на предьщущих этапах алгоритма.
Упражнения
а ь с р(а, Ь, с)
о о о 0,192
о о 1 0,144
о о 0,048
о 1 1 0,216
1 о о 0,192
1 о 1 0,064
1 о 0,048
1 1 0,096
ходимых для задания условного распределения p(Ylx 1, ""хм), где xie {О, 1},
может быть уменьшено с 2м до М + 1. Альтернативное представление
(Pearl, 1988) задается формулой
558 ГЛАВА 8. ГРАФОВЫЕ МОДЕЛИ
а ь
p(D = 1 G = 1) = 0,9;
1 (8.105)
p(D =О 1G=О)=0,9. (8.106)
Предположим, что водитель сообщает, что топливный датчик показывает
xi = Yi для всех i.
8.15. (**) WWW Покажите, что совместное распределение р(хп_ 1 , хп) для двух сосед
них узлов на графе, показанном на рис. 8.38, задается выражением вида
(8.58).
8.16. (**)Рассмотрим задачу вычисленияр(хпlхN) для графа, показанного на рис.
8.38, для всех узлов пе {1, "" N - 1}. Покажите, что для эффективного ре
шения этой задачи можно использовать алгоритм передачи сообщений,
560 ГЛАВА 8. ГРАФОВЫЕ МОДЕЛИ
8.17. (**) Рассмотрим граф, показанный на рис. 8.38, имеющий N=5 узлов, в
которых наблюдаются узлы х 3 и х 5 • Используйте d-разделение, чтобы по
казать, что х 2 Jl х 5 1 х3 • Покажите, что если для вычисления p(x2 lx3 , х 5 )
применяется алгоритм передачи сообщений из раздела 8. 4.1, то результат
не будет зависеть от значения х 5 •
ванного дерева.
8.20. (*) WWW Рассмотрим протокол передачи сообщений для алгоритма sum-
product на древовидном фактор-графе, в котором сообщения сначала рас
пространяются от листьев до произвольно выбранного корневого узла, а
затем от корневого узла до листьев. Используя доказательство по индук
8.21. (**) WWW Покажите, что маргинальные распределения p(xs) над множе
ствами переменных х" ассоциированные с каждым из сомножителей.fs(хs)
в графе сомножителей, можно найти, сначала выполнив алгоритм переда
8.29. (**) WWW Покажите, что если алгоритм sum-product выполняется на фак
тор-графе с древовидной структурой (без циклов), то после оmравки ко
нечного количества сообщений ожидающих сообщений не будет.
9
называемого алгоритмом К-средних (Lloyd, 1982) (см. раздел 9.1). Затем введем
в смеси распределений латентные переменные. При этом дискретные латентные
формализовать это понятие, сначала введя множество D-мерных векторов µk, где
k = 1, ".,К, в котором µk - прототип, связанный с k-м кластером. Как мы вскоре
увидим, векторы µk можно интерпретировать как центры кластеров. Наша цель
9.1. Кластеризация по методу К-средних 565
состоит в том, чтобы разделить точки по кластерам, а также найти набор векто
ров {µk}, таких что сумма квадратов расстояний каждой точки до ее ближайше
го вектора µk является минимальной.
(9.1)
rnk -
-{1, если k = argminllxn -µjll 2 ,
} (9.2)
О в противном случае.
566 ГЛАВА 9. СМЕСИ РАСПРЕДЕЛЕНИЙ И ЕМ-АЛГОРИТМ
N
2:~::Гпк(хп -µк)=О. (9.3)
п~I
(9.4)
п
ных "Старый служака" на рис. 9 .1. Для удобства мы выполнили линейное мас
штабирование данных, известное как стандартизация, так что каждая из пере
менных имеет нулевое математическое ожидание и единичное стандартное от
2 а) 2 б) 2 в)
:Jlii
~?JI·
о о о
"l!x,"\o.
-2 -2
~·"'
-2
-2 о 2 -2 о 2 -2 о 2
о
г)
:Jlii
·:x:\t~·
2
о
д)
~".
.. ;\о.
..Jli·
2
о • •
." ...
•
W.... - ....
W:_·· •
-2
-2
•
о 2
-2
-2
•
о 2
-2
-2 "·"' о 2
2 ж) 2 з) 2 И)
..Jli· ..Jli·
о
-2
-2
·.;\о.
-....
•
~".
о 2
о
-2
-2 о 2
о
-2
-2
• ~-.·
..;":\о .
....
о 2
синим крестиками соответственно (а). На первом Е-шаге каждая точка назначается либо
М-шаге каждый центр масс кластера повторно вычисляется как центр масс точек,
о
1000
500
о
о
о о о о о
о
2 3 4
Рис. 9.2. График целевой функции J, заданной формулой (9.1) после каждого Е-шага
(синие точки) и М-шага (красные точки) алгоритма К-средних для примера, показанного
на рис. 9.1. Алгоритм сходится после третьего М-шага, и последующий цикл Е- и М-шагов
данных, такой как дерево, в котором соседние точки находятся в одном и том же
где 17п - параметр скорости обучения, который, как правило, делается монотон
но уменьшающимся по мере увеличения количества точек.
лемо для случаев, когда некоторые или все переменные представляют собой кате
гориальные метки, например) (см. раздел 2. 3. 7), но также может делать процедуру
определения кластера неустойчивой по отношению к выбросам. Мы можем обоб
щить алгоритм К-средних, введя более общую меру несходства V(x, х') между
двумя векторами х и х', а затем минимизируя следующую меру искажения:
N К
любом выборе меры несходства V(·"), если ее можно легко вычислить. Таким об
разом, М-шаг для каждого кластера k подразумевает дискретный поиск по точ
кам Nk, назначенным этому кластеру, что требует о( н;) вычислений V(-").
Одной из примечательных особенностей алгоритма К-средних является то, что
на каждой итерации каждая точка назначается одному и только одному из класте
ров. В то время как некоторые точки могут быть намного ближе к конкретному
центру масс µk, чем к любому другому центру, могут быть другие точки, которые
расположены примерно на полпути между центрами масс кластеров. В последнем
случае неясно, является ли жесткое назначение ближайшему кластеру правильным
решением. В следующем разделе мы увидим, что, применяя вероятностный подход,
мы получаем "мягкие" присвоения точек кластерам таким образом, который отра
жает уровень неопределенности в отношении наиболее подходящего назначения.
Эта вероятностная формулировка имеет многочисленные преимушества.
к =2 К =З К= 10 Исходное изображение
Рис. 9.3. Два примера применения алгоритма К-средних для сегментации изображения,
векторного квантования для сжатия данных, в котором меньш ие значения К дают более
данных. Важно различать сжатие данных без потерь, цель которого состоит в
том, чтобы иметь возможность точно восстанавливать исходные данные из сжа
того представления и сжатие данных с потерями, при котором мы допускаем
некоторые ошибки в восстановлении в обмен на более высокие уровни сжатия
по сравнению со сжатием без потерь. Мы можем применить алгоритм К-средних
к задаче сжатия данных с потерями следующим образом. Для каждой из N точек
сохраняем только значение k кластера, которому она назначена, а также сохра
няем значения К кластерных центров масс µk, для которых обычно требуется
значительно меньше данных, если выбрать К« N. Затем каждая точка аппрок
симируется ее ближайшим центром µk. Новые точки можно сжать аналогичным
образом, сначала найдя ближайший µk> а затем сохраняя метку k вместо исход
ного вектора данных. Эту структуру часто называют векторным квантованием,
p(zk = 1) = Л"k,
где параметры {rtк} должны удовлетворять условиям
о ~ Jl"k ~ 1 (9.8)
и
Iяk =i (9.9)
k=I
Р ( z) = П я;k . (9.10)
k=I
9.1. Кластеризация по методу К-средних 573
r (zk ) -= р (zk -1
_ Iх )-- к
p(zk =l)p(xlzk =1) _
-
I р ( z1 = 1) р ( xl z1 = 1)
J=l
(9.13)
JrkN ( xlµk ,I:k)
к
L1Z"1N( xlµ1,I:1)
J=l
а) б) в)
." ."
0,5
;l;..Af~··
. ......
·~
0,5 0,5
•
·-!f···
•s ••
i,•
о о о
Рис. 9.5. Пример 500 точек, взятых из смеси трех нормально распределенных
жем, j-й компонент, имеет математическое ожидание µ1, точно равное одной из
точек, так что µ1 = Хп для некоторого значения п. Затем эта точка вносит вклад в
Если мы рассмотрим предел при ст1 ~ О, то увидим, что этот член стремится к
бесконечности, поэтому логарифмическая функция правдоподобия также стре
мится к бесконечности. Таким образом, максимизация логарифмической функ
ции правдоподобия не является корректной задачей, поскольку такие особенно
сти всегда будут присутствовать и возникать всякий раз, когда одна из нормаль
но распределенных компонент коллапсирует в конкретную точку. Напомним,
другой компонент может сжиматься в одну конкретную точку и тем самым спо
р(х)
зации (Fletcher, 1987; Nocedal and Wright, 1999; Bishop and Nabney, 2008). Хотя
градиентные методы эффективны и действительно играют важную роль для
нейронных сетей, моделирующих смеси плотностей (см. главу 5), мы рассмот
рим альтернативный подход, известный как ЕМ-алгоритм, который широко
(9.16)
j
9.1. Кластеризация по методу К-средних 579
(9.17)
всем точкам из множества данных, в которых весовой коэффициент для точки х"
задается апостериорной вероятностью y(zпk) того, что за генерирование Хп несет
ответственность компонент k.
Если приравнять к нулю производную от ln p(XI я,µ, 1:) по 1:k и следовать
аналогичной линии рассуждений, используя метод максимального правдоподо
бия для ковариационной матрицы одного нормального распределения, то полу
чим формулу (с.-и. раздел 2.3.4)
1 N Т
I:k = Nk ~y(zпk)(x" -µk)(хп -µk) , (9.19)
которая имеет тот же вид, что и соответствующий результат для одного нор
при этом снова каждая точка данных получает вес, равный соответствующей
(9.20)
580 ГЛАВА 9. СМЕСИ РАСПРЕДЕЛЕНИЙ И ЕМ-АЛГОРИТМ
~ N(xп[µk,~k)
0= L.J +Л (9.21)
n=I L7r1N( хп[µ1 ,~ 1 ) '
j
где мы снова видим появление ответственности. Если мы теперь умножим обе ча
так что коэффициент смешивания для k-го компонента определяется средней от
ветственностью, которую этот компонент несет за объяснение точек.
Следует подчеркнуть, что результаты (9.17), (9.19) и (9.22) не являются ре
шением в замкнутой форме для параметров смеси, поскольку ответственность
у(zпд сложным образом зависит от этих параметров (9.13). Однако эти результа-
ты позволяют создать простую итерационную схему для решения задачи макси
На рис . 9.8, б, показан результат первого Е-шага. На нем каждая точка изобра
жена с использованием доли синих чернил, равной апостериорной вероятности
того, что она была сгенерирована с помощью синего компонента, при соответ
ствующей доли красных чернил, заданной апостериорной вероятностью того,
реместилось в центр масс точек, изображенных синим цветом. Точно так же кова
риация синего нормально распределенного компонента равна ковариации точек,
2 2 2
о O.:f.
L= 1
-2
о
-2
__:=~·о о
-2
-2 о а) 2 -2 о б) 2 -2 о в) 2
2
L=2
2
L=5
2
L =20
·'f""
.
о о о
• ::r;J.
а.;_.
.,!1.·.""t.
:r;}~-'
-2
-2 о г) 2
-2
-2 о д) 2
-2
-2 "'" о е) 2
ку. Следует подчеркнуть, что, как правило, существует множество локальных мак
ния параметров:
- 1Z'kN(xnlµk,I:k)
r ( znk ) - к . (9.23)
L1Z'1N(xnlµ1,I:J)
j=I
(9.24)
9.1. Кластеризация по методу К-средних 583
где
(9.27)
n=I
р х1 о) = 1n { ~ р ( х, z1 о)}.
1n ( (9.29)
мального правдоподобия.
Предположим теперь, что для каждого наблюдения в матрице Х нам было со
общено соответствующее значение латентной переменной Z. Мы будем назы
вать множество {Х, Z} полным ммжеством данных, а фактические наблюдае
мые данные Х - неполными (рис. 9.5). Для полного множества данных лога
рифмическая функция правдоподобия принимает простой вид ln р(Х, ZI 8), и мы
будем предполагать, что максимизация этой логарифмической функции правдо
подобия на основе полного множества данных не представляет труда.
На практике, однако, у нас нет полного множества данных {Х, Z}, а есть
только неполные данные Х. Наше знание значений латентных переменных в
матрице Z задается только апостериорным распределением p(ZIX, 8). Посколь
ку мы не можем использовать логарифмическую функцию правдоподобия для
полных данных, мы вычисляем ее математическое ожидание при апостериорном
зируется путем выбора некоторого начального значения для параметров 80• Ис
пользование ожидания может показаться несколько произвольным. Однако мы
увидим обоснование этого выбора, когда изложим более глубокий анализ ЕМ
алгоритма в разделе9.4.
На Е-шаге мы используем текущие значения параметров 8°1d, чтобы найти
апостериорное распределение латентных переменных p(ZIX, 8°1d). Затем будем
использовать это апостериорное распределение, чтобы найти математическое
ожидание логарифмической функции правдоподобия на основе полного множе
ства данных для некоторого общего значения параметра 8. Это ожидание, обо
значенное через Q(O, 8°1d), задается формулой
Общий ЕМ-алгоритм
где
(9.34)
и вернуться к шагу 2.
параметров р(8) (см. упраж11е1111е 9.4). В этом случае Е-шаг остается таким же,
как в случае с максимальным правдоподобием, тогда как на М-шаге максимизиро
ванная величина определяется как Q(8, 8°1d) + 1np(8). Подходящие варианты для
априорного распределения исключают особенности, показанные на рис. 9.7.
Здесь мы рассмотрели использование ЕМ-алгоритма для максимизации
функции правдоподобия при наличии дискретных латентных переменных. Од-
586 ГЛАВА 9. СМЕСИ РАСПРЕДЕЛЕНИЙ И ЕМ-АЛГОРИТМ
рис. 12.11. Это будет корректной процедурой, если значения данных будут от
сутствовать по случайным причинам, т.е. механизм, вызывающий пропуск зна
данных Х, и мы видели, что это сложнее, чем для одного нормального распреде
ных {Х, Z}. Из (9.10) и (9.11) следует, что эта функция правдоподобия принима
ет вид
N К
N К
lnp(X,Zlµ,1:,tr) =
n=l k=l
{
L~:Zпk lnлk + lnN( xnlµk,1:k) }. (9.36)
(9.37)
N К
N К
(9.41)
(9.42)
y(zпk) ~ rnk• где rnk определяется формулой (9.2). Таким образом, каждая точка
назначается кластеру, имеющему самое близкий центр массы.
доле точек, назначенных кластеру k, хотя эти параметры больше не играют ак
тивной роли в алгоритме.
(9.43)
где х = (х 1 , "" хv)т иµ= (µ1, "" µv)т. Мы видим, что отдельные переменные Х;
независимы при фиксированном µ. Легко видеть, что математическое ожидание
и ковариация этого распределения задаются формулами
IE[x] = µ, (9.45)
cov[x] = diag{µ;(l-µ;}. (9.46)
9.1. Кластеризация по методу К-средних 591
(9.48)
где :Ek = diag{µk;(l- µk;)}. Поскольку ковариационная матрица cov[x] уже не яв
ляется диагональной, распределение смеси может отражать корреляции между
(9.51)
N К
E[Inp(X,Zlµ,я)J= LLY(zпk){1ntrk +
n=I k=I
D
(9.55)
+L[ Хп; 1nµki + (1-xni )ln(l- µki)J,
i=l
(9.56)
trkp(xnlµk)
к
L1i1P( xnlµJ)
j=I
Если мы рассмотрим сумму поп в (9.55), то увидим, что ответственность по
является только в двух слагаемых, которые могут быть записаны как
9.1. Кластеризация по методу К-средних 593
N
Nk = :Lr(zпk ), (9.57)
n=I
(9.58)
яk нужно ввести множитель Лагранжа, чтобы учесть ограничение LЯk =1. Вы-
k
полняя действия, аналогичные действиям, предусмотренным в модели смеси
нормальных распределений, получим (с.м. упра;нс11е11ие 9.16)
яk = Nk
N, (9.60)
Рис. 9.10. Модель смеси Бернулли, в верхнем ряду которой показаны примеры из
(9.62)
(9.63)
тому же результату (при условии, что они находят один и тот же локальный
максимум обоснованности). Это можно проверить, заметив сначала, что величи
на у определяется формулой
м 1
у=М -a'L--=M-aTr(Sн ). (9.64)
i=t А; +а
Решая это уравнение относительно а, получаем формулу (9.63), что точно сов
падает с формулой уточнения в ЕМ-алгоритме.
В качестве заключительного примера рассмотрим тесно связанную модель, а
(9.68)
9.1. Кластеризация по методу К-средних 597
(9.71)
(9.72)
598 ГЛАВА 9. СМЕСИ РАСПРЕДЕЛЕНИЙ И ЕМ-АЛГОРИТМ
'
.c(q, O) lnp(XIO)
тив, что значение ln p(XI 8°1d) не зависит от q(Z), поэтому наибольшее значение
l(q, 8°1d) достигается, когда дивергенция Кульбака-Лейблера обращается в нуль,
иначе говоря, когда q(Z) равно апостериорному распределению p(ZIX, (}°1d).
В этом случае нижняя граница будет равна логарифмической функции правдо
подобия, как показано на рис. 9.12.
КL(qllp) =О ----.---""!r-----..---
---- --- .
q(Z) = p(ZIX, 8°1d) в (9.71), то после Е-шага нижняя грань примет вид
КL(qllP)
lnp(Xl8° 0 ~
как схематически показано на рис. 9.14. Здесь красная кривая изображает лога
рифмическую функцию правдоподобия (при неполных данных), значение которой
мы хотим максимизировать. Начнем с некоторого начального значения параметра
o o\d o new
p(X,ZIB)
p(ZIX,8) = L р (x,zo 1 )
(9.75)
z
602 ГЛАВА 9. СМЕСИ РАСПРЕДЕЛЕНИЙ И ЕМ-АЛГОРИТМ
выполнять. Тем не менее для сложных моделей может оказаться, что либо Е
шаг, либо М-шаг, либо оба остаются сложно выполнимыми. Это приводит к
двум возможным обобщениям ЕМ-алгоритма следующим образом.
Задачу трудновыполнимого М-шага решает обобщенный ЕМ-алгоритм
(Generalized ЕМ - GEM). Вместо стремления максимизировать L(q, 8) по (}
он изменяет параметры таким образом, чтобы просто увеличить его значение.
Как и прежде, поскольку l,(q, 8) является нижней границей логарифмической
функции правдоподобия, каждый полный ЕМ-цикл GЕМ-алгоритма гарантиро
ванно увеличивает значение логарифмической функции правдоподобия (если
9.1. Кластеризация по методу К-средних 603
тов. Еще одна форма GЕМ-алгоритма, известная как алгоритм условной мак
симизации математического ожидания, или ЕСМ-алгоритм (Expectation Con-
ditional Maximization - ЕСМ), включает в себя выполнение нескольких опти
мизаций с ограничениями на каждом М-шаге (Meng and RuЬin, 1993).
Например, параметры можно разбить на группы, а М-шаг - на несколько эта
пов, каждый из которых включает в себя оптимизацию одного из подмножеств
при фиксированном дополнении.
Аналогичным образом можно обобщить Е-шаг ЕМ-алгоритма, выполнив ча
стичную, а не полную, оптимизацию [,(q, fJ) относительно q(Z) (Neal and Hinton,
1999). Как мы видели, для любого заданного значения (}существует единствен
ный максимум [,(q, О) по q(Z), который соответствует апостериорному распре
делению q8 (Z) = p(ZIX, О) и для этого выбора q(Z) оценка l,(q, (}) равна лога
рифмической функции правдоподобия ln p(XI О). Из этого следует, что любой
алгоритм, сходящийся к глобальному максимуму l,(q, О), найдет значение(}, ко
торое также является глобальным максимумом логарифмической функции прав
доподобия ln p(XI О). Если р(Х,ZI О) является непрерывной функцией от (}, то в
силу непрерывности любой локальный максимум l,(q, fJ) также будет локаль
ным максимумом ln p(XI О).
Рассмотрим случай N независимых точек х 1 , "" xN с соответствующими ла
тентными переменными z 1" "" zN. В таком случае совместное распределение
р(Х, ZI О) факторизуется по точкам, и эта структура может быть использована в
последовательной версии ЕМ-алгоритма, в которой на каждом ЕМ-цикле точки
вместе с
(9.79)
Упражнения
9.1. (*) WWW Рассмотрим алгоритм К-средних, описанный в разделе 9.1. Пока
жите, что из-за наличия конечного числа возможных назначений для набо
ра дискретных индикаторных переменных rnk и факта, что для каждого та
кого назначения существует единственный оптимум по {µk}, алгоритм
К-средних должен сходиться после конечного количества итераций.
кажите, что Е-шаг остается таким же, как и в случае максимального прав
доподобия, тогда как на М-шаге максимизированная величина задается
суммой Q(8, 8°1d) + 1np(8), где Q(8, 8°1d) определяется по формуле (9.30).
9.5. Рассмотрим ориентированный граф, описывающий смесь нормальных
N
Р( z1x,µ.~,1Z') =ПР( zn lxn,µ,~,1Z' ). (9.80)
n=I
9.8. (*) WWW Покажите, что если мы максимизируем (9.40) по µk, сохраняя
фиксированными уровни ответственности y(zпk), то получим решение в
замкнутой форме, заданное формулой (9.17).
9.9. (*)Покажите, что если мы максимизируем (9.40) по I:k и ffк, сохраняя фик
сированными уровни ответственности y(zпk), то получим решения в за
мкнутой форме, заданные формулами (9.19) и (9.22).
9.10. (**)Рассмотрим модель плотности, заданную смесью распределений смеси
к
и предположим, что вектор х разбивается на две части так, что х =(ха, хь).
Покажите, что условная плотность р(хьlха) сама является смесью распре-
606 ГЛАВА 9. СМЕСИ РАСПРЕДЕЛЕНИЙ И ЕМ-АЛГОРИТМ
9.11. (*)В разделе 9.3.2 мы нашли связь между алгоритмом К-средних и ЕМ
алгоритмом для смесей нормальных распределений, рассмотрев модель
1 N
E[x]=- Lxn =х. (9.83)
N n=I
j = 1, ... , М, при условии, что LX!I =1 для всех i. Предположим, что pac-
J
пределение этих переменных описывается смесью дискретных мультино-
где
D М
пределению. Это может быть связано с тем, что размерность пространства ла
тентных переменных слишком велика или апостериорное распределение имеет
610 ГЛАВА 10. ПРИБЛИЖЕННЫЙ ВЫВОД
большого масштаба. Кроме того, может быть трудно узнать, генерирует ли схе
ма выбора независимые выборки из генеральной совокупности с требуемым
распределением.
Вариационные методы берут свое начало в XVIII веке с работ Эйлера, Ла
(10.2)
где
набором параметров OJ. В этом случае нижняя граница L,(q) становится функцией
О , !\
30
0,6
20
0,4
10
0,2
о
2 - 1 о 2 3 4 - 1 о 2 3 4
рис . 4.14. На левом графике показаны исхоююс распределение (желтый цвет), а также
q { Z) = П q; { Z; ). (10.5)
i=I
Среди всех распределений q(Z), имеющих вид (10.5), мы теперь ищем такое
распределение, для которого нижняя грань L:,(q) является наибольшей. По этой
причине мы хотим выполнить свободную (вариационную) оптимизацию l:,(q) по
всем распределениям q;(Z;), оптимизируя функционал по каждому из множите
лей поочередно. Для этого сначала подставим (10.5) в (10.3), а затем проанали
зируем зависимость от одного из множителей qj(Z1). Обозначая q1(Z1) как q1, что
бы не усложнять обозначения, получим
= J lnp(X,Z )dz -J
q1 1 1 q1 lnq1dZ1 +const,
Леонард Эйлер
1707-1783
Эйлер - швейцарский математик и физик, который
работал в Санкт-Петербурге и Берлине и считается од
ним из величайших математиков всех времен. Он, без
условно, самый плодовитый, и его работы составляют
75 томов. В частности, он сформулировал современную
теорию функций, разработал (вместе с Лагранжем) вари
ационное исчисление и открыл формулу i" = -1, которая
связывает четыре наиболее важных числа в математике. В последние семна
дцать лет жизни он почти полностью ослеп и все же получил почти полови
q1(Z1). Это легко сделать, если признать, что формула (10.6) является отрицатель
следующих примеров.
(10.10)
мальное распределение вида q(z) = q 1(z 1)q2(z 2). Сначала применим общий ре
зультат (10.9), чтобы найти выражение для оптимального множителя q; (z 1 ).
При этом следует отметить, что в правой части нужно сохранить только те чле
ны, которые имеют некоторую функциональную зависимость от z 1, потому что
все остальные члены могут быть поглощены константой нормировки. Таким об
разом, имеем
ле (10.9) явно, так как оно представляет собой константу нормировки, которую
при необходимости можно найти в конце вычислений путем проверки. Исполь
зуя метод выделения полного квадрата, мы можем определить математическое
(10.12)
где
(10.13)
(10.14)
в котором
(10.15)
Заметим, что эти решения связаны, так что q*(z 1) зависит от математических
ожиданий, вычисленных по q"(z2 ), и наоборот. Мы решаем эту проблему, рас
сматривая вариационные решения уравнений повторной оценки и перебирая пе
ременные по очереди, уточняя их до тех пор, пока не будет удовлетворен не
но показать, что оно является единственным решением при условии, что распре
рассматриваем общую задачу минимизации КL(pllq) при условии, что q(Z) явля-
618 ГЛАВА 10. ПРИБЛИЖЕННЫЙ ВЫВОД
(10.16)
Z2 Z2
0,5 @) 0,5
о
о 0,5 Z1 0,5 Z1
а) б)
В этом случае мы находим, что оптимальное решение для qj(Zj) задается со
ответствующим маргинальным распределением p(Z). Обратите внимание на то,
что это решение имеет замкнутую форму и поэтому не требует итерации.
Для того чтобы применить этот результат к иллюстративному примеру нор
мального распределения p(z) над вектором z, можно использовать форму
лу (2.98), что дает результат, показанный на рис. 10.2, б. Мы видим, что матема
тическое ожидание аппроксимации снова является правильным, но значительная
Различие между этими двумя результатами можно понять, заметив, что области
пространства Z, где значение p(Z) близко к нулю, а значение q(Z) не близко к ну
лю, дают большой положительный вклад в дивергенцию Кульбака-Лейблера:
а) б) в)
Рис. 10.3. Еще одно сравнение двух альтернативных форм дивергенции Кульбака
(10.19)
(10.20)
(10.21)
формулами
р(µl т) = N(µlµo, Р.-о т)- 1 ), (10.22)
р(т) = Gam(тla 0 , Ьо), (10.23)
(10.24)
(10.26)
(10.27)
622 ГЛАВА 10. ПРИБЛИЖЕННЫЙ ВЫВОД
-~JEµ
2
[f (xn -
n;I
µ )2 + ~ (µ- µ 2
0) ] + const,
N+l
aN =ао+--, (10.29)
2
(10.30)
о о
-1 о
µ -1 о µ
2 2
В) Г)
r r
о
-1
~ о
µ о
-1 о µ
В общем, нам нужно использовать итеративный подход, такой, как этот, что
бы найти оптимальное факторизованное апостериорное распределение. Однако в
очень простом примере, который мы здесь рассматриваем, существует возмож
ность найти явное решение, решая одновременно уравнения для оптимальных
множителей qµ(µ) и q r( r). Прежде чем это сделать, мы можем упростить выра
жения, рассмотрев широкие неинформативные априорные распределения, в ко
торых µ 0 = а 0 = Ь 0 = А. 0 = О. Хотя эти значения параметров соответствуют непри
емлемым априорным распределениям, мы видим, что апостериорное распреде
ление все еще четко определено. Используя стандартный результат l!Щ r] = aN/ bN
для математического ожидания гамма-распределения вместе с (10.29) и (10.30)
(см. приложе11ие В), имеем
1
-[-]=JE 1 N
[ -:2)хп-µ) 2] =-_
N (- _
х 2 -2х1Е[µ]+1Е [ µ 2 J) • (10.31)
1Е t' N + 1 n=I N- 1
624 ГЛАВА 10. ПРИБЛИЖЕННЫЙ ВЫВОД
(10.32)
Теперь можно заменить эти моменты на (10.31 ), а затем решить уравнение отно
сительно !Е[ т] ( с.м. упражиеиие 1О.9 ), чтобы получить выражение
_1_=(х2 -х2)=
IE( т)
(10.33)
=_!_
N п=t
I (хп -х(
Исчерпывающее описание теории байесовского вывода для нормального рас
пределения, включая обсуждение его преимуществ над методом максимальной
правдоподобности, см. в Minka (1998).
p(Z,mlX) }
lnp(X) =.С- ~~q(Zlm )q(m)ln {q(Zlm )q(m) , (10.34)
L = н:ч(Zlm)q(m)lnЦ~f~~(2)} (10.35)
(10.38)
где для симметрии мы выбрали один и тот же параметр СХ() для каждого из ком
понентов, а С( а 0 ) - константа нормировки распределения Дирихле, определяе
мая формулой (Б.23) (с.и. раздел 2.2.1). Как мы видели, параметр а 0 можно ин
терпретировать как эффективное априорное количество наблюдений, связанных
с каждым компонентом смеси. Если значение а0 невелико, то на апостериорное
распределение будут в основном влиять данные, а не априорное распределение.
р(µ,А) = р(µIА)р(Л) =
(10.40)
= ТТ N(µklmo,(PoAk )- 1 )w(лklWo, vo ),
k=I
где
N К
q* (z) ос ППР:t
n=I k=I
· (10.47)
где
(10.49)
10.2. Иллюстрация: вариационная смесь нормальных распределений 629
(10.50)
из которого видно, что величины rпk играют роль ответственностей. Заметим, что
оптимальное решение для q*(Z) зависит от моментов, вычисленных по распре
делениям других переменных, и поэтому вариационные уравнения обновления
снова оказываются связанными и должны решаться итеративно.
Nk = Lrnk• (10.51)
n=I
(10.52)
(10.53)
k=I (10.54)
К N
+LLJE[ znk ]lnN( xnlµk,AJ; +const. 1)
k=I n=I
Правая часть этого выражения распадается на сумму членов, включающих
К К N
lnq* (я)= (а0 -1) ~)nJl'k + L~>nk ln Jl'k + const, (10.56)
k=l k=l n=I
(10.59)
(10.60)
(10.61)
(10.62)
(10.63)
Эти уравнения аналогичны уравнениям М-шага ЕМ-алгоритма для поиска
максимума правдоподобия смеси нормальных распределений. Мы видим, что
вычисления, которые должны выполняться для уточнения вариационного апо
(10.67)
(10.68)
(10.69)
15
60 120
дается формулой
.С= Lfff
z
q ( Z,n,µ,A) Z,n,µ, ~)} dn dµ dA =
1n{ рq(~,Z,n,µ,A
= E[ln p(X,Z,n,µ,A )J-E[lnq(Z,n,µ,A )] = (10.70)
N К
для Z, Дирихле для п- и Гаусса-Уишарта для (µk, Лk). Предполагая общие пара
метрические формы для этих распределений, мы можем получить форму ниж
ней границы в зависимости от параметров распределений. Максимизируя оценку
636 ГЛАВА 10. ПРИБЛИЖЕННЫЙ ВЫВОД
(10.81)
(10.82)
10.2. Иллюстрация: вариационная смесь нормальных распределений 637
ных о гейзере Старый Служака. Следует еще раз подчеркнуть, что метод макси
мального правдоподобия приведет к значениям функции правдоподобия, кото
рые монотонно возрастают с увеличением К (при условии, что вырожденные
решения были устранены, а эффекты локальных максимумов компенсированы),
и поэтому не может быть использован для определения соответствующей слож
ности модели. Напротив, байесовский вывод автоматически гарантирует ком
промисс между сложностью модели и подгонкой данных (см. раздел 3.4).
--
p(VIК)
- - Н-·
•
·Н
-
2 3 4 5 6
к
N
p(tlw)= ПN(tпlwтфп,/3- 1 ), (10.87)
n=I
fJ
----lf-"4
и ln а, получим
(10.93)
где
м
aN =ао +-, (10.94)
2
(10.99)
где
зованием свидетельств в разделе 3.5. Для этого рассмотрим случай а0 = Ь 0 =О, со
ответствующий пределу бесконечно широкого априорного распределения над а.
644 ГЛАВА 10. ПРИБЛИЖЕННЫЙ ВЫВОД
р ( tl х, t) = Jр ( tl х, w) р ( wl t) dw == (}
== Jp(tlx,w)q(w)dw=
(10.105)
= J N(tlwтф(x),p-I )N(wlmN,SN )dw =
= N(tlm~ф( х ),ст 2 (х) ),
где мы оценили интеграл, воспользовавшись результатом (2.115) для линейно
гауссовской модели. Здесь дисперсия, зависящая от входных данных, задается
формулой
(10.106)
Заметим, что это выражение имеет тот же вид, что и результат (3.59), получен
ный при фиксированном а, за исключением того, что теперь в определении SN
появляется математическое ожидание Е[ а].
(10.110)
-Ь aN -1nГ(а )
о ь о '
N
1 м
-IE[lnq(w)J. =11nlSNl+2[l+ln21r], (10.111)
3 5 7 9
распределенного шума, имеющего дисперсию, равную 0,09. Значение этой границы даст
N
p(X,ZIТJ) = П h{ Х" ,zn )g(ТJ )exp{ТJTU{ xn,zn )}. (10.113)
n=\
(10.114)
как априорное количество наблюдений v0, которые все имеют значение Zo для век
тора u. Теперь рассмотрим вариационное распределение, которое факторизуется
между латентными переменными и параметрами, так что q(Z, Т/) = q(Z)q(ТJ). Ис
поm,зуя общий резуm,тат (10.9), получим следующее выражение:
(10.116)
(10.119)
(10.120)
N
VNZN =VoZo + LEz. [ u(xп,zп)J. (10.121)
n=I
Заметим, что решения для q•(zп) и q•(71) связаны, поэтому вычислим их итератив
но с помощью двух.этапной процедуры. На вариационном Е-шаге мы вычисляем
(10.123)
Любые члены в правой части, не зависящие от х/, могут быть поглощены посто
янным слагаемым. Фактически единственными членами, которые зависят от х/,
черним узлам узла) и поэтому также зависят от сородителей дочерних узлов, т.е.
от других родителей дочерних узлов, кроме самого узла х1 . Множество всех уз
Рис. 10.10. Слева красная кривая соответствует функции ехр(-х), а синяя линия -
касательной прямой при х = .;, определяемой формулой (10.125) при .; = 1. Эта прямая
имеет наклон 17 = .f'(~ = -ехр( - ~ . Обратите внимание на то , что любая друтая
значение у при х = .;. Справа приведен соответствующий график функции 11.; -g( 11), где
прямой, имеющей наклон 77, как 77х - g( 77), где (отрицательное) смещение g( 77) яв-
652 ГЛАВА 10. ПРИБЛИЖЕННЫЙ ВЫВОД
у
\ у
f(x)
-g(17)
х х
а синяя прямая представляет собой линейную функцию qx, которая является нижней
как было показано ранее. Функция 17q-g(17) при q= 1 показана на рис. 10.10,
справа. В качестве проверки можем подставить ( 10.131) в ( 10.130), что дает мак
1
ст(х)=--. (10.134)
1+е-х
(см. упражнение 10.31). Это приводит к нижней оценке дляf(х), являющейся ли
нейной функцией от х2, сопряженная функция которой определяется формулой
(10.139)
dx d l х
0=77- dx2 dxf(x)=77+ 4х th2. (10.140)
Рис. 10.12. Слева красным цветом показана логистическая сигмоида ст(х), определяемая
/= fcт(a)p(a)da, (10.145)
пишем в виде а(а) ~f(a, i;), где i;- вариационный параметр. Интеграл теперь
становится произведением двух экспоненциально-квадратичных функций и по
этому может быть вычислен аналитически, чтобы дать оценку /:
656 ГЛАВА 10. ПРИБЛИЖЕННЫЙ ВЫВОД
Теперь у нас есть свобода выбора вариационного параметра .;, что мы и делаем,
вычисляя значение .;•, которое максимизирует функцию F( .;). Результирующее
значение F( .;•) представляет собой самую узкую границу в этом семействе границ
и может быть использовано в качестве приближения к интегралу/. Однако эта оп
тимизированная оценка будет в общем случае неточна. Хотя оценку а(а) '?.f(a, .;)
на логистической сигмоиде можно точно оптимизировать, требуемый выбор для .;
зависит от значения а, так что оценка является точной для одного значения а. По
скольку величина F( .;) получается интегрированием по всем значениям а, значе
ние.;° представляет собой компромисс, взвешенный по распределению р(а).
Jaakkola and Jordan (2000). Как и метод Лапласа, он также приводит к гауссовской
аппроксимации апостериорного распределения. Однако большая гибкость вариа
ционного приближения приводит к повышению точности по сравнению с методом
Лапласа. Кроме того (в отличие от метода Лапласа), вариационный подход опти
мизирует четко определенную целевую функцию, заданную строгой оценкой мо
дельных данных. Логистическая регрессия также рассматривалась Dybowski and
Roberts (2005) с байесовской точки зрения с использованием методов выбора
Монте-Карло.
(10.147)
виде
p(tlw)=o-(a) 1 {1-о-(а)} 1 - 1 =
1 )t (1 1 )1-t =
=( 1+ е -а - 1+ е -а
(10.148)
Л(q)=-1
2;
[o-(q)-.!_]·
2
(10.150)
(10.151)
ного распределения t и w
p(t, w) = p(t lw)p(w) ~ h(w, ,;)p(w), (10.152)
N
h( w,,;) =По-( fп )ехр{wт ф,,tп -( Wт ф,, + qn )/2-
n=I (10.153)
658 ГЛАВА 10. ПРИБЛИЖЕННЫЙ ВЫВОД
-~(w-m 0 )т 8 01 (w-m 0 )+
N (10.155)
+L {wтt(tп -1/2)-J.(qп)wт (t()w} + const.
n=I
(10.156)
где
N
s-;) =S() 1 +2Lл(;п)ttт. (10.158)
n=I
J
lnp(t) = ln р( tlw )Р( w "ylw ~ ln Jh( w,~)p( w )dw = J:,( ~). (10.159)
N
Q( ~,~old) =L {lncт{ q" )- q"/2-Л( qn )( (Е[ wwт]t - q;)} + const, (10.161)
n=I
(10.162)
(10.163)
(10.164)
цы (10.151) и нормировки .
Прогностическое распределение получается маргинализацией по апостериор
6 6
4 4
~t\
2 2
о о хх
х х
-2 -2
о
-4 -4
-6 -6
-4 -2 о 2 4 -4 -2 о 2 4
регрессии, чтобы можно было вывести значение этого параметра из набора дан
ных. Это можно сделать путем объединения глобальных и локальных вариаци
онных приближений, чтобы вычислять нижнюю границу маргинального прав
доподобия на каждом этапе. Такой комбинированный подход был принят в ра
боте Bishop and Svensen (2003) в контексте байесовского подхода к
моделированию иерархической смеси экспертов.
В частности, снова рассмотрим простейшее изотропное нормальное распре
деление вида
тического решения, которую будем решать, используя как локальный, так и гло
бальный вариационные подходы к той же модели.
Сначала введем вариационное распределение q(w, а), а затем применим раз
ложение (10.2), которое в этом случае примет вид
(10.170)
10.6. Вариационная логистическая регрессия 663
(10.171)
На этом этапе нижняя грань l,(q) все еще не может быть представлена в ана
литическом виде из-за формы множителя правдоподобия p(tlw). Поэтому вы
-ff ( ) {h(w,~)p(wla)p(a)}
- q w,a ln {
q w,a
) dwda.
(10.172)
(10.174)
где
N
"f./JµN = L(tп -1/2)ft, (10.175)
n=l
664 ГЛАВА 10. ПРИБЛИЖЕННЫЙ ВЫВОД
N
r.-;J = Е[ а ]l + 2L,1_( qn М1 Фпт · (10.176)
n=I
J
lnq( а)= JE" [ lnp( wla) + lnp( а)+ const.
(10.177)
где
м
aN =ао +-, (10.178)
2
J
.ё(q,~)= q(w)lnh(w,~)dw+const. (10.180)
Заметим, что это имеет тот же вид, что и (10.160), поэтому мы снова можем
обратиться к нашему предыдущему результату (10.163), который может быть
получен путем прямой оптимизации функции маргинального правдоподобия,
приводящей к уравнению уточнения вида
(10.181)
следующем виде:
(10.185)
(10.187)
коэффициент fп( О)= р(хпl О), а также множитель fo( О)= р( О), соответствующий
априорному распределению. В более общем плане это применимо и к любой мо
дели, определяемой ориентированным вероятностным графом, в котором каж
(10.189)
1п
q ( (}) = z -
. /; ((} ),
1
(10.191)
(10.192)
1
уточнить множитель 1 (О). Сначала удалим этот множитель из произведения,
получив П J; (О) . Концептуально мы теперь определим уточненную форму
множите~ 1]; (О) , гарантируя, что произведение
qnew (О) ос 11 (О)ПJ; (О) (10.193)
i'#j
f1(8)П};(8), (10.194)
i>'l
в котором мы фиксируем все множители J; (8) при i "#}. Это гарантирует, что
аппроксимация является наиболее точной в областях с высокой апостериорной
вероятностью, определяемой остальными множителями. Мы увидим пример
этого эффекта, когда применим метод распространения ожидания к задаче о по-
f/
Z1 = 1(8)q 11 (8)d8. (10.197)
0,8
30
0,6
20
0,4
10
0,2
о
-2 -1 о 2 3 4 -1 о
на рис. 4.14 и 10.1 . Слева на графике покюано исходное распределение (желтый цвет),
Из (10.193) видно, что уточненный множитель ] 1 (О) можно найти, взяв q0 ew(O)
и разделив его на остальные множители так, что
(10.199)
(10.201)
Распространение ожиданий
zj
-
q ( (J) = -1 п J; ((J ). (10.203)
(10.206)
(10.207)
дания. Кроме того, если мы применим ADF к пакетным данным, то результаты бу
дут иметь нежелательную зависимость от (произвольного) порядка, в котором бу
дут учитываться точки. Эгот недостаток метод ЕР также может преодолеть.
Одним из недостатков распространения ожидания является то, что нет гарантии
N
поэтому апостериорное распределение содержит смесь 2 нормальных компо-
нентов. Таким образом, вычислительная сложность решения этой задачи возрас
тает экспоненциально с увеличением размера набора данных, поэтому ее точное
решение трудно достижимо даже для умеренно больших N.
-5 о о 5 х 10
Рис. 10.15. Задача о шуме для размерности пространства данных D = 1. Точки обучающих
(10.213)
(10.216)
\п
mnew = т\п + р _v_(x -т'п) (10.217)
п v'n + 1 п ,
\п 2 v1" 1 х т \п 2
vnew =v'" -р _v
( )
__ +p (1-р) ( ) ll
п - 11
(10.218)
п \п
v+
l п п 1 )2
Dv"+l
( '
где величина
(10.219)
(10.223)
где
(mnew) Т mnew
B=---'---- (10.224)
v
-5 о 5 () 10 -5 о 5 () 10
1адачи о шуме: кривая/11 (0) показана синим цветом; ]~(О) - красным; q1 11 (и) -
1еле11ым . Заметим, ЧТО текущая форма распределения q 1 11 (0) определяет диапазон, на
котором / 11 (О) будет хорошей аппроксимацией_(,, (О)
10°
~
1О
s
3
о
10-~
~ ··~"""'""'"
Лаплас
ба нес
~
1О
s
3
о
10-200
10-202
l"'''щ"''"'
Лаплас
бай се
10-204 ~~------~--~
104 106 104 J06
ФЛОПЫ ФЛОПЫ
(10.227)
(10.228)
р(х) = q 1 ь (х).fь (х2 ,х3 ) = lai (x1)Ja 2 (x 2)J;, 2 (x2 )J;, 4 (х4 ).fь (х2 ,х3 ).(10.229)
10.7. Распространение ожидания 677
Х3
ю
fьз
Рис. 10.18. Простой фактор-граф из рис. 8.5 l, воспроизведенный для удобства (слева),
ft(x1)ocla1(x1), (10.230)
Р (Х2) ос la2 ( Xz) fc2 ( Xz) Lfь (Х2' Хз ), (10.231)
Х3
(10.232)
(10.233)
fьз (Хз) ос L {fь ( Х2' Хз) la2 ( Х2) fc2 ( Х2)} · (10.235)
Xz
(10.236)
Jjl ((Jl) ос ~
От~/ E8j
tA (Jj )ППlkт ((Jm ).
k m#f
(10.240)
которое полностью факторизуется. Это говорит о том, что для достижения более
высокой точности можно использовать более гибкие аппроксимирующие рас
пределения, соответствующие частично несвязным графам. Другое обобщение
состоит в объединении сомножителей/1 (0;) в множества и одновременном уточ
нении всех множителей из одного множества на каждой итерации. Оба этих
подхода могут привести к улучшению точности (Minka, 2001 Ь). В целом про
Упражнения
10.5. (**) WWW Рассмотрим модель, в которой множество всех латентных стоха
стических переменных, обозначаемых совместно через Z, содержит некото
рые латентные переменные z вместе с некоторыми параметрами модели (J
10.10. (*) WWW Выведите разложение, заданное формулой (10.34), которое ис
10.11. (**) WWW Используя метод множителей Лагранжа для выполнения усло
вия нормированности распределения q(m), покажите, что максимум ниж
ней границы (10.35) задается формулой (10.36).
10.13. (**) WWW Опираясь на формулу (10.54), получите результат (10.59) для
оптимального вариационного апостериорного распределения над µk и Лk
в байесовской смеси нормальных распределений и, как следствие, про
верьте формулы (10.60)-(10.63) для параметров этого распределения.
личества компонентов.
ального семейства, как описано в разделе 10.4. Затем для получения кон
кретных результатов (10.48), (10.57) и (10.59) используйте общие резуль
таты (10.115) и (10.119).
10.29. (*) WWW Покажите, что функцияf(х) = lnx вогнута при О < х < оо, вычисляя
ее вторую производную. Определите форму двойной функции
g( 17),
определяемую (10.133), и проверьте, что минимизация функции 17x-g(17)
по 17 согласно (10.132) действительно восстанавливает функцию lnx.
распределения q(w).
10.35. (**)Выведите результат (10.164) для нижней оценки ,С(~) в вариационной
модели логистической регрессии. Это проще всего сделать, заменив вы
ражения для нормального априорного распределения q(w) = N(wlmo, S0)
вместе с нижней оценкой h(w, ~) функции правдоподобия в интегра
ле (10.159), который определяет ,С(~). Затем соберите члены, зависящие
от w, в экспоненте и выделите полный квадрат, чтобы получить гауссов
ский интеграл, который затем можно вычислить, применяя стандартный
результат для коэффициента нормировки многомерного нормального
распределения. Наконец, возьмите логарифм, чтобы получить (10.164).
10.36. (**) Рассмотрите схему аппроксимации ADF, рассмотренную в разде
(10.243)
(10.244)
(10.245)
Общая идея методов выбора состоит в том, чтобы получить набор выборок
z<1J (где 1=1, ... , L), извлеченных независимо друг от друга из генеральной сово
купности с распределением p(z). Это позволяет приблизить математическое
ожидание (11.1) конечной суммой:
( 11.3)
Проблема, однако, заключается в том, что выборки {z<1>} могут не быть неза
висимыми, и поэтому эффективный размер выборки может быть намного мень
ше, чем видимый. Кроме того, возвращаясь к рис. 11.1, отметим, что если функ
ция f( z) мала в областях, где функция p(z) велика, и наоборот, то в математиче
ском ожидании могут преобладать области с малой вероятностью, поэтому для
достижения достаточной точности потребуется относительно большой объем
выборки.
Для многих моделей совместное распределение p(z) удобно описывать в
терминах графовой модели. В случае ориентированного графа без наблюдаемых
переменных выбор из совместного распределения не представляет сложностей
(при условии, что в каждом узле можно извлекать выборки из генеральных со
вокупностей с заданными условными распределениями), если использовать сле
дующий наследственный выбор (ancestral sampling), кратко обсуждаемый в раз
деле 8.1.2. Совместное распределение определяется по формуле
Создание таких чисел поднимает некоторые тонкие вопросы (Press et al" 1992),
которые выходят за рамки рассмотрения этой книги. Здесь мы будем предпола
гать, что есть алгоритм, который генерирует псевдослучайные числа, равномер
(11.5)
где p(z) = 1. Наша цель - выбрать функцию f(z) так, чтобы результирующие
1 1
р(у)=--. (11.8)
trl+/
(11.9)
-2 ln r. )1/2
У1 =Z1 ( r2
2
• (11.10)
-2 ln r. )1/2
У2 =Z2 ( r2
2
• (11.11)
где r = zt + zi.
2 Тогда совместное распределение у 1 и у2 определяется как
(см. упраж11е11ие 11.4)
(11.12)
ничной дисперсией.
Zz
-1'--~~~~~~~
-1 Z1
ет, что мы легко можем оценить p(z) для любого заданного значения z, вплоть
до некоторой нормирующей постоянной Z, так что
1 ft(z),
p(z)=- (11.13)
zp
где р (z) можно легко оценить, но константа ZP неизвестна.
Чтобы применить выбор с отклонением, нужна генеральная совокупность с бо
лее простым распределением q(z), иногда называемым вспомогательным распре
делением (proposal distribution), из которого мы можем легко извлечь выборки. Да
лее мы введем константу k, значение которой выбрано так, что kq ( z) ~ р (z) для
11.1. Основные алгоритмы выбора 695
J
р(выборка принята)= {fi(z)/kq(z)}q(z)dz =
(11.14)
=if p(z)dz.
которое при а > 1 имеет колоколообразную форму (рис. 11.5). Следовательно, под
ходящим вспомогательным распределением является распределение Коши (11.8),
потому что его функция плотности тоже имеет форму колокола и мы можем ис
пользовать метод преобразования, который обсуждался ранее, для выборки из
генеральной совокупности с таким распределением. Нам необходимо немного
обобщить распределение Коши, чтобы убедиться, что оно нигде не имеет мень
шего значения, чем гамма-распределение. Это может быть достигнуто путем
преобразования равномерной случайной величины у с использованием функции
z = btg у + с, которая дает случайные числа, распределенные в соответствии с
распределением (см. упражиение 11. 7):
(11.16)
0,1
p(z)
0,05
о ~---~----~---~
о 10 20 30
z
lnp(z)
p(z)
0,25
(11.18)
J
1Е[/]= /(z)p(z)dz=
1
( (1))
р z ( (1))
=-L:
L
L
q ( z(I))
1=1
! z .
стью до нормирующей константы, так что p(z) = fl(z)/ZP, где fl(z) можно
легко оценить, а ZP неизвестно. Точно так же мы можем использовать распреде
IE[f]= J/(z)p(z)dz=
= zq J1(z)~(z) q(z)dz= (11.20)
ZP q(z)
= zq __!_ ±~1( z(I) ).
ZP L 1=1
zp =-
zq zq q(z)
f
1 fl(z) dz = ~(z) q(z)dz =
J
( 11.21)
1 L -
=- L'i·
L 1=1
поэтому
(11.22)
где мы определили
(11.23)
ке. Этот подход может дать плохие результаты, если апостериорное распределе
(11.24)
Этот метод может быть далее обобщен с помощью выбора по собственной важ
ности (Shachter and Peot, 1990), в котором распределение выборки по важности
постоянно обновляется, чтобы отразить текущее вычисляемое апостериорное
распределение.
p(z~a)= L w1 =
l:z(l)~a
(11.25)
704 ГЛАВА 11. ВЫБОРОЧНЫЕ МЕТОДЫ
p(z~a)=
J!(z ~а ){р( z)/q( z)}q( z )dz =
f{ft(z )/ q( z)}q( z)dz
_J !(z~a)p(z)dz _
- Jp(z)dz - (11.26)
= J!(z~a)p(z)dz,
которая является кумулятивной функцией распределения p(z). Опять же, мы ви
дим, что нормирование распределенияр(z) не требуется.
Для конечного значения L и заданного начального набора выборок пересчи
танные значения будут только приблизительно соответствовать желаемому рас
пределению. Как и в случае выбора с отклонением, аппроксимация улучшается,
когда распределение выборки q(z) становится ближе к желаемому распределе
нию p(z). Если q(z) = p(z), начальные значения (z(l>,"., z<L» имеют желаемое
распределение, а веса wn = 1/ L, так что пересчитанные значения также имеют
желаемое распределение.
J
E(/(z))= /(z)p(z)dz=
_J/(z)[fi(z)/q(z)]q(z)dz _ (11.27)
- f[fi(z)/q(z)]q(z)dz -
IР-алгоритм
f
p(zjx) = p(zje,x)p(ejx)d8 (11.30)
f
Р( ejx) = Р( ejz,X)p(ZIX)dz, (11.31)
Ulam, 1949) и только к концу 1980-х годов начали оказывать существенное вли
яние в области статистики.
Как и в случае выбора с отклонением и по важности, мы снова извлекаем вы
борку из генеральной совокупности со вспомогательным распределением. На
этот раз, однако, ведем запись текущего состояния z<tJ, и вспомогательное рас
пределение q(ziz(r)) зависит от этого текущего состояния, так что последова
тельность выборок z(l>, z<2>, ."образует цепь Маркова (см. раздел 11.2.1). Как и
ранее, представим искомое распределение в виде р ( z) = р (z) / Z Р и будем пред
полагать, что распределение р (z) можно легко оценить для любого заданного
значения z, хотя значение ZP может быть неизвестным. Само вспомогательное
распределение выбирается достаточно простым, чтобы можно было непосред
ственно извлекать из него выборки. На каждом цикле алгоритма мы генерируем
выборку-кандидат z • из вспомогательного распределения, а затем принимаем
выборку, руководствуясь соответствующим критерием.
В базовом алгоритме Метрополиса (Metropolis et а/" 1953) предполагается,
что вспомогательное распределение симметрично, т.е. q(zAiz 8 ) = q(z 8 izA) для
всех значений zA и z8. Выборка-кандидат принимается с вероятностью
А (z
•
,z
(т))-
-mш
.[ ft(z•)
1, fl(z(r))
1J (11.33)
ное, но необязательное условие), распределение z(r> стремится к p(z) при i-~ оо.
Однако следует подчеркнуть, что последовательность z< 1J, z(2), ... не является
набором независимых выборок из генеральной совокупности с распределением
p(z), потому что последовательные выборки сильно коррелированы. Чтобы по
лучить независимые выборки, можно отбросить большую часть последователь
ности и сохранить каждую М-ю выборку. При достаточно большом М оставшие
ся выборки будут практически независимы. На рис. 11.9 приведен простой при
мер выбора из генеральной совокупности с двумерным нормальным распре
делением с использованием алгоритма Метрополиса, в котором вспомогательное
распределение предложений является изотропным нормальным распределением.
2,5
1,5
0,5
0'----~--~--~-~--~-~
о 0,5 1,5 2 2,5 3
Рис. 11.9. Простой пример с использованием алгоритма Мстрополиса для выбора из
( (m+l)) =L...pz
pz "'\"" ( (m+l)I z (m)) p (т)).
(z (11.38)
"(m)
Обратите внимание на то, что цепь Маркова может иметь более одного инвари
антного распределения. Например, если вероятности перехода задаются тожде
ственным преобразованием, то любое распределение будет инвариантным.
Достаточным (но не необходимым) условием инвариантности требуемого
распределения p(z) является свойство детального равновесия, которым должны
обладать вероятности переходов для конкретного распределенияр.(z):
LP• (z')T( z',z) = LP• (z)T( z,z') = р• (z) LP• (z'lz) = р• ( z). (11.41)
~ ~ ~
рехода является случай, когда каждый базовый переход изменяет только под
множество переменных.
(11.44)
p(z)q k(z '1 z)Ak(z ', z) = min(p(z)q k(z '1 z),p(z ')qk(z 1z ')) =
= min(p(z )q k( z 1z '),p(z)q k(z '1 z)) =
= p(z)qk(zlz)Ak(z, z'), (11.45)
что и требовалось доказать.
Конкретный выбор вспомогательного распределения может оказать заметное
метра дисперсии этого распределения. Если дисперсия мала, тогда доля приня
ний будет высокой, потому что в рассматриваемых нами сложных задачах мно
гие из предложенных шагов будут касаться состояний, для которых вероятность
p(z) мала. Рассмотрим многомерное распределение p(z), имеющее сильную
корреляцию между компонентами z (рис. 11.1 О). Масштаб р вспомогательного
распределения должен быть как можно большим, не вызывая высоких уровней
отклонения. Это говорит о том, что величина р должна быть того же порядка,
что и наименьший масштаб длины amin. Затем система исследует распределение
по более протяженному направлению с помощью случайного блуждания, и по
этому число шагов для достижения состояния, более или менее независимого от
2
исходного, имеет порядок (amax/amiJ. Фактически в двух измерениях увеличе-
ние уровня отклонений по мере увеличения р компенсируется большими разме
рами шагов принятых переходов, и, в более общем случае, для многомерного
нормального распределение количество шагов, необходимых для получения не
зависимых выборок, оценивается величиной (amax/a2) 2, где а2 - второе
наименьшее стандартное отклонение (Neal, 1993). Помимо этих деталей, остает
ся тот факт, что если шкалы длин, по которым варьируются распределения,
сильно различаются в разных направлениях, то алгоритм Метрополиса
Гастингса может иметь очень медленную сходимость.
11.3. Выбор по Гиббсу 713
(т) (т))
р ( Z1 1 Z2 ,Z3 . (11.46)
так что новое значение для z 1 используется сразу на последующих этапах выбо-
ра.
3атем мы
б
о новляем z3 вы б оркои z3 , извлеченнои из генеральнои сово-
(т+l)u u u
купности с распределением
(т+t) (т+l))
р ( Z3 1 Z1 ,z2 ' (11.48)
Выбор по Гиббсу
• б
вы ираем
(т+l)
z1 - р
( 1 (т+l)
z1 z1
(т+l) (т) (т))
, ... ,z1_1 ,zJ+t • ... ,zм ,
• б
вы ираем zм
(т+I)
- р zм
( 1
z1(нt) ,z2(т+I) , (т+l))
•• "zм_ 1 •
Второе требование, которое должно быть выполнено для того, чтобы проце
дура выбора по Гиббсу осуществляла выбор из генеральной совокупности с пра
вильным распределением, - эргодичность. Достаточным условием эргодично
сти является то, что ни одно из условных распределений нигде не равно нулю.
Если это так, то любая точка в пространстве z может быть достигнута из любой
другой точки за конечное число шагов, включающих одно обновление каждой
из переменных компонента. Если это требование не выполняется, так что неко
торые из условных распределений имеют нули, то эргодичность, если она имеет
место, должна быть явно доказана.
Для завершения алгоритма должно быть задано распределение начальных со
стояний, хотя выборки, извлеченные после многих итераций, фактически станут
независимыми от этого распределения. Конечно, последовательные выборки из
цепи Маркова будут сильно коррелированными, поэтому для получения выбо
рок, которые являются почти независимыми, необходимо извлечь подвыборку
из этой последовательности.
Мы можем получить процедуру выбора по Гиббсу как частный случай алго
ритма Метрополиса-Гастингса следующим образом. Рассмотрим этап алгоритма
Метрополиса-Гастингса, включающий переменную zь в которой оставшиеся пе
ременные z 1k остаются фиксированными и для которых вероятность перехода от z
к z• определяется как qk ( z•1z) = р ( z Z1z1k). Отметим, что z:k = z1k , поскольку эти
компонентъ1 не изменяются на этапе выбора. Также p(z) =p(zkl z1k)p(z 1k). Таким
образом, фактор, который определяет вероятность принятия выборки в алгоритме
Метрополиса-Гастингса (11.44), определяется как
zi1 = µi +а ( zi - µ; ) +а; (
1- а 2 )1/2 v, (11.50)
Для неориентированного графа это покрытие содержит набор соседей (показано слева),
(ICM), рассмотренный в разделе 8.3.3. Таким образом, метод ICM можно рас
сматривать как "жадный" вариант выбора по Гиббсу.
Поскольку базовый метод выбора по Гиббсу учитывает каждую переменную
по очереди, между последовательными выборками существуют сильные зависи
мости. С другой стороны, если бы мы могли извлекать выборки непосредствен
но генеральной совокупности с совместным распределением (процедура, кото
а) б)
Рис. 11.13. Выбор по уровням: для заданного значения z(r) зна'lение и выбирается
равномерно в области О-::: и-::: ft( z(r)), которое затем определяет "уровень"
в распределении, показанном сплошной гори:юнтальной линий (а); поскольку выбор
непосредственно из уровня невозможен, новая выборка z извлекается из области
л
р
{
z,u
)
={1/Z Р, если О ~ и ~ jJ ( z); (11.51)
О в противном случае,
720 ГЛАВА 11. ВЫБОРОЧНЫЕ МЕТОДЫ
т.д., пока не будет найдено значение z, которое находится внутри уровня. Выбор
по уровням может быть применен к многомерным распределениям путем мно
,., ___
dz;
(11.53)
' dr'
где z; можно рассматривать как переменные положения в этой динамической
перспективе. Таким образом, для каждой переменной положения существует со
ответствующая переменная импульса, и объединенное пространство перемен
ных положения и импульса называется фазовым.
Без ограничения общности мы можем записать распределение вероятностей
p(z) в виде
1
p(z) =-exp(-E(z)), (11.54)
zp
где E(z) интерпретируется как потенциальная энергия системы в состоянии z.
Ускорение системы представляет собой скорость изменения импульса и опреде
ляется приложенной силой, которая сама является отрицательным градиентом
потенциальной энергии
dr; =- дЕ(z)
(11.55)
dr дz;
(11.56)
энергий:
H(z, r) = E(z) + K(r), (11.57)
где Н - га.мильтониан. Используя формулы (11.53), (11.55)--{11.57), мы можем
теперь выразить динамику системы через уравнения относительно гамильтониа
dr; =- дН (11.59)
dr дz;
11.5. Гибридный алгоритм Монте-Карло 723
Уильям Гамильтон
1805-1865
Уильям Роуэн Гамильтон - ирландский математик и
физик. Он бьm назначен на должность профессора аст
рономии в Тринити-колледже в Дублине в 1827 г. , еще
до того, как он окончил университет. Одним из наибо
лее важных вкладов Гамильтона бьmа новая формули
ровка динамики, которая сыграла значительную роль в
(11.60)
теорема Лиувилля, заключается в том, что они сохраняют объем в фазовом про
странстве . Иначе говоря, если мы рассмотрим область в пространстве перемен
ных (z, r), то, поскольку эта область эволюционирует в соответствии с уравне
ниями гамильтоновой динамики , ее форма может измениться, а объем остается
постоянным . В этом можно убедиться, заметив, что поле потока (скорости изме
нения положения в фазовом пространстве) определяется как
V=(dz,dr)
dr dr
(11.61)
724 ГЛАВА 11. ВЫБОРОЧНЫЕ МЕТОДЫ
. V -~
dlV д -dz;+ д-dr;
_ ""' {- - }--
; дz; dт дr; dт
(11.62)
_ ""' { д dH д dH }- О
- ~ дz; dr; - дr; dz; - ·
1
р( z,r) = -ехр(-Н( z,r) ). (11.63)
Zн
z1( т +в)= z
1 ( т) + вР~ (т + в/2 ), (11.65)
зованием размера шага -& точно отменит эффект интегрирования для L шагов
вперед с использованием шага &. Далее мы покажем, что интегрирование по ал
того факта, что каждый шаг в схеме чехарды обновляет либо переменную z;, ли
бо переменную r; на величину, которая является функцией только другой пере
менной. Как показано на рис. 11.14, это приводит к сдвигу области фазового
пространства, не изменяя его объема.
r'1
Z; z'1
Рис. 11.14. Каждый шаг алгоритма чехарды (l 1.64HI 1.66) изменяет либо
ется в область n '. Используя сохранение объема в итерации, мы видим, что если
'R имеет объем бV, то и 'R' тоже будет иметь этот же объем. Если мы выберем
начальную точку из распределения (11.63) и затем изменим ее, используя L ша
гов по схеме чехарды, то вероятность перехода от n к 'R' будет определяться как
-1 ехр(-н(n ))ov _!_min{l,exp(H(n )-H('R'))}, (11.68)
Zн 2
где коэффициент 1/2 возникает из-за вероятности выбора интегрирования с по
ложительным размером шага, а не с отрицательным. Точно так же вероятность
того, что интегрирование назад во времени из начальной точки в области 'R' в
(11.70)
1
Рв (z) =-exp(-E(z)), (11.71)
ZE
то значение нормирующей константы Zв, также известной как функция разбие
ния, для получения выборок из генеральной совокупности с распределением p(z)
не требуется. Однако значение Zв может быть полезным для сравнения байесов
ских моделей, поскольку оно предоставляет свидетельство в пользу модели
(т.е. вероятность наблюдаемых данных для данной модели). В связи с этим целе
Lexp(-E(z))
z
___§__= "' =
ZG Lexp(-G(z))
"'
Lexp(-E( z) + G( z))exp(-G( z))
= (11.72)
Lexp(-G(z))
"'
= EG(z) [ ехр(-Е + G)] =
= ~ Lexp(-E( z(I)) + G( z(I)) ),
l
1 1 L
-exp(-G(z))=-LT(z(l),z) (11.73)
ZG L t=I
Zм Z2 Zз Zм
- - - - ... - - , (11.74)
Z1 Z1 Z2 Zм-1
Упражнения
11.1. (*) WWW Покажите, что оценка конечных выборок j , определенная фор
мулой (11.2), имеет математическое ожидание, равное JE[f], и дисперсию,
определяемую формулой (11.3).
11.6. (**) WWW В этом упражнении мы более тщательно показываем, что выбор
с отклонением действительно извлекает выборки из генеральной сово
купности с желаемым распределением p(z). Предположим, что вспомо
гательным распределением является q(z), и покажем, что вероятность то
го, что выборка z будет принята, определяется выражением 'ft(z)/kq(z),
где р - любое ненормированное распределение, пропорциональное
p(z), и константа k имеет наименьшее значение, которое обеспечивает
выполнение неравенства kq ( z) ~ р (z) для всех значений z. Обратите
внимание на то, что вероятность получения выборки z определяется ве
роятностью извлечения этой выборки из генеральной совокупности с
распределением q(z), умноженной на вероятность принятия этой выбор
ки при условии, что она бьmа получена. Используя это свойство вместе с
правилами суммирования и умножения вероятностей, запишите норми
рованную форму распределения по z и покажите, что она равнар(z).
11.9. (**) Используя методику, описанную в разделе 11.1.1 для выбора из ге
неральной совокупности с распределением из экспоненциального семей
ства, разработайте алгоритм для выбора из генеральной совокупности с
Упражнения 733
ются как N(µlµ 0 , s0) и Gam( тlа, Ь), где Gam(·I·;) обозначает гамма-распре
деление. Запишите выражения для условных распределений p(µlx, т) и
11.17. (*) WWW Убедитесь, что две вероятности (11.68) и (11.69) равны, и, следо
вательно, для гибридного алгоритма Монте-Карло выполняется условие
детального равновесия.
12
ременных.
пурпурной линией, так что ортогональная проекция исходных точек (красные точки)
СКалярное значение u 1Т xn . С
реднее значение
~
проекции равно u 1Т-
х где х
1 N
X=-Ixn, (12.1)
N n=I
(12.2)
(12.5)
(12. 7)
Поскольку этот базис полный, каждая точка данных может быть точно пред
ставлена линейной комбинацией базисных векторов:
D
хп = Lan;U;, (12.8)
i=l
где коэффициенты а"; будут разными для разных точек данных. Это просто со
ответствует повороту системы координат в новую систему, определенную век
торами {u;}, при котором исходные D компонентов {х" 1 , ••• , Хпv} заменяются эк
вивалентным множеством {ап 1 , ... , апv}. Вычислив скалярное произведение с
векторами u1 и используя свойство ортонормированности, получим anJ = х~ u 1
и поэтому без потери общности можем записать
12.1. Анализ главных компонентов 741
D
хп = I(x~u;)u;. (12.9)
i=l
Наша цель, однако, состоит в том, чтобы аппроксимировать эту точку, ис
пользуя представление, включающее ограниченное количество переменных
где {zп 1 } зависят от конкретной точки данных, тогда как {Ь;} являются констан
тами, которые одинаковы для всех точек. Мы можем выбрать {u 1}, {zп;} и {Ь;},
чтобы минимизировать искажения, вызванные уменьшением размерности. В ка
честве меры искажения будем использовать возведенное в квадрат расстояние
между исходной точкой хп и ее приближением х" , усредненное по набору дан
ных, поэтому наша цель - минимизировать функцию
(12.11)
(12.12)
Ь
1 = -Т u 1 ,
х (12.13)
(12.14)
нейной комбинации векторов {U;} для i = М+ 1, .. " D (рис. 12.2). Этого следовало
ожидать, потому что спроецированные точки хп должны лежать в главном под
1 N D 2 D
J=-I
N
L (x~u;-xтu;)
n=li=M+I
= L u/Su;.
i=M+I
(12.15)
J- = u т2 Su 2 + ~ ( 1- u 2т u 2 ) . (12.16)
или ССА (Hotelling, 1936; Bach and Jordan, 2002). Принимая во внимание, что
РСА работает с одной случайной величиной, ССА рассматривает две (или более)
переменные и пытается найти соответствующую пару линейных подпро
Рис. 12.3. Вектор средних х вместе с первыми четырьмя собственными векторами РСА
х10 5 х10 6
з..----~---~---~---.
3 J
Л;
2
2
о \_
о 200 400 600 200 400 600 м
а) б)
М D
хп =I(x~u;)u 1 + I (x~u;)u; = (12.19)
i=I i=M+\
м
D
х= I(xтu;)u;, (12.21)
i=I
12.1. Анализ главных компонентов 745
набора данных, потому что для каждой точки мы заменили D-мерный вектор х"
М-мерным вектором, имеющим компоненты х~ u; - х~ u; . Чем меньше значе
ние М, тем больше степень сжатия. Примеры восстановления изображений троек
из набора рукописных цифр показаны на рис. 12.5.
Исходное
изображение М= 1 М= 10 М=50 М=250
(12.22)
Уп
-- L-v2uт ( Хп -)
-Х ' (12.24)
100 2 2
90
80
70 о о
60
50
-2 -2
40 ~-~--~--~
2 4 6 -2 о 2 -2 о 2
0,5 ·. .. .. ...
о г~---:--:-----:-_j
-0,5 .. ... ..·
-1 ... :.::·:: { .~.=· "
. : .:!·, ....
- 1,5 .. ·...
-2~--------"--------.....__.
-5 о 5
Рис. 12.7. Сравнение анализа главных компонентов с линейным
лионов измерений (что соответствует трем значениям цвета для каждого из пик
1 т
-Х Xu 1 =A.u .. (12.26)
N 1 1
(12.27)
1 т
-ХХ v 1 =A.v., (12.28)
N 1 1
1 т
которое является уравнением собственного вектора для матрицы !V ХХ раз-
мерностью N х N. Она имеет те же N - 1 собственных значений, что и исходная
ковариационная матрица (которая сама имеет дополнительные собственные зна
чения D - N + 1, равные нулю). Таким образом, можно решить проблему соб
ственных векторов в пространствах меньшей размерности с вычислительной
сложностью O(N3) вместо O(D\ Чтобы определить собственные векторы,
т
умножим обе части (12.28) на Х и получим уравнение
(12.29)
1 т
U; = 1/2 Х Vi. (12.30)
(NЛ 1 )
т
Таким образом, чтобы применить этот подход, сначала вычисляем матрицу ХХ ,
затем находим ее собственные векторы и собственные значения, а затем вычисляем
собственные векторы в исходном пространстве данных, используя (12.30).
ное пространство данных. Теперь покажем, что метод РСА также можно выра
зить с помощью принципа максимального правдоподобия к вероятностной мо
дели латентных переменных. Эта переформулировка РСА, известная как веро
ятностный РСА, дает несколько преимуществ по сравнению с обычным мето
дом РСА.
классификации.
• Вероятностная модель РСА может быть использована для генерации вы
борок с заданным распределением.
µ
, , ""
" •
,, р( х)
,,
,,
,,
i z
J
р(х)= p(xlz)p(z)dz. (12.34)
гауссовской модели, оно снова является нормальным (см. упражнение 12. 7):
дующие выражения:
(12.39)
(12.40)
754 ГЛАВА 12. НЕПРЕРЫВНЫЕ ЛАТЕНТНЫЕ ПЕРЕМЕННЫЕ
(12.42)
N
lnp(XIµ, W,a 2 ) = L:lnp( x"IW,µ,a 2 ) =
n=l (12.43)
ND N 1 N т -1
=--ln21l'--1nlCl-- L(x" -µ) С (х" -µ).
2 2 2 n=I
14-+--- W
N
Рис. 12.10. Вероятностная модел ь РСА для набора данных, состоящего
2 1 D
О'МL =
D-M i=M+l
L. А;, (12.46)
него значения а 2 •
Построить модель плотности на основе принципа максимального правдопо
добия можно было бы, найдя собственные векторы и собственные значения ко-
~
вариационнои матрицы данных, а затем вычислив
w и а
2
, используя результа-
ты, приведенные выше. В этом случае мы бы выбрали R = 1 для удобства. Одна
ко, если решение с максимальным правдоподобием вычисляется путем
численной оптимизации функции правдоподобия, например, с помощью алго-
12.2. Вероятностный метод РСА 757
ритма, такого как метод сопряженных градиентов (Fletcher, 1987; Nocedal and
Wright, 1999; Bishop and Section 12.2.2 Nabney, 2008), или с помощью ЕМ
алгоритма, то результирующая матрица R по существу произвольна. Это означа
ет, что столбцы матрицы W не обязательно должны быть ортогональными. Если
требуется ортогональный базис, матрица W может быть должным образом обра
ботана (Golub and Van Loan, 1996). Альтернативно ЕМ-алгоритм можно модифи
цировать таким образом, чтобы получать ортонормированные главные направле
ния, отсортированные непосредственно в порядке убывания соответствующих
собственных значений (Ahn and Oh, 2003).
Вращательная инвариантность в латентном пространстве представляет собой
форму статистической неидентифицируемости, аналогичную той, которая
встречается для смесей в случае дискретных латентных переменных. Здесь су
ществует континуум параметров, каждый из которых приводит к одной и той же
прогностической плотности, в отличие от дискретной неидентифицируемости,
связанной с перемаркировкой компонентов в смеси.
Если мы рассмотрим случай М = D, т.е. уменьшения размерности нет, то
(12.47)
и, таким образом, мы получаем стандартное решение максимального правдопо
добия для неограниченного нормального распределения, в котором ковариаци
WE[zlx] + µ. (12.49)
т
( WмL т (
)-\ WмL -) (12.50)
WМL х-х '
где п-я строка матрицы Z определяется как Zn. Мы уже знаем, что точное решение
по методу максимального правдоподобия для µ задается выборочным средним
значением х, определяемым формулой (12.1), и на этом этапе значениеµ удобно
заменить. Используя выражения (12.31) и (12.32) для латентного и условного рас
пределений соответственно и вычисляя математическое ожидание относительно
апостериорного распределения по латентным переменным, получим
(12.56)
(12.57)
х~ х~
х~
х
Рис. 12.11. Визуализация части набора данных о потоке нефти для первых
Каждая точка имеет по крайней мере одно пропущенное измерение , но график очень
т -т
n = ( wo\dт wo\d )-\ woldx ' (12.58)
а М-шаг (12.56) - такой вид:
-т т ( fi.(} т )-\ .
Wnew =Х .(1 (12.59)
2 а) 2 2
о о о
-2 -2 -2
-2 о 2 -2 о 2 -2 о 2
2 г) 2 д) / 2 е) /
\
,,...,,,.. ,/ ,/
\ ......\ }
о
1/\ о '/"
о
\ .-- ' \ , \
" \
-2 -2 / -2 /
-2 о 2 -2 о 2 -2 о 2
кие пики (Вishop, 1999а). Он включает в себя конкретный выбор априорного рас
пределения по W, которое позволяет исключить из модели избыточные размерно
сти в главном подпространстве. Это соответствует методу автоматического опре
деления релевантности, или ARD, который обсуждается в разделе 7.2.2. В част
ности, мы определяем независимое нормальное распределение для каждого столбца
матрицы W, которое представляет векторы, определяющие главное подпростран
w
N
Рис. 12.13. Вероятностная графическая модель для байесовской модели РСА, в которой
раметрам.
(12.62)
что следует из (3.98), учитывая, что размерность вектора w; равна D. Эти уточ
нения чередуются с уточнениями алгоритма ЕМ для определения матрицы W
12.2. Вероятностный метод РСА 767
(12.63)
Рис. 12.14. Диаграммы Хинтона для матрицы W, на которых каждый элемент матрицы
шое значение, а остальные два имеют большие значения, так что две из трех ла
тентных переменных исключаются. В ходе выбора по Гиббсу решение делает
резкие переходы между тремя модами.
ние отличается от определения вероятностного метода РСА только тем, что услов
ное распределение наблюдаемой переменной х с учетом латентной переменной z
считается имеющим диагональную, а не изотропную ковариацию, так что
(12.68)
рой тривиально выполняется за O(D) шагов), что довольно удобно, потому что ча
сто М « D. Аналогично формулы М-шага уравнения принимают вид (см. у11раж-
ие11ие 12.22)
(12.70)
Первым шагом является выражение обычной модели РСА в такой форме, что
(12.72)
(12.74)
где i = 1, .. " М Наша цель состоит в том, чтобы решить эту задачу о собствен
ных значениях без необходимости явно работать в пространстве признаков. Из
определения матрицы С и уравнения собственных векторов следует, что векто
ры V; удовлетворяют условиям
(12.75)
12.3. Ядерный метод РСА 773
поэтому (при условии, что Л; >О) вектор v 1 задается линейной комбинацией век
торов ф(хп) и поэтому может быть записан в виде
N
V; =~..>~пФ( Хп ). (12.76)
n=I
(12.77)
Ключевой шаг теперь состоит в том, чтобы выразить это через функцию ядра
k(хт xm) =ф(хп)т ф(хт), что мы делаем, умножая обе части на ф(хz)1:
1 N N N
-Ik(x1,xп):~:>imk(xп,xm)=Л1 ~::aiпk(x 1 ,xп)· (12.78)
N n=I m=I n=I
К2 а 1 = Л;NКа;, (12.79)
где а; - N-мерный вектор-столбец с элементами а 1 т п = 1, "" N. Мы можем
найти решения для а;, решив следующую задачу на собственные значения:
Ка;=Л;Nа;, (12.80)
в которой мы сократили множитель К с обеих сторон (12.79). Отметим, что ре
шения (12.79) и (12.80) отличаются только собственными векторами матрицы К,
имеющей нулевые собственные значения, которые не влияют на проекцию глав
ных компонентов (с.и. упраж11е11ие 12.26).
Условие нормировки для коэффициентов &; выражается в требовании норми
ровки собственных векторов в пространстве признаков. Используя (12.76) и
(12.80), получаем:
N N
l=viv; = LLа;паiтФ(хп)т ф(xm)=aiKa; =Л1 Naia 1 • (12.81)
n=I m=I
(12.82)
n=I n=I
1 N
=k(хп,хт)-- ~)(x 1 ,xm)-
N t=1
1 N 1 N N
-- ~)(xn,x 1 )+-2 L~)(x 1 ,x 1 ).
N 1=1 N 1=1 t=I
(12.87)
Собственно.е1
значение = ;г ,65
· · ••"'·
•• ..
~>.i.'•·_.~:.:*
··::·.·
. . ,_;.;· '
вектора разделяют три кластера, следующие три собственных вектора разбивают каждый
Один очевидный недостаток ядра РСА состоит в том, что он включает в себя
поиск собственных векторов матрицы К размерностью N х N, а не матрицы S
размерностью D х D обычного линейного метода РСА, и поэтому на практике
для больших наборов данных часто используются аппроксимации. Наконец, от
метим, что в стандартном линейном методе РСА мы часто сохраняем некоторое
(12.88)
В ядерном методе РСА это, как правило, невозможно. Чтобы показать это, от
метим, что функция ф(х) отображает D-мерное пространство переменной х в
D-мерное многообразие в М-мерном пространстве признаков ф. Вектор х называ
ется прообразом соответствующей точки ф(х). Однако проекция точек в простран
стве признаков на линейное подпространство РСА в этом пространстве обычно не
будет лежать на нелинейном трехмерном многообразии и, следовательно, не будет
иметь соответствующего прообраза в пространстве данных. Поэтому бьmи пред
ложены методы для поиска приближенных изображений (Вakir et а/" 2004).
гауссовских распределениях. Помимо того, что эти модели имеют большое прак
тическое значение, их относительно легко анализировать и подгонять к данным,
Чтобы понять роль таких моделей, рассмотрим ситуацию, в которой два челове
ка разговаривают одновременно, и мы записываем их голоса с помощью двух
висимых компонентов.
1 N 2
E(w)=- ~]y(xп,w)-xпll · (12.91)
2 n=I
вает первые М главных компонентов данных (Bourlard and Kamp, 1988; Baldi and
Hornik, 1989). Таким образом, векторы весов, которые ведут к скрытым элемен-
780 ГЛАВА 12. НЕПРЕРЫВНЫЕ ЛАТЕНТНЫЕ ПЕРЕМЕННЫЕ
Входы Выходы
Выходы
на рис. 12.19, для случая D=3 входов и М = 2 эл ементов в среднем скрытом слое .
Функция F 2 действует из М-мерного пространства S в D-мерное пространство и по этому
моделями РСА (Тipping and Bishop, 1999а). Такая модель имеет как дискретные
латентные переменные, соответствующие дискретной смеси, так и непрерывные
водит к смеси моделей для факторного анализа (Ghahramani and Hinton, 1996а;
Ghahramani and Beal, 2000). Смесь вероятностных моделей РСА также может
быть расширена иерархически для создания интерактивного алгоритма визуали
зации данных (Bishop and Tipping, 1998).
Альтернативой смеси линейных моделей является рассмотрение одной нели
нейной модели. Напомним, что обычный метод РСА находит линейное подпро
странство, которое расположено близко к данным в смысле наименьших квадра
тов. Эта концепция может быть распространена на одномерные нелинейные по
верхности в виде главных кривых (Hastie and Stuetzle, 1989). Мы можем описать
кривую в D-мерном пространстве данных, используя векторную функцию f(Л),
которая является вектором, каждый из элементов которого является функцией
скаляра Л. Есть много возможных способов параметризации кривой, из которых
естественным выбором является длина дуги вдоль кривой. Для любой заданной
точки х в пространстве данных мы можем найти точку на кривой, которая яв
ляется ближайшей в смысле евклидова расстояния. Обозначим эту точку как
Л = gt ( х), поскольку она зависит от конкретной кривой f(Л). Для непрерывной
плотности данных р(х) главная кривая определяется как кривая, для которой
каждая точка на кривой является средним значением всех тех точек в простран
стве данных, которые проецируются на нее, так что
вых. На практике нас интересуют конечные наборы данных. Кроме того, мы хо
тим ограничиться гладкими кривыми. Hastie and Stuetzle (1989) предлагают
двухэтапную итерационную процедуру для нахождения таких главных кривых,
прерывных данных. Обратите внимание на то, что эта модель является двой
ственной к проблеме байесовской логистической регрессии, обсуждаемой в раз
деле 4.5. В случае логистической регрессии мы имеем N наблюдений вектора
признаков Фт которые параметризованы одним вектором параметров w, тогда
как в модели визуализации латентного пространства есть одна латентная про
сте GTM не возникает, поскольку многообразие, как правило, имеет два измере
ния, независимо от размерности пространства данных (см. раздел 1.4).
Следствием этих двух вариантов является то, что функция правдоподобия может
быть выражена аналитически в замкнутой форме и эффективно оптимизирована
с помощью ЕМ-алгоритма. Полученная модель GTM соответствует двумерному
•Н #IМ"+ х
х X• JIOO<
помощью методов РСА (слева) и GTM (спршю). Для модели GTM каждая точка построена
Упражнения
12.2. (**) Покажите, что минимальное значение меры искажения J в методе РСА,
заданное формулой (12.15) по отношению к вектору u;, с учетом ограни
(12.93)
12.8. (**) WWW Используя результат (2.116), покажите, что апостериорное рас
данных.
790 ГЛАВА 12. НЕПРЕРЫВНЫЕ ЛАТЕНТНЫЕ ПЕРЕМЕННЫЕ
ортогональной проекции.
изотропной ковариацией.
12.15. (**) WWW Выведите формулу М-шага (12.56) и (12.57) для вероятностной
модели РСА путем максимизации математического ожидания логариф
мической функции правдоподобия при полных данных, определяемой
формулой (12.53).
12.16. (***)На рис. 12.11 мы показали применение вероятностного РСА к мно
жеству данных, в котором некоторые значения данных по случайным
N 2
J=Illxn-µ-Wzпll · (12.95)
п~I
12.21. (**) Выведите формулы (12.66) и (12.67) для Е-шага ЕМ-алгоритма для
12.26. (**) Покажите, что любой вектор а;, удовлетворяющий условию (12.80),
также будет удовлетворять условию (12.79). Также покажите, что к любо
му решению (12.80), имеющему собственное значение А, можно добавить
любой кратный собственный вектор матрицы К, имеющий нулевое мате
матическое ожидание, и получить решение (12.79), которое также имеет
12.29. (**) WWW Предположим, что две переменные z 1 и z2 независимы, так что
p(z 1, z2) = p(z 1)p(z2). Покажите, что матрица ковариации между этими пе
ременными является диагональной. Это свидетельствует о том, что неза
висимость является достаточным условием для некоррелированности
ние р(у1, У2) = p(y 1)p(y2 ly 1), покажите, что недиагональные члены равны
нулю. Этот контрпример показывает, что нулевая корреляция не является
ном месте, или ежедневных значений валютного курса, или акустических харак
теристик в последовательных временных диапазонах, используемых для распо
менным последовательностям.
10 ООО
8000
с
~ 6000
1-
о
1-
(.)
С1'
4000
7
2000
~ 0,15
~
i:::::
о
:::!;
<
-0,15
-0,3 ~--~---~---~---~---~
о 0,2 0,4 0,6 0,8
Время, с
зирования будущих значений, чем более старые. Пример на рис. 13.1 показыва
ет, что последовательные наблюдения спектра речи действительно сильно кор
релированы. Кроме того, было бы нецелесообразно рассматривать общую зави
симость будущих наблюдений от всех предыдущих наблюдений, поскольку
сложность такой модели будет расти без ограничений по мере увеличения коли
чества наблюдений. Это приводит нас к рассмотрению марковских моделей,
в которых мы предполагаем, что будущие прогнозы независимы от всех, кроме
самых последних наблюдений.
Хотя такие модели удобны, они также сильно ограничены. Мы можем полу
чить более общий метод, все еще сохраняя его реалистичность, путем введения
латентных переменных. Это приводит к моделям пространства состояний. Как
и в главах 9 и 12, мы увидим, что сложные модели могут быть построены из бо
лее простых компонентов (в частности, из распределений, принадлежащих экс
поненциальному семейству) и легко охарактеризованы с использованием веро
ятностных графовых моделей. Здесь мы сосредоточимся на двух наиболее важ
ных примерах моделей пространства состояний, а именно скрытой марковской
модели, в которой латентные переменные являются дискретными, и линейных
динамических системах, в которых латентные переменные являются нормально
распределенными случайными величинами. Обе модели описываются ориенти
рованными графами, имеющими древовидную структуру (без петель), для кото
рой выведение может быть эффективно выполнено с использованием алгоритма
sum-product.
N
p{x1,X2•···•xN) = р{х1) Пр(хпlх1, ... ,хп-1)· (13.1)
n=2
N
p{x1,X2•···•XN) =р{х1)Пр(хпlхп-1 ). (13.2)
n=2
этих параметров.
N
р( х 1 ,x 2 ,""xN) =р( Х 1 )р( x 2 lx1 ) ПР( хпlхп-t>Хп-2)· (13.4)
n=З
(13.6)
лежит в основе как скрытой марковской модели, так и линейных динамических систем
к к
р( zn 1 zn-1' A) --ППлz•-1.jZ•k
jk • (13.7)
k=l }=1
где Ltr1r =1 .
/с
как решетка (lattice), или решетчатая диаграмма (trellis diagram), которая пока
зана для случая скрытой марковской модели на рис. 13.7.
k= J
k =3
п-2 п-1 п п +1
Рис. 13.7. Если со временем развернуть диаграмму перехода состояний, показанную на
для всех значений}, так что условное распределение p(znl Zn_ 1) не зависит от Zn+
Это соответствует удалению горизонтальных связей из графовой модели, пока
занной на рис. 13.5.
13.2. Скрытые марковские модели 805
(c.w. упра.ш11е11ие 13.4), такие как нейронные сети. Они могут быть использова
ны для непосредственного моделирования плотности эмиссии p(xlz) или для
представления плотности p(z lx), которое можно преобразовать в требуемую
плотность эмиссии p(xl z) с помощью теоремы Байеса (Bishop et а/" 2004).
Для того чтобы лучше понять скрытую марковскую модель, следует рассмот
реть ее с точки зрения порождающего подхода. Напомним, что для генерации вы
,
0,5 k=I
~ k=З
0,5
k=2
о о
о 0,5 о 0,5
тремя состояниями z и гауссовскую модель эмиссии p(x l z), где вектор х является
Рис. 13.9. Пример диаграммы перехода состояний для скрытой марковской модели
k= l
k =3
п-2 п - 1 п п+1
торой следует вторая, более или менее прямая линия, заканчивающаяся в пра
вом нижнем углу. Естественные различия в стиле письма приводят к измене
ние. Однако если цифра 2 написана в обратном порядке, т.е. начиная с нижне
го правого и заканчивая верхним левым, то даже если координаты кончика пе
нить суммирование явно, потому что есть N переменных, которые будут сумми
роваться, каждая из которых имеет К состояний, в результате чего получается
всего KN слагаемых. Таким образом, количество слагаемых в сумме с увеличе
нием длины цепи растет экспоненциально. Фактически суммирование в форму
ле ( 13 .11) соответствует суммированию по экспоненциальному множеству путей
по решетчатой диаграмме, показанной на рис. 13.7.
Мы уже сталкивались с подобной трудностью, когда рассматривали пробле
му вывода для простой цепи переменных на рис. 8.32. Там мы смогли использо
ме, как это было в случае простых моделей смешивания (напомним, что модель
смешивания для внутренних данных является частным случаем НММ) (см. раз
дел 9.2). Поэтому мы обращаемся к ЕМ-алгоритму, чтобы найти эффективную
основу для максимизации функции правдоподобия в скрытых марковских моде
лях. ЕМ-алгоритм начинается с некоторого начального выбора параметров мо
дели, который мы обозначим 8°1d. На Е-шаге по значениям этих параметров
находим апостериорное распределение скрытых переменных p(ZIX, 8°1d). Затем
используем это апостериорное распределение, чтобы вычислить математическое
ожидание логарифмической функции правдоподобия при полных данных как
функции параметров, чтобы получить функцию Q(8, 8°1d), определенную как
у ( zп ) = р ( zп Х, (Jold ) '
1 (13.13)
(13.15)
z
К N К К
Q(0,0°1
d)= LY(z 1 k)lnяk + LLLq(zn-l,J•znk)lnA1k +
k;1 n;2 j;1 k;1
(13.17)
N К
+LLY(zпk )lnp(xпlФk ).
n;1 k;1
Целью Е-шага является вычисление величин у(zп) и q(zп-l• zп), и мы вскоре об
судим это подробно.
На М-шаге мы максимизируем функцию Q(O, 8°1d) относительно параметров
(}= {я, А, ф}, в которых считаем у(zп) и q(zп_ 1 , zп) постоянными. Максимизация
по я и А легко достигается с помощью соответствующих множителей Лагранжа
и приводит к следующим результатам (с.м. ynpaJ1e11e11ue 13.5):
у( Z1k)
!l"k = к ' (13.18)
LY( Z11)
};1
Lq( Zn-1,J•znk)
А п;2
jk = _K.:..:......:N'------- (13.19)
L L q ( Zn-1,J•znl)
/;1 n;2
Если величины y(zпk) независимы для разных компонентов, то этот член разлага
ется на сумму слагаемых по одному для каждого значения k, каждое из которых
может быть максимизировано независимо. Затем мы максимизируем весовую
логарифмическую функцию правдоподобия для плотности эмиссии p(xl фk) с ве
сами y(zпk). Здесь мы предположили, что эта максимизация может быть выпол
нена эффективно. Например, в случае нормальной плотности эмиссии мы имеем
p(xl фk) = N(xlµь :Ek), и максимизация функции Q(8, (J01 d) дает
N
LY(zпk )хп
µ k -- ~n;~)_ _ __
N (13.20)
LY(zпk)
n;I
N Т
LY(zпk)(xn -µk)(хп -µk)
't' - _n_;J_ _ _ _ _ _ _ _ _ __
~k - N (13.21)
LY(zпk)
n;\
D К
путь из любого из узлов х 1 , "" х"_ 1 к узлу х" проходит через узел zn, который
наблюдается. Поскольку все такие пути имеют тип "голова к хвосту'', свойство
условной независимости должно сохраняться. Читатель должен потратить не
сколько минут, чтобы проверить каждое из этих свойств по очереди, в качестве
упражнения на применение d-разделения. Эти отношения также могут быть до
казаны непосредственно, хотя и с гораздо большими усилиями, из совместного
распределения для скрытой марковской модели с использованием правил сло
жения и умножения вероятностей (см. ynptmcнeuue 13.10).
Начнем с оценки y(zпk). Напомним, что для дискретной многомодальной слу
чайной величины математическое ожидание одного из ее компонентов является
просто вероятностью того, что этот компонент равен единице. Таким образом,
zn ) р ( zn )
( ) = Р (zп 1х) = р ( х1р(Х) (13.32)
У zп ·
где
лений а(zп) и /J(zп) представляет собой вектор из К чисел, по одному для каж
дого из возможных значений двоичного вектора Zm кодированного по схеме 1
из К. Мы будем использовать обозначение a(znJc) для величины а(zп), если
Znk = 1, с аналогичной интерпретацией /J(zпk)·
Теперь мы получим рекурсивные соотношения, которые позволяют эффек
тивно вычислять а(zп) и /J(zп). Мы снова будем использовать свойства условной
независимости, в частности (13.25) и (13.26), вместе с правилами сложения и
умножения вероятностей, что позволит выразить а(zп) через а(zп_ 1 ) следующим
образом:
а(zп)= р(х1"."хп,zп)=
= Р( Х1, ... ,хпlzп )Р( Zn) =
= р ( Хп zn ) р ( Х1 '"" Хп-1 zn) р ( Zn) =
1 I
"'п-1
(13.36)
элеме1пов а(zп 1.;) вектора а(zп __1) на шаге п - 1 с весами А11 , соответствующими
Р( Zn) = Р( Xn+l•··"xN!zп) =
= L Р( Xn+l"."XN,Zn+l!zп) =
&n+l
Эта формула будет корректной, если мы положим fЗ(zN) для всех значений zN.
В формулах М-шага величина р(Х) будет уменьшаться, как это видно,
например, в формуле М-шага для µk, определяемой выражением (13.20), которое
принимает вид
(13.40)
k=з0
п n + l '-
p(x.lz.+ ~ ,з)
Рис. 13.13. Обратная рекурсия (13.38) для вычисления переменных jJ. В этом фрагменте
решетки величина jJ(z.,1) получается путем суммирования компонентов jJ(zп+I,k) вектора
(13.41)
зуя тот факт, что ft(zN)- вектор единиц. В этом случае никакая рекурсия не
требуется, и мы имеем
(13.42)
Рассмотрим интерпретацию этого результата для р(Х). Напомним, что для вы
числения вероятности необходимо просуммировать совместное распределение
р(Х, Z) по всем возможным значениям Z. Каждое такое значение представляет
определенный выбор скрытого состояния для каждого временного шага, иначе
говоря, каждое слагаемое- это путь через решетчатую диаграмму, и таких пу
_ a(zп-1)P(xnlzп)P(znlzn-l)P(zп)
- р(Х)
p(xN+ilX)= L p(xN+l•zN+ilX)=
(13.44)
h
il----0-······
Рис. 13.15. Упрощенная форма фактор-графа дл я описания скрытой марковской модели
822 ГЛАВА 13. ПОСЛЕДОВАТЕЛЬНЫЕ ДАННЫЕ
(13.47)
(13.52),
13.2. Скрытые марковские модели 823
(13.55)
(13.56)
так что
(13.58)
(13.59)
числить а (zn).
Аналогичным образом можем определить перемасштабированные перемен
ные jз {zn ) , используя формулу
(13.60)
которая все еще остается в пределах точности компьютера, потому что из фор
мулы (13.35) следует, что величины /з( zn) являются отношением двух услов
ных вероятностей:
13.2. Скрытые марковские модели 825
(13.61)
Результат рекурсии (13.38) для fJ затем дает следующую рекурсию для перемас
штабированных переменных:
(13.62)
(13.63)
Точно так же, используя (13.33) и (13.43) вместе с (13.63), мы видим, что требу
длиной цепи. Алгоритм Витерби эффективно ищет это пространство путей, что
бы найти наиболее вероятный путь с вычислительными затратами, которые рас
тут лишь линейно с длиной цепи.
Как и в случае с алгоритмом sum-product, сначала представим скрытую мар
ковскую модель в виде фактор-графа, как показано на рис. 13.15. Мы снова рас
сматриваем узел переменной zN в качестве корня и передаем сообщения корню,
начиная с листовых узлов. Используя результаты (8.93) и (8.94), мы видим, что
(13.66)
(13.67)
13.2. Скрытые марковские модели 827
k=l о
k =3
п - 2 п - 1 п п +1
Рис. 13.16. Фрагмент решетки НММ , показ ывающий два возможных пути . Алгоритм
!
соответствующих вероятностям р ( Zn+ 1 Zп) для каждого сегмента пути, а также
(13.68)
(13.69)
(13.71)
R
~)np(m,IX, ). (13.72)
r=I
!:(
роятности, связанные со скрытыми марковскими моделями:
~ ш х, в, )р т,
1 ( ) ), (13.73)
- LP(x,10, )Р(!,)
1=1
пом состоянии. Чтобы увидеть, в чем дело, обратите внимание на то, что веро
ятность того, что последовательность, выбранная из заданной скрытой марков
ской модели, проведет ровно Т шагов в состоянии k, а затем перейдет в другое
состояние, определяется выражением
т
р (Т) = (Akk) (1 -Akk) ос exp(ТlnAkk), (13.74)
тип "голова к хвосту" относительно этого пути. Как следствие, мы снова можем
использовать прямую и обратную рекурсию на Е-шаге ЕМ-алгоритма для опре
деления апостериорных распределений латентных переменных. При этом вы
числительная сложность является линейной по длине цепи. Аналогично М-шаг
включает в себя лишь незначительную модификацию стандартных формул М
шага. В случае нормальных плотностей эмиссии это включает в себя оценку па
раметров с использованием стандартных уравнений линейной регрессии, обсуж
даемых в главе 3.
ходные переменные, либо на оба вида переменных (рис. 13.18). Эта модель рас
скрытая марковская модель (Ghahramani and Jordan, 1997), в которой имеется не
сколько независимых цепей Маркова, состоящих из латентных переменных, а рас
пределение наблюдаемой переменной на данном временном шаге зависит от состо
яния всех соответствующих скрьпых переменных на том же временном шаге. Со
ство состояний К. Тогда можно бьmо бы отметить, что на заданном времешюм ша
ге существуют комбинации Км латентных переменных, и поэтому мы можем пре
образовать модель в эквивалентную стандартную модель НММ, имеющую одну
цепь латентных переменных, каждая из которых имеет КМ латентных состояний.
Затем мы можем запустить стандартные прямые и обратные рекурсии на Е-шаге.
Этот алгоритм имеет вычислительную сложность порядка О(NК 2м), которая явля
ется экспоненциальной по количеству латентных цепей М, и, следовательно, будет
трудным для вычислений за исключением малых значений М. ОДIШм из решеIШй
может бьпь использоваIШе методов выбора (которые обсуждаются в главе 11 ). В
качестве элегантной детерминированной альтернативы Ghahramani and Jordan
( 1997) предложили использовать методы вариационного вывода для получения ре
алистичного алгоритма приближенного вывода (см. раздел 10.1). Это можно сде
лать, используя простое вариационное апостериорное распределение, которое пол
(2)
(1)
(2)
(1)
Рис. 13.20. Пример пути, выделенного зеленым цветом, который имеет тип "голова к
.
z~2}1 , z~2 ) и z~:\ Таким образом, путь не блокируется, и поэтому для отдельных скрытых
цепей факторной модели НММ свойство условной независимости (13.5) не выполняется.
случайные члены шума будут стремиться взаимно компенсировать друг друга. Те
перь усложним ситуацию, предполагая, что мы хотим измерить величину z, кото
чины х и в некоторый момент времени получить набор значений х 1 , ... ,Хм чтобы
найти соответствующие значения z 1 "., zм Если мы просто усредним измерения,
то ошибка из-за случайного шума будет уменьшена, но, к сожалению, мы получим
единственную усредненную оценку, в которой мы провели усреднение по изме
няющемуся значению z, тем самым введя новый источник ошибки.
Интуитивно понятно, что мы могли бы немного улучшить оценку, выполнив
следующие действия. Чтобы вычислить значение zм мы берем только самые по
следние измерения, скажем, xN-L• "., хм и усредняем их. Если величина z изме
няется медленно и уровень случайных шумов в датчике высок, имеет смысл вы
ческие системы развивались независимо друг от друга. Однако, как только они
бьmи выражены в виде графов, глубокая связь между ними сразу стала оче
видной.
(
распределения, такие как а zn ) ' также являются нормальными, так что функцио
нальная форма сообщений сохраняется, и мы получаем эффективный алгоритм
вывода. Напротив, предположим, что плотности эмиссии p(xnl zn) образуют смесь
р(zп Zп-1)
1 = N(zп IAzn-1• Г), (13.75)
(13.77)
нения с шумом:
(13.85)
(13.87)
где
(13.88)
(13.93)
840 ГЛАВА 13. ПОСЛЕДОВАТЕЛЬНЫЕ ДАННЫЕ
графике синяя кривая показывает распределение p(z 11 . 1 lx 1, "., х"_ 1 ), которое включает
красным цветом на центральном графике. Заметим, что оно более широкое и смещено
эмиссии р(хп 1 z"), которая показана зеленым цветом на правом графике как функция
распределению p(z 11 1x 1, •• " х") для плотности состояний, показанной синим цветом.
с p(z 11 1 х 1 , "" х 11 _ 1 ) (что показано для сравнения штриховой линией на правом графике)
842 ГЛАВА 13. ПОСЛЕДОВАТЕЛЬНЫЕ ДАННЫЕ
(13.98)
(13.99)
(13.100)
(13.101)
где
(13.102)
(13.105)
(13.106)
(13.107)
(13.109)
(13.113)
(13.114)
Q( 8,8old) = - ~ lnl1:l-
-JEZIOold [_!_
2 n=l
f {хп -Сzп/ 1:- 1 {хп -Czп)]+const.
Максимизация относительно С и r. дает следующий результат (см. упражне-
11ие 13.34):
(13.115)
(13.116)
совское решение, хотя детальное изложение этого вопроса здесь невозможно из
за недостатка места.
(
деление а zn ) задается смесью, состоящей из кn нормальных распределений.
Таким образом, число компонентов растет экспоненциально с длиной цепи, и
построить алгоритм логического вывода на основе методов выбора (см. главу 11).
В частности, мы можем применить формализм выбора и повторного выбора по
важности (sampling-importance-resampling) из раздела 11.1.5, чтобы получить по
следовательный алгоритм Монте-Карло, известный как фильтр частиц.
Рассмотрим класс распределений, представленный графовой моделью на
рис. 13.5, и предположим, что нам даны наблюдаемые значения Хп = (х 1 , "., хп)
J
IE[f(zп)]= f(zп)p(znlXn)dzn =
J
= f(zп)p(zпlxn,Xn-l)dzn =
_Jf (zп )р( хп\zп )Р( zп\Хп-1 )dzn _ (13.117)
- Jр(хп\zп)р(zп\Хп-1)dzп -
848 ГЛАВА 13. ПОСЛЕДОВАТЕЛЬНЫЕ ДАННЫЕ
р(хпl Zm Хп_ 1 ) = р(хпl zп), что следует из графа, показанного на рис. 13.5. Веса вы-
(13.118)
p(zn+1IXn)= Jp(zn+1lzn,Xn)P(znlXn)dzn =
= Jp(zn+1lzn)P(znlXn)dzn =
J
= p(zn+1lzn)P(znlxn,Xn-1)dzn = (13.119)
Упражнения
13.6. (*) Покажите, что если какие-либо элементы параметров tr или А для
скрытой марковской модели изначально установлены равными нулю, то
13.9. (**) WWW Докажите, что совместное распределение для скрытой марков
ской модели, определенной в (13.6), обладает свойствами условной неза
висимости (13.24)--{13.31), используя критерий d-разделения.
(13.124)
_
LL; zn-1.j•zn.k
(r)
R
r=ln=2
N (r) )
(
А (13.125)
'k -
К (r) (r))'
}
LLL;
R
zn-1,j•Zn.z
r=I 1=1 n=2
N (
R N
LLY( z~~) )х~)
µk = r=I Rn=I N (13.126)
LLr(z~~))
r=I n=I
13.25. (**)В этом упражнении мы покажем, что когда формулы фильтра Кал
мана применяются к независимым наблюдениям, они сводятся к резуль
татам, приведенным в разделе 2.3 для решения, полученного с помощью
Это согласуется с нашей интуицией о том, что если шума нет, мы долж
системы.
13.32. (**) WWW Проверьте результаты (13.110) и (13.111) для формул М-шага
для µ 0 и Р 0 в линейной динамической системе.
13.33. (**)Проверьте результаты (13.113) и (13.114) для формул М-шага для А
и Г в линейной динамической системе.
13.34. (**) Проверьте результаты (13.115) и (13.116) для формул М-шага для С
и I: в линейной динамической системе.
1
отдельной модели.
(
p(tlx) =L1Тk х )p(tlx,k ), (14.1)
k=\
р(х, z) (14.2)
роятностями p(h). Например, одна модель может быть смесью нормальных рас
пределений, а другая модель - смесью распределений Коши. Маргинальное
лей весь набор данных генерируется одной моделью. Напротив, когда мы объ
единяем несколько моделей, как в (14.5), то разные точки в множестве данных
могут потенциально генерироваться из разных значений латентной перемен
14.2. Комитеты
Самый простой способ создать комитет - это усреднить предсказания мно
жества отдельных моделей. Такую процедуру можно обосновать с частотной
точки зрения (с,и. раздел 3.2), рассматривая компромисс между смещением и
дисперсией, который раскладывает ошибку, обусловленную моделью, на компо
нент смещения, который возникает из-за различий между моделью и истинной
функцией, которая должна быть предсказана, и компонент дисперсии, который
отражает чувствительность модели к отдельным точкам данных. Когда мы обу
чали несколько полиномов с использованием синусоидальных данных, а затем
Ут(х)=h(х)+sт(х). (14.8)
(14.10)
= t.
П!, [{~ е. (х) п
Если мы предположим, что ошибки имеют нулевое математическое ожидание
и не коррелированы, так что
14.3. Бустинг
Бустинг является мощной техникой объединения нескольких базовых клас
сификаторов для создания формы комитета, точность которого может быть зна
чительно лучше, чем у любого из базовых классификаторов. Здесь мы опишем
наиболее широко используемую форму алгоритма бустинга, называемую
AdaBoost, сокращение от "adaptive boosting'', разработанную Freund and Schapi-
re (1996). Бустинг может дать хорошие результаты, даже если базовые класси
фикаторы имеют точность, которая лишь немного лучше, чем случайная, и по
этому иногда базовые классификаторы называют слабыми учениками. Первона
чально разработанный для решения задач классификации, бустинг можно
обобщить и применить к регрессии (Friedman, 200 l ).
Принципиальное различие между методами бустинга и комитета, такими как
бэггинг, рассмотренный выше, состоит в том, что базовые классификаторы обу
чаются последовательно, и каждый базовый классификатор обучается с исполь
зованием взвешенного множества данных, в котором весовой коэффициент, свя
занный с каждой точкой данных, зависит от точности предыдущих классифика
торов . В частности, точки, которые неправильно классифицированы одним из
базовых классификаторов, получают больший вес, когда используются для обу
чения следующего классификатора в последовательности. После того как все
классификаторы прошли обучение, их прогнозы объединяются с помощью схе
мы взвешенного большинства, как показано на рис. 14.l .
@@ @
1 1 .... 1
у, (х) У2(х) Ум(х)
~~
P1tc. 14.1. Схематическое представление бустинга. Каждый ба·ювый классификатор
двоичными целевыми переменными t 1, •• " lм где tn Е{-1, 1}. Каждой точке дан
чально устанавливается равным 1/N для всех точек данных. Предположим, у нас
AdaBoost
-
Jm - LWn(т) l(ут(хп)*tп),
N
n=l
(14.15)
б) Вычислите величины
(14.16)
n=1
а затем используйте их для вычисления величин
ат =ln{1~:m }· (14.17)
864 ГЛАВА 14. КОМБИНИРОВАНИЕ МОДЕЛЕЙ
(14.18)
(14.19)
2 о 1 оо m=I
2 т=2
2 т = З
1
"о· ••
о Оо р • о
q,
о о 1 о о
о .1
о о о
•
с9 ~<S> о
-2
о о ofo 'Ьо
1О
-2
.~;:а
•• 1
1
-2 -
.
-
о -OL.·ь - -
-! о 2 -1 о 2 -1 о 2
2 т= 10 2 • т = 150
• о . • о • о 1.
о~ - r -о~ С)- -4 о
о о о о
о о ,_ - - · - _()._.-о_о_ 1~ о
-2 .
о о ."i:J
-2
о 8 •о
• о
-2
о 1~
"1
•tJ
•
1
-1 о 2 -1 о 2 -! о 2
принятия решения ансамбля (сплошная зеленая линия) . Каждая тоtfКа данных изображена
кружком, радиус которого отражает вес , нюначенный этой точке данных при обучении
N
Е= :Lexp{-tпfm(xп)}, (14.20)
n=\
1 т
fт ( х) =- L
2 1=1
а, у1 ( х), (14.21)
(14.22)
где коэффициенты w~т) = ехр {-tпfт-I ( хп)} можно рассматривать как констан
ты, потому что мы оптимизируем только а,,. иут(х). Если мы обозначим через Т,,.
N N (14.23)
= (еат/2 -е-ат/2 )L W~т) l(Ут (хп) :# tn )+e-am/2L W~т).
n=I n=I
(14.24)
14.3. Бустинг 867
проходила через точку (О, 1) для удобства сравнения. Мы видим, что обе функции
могут рассматриваться как непрерывные приближения к идеальной функции
ошибки классификации. Преимущество экспоненциальной функции ошибки за
ключается в том, что ее последовательная минимизация приводит к простой схеме
AdaВoost. Однако один из ее недостатков заключается в том, что она штрафует
большие отрицательные значения ty(x) гораздо сильнее, чем перекрестная энтро
пия. В частности, мы видим, что для больших отрицательных значений ty пере
- 2 - 1 о 2
E(z)
/
-1 о z
шения в каждом узле. Обратите внимание на то, что такие деревья решений не
являются вероятностными графовыми моделями.
с D
Х2 ~ 82
А
•в
1
с D Е
(14.29)
формуле
и индекс Джини
к
Оба они равны нулю, если р тk = 1 для k = 1, "" К (в этом случае р 1* = О для
всех} =!:- k) и имеют максимум при Ртk = 1/К для k = 1, ""К. Они поощряют фор
мирование областей, в которых большая часть точек данных относится к одному
классу. Перекрестная энтропия и индекс Джинн являются лучшими показателя
нормальных распределений.
14.5. Смеси моделей условных распределений 875
(14.35)
п- N(t lwт~ р- 1 )
=Е( ]= (kl~ во'd)= п k~' (14.37)
Ynk znk Р ~· "
k
( 1 т
L.п-1 N tп w1 Фп,Р
-!)"
j
где постоянный член содержит вклады других весовых векторов w1 для}= k. Об
N
О= LYnk (tn -wit )t, (14.40)
n=I
о= ФTRk(t-Фwk ), (14.41)
(14.42)
(14.43)
1 1 N К Т 2
-=-
/З N
LLYnk(tn -wkФп) ·
n=I k=I
(14.44)
ным для всех значений х. Эту проблему можно решить путем расширения модели,
чтобы позволить самим коэффициентам смешивания быть функциями от х. Это
приводит к таким моделям, как сети со смешанной плотностью, обсуждаемые
в разделе 5. 6, и иерархическая смесь экспертов, обсуждаемая в разделе 14. 5.3.
у (х, wk), где k Е: { 1, 2}, показаны синими и красными прямыми. На трех верхних
изображенные в виде вертикальных линий для каждой точки данных, в которых длина
синего сегмента отражает апостериорную вероятность синей линии для этой точки
1,5
-1
(14.46)
880 ГЛАВА 14. КОМБИНИРОВАНИЕ МОДЕЛЕЙ
где Ynk = a(wJФn) и t = (t 1, .", tN)т. Мы можем максимизировать эту функцию ве
роятности итеративно, используя ЕМ-алгоритм. Это подразумевает введение ла
(14.47)
(14.48)
1 N
Л"k = - LYnk' (14.50)
N n=I
Чтобы определить {wk}, отметим, что функция Q(O, 0°ы) содержит сумму по
слагаемым с индексом k, каждое из которых зависит только от одного из векто
ров wk, так что связи между разными векторами разрываются на М-шаге ЕМ
алгоритма. Иначе говоря, разные компоненты взаимодействуют только через от
ветственности, которые фиксируются на М-шаге. Обратите внимание на то, что
М-шаг не имеет решения в замкнутой форме и должен выполняться итеративно
14.5. Смеси моделей условных распределений 881
ресчетом весов (IRLS) (см. раздел 4.3.3). Градиент и гессиан для вектора wk
определяются как
N
У' kQ = LYnk (tп - Ynk )фп, (14.51)
n=I
N
Hk =-У' k У' kQ = LYnkYnk {1- Ynk }Фпtт, (14.52)
n=I
где Y't обозначает градиент по wk. Для фиксированного Упk они не зависят от {w1}
при j =/= k, поэтому мы можем решать уравнения для каждого wk отдельно, ис
пользуя алгоритм IRLS (см. раздел 4.3.3). Таким образом, формулы М-шага для
компонента k соответствуют подгонке одной модели логистической регрессии к
взвешенному набору данных, в котором точка данных п имеет вес Упk· На
рис. 14.10 приведен пример смеси моделей логистической регрессии, применен
ных к простой задаче классификации. Расширение этой модели до смеси моделей
softmax для более чем двух классов не составляет труда (см. упраж11е11ие 14.16).
3 3 3
2 2 2
1 1
о о о
-1 -1 -1
-2 -2 -2
-3 -3 -3
-2 о 2 -2 о 2 -2 о 2
Рис. 14.10. Смесь моделей логистической регрессии. На левом графике показаны точки
данных, взятые из двух классов, обозначенных красным и синим цветом, в которых цвет
всрояnюсть около 0,5 каждому классу в большей части входного пространства. На графике
которая теперь дает гораздо более высокую вероятность правильных меток для многих
Эта модель называется смесью экспертов (Jacobs et al" 1991), в которой коэф
фициенты смешения 1l°k(x) называются шлюзовыми функциями, а плотности от
дельных компонентов Pk(tlx) - экспертами. Идея, лежащая в основе этой тер
минологии, состоит в том, что разные компоненты могут моделировать распре
Упражнения
14.1. (**) WWW Рассмотрим набор моделей видар(tlх, zh, (}h, h), в котором х
входной вектор, t - целевой вектор, h - индекс моделей, zh -латентная
переменная для модели h, (}h - набор параметров для модели h. Предпо
ложим, что модели имеют априорные вероятности p(h) и нам дан обуча
ющий набор Х = {х 1 , .", xN} и Т = {t 1, "., tN}· Запишите формулы, необ
ходимые для оценки прогностического распределения p(tlx, Х, Т), в ко
тором латентные переменные и индекс модели маргинализированы.
14.3. (*) WWW Используя неравенство Йенсена (1.115) для частного случая вы
пуклой функции f(x) = х 2 , покажите, что средняя ожидаемая среднеквад
ратическая ошибка Ел v членов простой модели комитета, заданная фор-
884 ГЛАВА 14. КОМБИНИРОВАНИЕ МОДЕЛЕЙ
Есом~Елv· (14.54)
14.4. (**)Используя равенство Йенсена (1.115), покажите, что результат (14.54),
полученный в предыдущем упражнении, подходит для любой функции
ошибки Е(у), а не только для среднеквадратичной, при условии, что она
является выпуклой функцией по у.
14.5. (**) WWW Рассмотрим комитет, в котором мы допускаем неравный вес со
ставляющих моделей, так что
м
14.6. (*) WWW Дифференцируя функцию ошибки (14.23) по ат, покажите, что
параметры ат в алгоритме AdaBoost обновляются с использованием
формулы ( 14.17), в которой ст определяется по формуле ( 14.16).
14.7. (*)Выполняя вариационную минимизацию функции ожидаемой экспо
ненциальной ошибки, заданной формулой (14.27), относительно всех
возможных функций у(х), покажите, что функция минимизации задается
формулой (14.28).
14.8. (*) Покажите, что экспоненциальная функция ошибки (14.20), которая
минимизируется алгоритмом AdaBoost, не соответствует логарифмиче
ской функции правдоподобия какой-либо корректной вероятностной мо
дели. Это можно сделать, показав, что соответствующее условное рас
пределение р(tl х) невозможно правильно нормировать.
нием {tп}·
нн (14.33) для двух деревьев и покажите, что они оба меньше для дере
ва В, чем для дерева А.
Рукописные цифры
7 2- / 4 1 ч ~ ~ ?
()
о (Q Cf о J s q 7 ~ ч
"! ь (с 5' ч 01 4 о \
3 \ ~ ц 7 2 7- ~ l
) t ч )-. } 5 \ d. '1 ч '
6 ~ 5 s (9 о ч 1 9 )'
/ 2 q з т ~ (J; ч з о
7 о ;) J 1- 3 '2 f
'
'1 ~ ;2. 1 rg ч 7 ~ 1
""
3 ~ 9' \ 4 r- с q
'
Рис. А.1. Сто примеров цифр '
MNIST,
случайным образом из обучающего множества
выбранных
Поток нефти
интенсивности луча дает информацию о плотности материала вдоль его пути. Так,
например, луч будет более сильно ослаблен нефтью, чем газом.
Единственного измерения затухания недостаточно, потому что есть две сте
пени свободы, соответствующие долям нефти и воды (доля газа значения не
имеет и добавлена только для того, чтобы сумма трех фракций равнялась едини
це). Для решения этой задачи через трубу по одному и тому же пути пропуска
ются два гамма-луча разной энергии (иначе говоря, с разными частотами или
длинами волн) и измеряется затухание каждого из них. Поскольку поглощаю
щие свойства разных материалов по-разному зависят от энергии, измерение
Стратифицированная Кольцевая
• Нефть
• вода
Газ
• Смесь
Однородная
!. J; (А.1)
нефти - J; + f2 + fз '
В результате все три фазы являются равновероятными, а сумма их объем
ных долей равна единице.
позволяет предсказать его более точно . Отметим, что существует несколько дру
гих наборов данных, относящихся к извержениям "Старого служаки".
90
80
70
60
50
40~-~--~--~--~---'
1 2 з 4 5 6
Искусственные данные
о о
о
о
о
о о
о о
о
о
о
-1 -1
о х
о
х
Рис. А.6. На графике слева показан искусственный набор данных для регрессии
о х
х
"><
9 х
2 2
о о~ о хх .)хх
о оО:Ь ~х х
~ О Оох "' х О
о ocJjз'0 ~~ю о
о \!) ~~~.
х
о о
о ~ < х хх,..
(Х)а:Р,0 х х х
~о ~о
О ~ х~ х
-2 о х jf *
,ю х 61<
о ох о
-2 о 2 -2 о 2
Рис. А.7. Слева показан искусственный набор данных классификации с данными из двух
равны 0,5) может быть вычислена и показана зеленой кривой. Эта граница решения
тическое ожидание JE[x], дисперсия (или ковариация) , мода и энтропия Н[х]. Все
эти распределения являются членами семейства экспоненциальных распределе
Распределение Бернулли
Е[х] = µ, (Б 2)
1, еслиµ~ 0,5,
mode [ х ] ={ (Б.4)
О в противном случае.
Бета-расnредеnение
Е[µ]=-а-, (В.7)
а+Ь
mode[µ] =-а-1
-- (В.9)
а+ Ь- 2
Бета-распределение является сопряженным априорным распределением к
распределению Бернулли. При этом параметры а и Ь можно интерпретировать
как эффективное априорное число наблюдений событий х = 1 и х = О соответ
ственно . Его плотность конечна, если а~ 1 и Ь~ 1, в противном случае суще
ствует особенность приµ= О и/илиµ= 1. При а= Ь = 1 это распределение сводит
ся к равномерному. Бета-распределение является частным случаем распределе
ния Дирихле порядка К при К= 2.
Биномиальное распределение 897
Биномиаnьное распредеnение
Распредеnение Дирихnе
.··.. многомерное распределение К слу
Распределение Дирихле -
т т
Обозначаяµ=(µ 1 , ""µк) и а=(а 1 , "" ак), имеем
к
(Б.17)
(Б.18)
898 ПРИЛОЖЕНИЕ Б. ПЛОТНОСТИ РАСПРЕДЕЛЕНИЙ
a 1 ak
cov [ µjµk ] = , (Б.19)
а2 (а+1)
а -1
mode[µk] =-~k _ , (Б.20)
а-К
IE[lnµk] = \//( ak )-\//(а), (Б.21)
к
где
(Б.23)
(Б.24)
Здесь функция
d
\//(a)=-lnГ(a) (Б.25)
da
известна как дигамма-функция (Abramowitz and Stegun, 1965). Параметры ak
подчиняются условию ak> О, чтобы обеспечить нормирование распределения.
Распределение Дирихле является сопряженным априорным распределением к
Гамма-распределение
(Б.26)
(Б.27)
Нормальное распределение 899
H[т]=lnГ(a)-(a-1)\f/(a)-lnb+a. (Б.31)
где \f/(·)- дигамма-функция, определяемая формулой (Б.25). Гамма-распределе
ние является сопряженным априорным распределением точности (обратной дис
персии) одномерного нормального распределения. При а~ 1 плотность везде ко
нечна, а частный случай а = 1 известен как экспоненциальное распределение.
Нормальное распределение
N(xlµ,a 2 )= 1
112 ехр{-~(х-µ) 2 }, (Б.32)
( 2яа2 ) 2а
= µ,
IE.:[x] (Б.33)
2
var[x] = а , (Б.34)
mode[x] = µ, (Б.35)
1 1
Н [х] =- ln а 2 + -( 1+ln2я). (Б.36)
2 2
2
Величина, обратная к дисперсии, т= 1 /а , называется точностью, а квадрат-
ный корень из дисперсии, а, называется стандартным отклонением. Сопряжен
ное априорное распределение параметра µ является нормальным, а сопряженное
является гамма-нормальным.
cov[x] = I, (Б.39)
mode[x] =µ, (Б.40)
определяются формулами
p(y)=N(ylAµ+b,L- 1 +AЛ- 1 A\ (Б.44)
р(х 1 у)= N(xlI{AтL(y-b)+ Лµ}, I), (Б.45)
где
I = (Л + ATLA)- 1• (Б.46)
(Б.49)
Гамма-нормальное распределение
(Б.52)
Распределение Гаусса-Уиwарта
(Б.53)
мальному распределению.
902 ПРИЛОЖЕНИЕ Б. ПЛОТНОСТИ РАСПРЕДЕЛЕНИЙ
Муnьтиномиальное распределение
кретное распределение:
н [х J= - I µk ш µk. (Б.58)
k=I
(Б.59)
(Б.63)
Nодинаковых объектов по k ячейкам при k=l, ""К. Значение µk- это вероят
ность того, что случайная величина примет k-e значение, и поэтому эти парамет
Распределение Гаусса
Распределение Стьюдента
1 v
var[x]=--- при v>2, (Б.66)
Л v-2
mode[x] = µ. (Б.67)
Равномерное распределение
v(xja,b)=-1- , (Б.73)
Ь-а
Е[х]=а;ь, (Б.74)
( Ь- а ) 2
var[x]=-- ' (Б.75)
12
Н[х] = ln(b- а). (Б.76)
Если случайная величинах имеет распределение U(xlO, 1), то случайная вели
чина а+ (Ь - а)х будет иметь распределение U(xla, Ь) .
fJ Е [О, 2я) .
Распределение Уишарта 905
где 10 (т)- функция Бесселя первого рода нулевого порядка. Это распределение
имеет период 21r, так что р( () + 21r) =р( 8) для всех 8. При интерпретации этого
распределения необходимо проявлять осторожность, потому что простые мате
матические ожидания будут зависеть от произвольного выбора точки отсчета
для переменной 8. Параметр ~ аналогичен математическому ожиданию одно
мерного нормального распределения, а параметр т > О, известный как параметр
Распределение Уиwарта
где
(v-D-1) vD
H[Л]=-lnB(W,v)- E[lnlAIJ+-, (Б.82)
2 2
где W- симметричная положительно определенная матрица D х D, а 1/10- ди
гамма-функция, определяемая формулой (Б.25). Параметр v называется числом
степеней свободы распределения и ограничивается условием v > D - 1, которое
гарантирует, что гамма-функция в нормировочном коэффициенте определена
корректно. В одном измерении распределение Уишарта сводится к гамма
(В.5)
(В.7)
следует, что ни один из векторов не может быть выражен как линейная комби
нация остальных. Рангом матрицы является максимальное количество линейно
независимых строк (или, что эквивалентно, максимальное количество линейно
независимых столбцов).
Следы и определители
(В.10)
(В.11)
что можно показать с помощью (В.10). Кроме того, определитель обратной мат
рицы задается формулой
(В.13)
Матричные производные
(~:}
даi
(В.16)
дх
(В.17)
и, аналогично,
(В.18)
Аналогично
~Тr(АВ)=Вт. (В.24)
дА
а: тr(АТВ)=В, (В.25)
д
-Tr(A)=I, (В.26)
дА
которые снова можно доказать, выписав матричные индексы. Кроме того, вы
полняется тождество
(В.28)
(В.29)
на (uТ):
тА •
U; U; =2•i U;т U;• , (В.32)
(В.33)
где 1;1 - элементы единичной матрицы 1. Чтобы показать это, сначала слева
(В.34)
ui Au 1 =21uJu 1 . (В.35)
Уравнение для собственного вектора 913
(В.37)
AU=UЛ, (В.38)
(В.41)
(В.43)
А= LЛ;u;u;, (В.45)
i=l
I
А- 1 = _!__u;u;.
i=l Л;
(В.46)
IАl=ПЛ;. (В.47)
i=l
(В.49)
например, чтобы показать, что кратчайший путь между двумя точками является
прямой линией или что максимальное распределение энтропии является нор
мальным.
(Г.2)
F[y(x)+c17(x)]=F[y(x)]+cf oF(
бу х
)17(x)dx+O(s 2 ). (Г.3)
J- ()17(x)dx=O.
бF
бу х
(Г.4)
Теперь мы должны привести это к виду (Г.3). Для этого проинтегрируем вто
рое слагаемое по частям и воспользуемся тем, что 17(х) должно исчезнуть на
дG _!!.._(дG) =О (Г.8)
ду dx ду' '
920 ПРИЛОЖЕНИЕ Г. ВАРИАЦИОННОЕ ИСЧИСЛЕНИЕ
d2y
у(х)- dx2 =0. (Г.10)
(Д. 1)
Один из подходов мог бы состоять в том, чтобы репmть уравнение (Д.1) и таким
образом выразить х 2 как функцию х 1 в виде х 2 = h(x1). Затем его можно подставить в
f(x 1, х2 ), получив функцию только от х 1 вида/(х 1 , h(x 1)). Максимум по х 1 можно бы
ло бы найти путем обычного дифференцирования, получив стационарное значе
,
ние х; с соответствующим значением х; заданным выражением х; =h { х;) .
Один из недостатков этого подхода состоит в том, что может быть сложно
найти аналитическое решение уравнения связи, которое позволяет выразить х 2
922 ПРИЛОЖЕНИЕ Д. МНОЖИТЕЛИ ЛАГРАНЖА
ми переменными.
равенство g(x) = g(x +с) и, следовательно, cтVg(x) ~О. В пределе при llcll ~О
имеем cтVg(x) =О, и поскольку в этом случае вектор с параллелен поверхности
ограничения g(x) =О, мы видим, что вектор Vg ортогонален к поверхности.
Затем мы ищем точку х· на поверхности ограничения, в которойf(х) дости
гает максимума. Такая точка должна обладать тем свойством, что вектор Vf(x)
ПРИЛОЖЕНИЕ Д. МНОЖИТЕЛИ ЛАГРАНЖА 923
Условие стационарности при ограничении (Д.3) получается при VxL =О. Кроме
точку функции f(x1 ,x2 )=1-x~ -х; при ограничении g(x 1,x2)=x 1+x2 -1 =О
(рис. Д.2). Соответствующая функция Лагранжа задается формулой
Рис. Д.2. Простой пример испонь :ювания метода множителей Лагранжа, в котором
-2х1 + Л= О, (Д.6)
Х1 + Xz - 1 = 0. (Д . 8)
8Хв
g(x ) > О
Для любого из этих двух случаев произведение 2g(x) =О. Таким образом,
решение задачи максимизации f(x) при условии g(x) ~О получается путем оп
тимизации функции Лагранжа (L.4) по х и А при условиях
2~0, (Д.10)
тим максимизировать f(x) при условиях g1(x) = О при j = 1, "" J и hk(x) ~ О при
k = 1" ." К. Затем вводим множители Лагранжа {.41} и {µk}, а затем оптимизиру
ем функцию Лагранжа, заданную формулой
J к
Attias, Н. (1999Ь). Inferring parameters and structure oflatent variaЫe models Ьу variational
Bayes. In К. В. Laskey and Н. Prade (Eds.), Uncertainty in Artificial Intelligence: Pro-
ceedings ofthe Fifth Conference, рр. 21-30. Morgan Kaufmann.
Bach, F. R. and М.
1. Jordan (2002). Kemel independent component analysis. Journal of Ma-
chine Learning Research 3, 1-48.
Bakir, G. Н., J. Weston, and В. Schбlkopf (2004). Leaming to find pre-images. ln S. Тhrun,
ma densitometry and neural networks. Nuclear Iпstrumeпts апd Methods iп Physics Re-
search А327, 580-593.
Bishop, С. М. and 1. Т. Nabney (1996). Modelling conditional probaЬility distributions for pe-
riodic variaЫes. Neural Computatioп 8(5), 1123-1133.
Bishop, С. М. and 1. Т. Nabney (2008). Pattern Recognition апd Machiпe Learniпg: А Matlab
Сотрапiоп. Springer.
Bishop, С. М" D. Spiegelhalter, and J. Winn (2003). VIВES: А variational inference engine
for Bayesian networks. In S. Becker, S. Thrun, and К. Obermeyer (Eds.), Advaпces iп Neu-
ral Informatioп Processiпg Systems, Volume 15, рр. 793-800. МIТ Press.
Bishop, С. М. and М. Svensen (2003). Bayesian hierarchical mixtures of experts. In
U. Kjaerulff and С. Meek (Eds.), Proceediпgs Niпeteeпth Confereпce оп Uпcertaiпty in
Artificial Iпtelligeпce, рр. 57-64. Morgan Kaufmann.
Bishop, С. М" М. Svensen, and G. Е. Hinton (2004). Distinguishing text from graphics in
online handwritten ink. In F. Kimura and Н. Fujisawa (Eds.), Proceediпgs Niпth Iпterna
Sixth Еиrореап Coпference оп Computer Visioп, DиЬ/iп, Volume 1, рр. 3-17. Springer.
Вlei, D. М" М. 1. Jordan, and А. У. Ng (2003). Нierarchica\ Bayesian models for applications
in infoпnation retrieval. ln J. М. Bemardo et а/. (Ed.), Bayesiaп Statistics, 7, рр. 25-43.
Oxford University Press.
Block, Н. D. (1962). The perceptron: а model for brain functioning. Reviews of Moderп Phys-
ics 34(1), 123-135. Reprinted in Anderson and Rosenfeld (1988).
Blum, J. А. (1965). Multidimensional stochastic approximation methods. Аппа/s of Mathemat-
ica/ Statistics 25, 737-744.
Bodlaender, Н. (1993). А tourist guide through treewidth. Acta Cyberпetica 11, 1-21.
Boser, В. Е" 1. М. Guyon, and V. N. Vapnik (1992). А training algorithm for optimal margin
classifiers. In D. Haussler (Ed.), Proceediпgs Fifth Аппиа/ Workshop оп Computatioпal
Cover, Т. and Р. Hart (1967). Nearest neighbor pattem classification. IEEE Transactions оп
Duda, R. О" Р. Е. Hart, and D. G. Stork (2001). Pattern Classificatioп (Second ed.). Wiley.
Durbin, R" S. Eddy, А. Кrogh, and G. Mitchison (1998). Biological Sequeпce Aпalysis. Cam-
bridge University Press.
Dybowski, R. and S. Roberts (2005). An anthology of probaЬilistic models for medical infor-
matics. ln D. Husmeier, R. Dybowski, and S. Roberts (Eds.), Probabllistic Modeliпg iп Bi-
oiпformatics апd Medical Iпformatics, рр. 297-349. Springer.
Efton, В. (1979). Bootstrap methods: another look at the jackknife. Аппаls of Statistics 1, 1-26.
Elkan, С. (2003). Using the triangle inequality to accelerate k-means. In Proceediпgs of the
Twelfth Iпternatioпal Confereпce оп Machiпe Learniпg, рр. 147-153. AAAI.
Elliott, R. J" L. Aggoun, and J. В. Moore (1995). Нiddeп Markov Models: Estimatioп апd
Coпtrol. Springer.
Ephraim, У" D. Malah, and В. Н. Juang (1989). On the application ofhidden Markov models
for enhancing noisy speech. IEEE Traпsactioпs оп Acoustics, Speech апd Sigпal Pro-
cessiпg 37(12), 1846-1856.
Erwin, Е" К. Obermayer, and К. Schulten (1992). Self-organizing maps: ordering, conver-
gence properties and energy functions. Biological Cyberпetics 61, 47-55.
Everitt, В. S. (1984). Ап Iпtroductioп to Lateпt VariaЬle Models. Chapman and Hall.
Faul, А. С. and М. Е. Tipping (2002). Analysis of sparse Bayesian leaming. In Т. G. Diet-
terich, S. Becker, and Z. Ghahramani (Eds.), Advaпces iп Neural Iпformatioп Processiпg
Press.
Frey, В. J. and D. J. С. МасКау (1998). А revolution: Belief propagation in graphs with cy-
cles. In М. 1. Jordan, М. J. Keams, and S. А. Solla (Eds.), Advaпces iп Neural Iпformatioп
Processiпg Systems, Volume 10. МIТ Press.
БИБЛИОГРАФИЯ 935
Ghahramani, Z. and М. 1. Jordan (1994). Supervised learning from incomplete data via an ЕМ
nary images. Journal ofthe Royal Statistical Society, Series В 51(2), 271-279.
Gull, S. F. (1989). Developments in maximum entropy data analysis. ln J. Skilling (Ed.), Maxi-
mum Eпtropy апd Bayesiaп Methods, рр. 53-71. Кluwer.
БИБЛИОГРАФИЯ 937
HassiЬi, В. and D. G. Stork (1993). Second order derivatives for network pruning: optimal
brain surgeon. In S. J. Hanson, J. D. Cowan, and С. L. Giles (Eds.), Advances in Neural In-
formation Processing Systems, Volume 5, рр. 164-171. Morgan Kaufmann.
Hastie, Т. and W. Stuetzle (1989). Principal curves. Journal of the American Statistical Asso-
ciation 84(106), 502-516.
Hastie, Т" R. Тibshirani, and J. Friedman (2001). The Elements of Statistica/ Learning.
Springer.
Hastings, W. К. (1970). Monte Carlo sampling methods using Markov chains and their appli-
cations. Biometrika 57, 97-109.
Hathaway, R. J. (1986). Another interpretation ofthe ЕМ algorithm for mixture distributions.
Statistics and Probabllity Letters 4, 53-56.
Haussler, D. (1999). Convolution kemels on discrete structures. Technical Report UCSC-
CRL-99-1 О, University of Califomia, Santa Cruz, Computer Science Department.
Henrion, М. (1988). Propagation of uncertainty Ьу Jogic sampling in Bayes' networks. In
J. F. Lemmer and L. N. Kanal (Eds.), Uncertainty in Artificial Inte//igence, Volume 2,
рр. 149-164. North Holland.
Herbrich, R. (2002). Learniпg Kernel C/assijiers. МIТ Press.
Hertz, J" А. Кrogh, and R. G. Palmer (1991). Introduction to the Тheory of Neural Computa-
tion. Addison Wesley.
Нinton, G. Е" Р. Dayan, and М. Revow (1997). Modelling the manifolds of images of hand-
written digits. IEEE Traпsactions оп Neural Networks 8(1), 65-74.
Hinton, G. Е. and D. van Camp (1993). Keeping neural networks simple Ьу rninimizing the
description Jength of the weights. In Proceediпgs of the Sixth Аппиа/ Confereпce оп Com-
putational Learniпg Тheory, рр. 5-13. АСМ.
Hinton, G. Е" М. Welling, У. W. Teh, and S. Osindero (2001). А new view of ICA. In Pro-
ceedings of the Internatioпal Conference оп Jndependent Сотропепt Analysis and Вlind
Signal Separation, Volume 3.
Hodgson, М. Е. (1998). Reducing computational requirements of the minimum-distance classi-
fier. Remote Sensiпg of Environments 25, 117-128.
Hoerl, А. Е. and R. Kennard (1970). Ridge regression: Ьiased estimation for nonorthogonal
proЫems. Technometrics 12, 55-67.
Hofmann, Т. (2000). Learning the sirnilarity of documents: an information-geometric approach to
document retrieval and classification. In S. А. Solla, Т. К. Leen, and К. R. MU.ller (Eds.), Ad-
vances in Neural Information Processing Systems, Volume 12, рр. 914-920. МIТ Press.
938 БИБЛИОГРАФИЯ
Hojen-Sorensen, Р. А., O.Winther, and L. К. Hansen (2002). Mean field approaches to inde-
pendent component analysis. Neural Computation 14(4), 889-918.
Homik, К. (1991). Approximation capabilities of multilayer feedforward networks. Neural
Networks 4(2), 251-257.
Homik, К., М. Stinchcombe, and Н. White (1989). Multilayer feedforward networks are uni-
versal approximators. Neural Networks 2(5), 359-366.
Hotelling, Н. (1933). Analysis of а complex of statistical variaЫes into principal components.
Journal ofEducational Psychology 24, 417-441.
Hotelling, Н. (1936). Relations between two sets ofvariaЫes. Biometrika 28, 321-377.
Hyviirinen, А. and Е. Oja (1997). А fast fixed-point algorithm for independent component
analysis. Neural Computation 9(7), 1483-1492.
lsard, М. and А. Blake (1998). CONDENSATION - conditional density propagation for vis-
ual tracking. International Journal ofComputer Vision 29(1), 5.18.
lto, У. (1991). Representation offunctions Ъу superpositions ofa step or sigmoid function and
their applications to neural network theory. Neural Networks 4(3), 385-394.
Jaakkola, Т. and М. 1. Jordan (2000). Bayesian parameter estimation via variational methods.
Statistics and Computing 10, 25-37.
Jaakkola, Т. S. (2001). Tutorial on variational approximation methods. ln М. Opper and
D. Saad (Eds.), Advances in Меап Field Methods, рр. 129-159. МIТ Press.
Jaakkola, Т. S. and D. Haussler (1999). Exploiting generative models in discriminative classi-
fiers. ln М. S. Keams, S. А. Solla, and D. А. Cohn (Eds.), Advances in Neural lnformation
Processing Systems, Volume 11. МIТ Press.
Jacobs, R. А., М. 1. Jordan, S. J. Nowlan, and G. Е. Hinton (1991). Adaptive mixtures oflocal
experts. Neural Computation 3(1), 79-87.
Jaynes, Е. Т. (2003). Probabllity Theory: The Logic of Science. Cambridge University Press.
Jebara, Т. (2004). Machine Learning: Discriminative and Generative. Кluwer.
Jeffreys, Н. (1946). An invariant form for the prior probaЬility in estimation proЫems. Pro.
Roy. Soc. АА 186, 453-461.
Jelinek, F. (1997). Statistical Methodsfor Speech Recognition. МIТ Press.
Jensen, С., А. Kong, and U. Kjaerulff (1995). Blocking gibbs sampling in very large probaЬi
listic expert systems. International Journal of Нитап Computer Studies. Special /ssue оп
Jerrum, М. and А. Sinclair (1996). Тhе Markov chain Monte Carlo method: an approach to
approximate counting and integration. ln D. S. Hochbaurn (Ed.), Approximation Algo-
rithmsfor NP-Hard Prohlems. PWS PuЬlishing.
some ofwhich are qualitative some quantitative. Аппаls of Statistics 17, 31-57.
Lauritzen, S. L. ( 1992). Propagation of probaЬilities, means and variances in mixed graphical
association models. Jourпal ofthe Americaп Statistical Associatioп 87, 1098-1108.
Lauritzen, S. L. (1996). Graphical Models. Oxford University Press.
Lauritzen, S. L. and D. J. Spiegelhalter (1988). Local computations with probabailities оп
graphical structures and their application to expert systems. Journal of the Royal Statistica/
Society 50, 157-224.
БИБЛИОГРАФИЯ 941
Lawley, D. N. (1953). А modified method of estimation in factor analysis and some large sam-
ple results. In Uppsala Symposium оп Psychologica/ Factor Analysis, Number 3 in Nordisk
Psykologi Monograph Series, рр. 35-42. Uppsala: Almqvist and Wiksell.
Lawrence, N. D., А. 1. Т. Rowstron, С. М.Bishop, and М. J. Taylor (2002). Optimising synchro-
nisation times for moЬile devices. In Т. G. Dietterich, S. Becker, and Z. Ghahramani (Eds.),
Advances in Neural Information Processing Systems, Volume 14, рр. 1401-1408. МIТ Press.
Lazarsfeld, Р. F. and N. W. Нету (1968). Latent Structure Analysis. Houghton Mifflin.
Le Cun, У" В. Boser, J. S. Denker, D. Henderson, R. Е. Howard, W. Hubbard, and L. D.
Jackel (1989). Backpropagation applied to handwritten zip code recognition. Neural Com-
putation 1(4), 541-551.
Le Cun, У" J. S. Denker, and S. А.
Solla (1990). Optimal brain damage. In D. S. Touretzky
(Ed.), Advances in Neural Information Processing Systems, Volume 2, рр. 598-605.
Morgan Kaufmann.
Le Cun, У" L. Bottou, У. Bengio, and Р. Haffner (1998). Gradient-based learning applied to
document recognition. Proceedings of the /ЕЕЕ 86, 2278-2324.
Lee, Lin, and G.Wahba (2001). Multicategory support vector machines. Technical Re-
У" У.
Hemmen, and К. Schulten (Eds.), Models of Neura/ Networks, ///, Chapter 6, рр. 211-254.
Springer.
942 БИБЛИОГРАФИЯ
МасКау, D. J. С. (1995). Bayesian neural networks and density networks. Nuclear Iпstru
Moody, J. and С. J. Darken (1989). Fast leaming in networks oflocally-tuned processing units.
Neural Computatioп 1(2), 281-294.
Moore, А. W. (2000). The anchors hierarch: using the triangle inequality to survive high di-
mensional data. In Proceediпgs of the Twelfth Confereпce оп Uпcertaiпty iп Artificial lп
telligeпce, рр. 397-405.
Miiller, К. R" S. Mika, G. Riitsch, К. Tsuda, and В. Schбlkopf (2001 ). An introduction to ker-
nelbased leaming algorithms. IEEE Traпsactioпs оп Neural Networks 12(2), 181-202.
Miiller, Р. and F. А. Quintana (2004). Nonparametric Bayesian data analysis. Statistical Sci-
eпce 19(1), 95-110.
Nabney, 1. Т. (2002). Netlab: Algorithmsfor Pattern Recognitioп. Springer.
Nadaraya, Е. А. (1964). On estimating regression. Theory of Probahi/ity апd its App/icatioпs
9(1), 141-142.
Nag, R" К. Wong, and F. Fallside (1986). Script recognition using hidden markov models. ln
ICASSP86, рр. 2071-2074. IEEE.
Neal, R. М. (1993). ProbaЬilistic inference using Markov chain Monte Carlo methods. Technical
Report CRG-TR-93-1, Department ofComputer Science, University ofToronto, Canada.
Neal, R. М. (1996). Bayesiaп Learniпgfor Neura/ Networks. Springer. Lecture Notes in Statis-
tics 118.
Neal, R. М. ( 1997). Monte Carlo implementation of Gaussian process models for Bayesian re-
gression and classification. Technical Report 9702, Department of Computer Statistics,
University ofToronto.
Neal, R. М. (1999). Suppressing random walks in Markov chain Monte Carlo using ordered
overrelaxation. In М. 1. Jordan (Ed.), Learпiпg iп Graphica/ Mode/s, рр. 205-228.
МIТ Press.
Neal, R. М. (2000). Markov chain sampling for Dirichlet process mixture models. Journa/ of
Computatioпa/ апd Graphica/ Statistics 9, 249-265.
Neal, R. М. (2003). Slice sampling. Аппа/s of Statistics 31, 705-767.
Neal, R. М. and G. Е. Hinton (1999). А new view ofthe ЕМ algorithm thatjustifies incremen-
tal and other variants. ln М. 1. Jordan (Ed.), Learniпg iп Graphica/ Mode/s, рр. 355-368.
МIТ Press.
Nelder, J. А. and R.W. M.Wedderbum (1972). Generalized linear models. Journa/ of the
Royal Statistica/ Society, А 135, 370-384.
Nilsson, N. J. (1965). Learniпg Machiпes. McGraw-Hill. Reprinted as The Mathematical
Fouпdatioпs ofLearniпg Machiпes, Morgan Kaufmann, (1990).
БИБЛИОГРАФИЯ 945
Papoulis, А. (1984). Probahility, Random Variahles, and Stochastic Processes (Second ed.).
McGraw-Hill.
Parisi, G. (1988). Statistical Field Theory. Addison-Wesley.
Pearl, J. (1988). Probahilistic Reasoning in Inte/ligent Systems. Morgan Kaufmann.
Pearlmutter, В. А. (1994). Fast exact multiplication Ьу the Hessian. Neural Computation 6(1),
147-160.
Pearlmutter, В. А. and L. С. Parra (1997). Maximum likelihood source separation: а context-
sensitive generalization of ICA. In М. С. Mozer, М. I. Jordan, and Т. Petsche (Eds.), Ad-
vances in Neural Information Processing Systems, Volume 9, рр. 613--619. МIТ Press.
Pearson, К. ( 1901 ). On lines and planes of closest fit to systems of points in space. Тhе London,
Edinburgh and Duhlin Philosophica/ Magazine and Journal of Science, Sixth Series 2, 559-
572.
Platt, J. С.
(1999). Fast training of support vector machines using sequential rninirnal optirniza-
tion. ln В. Scholkopf, С. J. С. Burges, and А. J. Smola (Eds.), Advances in Кете/ Methods -
Support Vector Learning, рр. 185-208. МIТ Press.
Platt, J. С. (2000). ProbaЬilities for SV machines. In А. J. Smola, Р. L. Bartlett, В. Schбlkopf,
and D. Shuurmans (Eds.), Advances in Large Margin Classifiers, рр. 61-73. МIТ Press.
Platt, J. С., N. Cristianini, and J. Shawe-Taylor (2000). Large margin DAGs for multiclass
classification. In S. А. Solla, Т. К. Leen, and К. R. Miiller (Eds.), Advances in Neura/
Information Processing Systems, Volume 12, рр. 547-553. МIТ Press.
946 БИБЛИОГРАФИЯ
Poggio, Т. and F. Girosi (1990). Networks for approximation and learning. Proceediпgs ofthe
IEEE 78(9), 1481-1497.
Powell, М. J. D. (1987). Radial basis functions for multivariaЫe interpolation: а review.
ln J. С. Mason and М. G. Сох (Eds.), Algorithmsfor Approximatioп, рр. 143-167. Oxford
University Press.
Press, W. Н., S. А. Teukolsky, W. Т. Vetterling, and В. Р. Flannery (1992). Numerica/ Recipes
iп С: The Art of Scieпtific Computiпg (Second ed.). Cambridge University Press.
Qazaz, С. S., С. К. 1. Williams, and С. М. Bishop (1997). An upper bound on the Bayesian error
bars for generalized linear regression. In S. W. Ellacott, J. С. Mason, and 1. J. Anderson (Eds.),
Mathematics ofNeural Networb: Mode/s, A/gorithms апd Applications, рр. 295-299. Кluwer.
Quinlan, J. R. (1986). lnduction of decision trees. Machiпe Learniпg 1(1 ), 81-106.
Quinlan, J. R. (1993). С4.5: Programsfor Machiпe Learniпg. Morgan Kaufmann.
Rabiner, L. and В. Н. Juang (1993). Fuпdameпta/s of Speech Recogпitioп. Prentice Hall.
RaЬiner, L. R. (1989). А tutorial on hidden Markov models and selected applications in speech
recognition. Proceediпgs of the IEEE 77(2), 257-285.
Ramasubramanian, V. and К. К. Paliwal (1990). А generalized optimization ofthe k-d tree for
fast nearest-neighbour search. ln Proceediпgs Fourth IEEE Regioп 10 Iпterпatioпal Соп
fеrепсе (ТENCON'89), рр. 565-568.
Ramsey, F. (1931). Truth and probaЬility. ln R. Braithwaite (Ed.), The Fouпdatioпs of Mathe-
matics апd other Logical Essays. Humanities Press.
Rao, С. R. and S. К. Mitra (1971). Geпeralized Iпverse of Matrices апd Its Applicatioпs.
Wiley.
Rasmussen, С. Е. ( 1996). Evaluatioп of Gaussiaп Processes апd Other Methods for Noп
МIТ Press.
Rauch, Н. Е., F. Tung, and С. Т. Striebel (1965). Maximum likelihood estimates of linear dy-
namical systems. AIAA Journal 3, 1445-1450.
Ricotti, L. Р., S. Ragazzini, and G. Martinelli (1988). Learning ofword stress in а sub-optimal
second order backpropagation neural network. In Proceediпgs of the IEEE International
Confereпce оп Neural Networks, Volume 1, рр. 355-361. IEEE.
БИБЛИОГРАФИЯ 947
Ripley, В. D. (1996). Pattern Recognition and Neura/ Networks. Cambridge University Press.
RobЬins, Н. and S. Monro (1951). А stochastic approximation method. Annals of Mathemati-
cal Statistics 22, 400-407.
Robert, С. Р. and G. Casella (1999). Monte Car/o Statistica/ Methods. Springer.
Rockafellar, R. (1972). Convex Ana/ysis. Princeton University Press.
RosenЫatt, F. ( 1962). Princip/es of Neurodynamics Perceptrons and the Тheory of Brain
Mechanisms. Spartan.
Roth, V. and V. Steinhage (2000). Nonlinear discriminant analysis using kemel functions.
In S. А. Solla, Т. К. Leen, and К. R. Miiller (Eds.), Advances in Neura/ Information Pro-
cessing Systems, Volume 12. МIТ Press.
Roweis, S. (1998). ЕМ algorithms for РСА and SPCA. In М. 1. Jordan, М. J. Kearns, and
S. А. Solla (Eds.), Advances in Neura/ Information Processing Systems, Volume 10,
рр. 626--632. МIТ Press.
Roweis, S. and Z. Ghahramani (1999). А unifying review of linear Gaussian models. Neura/
Computation 11(2), 305-345.
Roweis, S. and L. Saul (2000, December). Nonlinear dimensionality reduction Ьу locally linear
embedding. Science 290, 2323-2326.
RuЬin, D. В. (1983). lteratively reweighted least squares. In Encyc/opedia of Statistica/ Sci-
ences, Volume 4, рр. 272-275. Wiley.
RuЬin, D. В. and D. Т. Thayer (1982). ЕМ algorithms for ML factor analysis. Psychometrika
47(1), 69-76.
Rumelhart, D. Е" G. Е. Hinton, and R. J. Williarns (1986). Learning intemal representations Ьу
error propagation. In D. Е. Rumelhart, J. L. Mc-Clelland, and the PDP Research Group (Eds.),
Para//e/ Distributed Processing: Exp/orations in the Microstructure of Cognition, Volume 1:
Foundations, рр. 318-362. МIТ Press. Reprinted in Anderson and Rosenfeld (1988).
Rumelhart, D. Е" J. L. McClelland, and the PDP Research Group (Eds.) (1986). Paral/e/ Dis-
tributed Processing: Exp/orations in the Microstructure of Cognition, Volume 1: Founda-
tions. МIТ Press.
Sagan, Н. (1969). Introduction to the Ca/cu/us of Variations. Dover.
Savage, L. J. (1961). Тhе subjective basis ofstatistical practice. Technical report, Department
of Statistics, University of Michigan, Ann Arbor.
SchOlkopf, В" J. Platt, J. Shawe-Taylor, А. Smola, and R. C.Williamson (2001). Estimating
the support of а high-dimensional distribution. Neural Computation 13(7), 1433-1471.
948 БИБЛИОГРАФИЯ
Schбlkopf, В., А. Smola, and К.-R. Miiller (1998). Nonlinear component analysis as а kemel
eigenvalue proЫem. Neural Computatioп 1О(5), 1299-1319.
Schбlkopf, В., А. Smola, R. C.Williamson, and Р. L. Bartlett (2000). New support vector algo-
rithms. Neural Computatioп 12(5), 1207-1245.
Scholkopf, В. and А. 1. Smola (2002). Learniпg with Kerпels. МIТ Press.
Schwarz, G. ( 1978). Estimating the dimension of а model. Аппаls of Statistics 6, 461-464.
Schwarz, Н. R. (l 988). Fiпite elemeпt methods. Academic Press.
Seeger, М. (2003). Bayesiaп Gaussiaп Process Models: PAC-Bayesiaп Geпeralizatioп Error
Bouпds апd Sparse Approximatioпs. Ph. D. thesis, University ofEdinburg.
Seeger, М., С. К. I. Williams, and N. Lawrence (2003). Fast forward selection to speed up
sparse Gaussian processes. In С. М. Bishop and В. Frey (Eds.), Proceediпgs Niпth Iпterna
Smola, А. J. and Р. Bartlett (2001). Sparse greedy Gaussian process regression. In Т. К. Leen,
Т. G. Dietterich, and V. Tresp (Eds.), Advaпces iп Neura/ Iпformatioп Processiпg Systems,
Volume 13, рр. 619--625. МIТ Press.
Spiegelhalter, D. and S. Lauritzen (1990). Sequential updating of conditional probabilities on
directed graphical structures. Networks 20, 579-605.
Stinchecombe, М. and Н. White (1989). Universal approximation using feed-forward networks
with non-sigmoid hidden layer activation functions. In Iпternatioпal Joiпt Сопfеrепсе оп
Tresp, V. (2001). Scaling kemel-based systems to large data sets. Data Miпiпg апd Kпowledge
Discovery 5(3), 197-211.
Uhlenbeck, G. Е. and L. S. Omstein (1930). On the theory ofBrownian motion. Phys. Rev. 36,
823-841.
Valiant, L. G. (1984). А theory ofthe leamaЫe. Commuпicatioпs of the Associatioпfor Com-
putiпg Machiпery 27, 1134-1142.
Vapnik, V. N. (1982). Estimatioп of depeпdeпces based оп empirical data. Springer.
Vapnik, V. N. (1995). Тhе пature of statistical learniпg theory. Springer.
Vapnik, V. N. (1998). Statistical learniпg theory.Wiley.
БИБЛИОГРАФИЯ 951
Veropoulos, К., С. Campbell, and N. Cristianini ( 1999). Controlling the sensitivity of support
vector machines. In Proceediпgs of the lпternatioпal Joiпt Сопfеrепсе оп Artificial lпtelli
geпce (/JCA/99), Workshop МLЗ, рр. 55-60.
Vidakovic, В. (1999). Statistical Modelliпg Ьу Wavelets. Wiley.
Viola, Р. and М. Jones (2004). Robust real-time face detection. lпternatioпa/ Jourпal of Com-
puter Visioп 57(2), 137-154.
ViterЬi, А. J. (1967). Error bounds for convolutional codes and an asymptotically optimum de-
coding algorithm. /EEE Traпsactioпs оп Jnformatioп Тheory IТ-13, 260-267.
ViterЬi, А. J. and J. К. Omura (1979). Priпciples of Digital Commuпicatioп апd Codiпg.
McGraw-Hill.
Wahba, G. (1975). А comparison of GCV and GML for choosing the smoothing parameter in
the generalized spline smoothing proЫem. Numerical Mathematics 24, 383-393.
Wainwright, М. J., Т. S. Jaakkola, and А. S. Willsky (2005). А new class ofupper bounds on
the log partition function. /EEE Traпsactioпs оп Iпformatioп Theory 51, 2313-2335.
Walker, А. М. (1969). On the asymptotic behaviour of posterior distributions. Journal of the
Royal Statistical Society, В 31(1 ), 80-88.
\Valker, S. G., Р. Damien, Р. W. Laud, and А. F. М. Smith (1999). Bayesian nonparametric in-
ference for random distributions and related functions (with discussion). Journal of the
Royal Statistical Society, В 61(3), 485-527.
Watson, G. S. (1964). Smooth regression analysis. Saпkhyв: The Iпdiaп Journal of Statistics.
Series А 26, 359-372.
Webb, А. R. (1994). Functional approximation Ьу feed-forward networks: а least-squares ap-
proach to generalisation. /ЕЕЕ Traпsactioпs оп Neural Networks 5(3 ), 363-3 71.
Weisstein, E.W. (1999). CRC Coпcise Eпcyclopedia of Mathematics. Chapman and Hall, and
CRC.
Weston, J. and С. Watkins (1999). Multi-class support vector machines. In М. Verlysen (Ed.),
Proceediпgs ESANN'99, Brussels. D-Facto PuЬlications.
and К. Obermayer (Eds.), Advaпces iп Neura/ Jпformatioп Processiпg Systems, Volume 15,
рр. 455--462. МIТ Press.
Williams, С. К. l. (1998). Computation with infinite neural networks. Neural Computatioп
10(5), 1203-1216.
Williams, С. К. 1. (1999). Prediction with Gaussian processes: from linear regression to linear
prediction and beyond. ln М. 1. Jordan (Ed.), Learniпg iп Graphica/ Mode/s, рр. 599-621.
МIТ Press.
Williams, С. К. 1. and D. Barber (1998). Bayesian classification with Gaussian processes.
IEEE Traпsactioпs оп Patterп Aпalysis апd Machiпe Jпtelligeпce 20, 1342-1351.
Williams, С. К. 1. and М. Seeger (2001). Using the Nystrom method to speed up kemel ma-
chines. ln Т. К. Leen, Т. G. Dietterich, and V. Tresp (Eds.), Advaпces iп Neural lnfor-
matioп Processiпg Systems, Volume 13, рр. 682-688. МIТ Press.
Williams, О., А. Blake, and R. Cipolla (2005). Sparse Bayesian leaming for efficient visual
tracking. IEEE Traпsactioпs оп Pattern Aпa/ysis апd Machiпe lпtelligeпce 27(8), 1292-
1304.
Williams, Р. М. (1996). Using neural networks to model conditional multivariate densities.
Neural Computatioп 8(4), 843-854.
Winn, J. and С. М. Bishop (2005). Variational message passing. Journal of Machiпe Learniпg
Research 6, 661-694.
Zarchan, Р. and Н. Musoff (2005). Fuпdameпtals of Ка/тап Filteriпg: А Practical Approach
(Second ed.). AIAA.
Предметный
указатель
А
Автоматическое определение Аппроксимация
релевантности,421 векторного произведения, 344
Активация нейронной сети, 312 Лапласа,300,383,425
Алгоритм Левенберга-Марквардта, 344
AdaBoost, 862 обоснованности модели, 235
ЕМ
Монте-Карло, 705 Б
стохастический, 705 Базис
К-средних, 566 Фурье, 202
LMS, 208 Байесовский подход, 33
max-product, 548 Бустинг,857, 862
max-sum, 520, 525, 536, 546, 549 Бутстрэп, 52
Баума-Велча, 813
Витерби, 825 в
дерева сочленений, 553 Вариационное исчисление, 611, 91 7
дополнения данных, 705 Вейвлет,203
ЕМ Вектор
обобщенный, 602 весов,254
общий, 585 кодовой книги, 571
условный, 603 опорный, 441
К-медоидов, 569 релевантный, 464
конденсации, 849 собственный, 911
К-средних Векторное квантование, 571
эллиптический,590 Вероятность
Метрополиса, 707 апостериорная, 44
Метрополиса-Гастингса, 711 априорная,44
прямого-обратного хода, 813 маргинальная, 40
разреза графа, 51 7 перехода,802
распространения доверия, 536 совместная, 39
Роббинса-Монро, 145 условная, 40
Анализ эмиссии, 804
главных компонентов, 737 Вершина, 480
канонический корреляционный, 743 Вес, 167
латентного класса, 590 важности, 701
независимых компонентов, 737 макросостояния,90
факторный, 750 нейронной сети, 3 12
независимый, 778 Визуализация, 26
Выбеливание, 746
954 ПРЕДМЕТНЫЙ УКАЗАТЕЛЬ
Выбор
з
SIR, 703 Задача
взвешенный по правдоподобию, 702 квадратичного программирования, 439
логический,689
обратная, 370
модели, 30; 231 прямая, 370
наследственный, 487, 689 Зазор, 437
по важности, 689, 694, 699
мягкий,444
по Гиббсу, 713
Замена ядра, 396
блокирующий, 719
Значение
по собственной важности, 703 собственное, 911
по уровням, 719 среднее выборочное, 112
признаков,25
равномерный, 702 и
с отклонением, 694 Идентифицируемость, 577
адаптивный, 697
Инвариантность
Метрополиса, 698
к сдвигу, 175, 357
Выборочная дисперсия, 58 масштабная, 175, 357
Выброс, 156, 293 Интерпретация вероятности
Вывод
байесовская,48
вариационный, 425, 611 классическая, 48
логический, 72 частотная,48
Информационная геометрия, 404
г
Информация
Гамильтониан, 722 взаимная, 98
Гессиан, 238
Гиперпараметр,62, 115 к
Главное подпространство, 738 Карта
Граница решения, 74, 251 зависимости, 523
Граф, 480 независимости, 523
двудольный, 533 признаков,365
моральный, 522 самоорганизующаяся, 786
ориентированный, 483 совершенная,523
ациклический,483 Квадрат смещения, 214
полный, 482 Квадратные ограничения, 445
цепной,524 Классификация, 25
один против всех,255
д
попарная, 256
Двойственная Кластеризация, 26
выпуклость, 651 Клика, 514
Дерево,531 максимальная, 514
классификации, 869 Ковариация, 48
максимальное остовное, 553 внутриклассовая,263
регрессии, 869 изотропная, 13 1
решений, 858 межклассовая, 263
сочленений,553 Количество степеней свободы, 155
Диаграмма Комитет, 857
решетчатая, 551, 803 Компонент смеси, 165
Дивергенция Кульбака-Лейблера, 95; 234 Компромисс между смещением и
Дисперсия,48,214 дисперсией,212
Дополнение Шура, 135 Корень дерева, 531
Древесная ширина, 554 Коэффициент
Дуга, 480 Байеса, 230
ПРЕДМЕТНЫЙ УКАЗАТЕЛЬ 955
доверия,26 транспонированная,908
смешивания, 166 Якоби, 338
Кратность, 89 Машина релевантных векторов, 230
Критерий Медиана условная, 106
информационный Мера искажения, 565
Акаике, AIC, 66 Метод
байесовский, ВIС, 66, 299 isomap, 784
персептрона, 269 мсмс, 706
Шварца,299 sмо, 448
апостериорного максимума, 62
л ближайших соседей, 183
Линейная Бокса-Мюллера, 692
динамическая система, 132 главных компонентов
Марковское распространения,359
п Производная
вектора по скаляру, 910
Параметр
матрицы по скаляру, 91 О
естественный, 168 обратной матрицы по вектору, 91 О
интенсивный, 646 по вектору,910
концентрации, 161 по матрице, 910
масштаба, 175 функционала, 918
положения, 175 Проклятие размерности, 71
смещения, 201 Пространство
экстенсивный, 646 фазовое, 722
Перекрестная проверка, 65 Процесс
поэлементная, 65 гауссовский, 228
Переменная морализации, 522
входная, 199 Орнштейна-Уленбека, 413
импульса, 722 стохастический,412
латентная, 131,485 Псевдообращение Мура-Пенроуза, 205
наблюдаемая, 485
р
независимая, 44
ненаблюдаемая, 13 1 Разделение весов
положения, 722 жесткое, 367
скрытая, 131, 485 мягкое, 367
фиктивная, 443 Разложение
целевая, 199 сингулярное, 207
Переобучение, 3 1 Холецкого, 694
Персептрон Размерность
многослойный, 31 о Вапника-Червоненкиса,460
Розенблата, 268 Разность
Плата, 484 конечная,345
Плотность вероятности, 44 центральная, 346
Поверхность решения, 74, 251 Разреженность, 469
Подход Ранг матрицы, 912
Р АС-байесовский, 460 Расписание
байесовский лавинное,555
эмпирический, 235 передачи сообщений, 555
непараметрический, 177 последовательное, 555
параметрический, 177 Распределение
последовательный, 11 7 априорное
дочерний,481 логит,274
Условия масс, 46
Каруша-Куна-Таккера, 440 регрессии, 84, 145
У славная независимость, 82 связи, 253, 294
каноническая,294
ф сжатия, 274
Фактор-граф, 532 сплайн,201
Факторизация, 483 стоимости, 76
индуцированная,639 строго вогнутая, 96
ориентированная,509 строго выпуклая, 96
Факторная нагрузка, 769 шлюзовая, 882
Фильтр энергии, 516
бутстреп, 849 ядра, 181
Калмана
расширенный, 846 ц
предполагаемой плотности, 671 Цепь
847
частиц, Маркова, 529
Функционал, 611 Цепь Маркова
Функция обратимая, 71 О
erf, 292 однородная, 709, 799
softmax, 170,275 эргодическая, 710
активации,253,294 Цикл
нейронной сети, 312 ориентированный, 483
960 ПРЕДМЕТНЫЙ УКАЗАТЕЛЬ
э
Эксперт, 882 Эргодичность, 710
Экспонента Этап
нормированная, 275 исследования,26
Экспоненциальное семейство зксплуатации,26
распределений, 110, 168 Эффективное число наблюдений, 116
Элемент
выходной,312 я
скрытый, 312 Ядерный трюк, 396
Энергия Ядро, 396
кинетическая, 722 гауссово,401
потенциальная, 722 линейное,396
Энтропия, 87 однородное,397
дифференциальная, 91 стационарное,397
относительная, 95 Фишера, 403
перекрестная,285 зквивалентное,227
условная,94
Бурное развитие практи ч еских приложений ма
шинного обучения за последние десять лет со
провождается интенсивной разработкой важных
алгоритмов и методов, лежащих в его основе.
Книгу удобно использовать для преподавания курсов по машинному обучению, статистике, ком
пьютерным наукам, интеллектуальному анализу данных и биоинформатике. Для удобства препо
давания учебник содержит большой методический материал, включающий более чем 400 упраж
нений, ранжированных по сложности. Решения некоторых упражнений можно найти на веб-сай
те, посвященном книге . К н ига сопровождается публикацией большого объема дополнительного
материала на английском языке на веб-сайте, который содержит новейшую информацию.
ISBN 978-5-907144-55-2
19 о 71
~ Springer