Вы находитесь на странице: 1из 962

Распознавание образов

и машинное обучение
Christopher M.Bishop

PATTERN RECOGNITION
and MACHINE LEARNING

~ Springer
Кристофер М. Бишоп

РАСПОЗНАВАНИЕ ОБРАЗОВ
и МАШИННОЕ ОБУЧЕНИЕ

Москва· Санкт-Петербург

2020
ББК 22.176
Б67
УДК 004.93(076.5)

ООО "Диалектика"
Зав. редакцией С.Н. Тригуб
Перевод с английского и редакция докт. физ.-мат. наукД.А. Клюшина

По общим вопросам обращайтесь в издательство "Диалектика" по адресу:


info.dialektika@gmail.com, http://www.dialektika.com

Бишоп, Кристофер М.

Б67 Распознавание образов и мапшнное обучение. : Пер. с англ. - СПб. : ООО "Диа-
лектика", 2020. - 960 с.: ил. - Парал. тит. англ.

ISBN 978-5-907144-55-2 (рус.)


ББК 22.176
Все названия программных продуктов являются зарегистрированными торговыми марками соответ­
ствующих фирм.

Никакая часть настоящего издания ни в каких целях не может быть воспроизведена в какой бы то ни
было форме и какими бы то ни было средствами, будь то электронные или механические, включая фото­
копирование и запись на магнитный носитель, если на это нет письменного разрешения издательства
Springer-Verlag.
Copyright © 2019 Ьу Dialektika Computer PuЫishing Ltd.
Authorized Russian translation of the English edition of Pattern Recognition and Machine Learning
(ISBN 978-0387-31073-2), puЬ!ished Ьу Springer-Verlag © 2006 Springer Science+Business Media, LLC.
Тhis translation is puЫished and sold Ьу peпnission ofSpringer-Verlag, which owns or contro\s all rights to
puЬ!ish and sell the same.
А\\ rights reserved. No part of this book may Ье reproduced in any form Ьу any electronic or mechanical
means (including photocopying, recording, or information storage and retrieval) without permission in writing
from the puЫisher.

Научно-популярное издание

Кристофер М. Бишоп

Распознавание образов и машинное обучение

ООО "Диалектика", 195027, Санкт-Петербург, Магнитогорская ул" д. 30, лит. А, пом. 848

ISBN 978-5-907144-55-2 (рус.) © 2020, ООО "Диалектика"


ISBN 978-0387-31073-2 (англ.) © 2006, Springer Science+Business Media, LLC
Оглавление

Предисловие 15
Математические обозначения 17
Глава 1. Введение 23
Глава 2. Распределения вероятностей 109
Глава 3. Модели линейной регрессии 199
Глава 4. Линейные модели классификации 251
Глава 5. Нейронные сети 309
Глава 6. Ядерные методы 395
Глава 7. Разреженные ядерные методы 435
Глава 8. Графовые модели 479
Глава 9. Смеси распределений и ЕМ-алгоритм 563
Глава 10. Приближенный вывод 609
Глава 11. Выборочные методы 687
Глава 12. Непрерывные латентные переменные 735
Глава 13. Последовательные данные 795
Глава 14. Комбинирование моделей 857
Приложение А. Наборы данных 887
Приложение Б. Плотности распределений 895
Приложение В. Свойства матриц 907
Приложение Г. Вариационное исчисление 917
Приложение Д. Множители Лагранжа 921
Библиография 927
Предметный указатель 953
Содержание

!'l_редисnовие 15
Упражнения 16
Благодарности 16
Математические обозначения 17

Глава 1. Введение 23
----

1. 1. Пример: аппроксимация полиномиальной кривой 27


1.2. Теория вероятностей 37
1.1.2. Плотность вероятности 44
1.2.2. Математическое ожидание и ковариация 47
1.2.3. Байесовские вероятности 48
1.2.4. Нормальное распределение 53
1.2.5. Еще раз об аппроксимации кривой 59
1.2.6. Байесовская аппроксимация кривой 62
1.3. Выбор модели 64
1.4. Проклятие размерности 66
1.5. Теория принятия решений 72
1.5.1. Сведение к минимуму уровня ошибок 74
1.5.2. Минимизация ожидаемых потерь 76
1.5.3. Отказ от принятия решения 77
1.5.4. Вывод и решение 78
1.5.5. Функции потерь для регрессии 83
1.6. Теория информации 86
1.6.1. Относительная энтропия и взаимная информация 94
Упражнения 99
Глава 2. Распределения вероятностей 109
2.1. Бинарные случайные величины 111
2.1.1. Бета-распределение 114
2.2. Мультиномиальные случайные величины 119
2.2.1. Распределение Дирихле 121
СОДЕРЖАНИЕ 7

2.3. Нормальное распределение 123


2.3.1. Условные нормальные распределения 132
2.3.2. Маргинальные нормальные распределения 136
2.3.3. Теорема Байеса для нормальных случайных величин 139
2.3.4. Максимальное правдоподобие для нормального распределения 142
2.3.5. Последовательное оценивание 144
2.3.6. Байесовский вывод для нормального распределения 148
2.3.7. Распределение Стьюдента 154
2.3.8. Периодические случайные величины 158
2.3.9. Смеси нормальных распределений 164
2.4. Экспоненциальное семейство распределений 168
2.4.1. Максимальное правдоподобие и достаточные статистики 171
2.2.2. Сопряженные априорные распределения 172
2.4.3. Неинформативные априорные распределения 173
2.5. Непараметрические методы 177
2.5.1. Ядерные оценки плотности 179
2.5.2. Методы ближайших соседей 183
Упражнения 186
Гnава 3. Модели линейной регрессии 199
3. l . Модели с линейными базисными функциями 200
3.1.1. Методы максимального правдоподобия и наименьших квадратов 203
3.1.2. Геометрия наименьших квадратов 206
3.1.3. Последовательное обучение 207
3.1.4. Регуляризованный метод наименьших квадратов 208
3.1.5. Несколько целевых переменных 211
3.2. Декомпозиция на смещение и дисперсию 212
3.3. Байесовская линейная регрессия 218
3.3.1. Распределение параметров 219
3.3.2. Прогностическое распределение 223
3.3.3. Эквивалентное ядро 226
3.4. Сравнение байесовских моделей 229
3.5. Аппроксимация обоснованности 235
3. 5.1. Оценка обоснованности 23 7
3.5.2. Максимизация функции обоснованности модели 239
3.5.3. Эффективное количество параметров 241
3.6. Ограничения фиксированных базисных функций 245
Упражнения 246
8 СОДЕРЖАНИЕ

Глава 4. Линейные модели классификации 251


4.1. Дискриминантные функции 253
4.1.1. Два класса 254
4.1.2. Несколько классов 255
4.1.3. Метод наименьших квадратов для классификации 258
4.1.4. Линейный дискриминант Фишера 261
4.1.5. Связь с методом наименьших квадратов 264
4.1.6. Дискриминант Фишера для нескольких классов 266
4.1.7. Алгоритм персептрона 268
4.2. Вероятностные порождающие модели 273
4.2.1. Непрерывные исходные данные 275
4.2.2. Решение по методу максимального правдоподобия 278
4.2.3. Дискретные признаки 280
4.2.4. Экспоненциальное семейство 281
4.3. Вероятностные дискриминантные модели 281
4.3.1. Фиксированные базисные функции 282
4.3.2. Логистическая регрессия 284
4.3.3. Метод наименьших квадратов с итеративным пересчетом весов 286
4.3.4. Многоклассовая логистическая регрессия 289
4.3.5. Пробит-регрессия 291
4.3.6. Канонические функции связей 293
4.4. Аппроксимация Лапласа 295
4.4.1. Сравнение моделей и критерий BIC 298
4.5. Байесовская логистическая регрессия 299
4.5.1. Аппроксимация Лапласа 300
4.5.2. Прогностическое распределение 301
Упражнения 303
Глава 5. Нейронные сети 309
5. 1. Сети прямого распространения 311
5.1.1. Симметрия весовых пространств 318
5.2. Обучение сетей 319
5.2.1. Оптимизация параметров 324
5.2.2. Локальная квадратичная аппроксимация 326
5.2.3. Использование информации о градиенте 328
5.2.4. Оптимизация градиентного спуска 329
5.3. Обратное распространение ошибки 331
5.3.1. Вычисление производных функций ошибок 332
СОДЕРЖАНИЕ 9

5.3.2. Простой пример 336


5.3.3. Эффективность обратного распространения ошибки 337
5.3.4. Матрица Якоби 338
5.4. Матрица Гессе 341
5.4.1. Диагональная аппроксимация 342
5.4.2. Аппроксимация векторного произведения 343
5.4.3. Обратная матрица Гессе 344
5.4.4. Конечные разности 345
5.4.5. Точная оценка матрицы Гессе 346
5.4.6. Быстрое умножение на матрицу Гессе 347
5.5. Регуляризация в нейронных сетях 350
5.5.1. Согласованные нормальные априорные распределения 352
5.5.2. Обучение с остановкой 355
5.5.3. Инварианты 357
5.5.4. Касательное распространение 359
5.5.5. Обучение на основе преобразованных данных 361
5.5.6. Сверточные сети 364
5.5.7. Мягкое разделение весов 367
5.6. Сети со смешанной плотностью 370
5. 7. Байесовские нейронные сети 377
5. 7 .1. Апостериорное распределение параметров 3 78
5.7.2. Оптимизация гиперпараметров 381
5.7.3. Байесовские нейронные сети для классификации 383
Упражнения 386
Гnава 6. Ядерные методы 395
6.1. Двойственные представления 397
6.2. Конструирование ядер 399
6.3. Радиальные базисные функции 405
6.3.1. Модель Надарая-Ватсона 408
6.4. Гауссовские процессы 410
6.4.1. Еще раз о линейной регрессии 411
6.4.2. Регрессия на основе гауссовских процессов 413
6.4.3. Настройка гиперпараметров 419
6.4.4. Автоматическое определение релевантности 421
6.4.5. Гауссовские процессы для классификации 423
10 СОДЕРЖАНИЕ

6.4.6. Аппроксимация Лапласа 425


6.4. 7. Связь с нейронными сетями 430
Упражнения 431
Глава 7. Разреженные ядерные методы 435
-------

7. 1. Методы классификации с максимальным зазором 436


7 .1.1. Перекрытие распределений классов 443
7.1.2. Связь с логистической регрессией 449
7.1.3. Многоклассовые варианты SVМ 451
7 .1.4. Метод SVМ для регрессии 453
7.1.5. Теория вычислительного обучения 459
7.2. Метод релевантных векторов 460
7.2.1. Метод RVМ для регрессии 461
7 .2.2. Анализ разреженности 467
7.2.3. Метод RVМ для классификации 472
Упражнения 476
Глава 8. Графовые модели -------
479
8. 1. Байесовские сети 480
8.1.1. Пример: полиномиальная регрессия 483
8.1.2. Порождающие модели 487
8.1.3. Дискретные переменные 489
8.1.4. Линейно-гауссовские модели 493
8.2. Условная независимость 497
8.2.1. Три примера графов 498
8.2.2. О-разделение 504
8.3. Марковские случайные поля 511
8.3 .1. Свойства условной независимости 511
8.3.2. Свойства факторизации 513
8.3.3. Иллюстрация: удаление шума из изображения 517
8.3.4. Связь с ориентированными графами 520
8.4. Алгоритм max-sum 525
8.4.1. Цепочки вывода 526
8.4.2. Деревья 531
8.4.3. Фактор-графы 532
8.4.4. Алгоритм sum-product 536
8.4.5. Алгоритм max-sum 546
8.4.6. Точный вывод в общих графах 553
СОДЕРЖАНИЕ 11

8.4.7. Циклическое распространение доверия 554


8.4.8. Изучение структуры графа 556
Упражнения 557
Гnава 9. Смеси распределений и ЕМ-~!Jrоритм 563
9.1. Кластеризация по методу К-средних 564
9.1.1. Сегментация и сжатие изображений 569
9.2. Смеси нормальных распределений 572
9.2.1. Максимальное правдоподобие 575
9.2.2. ЕМ-алгоритм для смесей нормальных распределений 578
9.3. Альтернативный вариант ЕМ-алгоритма 583
9.3.1. Еще раз о смесях нормальных распределений 586
9.3.2. Связь с алгоритмом К-средних 589
9.3.3. Смеси распределений Бернулли 590
9.3.4. ЕМ-алгоритм для байесовской линейной регрессии 595
9.4. ЕМ-алгоритм в целом 597
Упражнения 604
Гnава 1О. Приближенный вывод 609
1О. 1. Вариационный вывод 611
1О .1.1. Факторизованные распределения 613
10.1.2. Свойства факторизованных аппроксимаций 616
10.1.3. Пример: одномерное нормальное распределение 620
10.1.4. Сравнение моделей 624
10.2. Иллюстрация: вариационная смесь нормальных распределений 625
10.2.1. Вариационное распределение 627
10.2.2. Вариационная нижняя граница 634
10.2.3. Прогностическая плотность 636
10.2.4. Определение количества компонентов 637
10.2.5. Индуцированные факторизации 639
10.3. Вариационная линейная регрессия 641
10.3.1. Вариационное распределение 642
10.3.2. Прогностическое распределение 644
10.3.3. Нижняя граница 644
10.4. Экспоненциальное семейство распределений 646
10.4.1. Передача вариационного сообщения 648
10.5. Локальные вариационные методы 650
10.6. Вариационная логистическая регрессия 656
12 СОДЕРЖАНИЕ

10.6.1. Вариационное апостериорное распределение 656


10.6.2. Оптимизация вариационных параметров 659
10.6.3. Вывод гиперпараметров 662
1О.7. Распространение ожидания 665
10.7.1. Пример: задача о помехах 671
10.7.2. Распространение ожидания на графах 675
Упражнения 680
Гnава 11. Выборочные _мето.цы ~~~~-~~~~~~~~~~
687
1 J . 1. Основные алгоритмы выбора 691
11.1.1. Стандартные распределения 691
11.1.2. Выбор с отклонением 694
11.1.3. Адаптивный выбор с отклонением 697
11.1.4. Важность выборки 699
11.1.5. Выбор-оценка важности-повторный выбор 703
11.1.6. Выбор и ЕМ-алгоритм 704
11.2. Метод Монте-Карло по схеме марковской цепи 706
11.2.1. Марковские цепи 709
11.2.2. Алгоритм Метрополиса-Гастингса 711
11. 3. Выбор по Гиббсу 713
11.4. Выбор по уровням 719
11.5. Гибридный алгоритм Монте-Карло 721
11.5 .1. Динамические системы 721
11.5.2. Гибридный метод Монте-Карло 726
11.6. Оценка функции разбиения 729
Упражнения 731
Гnава 12. Непрерывные патентные переменные 735
12.1. Анализ главных компонентов 737
12.1.1. Поиск максимальной дисперсии 738
12.1.2. Формулировка с минимальной ошибкой 740
12.1.3. Применение метода РСА 743
12.1.4. Метод РСА для многомерных данных 748
12.2. Вероятностный метод РСА 749
12.2.1. Метод РСА с максимальным правдоподобием 754
12.2.2. ЕМ-алгоритм для модели РСА 759
12.2.3. Байесовская модель РСА 764
12.2.4. Факторный анализ 768
СОДЕРЖАНИЕ 13

12.3. Ядерный метод РСА 771


12.4. Нелинейные модели с латентной переменной 776
12.4.1. Анализ независимых компонентов 776
12.4.2. Автоассоциативные нейронные сети 779
12.4.3. Моделирование нелинейных многообразий 782
Упражнения 788
Гnава 13. Посnедоватеnьные данны8- 795
13. 1. Марковские модели 797
13.2. Скрытые марковские модели 802
13.2.1. Принцип максимального правдоподобия для модели НММ 809
13.2.2. Алгоритм прямого и обратного хода 813
13.2.3. Алгоритм sum-product для модели НММ 821
13.2.4. Коэффициенты масштабирования 823
13.2.5. Алгоритм Витерби 825
13.2.6. Обобщения скрытой марковской модели 829
13 .3. Линейные динамические системы 834
13.3.1. Вывод в линейных динамических системах 838
13.3.2. Обучение линейных динамических систем 843
13.3.3. Обобщения линейных динамических систем 846
13.3.4. Фильтры частиц 847
Упражнения 850
Гnава 14. Комбинирование моделей 857
14.1. Байесовская модель усреднения 858
14.2. Комитеты 860
14.3. Бустинг 862
14.3.1. Минимизация экспоненциальной ошибки 865
14.3.2. Функции ошибки для бустинга 867
14.4. Древовидные модели 869
14.5. Смеси моделей условных распределений 874
14.5.1. Смеси моделей линейной регрессии 874
14.5.2. Смеси логистических моделей 879
14.5.3. Смеси экспертов 882
Упражнения 883
Приnожение А. Наборы данных 887
Рукописные цифры 887
Поток нефти 888
14 СОДЕРЖАНИЕ

Гейзер "Старый служака" 892


Искусственные данные 893
Приnожение Б. ПnO'J'_!IOCTИ распредеnений ~~-~~------
895
Распределение Бернулли 895
Бета-распределение 896
Биномиальное распределение 897
Распределение Дирихле 897
Гамма-распределение 898
Нормальное распределение 899
Гамма-нормальное распределение 901
Распределение Гаусса-Уишарта 901
Мультиномиальное распределение 902
Распределение Гаусса 903
Распределение Стьюдента 903
Равномерное распределение 904
Распределение фон Мизеса 904
Распределение Уишарта 905
Приnожение В. Свойства матриц 907
---------------

Основные матричные тождества 908


Следы и определители 909
Матричные производные 910
Уравнение для собственного вектора 911
_!lриложение Г. Вариационное исчисление 917
Приnожение д. Множители Лагранжа
---
921
Библиография 927
Предметный указатеnь 953
Посвящается моей семье:
Дженне, Марку и Хью

Полное затмение Солнца, Анталия, Турция, 29 марта 2006 года.


Предисловие

Распознавание образов берет свое начало в технике, тогда как машинное обу­
чение выросло из компьютерных наук. Однако эти виды деятельности можно
рассматривать как две грани одной и той же области, и вместе они за последние
десять лет достигли значительных успехов. В частности, байесовские методы
вышли за пределы специализированной ниши и стали мейнстримом, а графовые
модели стали основой для описания и применения вероятностных моделей.

Кроме того, практическая применимость байесовских методов значительно уси­


лилась за счет разработки ряда приближенных алгоритмов логического вывода,
таких как вариационный байесовский вывод и метод распространения ожидания.
Аналогичным образом, значительное влияние как на алгоритмы, так и на прило­
жения оказали новые модели, основанные на ядрах.

Этот новый учебник отражает указанные выше события и представляет собой


всестороннее введение в распознавание образов и машинное обучение. Он пред­
назначен для студентов старших курсов и аспирантов первого курса, а также ис­

следователей и практиков и не предполагает никаких предварительных знаний о

распознавании образов или концепциях машинного обучения. От читателей тре­


буется знание основ анализа функций многих переменных и линейной алгебры.
Кроме того, было бы полезным знание теории вероятностей, хотя это и не имеет
существенного значения, поскольку книга содержит самостоятельное введение в

основы теории вероятностей.

Поскольку книга охватывает много тем, в ней невозможно предоставить пол­


ный список литературных ссылок, и, в частности, не было предпринято попыток
обеспечить точную историческую атрибуцию идей. Вместо этого было решено
привести ссылки, которые предлагают более подробную информацию и кото­
рые, надеюсь, предоставляют отправные точки для поиска очень обширной ли­
тературы. По этой причине ссылки часто относятся к более поздним учебникам
и обзорным статьям, а не к исходным источникам.
Книга сопровождается большим количеством дополнительных материалов,
включая слайды лекций, а также полным набором данных, используемых в кни-
18 ПРЕДИСЛОВИЕ

ге. Читателю предлагается посетить веб-сайт книги для получения последней


информации:
https://research.microsoft.com/-cmbishop/PRМL

Упражнения

Упражнения, которые приводятся в конце каждой главы, составляют важный

компонент книги. Каждое упражнение было тщательно подобрано, чтобы под­


крепить концепции, объясненные в тексте, или развить и обобщить их. Слож­
ность каждого из них оценивается от (*), что означает простое упражнение, вы­
полнение которого занимает несколько минут, до(***), что означает значитель­
но более сложное упражнение.
Трудно было решить, насколько доступными должны быть решения этих
упражнений. Читатели, занимающиеся самостоятельным обучением, считают
публикацию решений очень полезным, в то время как многие преподаватели

просят сделать решения доступными только через издательство, чтобы упраж­


нения можно было использовать в ходе обучения студентов. Для того чтобы по­
пытаться удовлетворить эти противоречивые требования, те упражнения, кото­
рые помогают подчеркнуть ключевые моменты в тексте или заполнить важные

детали, имеют решения, доступные в виде файла PDF с веб-сайта книги. Такие
упражнения обозначаются символами www. Решения остальных упражнений

доступны преподавателям курсов, которые обратятся в издательство (контакт­


ные данные указаны на веб-сайте книги). Читателям настоятельно рекомендует­
ся выполнять упражнения без посторонней помощи и обращаться к решениям
только по мере необходимости.
Хотя в этой книге основное внимание уделяется концепциям и принципам, в
учебном курсе студенты должны в идеале иметь возможность экспериментиро­

вать с некоторыми из ключевых алгоритмов, используя соответствующие набо­


ры данных. Практическим аспектам распознавания образов и машинного обуче­
ния посвящена книга (Bishop and Nabney, 2008), которая сопровождается про­
граммным обеспечением Matlab, реализующим большинство алгоритмов,
обсуждаемых в этой книге.

Благодарности

Прежде всего я хотел бы выразить искреннюю благодарность Маркусу Свен­


сену, который оказал огромную помощь в подготовке рисунков и наборе книги в
редакторе LATEX. Его помощь была бесценной. Я очень благодарен Microsoft
ПРЕДИСЛОВИЕ 19

Research за возможность работать в стимулирующей исследовательской среде и


за предоставленную мне свободу писать эту книгу (однако точки зрения и мне­
ния, высказанные в этой книге, являются моими собственными и не обязательно
совпадают с мнением Microsoft или его подразделений).
Издательство Springer оказывало огромную поддержку на всех этапах подго­
товки этой книги, и я хотел бы поблагодарить моего редактора Джона Киммеля
за поддержку и профессионализм, а также Джозефа Пильеро за помощь в разра­
ботке обложки и текстового формата и Мэри Энн Брикнер для помощь на этапе
производства. Дизайн обложки был вдохновлен обсуждениями с Антонио Кри­
миниси.

Я также хотел бы поблагодарить издательство Oxford University Press за раз­


решение воспроизвести выдержки из более раннего учебника Neural Networks for
Pattern Recognition (Bishop, 1995а). Изображения персептрона Mark 1 и Фрэнка
Розенблатта воспроизводятся с разрешения компании Arvin Calspan Advanced
Technology Center. Я также хотел бы поблагодарить Аселу Гунавардану за со­
здание спектрограммы на рис. 13 .1 и Бернхарда Шёлькопфа за разрешение ис­
пользовать его код ядра РСА для построения графика 12.17.
Многие люди оказывали помощь, проверяя материалы проекта и предостав­
ляя комментарии и предложения, в том числе Шивани Агарвал, Кэдрик Арчем­
бо, Арик Азран, Эндрю Блейк, Хакан Севикалп, Майкл Фурман, Брендан Фрей,
Зубин Гахрамани, Торе Грапел, Кэтрин Хеллер, Ральф Хербрих, Джеффри Хин­
тон, Адам Йохансен, Мэтью Джонсон, Майкл Джордан, Ева Калывианаки, Ани­
та Каннан, Джулия Лассерр, Дэвид Лю, Том Минка, Ян Набни, Тонатиух Пена,
Юань Ци, Сэм Роуис, Баладжи Санджия, Тоби Шарп, Ана Коста и Сильва, Дэ­
вид Шпигельхалтер, Джей Стоукс, Тара Симеонидес, Мартин Шуммер, Мар­
шалл Таппен, Илкай Улусой, Крис Уильямс, Джон Вини и Эндрю Циссерман.

Наконец, я хотел бы поблагодарить мою жену Дженну, которая в течение не-


скольких лет поддерживала работу над этой книгой.
Крис Бишоп
Кембридж
Февраль 2006 г.
Математические
обозначения
Я попытался свести математическое содержание книги до минимума, необ­
ходимого для правильного понимания темы. Однако этот минимальный уровень

больше нуля, и следует подчеркнуть, что хорошее понимание математического


анализа, линейной алгебры и теории вероятностей имеет важное значение для
четкого понимания современных методов распознавания образов и машинного
обучения. Тем не менее акцент в этой книге делается на изложении базовых по­
нятий, а не на математической строгости.
Я попытался использовать согласованные обозначения во всей книге, хотя ино­
гда это означает отклонение от некоторых общепринятых соглашений, используе­
мых в соответствующей исследовательской литературе. Векторы обозначаются
полужирным шрифтом, например х, и все векторы считаются столбцами.
Надстрочный индекс Т обозначает транспонирование матрицы или вектора, так
что хт означает вектор-строку. Прописные полужирные буквы, такие как М, обо­
значают матрицы; (w 1, "., wм) обозначает вектор-строку с М элементами, а соот­

ветствующий вектор-столбец записьmается как w = (w 1, "., wм{


Обозначение [а, Ь] используется для замкнутого интервала от а до Ь, т.е. ин­
тервала, включающего сами значения а и Ь, тогда как (а, Ь) обозначает соответ­
ствующий открытый интервал, т.е. интервал, не содержащий числа а и Ь. Анало­
гично [а, Ь) обозначает интервал, который включает а, но не содержит Ь. Тем не
менее по большей части будет мало необходимости останавливаться на таких
уточнениях, как включать или нет конечные точки интервала.

Единичная матрица размером М х М обозначается lм. Там, где нет двусмыс­


ленности в отношении ее размерности, обозначение единичной матрицы будет со­
кращено до 1. Эта матрица имеет элементы IiJ, равные 1, если i = j, и О, если i "# j.
Функционал обозначается f[y ], где у (х) - некоторая функция. Понятие
функционала обсуждается в прило.жеиии Г.
Обозначение g(x) = O(f(x)) означает, что lf(x)/g(x)I ограничена при х--+ оо.
Например, если g(x) = 3х2 + 2, то g(x) = О(х2 ).
МАТЕМАТИЧЕСКИЕ ОБОЗНАЧЕНИЯ 21

Математическое ожидание функции f(x, у) относительно случайной величи­


ны х обозначается как IElx[f(x, у)]. В ситуациях, когда нет двусмысленности отно­
сительно того, по какой переменной производится усреднение, это обозначение
будет упрощено путем исключения суффикса, например IE/[x]. Если распределе­
ние х обусловлено другой переменной z, то соответствующее условное ожида­
ние будет записано как IElx[f<x)lz]. Аналогично дисперсия обозначается var[f(x)], а
для векторных переменных ковариация записывается cov[x, у]. Мы также будем
использовать cov[x] как сокращенное обозначение для cov[x, х]. Понятия мате­
матического ожидания и ковариации представлены в разделе 1.2.2.

Если мы имеем N значений х 1 , ••• , XN D-мерного вектора х = (х 1 , ••• , хп)т, то


можем объединить наблюдения в матрицу данных Х, в которой п-я строка мат­
.
рицы Х соответствует вектору-строке х: Таким образом, элемент п, i из матри­
цы Х соответствует i-му элементу п-го наблюдения Хп. Для случая одномерных
переменных мы будем обозначать такую матрицу через х, которая является век­
тором-столбцом, п-й элемент которого равен Хп. Заметим, что обозначение век­
торах (размерности N) использует другой шрифт, чтобы отличить его от векто­
ра х (размерности D).
22 МАТЕМАТИЧЕСКИЕ ОБОЗНАЧЕНИЯ

От издательства

Вы, читатель этой книги, и есть главный ее критик и комментатор. Мы ценим

ваше мнение и хотим знать, что было сделано нами правильно, что можно было
сделать лучше и что еще вы хотели бы увидеть изданным нами. Нам интересно
услышать и любые другие замечания, которые вам хотелось бы высказать в наш
адрес.

Мы ждем ваших комментариев и надеемся на них. Вы можете прислать нам


электронное письмо либо просто посетить наш веб-сайт и оставить свои замеча­
ния там. Одним словом, любым удобным для вас способом дайте нам знать, нра­
вится или нет вам эта книга, а также выскажите свое мнение о том, как сделать

наши книги более интересными для вас.


Посылая письмо или сообщение, не забудьте указать название книги и ее ав­
торов, а также ваш обратный адрес. Мы внимательно ознакомимся с вашим мне­
нием и обязательно учтем его при отборе и подготовке к изданию последующих
книг.

Наши электронные адреса:

E-mail: info.dialektika@gmail.com
WWW: http://www.dialektika.com

Все иллюстрации к книге в цветном варианте доступны по адресу

http://go.dialektika.com/recognition
1

Проблема поиска шаблонов в данных носит фундаментальный характер и име­


ет долгую и успешную историю. Например, обширные астрономические наблю­
дения Тихо Браге в XVI веке позволили Иоганну Кеплеру открыть эмпирические
законы планетарного движения, которые, в свою очередь, послужили плацдармом

для развития классической механики. Точно так же открытие закономерностей


в атомных спектрах сыграло ключевую роль в развитии и верификации квантовой
физики в начале ХХ века. Сфера распознавания образов связана с автоматическим
обнаружением закономерностей, содержащихся в данных, с использованием ком­

пьютерных ашоритмов и закономерностей для принятия решений, например клас­


сификации данных по разным категориям.
Рассмотрим пример распознавания рукописных цифр, показанных на рис. 1.1.
Каждая цифра соответствует изображению размером 28 х 28 пикселей и поэтому
может быть представлена вектором х, содержащим 784 действительных числа.
Цель состоит в том, чтобы построить машину, которая примет такой вектор х
24 ГЛАВА 1. ВВЕДЕНИЕ

как входной и в результате распознает цифры О,"., 9. Это нетривиальная проб­


лема из-за большой изменчивости почерков. Ее можно решить с помощью спе­
циальных правил или эвристик для различения цифр, основанных на формах
штрихов, но на практике такой подход приводит к нагромождению правил и ис­
ключений из правил и т.д. и неизменно дает плохие результаты.

Рис. 1.1. Примеры рукописных цифр, взятых из почтовых индексов США

Гораздо лучшие результаты можно получить, приняв подход машинного обу­


чения, в котором большой набор из Nцифр {х 1 , "., xN}, называемый обучающим
множеством, используется для настройки параметров адаптивной модели. Ка­
тегории цифр в обучающем множестве известны заранее и устанавливаются, как
правило, путем их индивидуального анализа и маркировки вручную. Мы можем
выразить категорию цифры, используя целевой вектор t, который представляет
собой идентичность соответствующей цифры. Подходящие методы представле­
ния категорий в терминах векторов будут рассмотрены ниже. Обратите внима­
ние, что для каждого изображения цифры х есть один такой целевой вектор t.
Результат запуска алгоритма машинного обучения может быть выражен как
функция у(х), которая принимает новое цифровое изображение х как входное
и генерирует выходной вектор у, закодированный так же, как и целевые векто­
ры. Точный вид функции у(х) определяется на этапе обучения на основе обуча­
ющего множества. Как только модель будет обучена, она может затем опреде­
лить идентичность новых цифровых изображений, которые образуют тестовое
множество. Способность правильно классифицировать новые примеры, кото­
рые отличаются от тех, которые использовались для обучения, называется
обобщением. В практических приложениях изменчивость входных векторов бу­
дет такой, что обучающие данные могут содержать лишь малую долю всех воз­
можных входных векторов, и поэтому обобщение является главной целью рас­
познавания образов.
Для большинства практических приложений исходные входные переменные
обычно предварительно обрабатываются, чтобы преобразовать их в какое-то
1.1. Пример: аппроксимация полиномиальной кривой 25

новое пространство переменных, где, как мы надеемся, проблему распознавания


образов будет легче решить. Например, в проблеме распознавания цифр изобра­
жения цифр обычно переводятся и масштабируются так, чтобы каждая цифра
содержалась в прямоугольнике фиксированного размера. Это значительно
уменьшает изменчивость в каждом классе цифр, поскольку местоположение
и масштаб всех цифр теперь одинаковы, что значительно упрощает последую­
щий алгоритм распознавания образов, предназначенный для классификации. Эта
стадия предварительной обработки иногда также называется выбором признаков.
Обратите внимание, что новые тестовые данные должны быть предварительно
обработаны точно так же, как и обучающие данные.
Предварительная обработка также выполняется для ускорения вычислений.
Например, если целью является обнаружение лиц в режиме реального времени
в потоке видео высокого разрешения, компьютер должен обрабатывать огром­
ное количество пикселей в секунду, и представление их непосредственно в алго­

ритм распознавания сложного шаблона может быть вычислительно неосуще­


ствимым. Вместо этого цель состоит в том, чтобы найти полезные функции, ко­
торые быстро вычисляются и тем не менее также сохраняют полезную
дискриминационную информацию, позволяющую отличать лица от остальных
объектов. Эти функции затем используются в качестве входных данных для ал­
горитма распознавания образов. Например, среднее значение интенсивности
изображения в прямоугольной подобласти можно вычислить чрезвычайно эф­
фективно (Viola and Jones, 2004), и набор таких признаков может оказаться
очень эффективным при быстром обнаружении лиц. Поскольку количество та­
ких признаков меньше количества пикселей, такая предварительная обработка
представляет собой форму уменьшения размерности. Во время предварительной
обработки необходимо соблюдать осторожность, потому что часто информация
отбрасывается, и если эта информация важна для решения задачи, то общая точ­
ность системы может снизиться.

Приложения, в которых данные обучения содержат примеры входных векторов


вместе с их соответствующими целевыми векторами, известны как задачи обуче­
ния с учителем. Такие задачи, как распознавание цифр, в которых цель состоит
в назначении каждого входного вектора одному из конечного набора дискретных
классов, называются задачами классификации. Если желаемый результат состоит
из одной или нескольких непрерывных переменных, то задача называется регрес­

сией. Примером задачи построения регрессии может быть предсказание выхода


в процессе химического производства, в котором входы состоят из коIЩентраций

реагентов, температуры и давления.


26 ГЛАВА 1. ВВЕДЕНИЕ

В других задачах распознавания образов данные обучения состоят из множе­


ства входных векторов х без соответствующих целевых значений. Целью таких
задач обучения без учителя может быть обнаружение групп подобных образов
в данных (кластеризация), или определение распределения данных во входном
пространстве (оценка плотности), или проектирование данных из многомерного
пространства в пространство двух или трех измерений с целью визуализации.
Наконец, метод обучения с rюдкреплением (Sutton and Barto, 1998) посвящен
проблеме поиска подходящих действий в конкретной ситуации с целью макси­
мизации вознаграждения. Здесь алгоритму обучения не даются примеры опти­
мальных результатов, в отличие от обучения с учителем, и вместо этого они
должны выявлять их методом проб и ошибок. Как правило, существует последо­
вательность состояний и действий, в которых алгоритм обучения взаимодей­
ствует со своей средой. Во многих случаях текущее действие не только влияет
на немедленное вознаграждение, но также оказывает влияние на вознаграждение

во все последующие моменты времени. Например, используя соответствующие


методы обучения с подкреплением, нейронная сеть может научиться играть
в нарды на высоком уровне (Tesauro, 1994). В этой работе сеть должна была

научиться принимать в качестве входных данных позицию на доске и результат

броска кубиков и производить сильный ход в качестве выхода. Это было до­
стигнуто благодаря тому, что сеть сыграла миллион игр против своей копии.
Главная проблема заключается в том, что игра в нарды может длиться десятки
ходов и только в конце игры достигается вознаграждение в виде победы. Затем
вознаграждение должно быть приписано надлежащим образом ко всем ходам,
которые привели к нему, хотя некоторые ходы были хорошими, а другие - нет.

Это пример задачи присвоения коэффициентов доверия. Общей чертой обучения


с подкреплением является компромисс между исследованием, в ходе которого
система пробует новые виды действий, чтобы увидеть, насколько они эффектив­
ны, и эксплуатацией, в которой система выполняет действия, которые, как уже
известно, приносят высокую награду. Слишком сильный акцент на исследование
или эксплуатацию принесет плохие результаты. Обучение с подкреплением про­
должает оставаться активной областью исследований машинного обучения. Од­
нако подробный разбор этой темы выходит за рамки этой книги.
Хотя для каждой из этих задач требуются собственные инструменты и мето­
ды, многие ключевые идеи, лежащие в их основе, являются общими для всех та­
ких задач. Одной из основных целей этой главы является сравнительно нефор­
мальное введение некоторых из наиболее важных концепций и их иллюстрация
на простых примерах. Позже мы увидим, что эти же идеи вновь появляются
1.1. Пример: аппроксимация полиномиальной кривой 27

в контексте более сложных моделей, которые применимы к приложениям для


распознавания образов в реальном мире. В этой главе также содержится само­
стоятельное введение в три важных инструментария, которые будут использо­
ваться во всей книге, а именно теорию вероятностей, теорию принятия решений
и теорию информации. Хотя они могут показаться сложными темами, на самом
деле они просты, и их четкое понимание имеет важное значение для достижения

наилучшего эффекта от применения методов машинного обучения в практиче­


ских приложениях.

1.1. Пример: аппроксимация поnиномиаnьной кривой

Начнем с простой задачи регрессии, которую мы будем использовать в этой


главе в качестве примера, чтобы проиллюстрировать ряд ключевых понятий.
Предположим, мы наблюдаем действительную входную переменную х и хотим
использовать это наблюдение для предсказания значения действительной целе­
вой переменной t. Для текуших целей целесообразно рассмотреть искусствен­
ный пример с использованием генерируемых данных, потому что тогда мы зна­

ем т~чный процесс, который генерировал данные для сравнения с любой обу­


ченной моделью. Данные для этого примера генерируются с помощью функции
sin(21l'x) со случайным шумом, включенным в целевые значения (подробно об
этом - в 11рилоJ1сении А).
Предположим теперь, что нам дано обучающее множество, содержащее N
=
наблюдений х, записанных как Х (х 1 , "" хN)т вместе с соответствующими
=
наблюдениями значений t, обозначенными как t (t 1, "" tN)т. На рис. 1.2 показан
график обучающего множества, содержащий N = 1О точек данных. Набор вход­
ных данных х на рис. 1.2 был создан путем выбора значений Хп при п = 1, "., N,
равномерно распределенных в диапазоне [О, 1], а целевой набор данных t был
получен путем вычисления соответствующих значений функции sin(21l'x) и по­
следующего добавления небольшого случайного шума, имеющего нормальное
распределение (это распределение рассматривается в разделе 1.2.4) для каждой
такой точки, чтобы получить соответствующее значение tn. Генерируя данные
таким образом, мы отражаем свойство многих реальных наборов данных, а
именно, что они обладают основной закономерностью, которую мы хотим
узнать, но отдельные наблюдения искажаются случайным шумом. Этот шум
может возникать из-за хаотичных (например, случайных) процессов, таких как
радиоактивный распад, но чаще из-за наличия источников изменчивости, кото­

рые сами по себе не наблюдаются.


28 ГЛАВА 1. ВВЕДЕНИЕ

о о
о

о
о
о о
о

о
о
о
-1

о х

Рис. 1.2. График обучающего множества, состоящего из N = 1О точек, обозначенных

кружками, каждый из которых соответствует наблюдению входной переменной х вместе

с соответствующей целевой переменной t. Зеленая кривая показывает функцию sin(2лx),

используемую для генерации данных . Наша цел ь - предсказать значение t для


некоторого нового значениях без знания зеленой кривой

Наша цель состоит в том, чтобы использовать это обучающее множество для
предсказания значения i целевой переменной при некотором новом значении х
входной переменной. Как мы увидим позже, это подразумевает неявное стрем­
ление обнаружить основную функцию sin(2trx). Это, по сути, сложная задача,
так как мы должны сделать обобщение на основе конечного набора данных.
Кроме того, наблюдаемые данные искажены шумом, поэтому для заданного х
существует неопределенность относительно соответствующего значения i. Тео­
рия вероятностей, обсуждаемая в разделе 1.2, обеспечивает основу для точной

количественной оценки такой неопределенности, а теория принятия решений,


обсуждаемая в разделе 1.5, позволяет нам использовать это вероятностное пред­
ставление, чтобы сделать прогнозы оптимальными относительно заданных кри­
териев.

Однако пока мы будем действовать неформально и рассмотрим простой под­


ход, основанный на приближении кривой . В частности, мы будем подбирать
данные, используя полиномиальную функцию вида

y(x,w)=w0 +w1x+w2 x 2 + ... +wмхм = Iw1x 1 , (1.1)


}=О

где М - порядок полинома, а х1 обозначает значение х, возведенное в степень j .


Полиномиальные коэффициенты w0 , ..• , wм в совокупности обозначаются векто-
1.1. Пример: аппроксимация полиномиальной кривой 29

ром w. Заметим, что полиномиальная функция у(х, w) является нелинейной


функцией от х, но линейной функцией от коэффициентов w. Функции, такие как
полином, которые являются линейными по неизвестным параметрам, имеют

важные свойства и называются линейными моделями. Они подробно обсуждают­


ся в главах 3 и 4.
Значения коэффициентов будут определяться путем приближения полинома к
данным обучения. Это можно сделать, минимизируя функцию ошибок, которая
измеряет отклонение функции у(х, w) от любого заданного значения wв точках
обучающего множества. В качестве функции ошибок часто используется сумма

квадратов разностей между предсказаниями у (х"' w) для каждой точки данных х" и
соответствующими целевыми значениями t"' так что мы минимизируем функцию
1N 2
E(w)=-I{y(xп,w)-tп} , (1.2)
2 n=l

где коэффициент 1/2 включен для дальнейшего удобства. Мы обсудим мотива­


цию данного выбора функции ошибок позже в этой главе. На данный момент мы
просто отметим, что это неотрицательная величина, которая будет равна нулю,

если и только если функция у(х, w) проходит точно через каждую точку обуча­
ющего множества. Геометрическая интерпретация суммы квадратов ошибок по­
казана на рис. 1.3.

/
о

_..-./ у(х., w)

/-----.
х. х

Рис. 1.3. Функция ошибок ( 1.2) соответствует половине суммы

квадратов смещений (показанных вертикальными зелеными отрезками)

каждой точки данных из графика функции у (х, w)


30 ГЛАВА 1. ВВЕДЕНИЕ

Мы можем решить проблему приближения кривой, выбирая значение w, для


которого величина E(w) становится минимальной . Поскольку функция ошибок
является квадратичной функцией коэффициентов w, ее производные по коэффи­
циентам будут линейными по элементам w, поэтому минимизация функции
ошибки имеет единственное решение, обозначаемое как w•, которое можно
найти в замкнутом виде. Получающийся полином задается функцией у(х, w·)
(см. упражнепие 1.1).
Остается проблема выбора порядка М полинома, и, как мы увидим, она ста­
нет примером важного понятия, называемого сравнением моделей или выбором
модели. На рис. 1.4 показаны четыре примера результатов аппроксимационных
полиномов, имеющих порядки М= О, 1, 3 и 9, для набора данных, показанного
на рис. 1.2.

о о М= О о о М= 1
о

о о
v ...,
о о

о
о о
о о
-1 -1

о о х
х

о
-] -1

о о х
х

Рис. 1.4. Графики полиномов, имеющих различные порядки М, показанные красными

кривыми, соответствуют набору данных, показанному на рис . 1.2

Заметим, что постоянная функция (М = О) и полином первого порядка (М = 1)


дают довольно плохие приближения к данным и, как следствие, довольно пло-
1.1. Пример: аппроксимация полиномиальной кривой 31

хне представления функции sin(2nx). Полином третьего порядка (М = 3), по­


видимому, наилучшим образом соответствует функции sin(2яx) для примеров,
показанных на рис. 1.4. Когда мы переходим к полиному более высокого поряд­
ка (М = 9), то получаем отличное приближение к данным обучения. Фактически
полином проходит точно через каждую точку данных, а

E(w) =О. Однако ап-
проксимированная кривая сильно колеблется и дает очень плохое представление
функции sin(2яx). Этот эффект называется переобучением.
Как мы отмечали ранее, нашей целью является достижение хорошего обоб­
щения путем точного предсказания для новых данных. Мы можем получить не­
которое количественное представление о зависимости обобщения от степени М,
рассматривая отдельный тестовый набор, содержащий 100 точек данных, сгене­
рированных с использованием точно такой же процедуры, которая использова­

лась для создания обучающего множества точек, но с новыми вариантами для


значений случайного шума, включенных в целевые значения. Для каждого вы­

бора М мы можем затем вычислить невязку E(w°), заданную формулой (1.2) для
обучающих данных, и также можем вычислить E(w·) для набора тестовых дан­
ных. Иногда удобнее использовать среднеквадратическую ошибку (root-mean-
square - RМS), определяемую формулой

(1.3)

в которой деление на N позволяет сравнивать разные размеры наборов данных


на равных интервалах, а квадратный корень гарантирует, что среднеквадратиче­

ская ошибка измеряется в том же масштабе (и в тех же единицах), что и целевая


переменная t. Графики среднеквадратических ошибок для обучающего и тесто­
вого множества для различных значений М показаны на рис 1.5. Ошибка на те­
стовом множестве является мерой того, насколько хорошо мы прогнозируем
значения t для новых наблюдений х. Из рис 1.5 отметим, что малые значения М
дают относительно большие ошибки на тестовом множестве, и это можно объ­
яснить тем, что соответствующие полиномы довольно негибкие и не способны
учитывать колебания функции sin(2яx). Значения Мв диапазоне 3 ~ М~ 8 дают
небольшие значения ошибки на тестовом множестве, а также обеспечивают ра­
зумные представления производящей функции sin(2яx), как можно видеть на
примере М = 3 на рис. 1.4.
Как и следовало ожидать, при М = 9 ошибка на обучающем множестве равна
нулю, поскольку этот полином содержит 1О степеней свободы, соответствую­
щих 1О коэффициентам w 0 , ••• , w9, и поэтому он может быть точно построен по
32 ГЛАВА 1. ВВЕДЕНИЕ

1О точкам из обучающего множества. Однако ошибка на тестовом множестве


стала очень большой, и, как мы видели на рис. 1.4, соответствующая функция
у (х, w •) имеет сильные колебания.

--&- Обучение
--&- Тест

J 0,5

о 3 6 9
м

Рис. 1.5. Графики среднеквадратической ошибки,

опредепяемой формулой (1.3), вычисленной на обучающем множестве

и на независимом тестовом множестве для различных значений М

Это может показаться парадоксальным, поскольку полином заданного поряд­

ка содержит все полиномы меньшего порядка как частные случаи. Следователь­


но, полином степени М = 9 способен генерировать результаты, по крайней мере,
столь же хорошие, как и полином степени М= 3. Более того, мы могли бы пред­
положить, что лучшим предиктором новых данных будет функция sin(2trx), по
которой были созданы данные (и мы увидим позже, что это действительно так).
Мы знаем, что разложение в ряд по степеням функции sin(2nx) содержит члены
всех порядков, поэтому можно ожидать, что результаты будут монотонно улуч­
шаться по мере увеличения М.
Мы можем получить некоторое представление о проблеме, изучив значения
коэффициентов

w, полученные из полиномов различного порядка, как показано
в табл. 1.1. Мы видим, что с ростом М величина коэффициентов обычно увели­
чивается. В частности, для полинома М = 9 коэффициенты тонко настраиваются
на данные путем появления больших положительных и отрицательных значе­
ний, так что соответствующая полиномиальная функция точно соответствует
каждой точке данных, но между точками данных (особенно вблизи концов диа­
пазона) функция демонстрирует большие колебания, наблюдаемые на рис. 1.4.
Интуитивно причина заключается в том, что более гибкие полиномы с больши-
1.1. Пример: аппроксимация полиномиальной кривой 33

ми значениями М становятся все более настроенными на случайный шум в целе­


вых значениях.

Таблица 1. 1. Таблица коэффициентов w· для полиномов различного порядка.


Наблюдайте, как типичная величина коэффициентов резко возрастает по мере
увеличения порядка полинома

М=О M=l М=3 М=9


• 0,19 0,82 0,31 0,35
Wo

W1
• -1,27 7,99 232,37
• -25,43 -5321,83
W2
• 17,37 48568,31
W3
• -231639,30
W4
• 640042,26
W5
• -1061800,18
w6

W7
• 1042400,18

.
Wg

~
-557682,99
125201,43

Также интересно исследовать поведение данной модели при изменении размера


множества данных (рис. 1.6). Мы видим, что при заданной сложности модели про­
блема с более сложной структурой по мере увеличения размера набора данных
становится менее серьезной. Иначе говоря, чем больше множество данных, тем
сложнее (гибче) модель, которая приближает данные. Одно из грубых эвристиче­
ских соображений заключается в том, что количество данных должно в несколько
раз (скажем, в 5 или 10) превышать количество адаптивных параметров в модели.
Однако, как мы увидим в главе 3, количество параметров не обязательно является
наиболее подходящей мерой сложности модели.
Кроме того, есть что-то неудовлетворительное в том, что нужно ограничить ко­
личество параметров в модели в соответствии с размером доступного обучающего
множества. Казалось бы, разумнее выбирать сложность модели в зависимости от
сложности решаемой задачи. Мы увидим, что подход наименьших квадратов
к нахождению параметров модели представляет собой конкретный случай метода
максимш~ьного правдоподобия (который обсуждается в разделе 1.2.5) и что про­
блему переобучения можно понимать как общее свойство максимального правдо­
подобия. Приняв байесовскuй подход, можно избежать проблемы переобучения.
Мы увидим, что с байесовской точки зрения нет трудностей при использовании
моделей, количество параметров которых значительно превышает количество
34 ГЛАВА 1. ВВЕДЕНИЕ

данных. Действительно, в байесовской модели эффективное число параметров ав­


томатически адаптируется к размеру набора данных (см. раздел 3.4).

о
N= 15

о о

о
о

-1 -1
о о

о о х
х

Рис. 1.6. Графики решений, полученные путем минимизации среднеквадратической

ошибки с использованием полинома степени М = 9 для N = 15 точек данных (левый

график) и N = 100 точек данных (правый график) . Как видим, увеличение размера

набора данных уменьшает степень переобучения

На данный момент, однако, поучительно продолжить текущий подход и рас­

смотреть, как на практике мы можем применять его к множествам данных огра­

ниченного размера, где мы, возможно, захотим использовать относительно

сложные и гибкие модели. Одним из методов, который в таких случаях часто


используется для контроля над переобучением, является регуляризация, которая
подразумевает добавление штрафа к функции ошибок (1.2), чтобы препятство­

вать достижению коэффициентами больших значений. Простейший штрафной


член принимает форму суммы квадратов всех коэффициентов, что приводит
к модифицированной функции ошибок

E(w)=_!_ f {у(хп,w)-tп} 2 +~jlwll2 ,


2п~ 2
(1.4)

где 11•11 2 = wт w= w~ + w~ +... + wit , а коэффициент Л определяет относительную


важность члена регуляризации по сравнению с суммой квадратов ошибок. Заме­
тим, что часто коэффициент w0 исключается из регуляризатора, потому что из-за

его включения результаты зависят от выбора начала координат для целевой пе­
ременной (Hastie et а/., 2001). Иногда его все же включают, но с собственным
коэффициентом регуляризации (более подробно эта тема обсуждается в разде­
ле 5.5.1). Как и выше, функцию ошибок в (1.4) можно свести к точному мини­

муму в замкнутом виде. Такие методы в статистической литературе называются


1.1. Пример: аппроксимация полиномиальной кривой 35

методами сжатия (shrinkage), поскольку они уменьшают значение коэффициен­


тов. Частный случай квадратичного регуляризатора называется гребневой ре­
грессией (ridge regression) (Hoerl and Kennard, 1970). В контексте нейронных се­
тей этот подход известен как редукция весов (weight decay).
На рис. 1.7 показаны результаты полиномиальной аппроксимации порядка
М = 9 по тому же множеству данных, что и раньше, но теперь с использовани­
ем регуляризованной функции ошибок, заданной формулой (1.4). Мы видим,
что при значении ln Л = -18 переобучение было подавлено, и теперь мы полу­
чили гораздо более точное представление основной функции sin(2лx). Однако,
если мы испоJ1ьзуем слишком большое значение Л, то снова получаем плохое
приближение, как показано на рис. 1.7 для ln А,= О. Соответствующие коэффи­
циенты полиномов приближения приведены в табл. 1.2 и показывают, что ре­
гуляризация обеспечивает желаемый эффект уменьшения величины коэффи­
циентов.

lnЛ = - 18 о о lnЛ =О
о

о
о
о о о
о о

о о
о
о о
-1 -1

о о
х х

Рис. 1.7. Графики полиномов степени М = 9, установленные для множества,

показанного на рис. 1.2, с использованием реrуляризованной функции ошибок (1.4)


для двух значений параметра регуляризации А., соответствующих ln А.= -18 и ln Л = О.

Случай без реrуляризатора, т.е. при Л =О, что соответствует ln Л= --w,


показан в правой нижней части рис. 1.4

Влияние регуляризации на ошибку обобщения можно увидеть, построив


график ошибки RМS (1.3) как для обучающих, так и для тестовых множеств в
зависимости от ln Л (рис. 1.8). Мы видим, что эффективной сложностью моде­
ли теперь управляет параметр Л и, следовательно, он определяет степень пере­
обучения.
36 ГЛАВА 1. ВВЕДЕНИЕ

Таблица 1.2. Таблица коэффициентов w· для полиномов степени М = 9 с раз­


личными значениями параметра регуляризации А.. Заметим, что ln А.= -оо соот­
ветствует модели без регуляризации, т.е. графику, показанному справа внизу
на рис. 1.4. Мы видим, что по мере увеличения значения А. типичная величина
коэффициентов уменьшается

.
Wo
ln А.=-«>

0,35
lnA.=-18
0,35
ln
0,13
А.= О

• 232,37 4,74 -0,05


W1
• -5321,83 -0,77 -0,06
W2
• 48568,31 -31,97 -0,05
W3
• -231639,30 -3,89 -0,03
W4
• 640042,26 55,28 -0,02
W5

w6 -1061800,52 41,32 -0,01
• 1042400,18 -45,95 -0,00
W7

Wg -557682,99 -91,53 0,00
w
• 125201,43 72,68 0,01

-- Обучение
-- Тест

~ 0,5
~

-35 -30 lnЛ -25 -20

Рис. 1.8. График среднеквадратической ошибки (1.3)


в зависимости от 111 ;/, для полинома степени М = 9

Проблема сложности модели является важной и будет подробно рассмотрена


в разделе 1.3. Здесь мы просто заметим, что если бы мы пытались решить прак­
тическую задачу, используя подход, основанный на минимизации ошибки, то
нам пришлось бы найти способ определить подходящее значение для сложности
модели. Вышеприведенные результаты предлагают простой способ достижения
этой цели, а именно: взять имеющиеся данные и разбить их на обучающее мно­
жество, используемое для определения коэффициентов w, и отдельное кон-
1.2. Теория вероятностей 37

тролъное множество (validation set), которое также называется отложенным


множеством, используемое для оптимизации сложности модели (либо М, либо Л).
Однако во многих случаях этот подход является слишком расточительным с
точки зрения количества обучающих данных, и нам нужно искать более слож­
ные подходы (см. раздел 1.3).
До сих пор наше обсуждение полиномиальной кривой апеллировало в основ­
ном к интуиции. Теперь мы будем искать более строгий подход к решению про­
блем распознавания образов, обращаясь к теории вероятностей. Помимо того,
что он обеспечивает основу для почти всех последующих разделов в этой книге,
он также даст нам некоторое представление о концепциях, которые мы ввели

в примере о полиномиальной кривой, и позволит распространить их на более


сложные ситуации.

1.2. Теория вероятностей

Ключевой в области распознавания образов является концепция неопреде­


ленности. Она возникает как из-за шума при измерениях, так и конечного разме­

ра множества данных. Теория вероятностей обеспечивает согласованную основу


для количественной оценки и манипулирования неопределенностью и является

одним из краеугольных камней распознавания образов. В сочетании с теорией


принятия решений, обсуждаемой в разделе 1.5, она позволяет нам делать опти­
мальные прогнозы с учетом всей доступной информации, хотя эта информация
может быть неполной или неоднозначной.
Введем основные понятия теории вероятностей, рассмотрев простой пример.

Представьте, что у нас есть два ящика: красный и синий, при этом в красном
ящике лежат 2 яблока и 6 апельсинов, а в синем - 3 яблока и 1 апельсин
(рис. 1.9). Теперь предположим, что мы случайным образом выбираем один из
ящиков, извлекаем из него случайным образом один фрукт, смотрим, какой
именно фрукт мы извлекли, и возвращаем его обратно в ящик. Мы можем по­
вторить этот процесс много раз. Предположим, что при этом мы выбираем крас­
ный ящик в 40% случаев, а синий - в 60%, и когда мы извлекаем фрукт из ящи­
ка, мы можем выбирать любой из фруктов.
В этом примере идентификатор ящика является случайной величиной, кото­
рую будем обозначать буквой В. Эта случайная величина может принимать одно
из двух возможных значений, а именно: r (соответствующее красному ящику)
или Ь (соответствующее синему ящику). Идентичность фрукта тоже является
38 ГЛАВА 1. ВВЕДЕНИЕ

случайной величиной и обозначается как F. Она может принимать любое из зна­


чений а (для яблока) или о (для апельсина).
Для начала определим вероятность события как долю испытаний, в которых
оно происходит, в общем количестве испытаний при условии, что общее количе­
ство испытаний стремится к бесконечности. Таким образом, вероятность выбора
красного ящика составляет 4/10, а вероятность выбора синего ящика - 6110. Эти

вероятности будем обозначать как р(В = r) = 4110 и р(В = Ь) = 6110. Заметим, что

по определению вероятность должна находиться в интервале [О, 1]. Кроме того,

если собьпия являются взаимоисключающими или охватывают все возможные ре­


зультаты (например, в данном примере ящик должен быть красным или синим), то
сумма вероятностей этих событий должна равняться единице.

00
ООО о
OGO ООО

Рис. 1.9. Мы используем простой пример двух цветных ящиков,

каждый из которых содержит фрукты (яблоки, показанные зеленым цветом,

и апельсины, показанные оранжевым) , чтобы представить основные идеи вероятности

Теперь мы можем задавать такие вопросы: какова общая вероятность того,


что мы выберем яблоко? Или, учитывая, что мы выбрали апельсин, какова веро­
ятность того, что ящик, который мы выбрали, был синим? Мы можем ответить
на такие и даже гораздо более сложные вопросы, связанные с проблемами рас­
познавания образов, как только сформулируем два элементарных правила веро­
ятности, известные как правwю сложения и правило умножения вероятностей.

Получив эти правила, мы вернемся к примеру с фруктами.


Для того чтобы сформулировать правила сложения и умножения вероятно­
сти, рассмотрим чуть более общий пример, показанный на рис . 1.1 О, включаю­

щий в себя две случайные величины Х и У (которые могут быть, например, рас­
смотрены выше как переменные Ящик и Фрукт). Предположим, что Х может
принимать любое из значений Х;, где i = 1, .. " М, а У может принимать значе-
1.2. Теория вероятностей 39

ния у1 , где j = 1, ... , L. Рассмотрим в общей сложности N испытаний, в которых


мы определяем значения обеих переменных, Х и У, и обозначим как niJ количе­
ство таких испытаний, в которых Х = х1 и У= у1 . Кроме того, пусть количество
испытаний, в которых Х принимает значение Х; (независимо от значения, кото­
рое принимает У), обозначается как с;, и аналогичным образом количество ис­
пытаний, в которых У принимает значение у1 , обозначается как r1.

С;
,,_,,_,

пи

Рис. 1.10. Мы можем вывести правила сложения н умножения вероятностей с учетом двух

случайных величин : Х, принимающей значения {х;}, где i = \, .", М, и У, принимающей

значения {.Jj}, где)=\,"" L. На JТом рисунке мы имеем М = 5иL = 3. Рассматривая общее

количество Jкземпляров этих переменных, которое равно N, будем обозначать как niJ

количество экземпляров, для которых Х = Х; и У= yi, что равно количеству испытаний,

соответствующих данной ячейке массива . Количество испытаний в столбце i,


соответствующих условию Х = х;, обозначается через с;, а количество наблюдений

в строке j, соответствующее условию У = ) j , обозначается через r1

Вероятность того, что Х примет значение х1 , а У примет значение у1 , запишем


как р(Х = х1, У= у1) и назовем совместной вероятностью того, что Х = Х; и У= у1 .
Эта вероятность определяется по количеству наблюдений в ячейке i,j как доля
от общего числа испытаний, и, следовательно,

(1.5)

Здесь мы неявно рассматриваем предел N ~ оо . Аналогично вероятность то­


го, что Х принимает значение х1 независимо от значения У, записывается как
р(Х = х;) и задается долей количества испытаний, попадающих в столбец i, так что

(1.6)
40 ГЛАВА 1. ВВЕДЕНИЕ

Поскольку количество экземпляров в столбце i на рис. 1.1 О является суммой

количества экземпляров в каждой ячейке этого столбца, мы имеем с; = L п!i ,


j
и из (1.5) и (1.6) следует правило сложения вероятностей:
L
р ( х = Х;) = L р ( х = Х;, у= у j ). (1.7)
j;\

Заметим, что вероятность р(Х = х;) иногда называют маргинальной вероятностью,


поскольку она получается путем маргинализации, т.е. исключения других пере­

менных с помощью суммирования (в данном случае исключается переменная У).


Если мы рассмотрим только те экземпляры, для которых Х = Х;, то доля таких

экземпляров, для которых У= у1 , записывается как р( У= у1 1 Х = х;) и называется


условной вероятностью того, что У= у1 при условии, что Х = Х;. Эта вероятность
равна доле тех испытаний в столбце i, которые попадают в ячейку i,j, и, следо­

вательно, определяется формулой

р (у = уj Х = Х; ) = пij .
1 (1.8)
С;

Из (1.5), (1.6) и (1.8) можно получить правило умножения вероятностей:

(1.9)
= р (У =у j Х = Х;) р ( Х = Х; ) .
1

До сих пор мы очень аккуратно проводили различие между случайной вели­


чиной, такой как ящик В в примере с фруктами, и значениями, которые может
принимать случайная величина, например r, если ящик бьm красным. Таким об­
разом, вероятность того, что В принимает значение r, обозначается как р(В = r).
Это помогает избежать двусмысленности, но приводит к довольно громоздкой
системе обозначений, и во многих случаях у нас не будет необходимости в та­
ком педантизме. Вместо этого мы можем писать р(В) для обозначения распреде­
ления вероятностей значений случайной величины В или p(r) для обозначения

значения распределения, вычисленного при конкретном значении r, если интер­

претация понятна из контекста.

При этом более компактном обозначении мы можем написать два основных


правила теории вероятностей в следующем виде.
1.2. Теория вероятностей 41

Правила теории вероятностей

Правило сложения р(Х) = LP(X,Y) (1.1 О)


у

Правило умножения р(Х,У) = p(YIX)p(X) (1.11)

Здесь р(Х, У) является совместной вероятностью и читается как "вероятность


Х и У". Аналогично величина р(У 1 Х) является условной вероятностью и читает­
ся как "вероятность У при условии Х", тогда как величина р(Х) является марги­
нальной вероятностью и читается просто как "вероятность Х". Эти два простых
правила составляют основу всего аппарата теории вероятности, который мы ис­
пользуем в этой книге.

Из правила умножения вместе с свойством симметрии р(Х, У) =р(У, Х) сразу


получаем следующее соотношение между условными вероятностями:

_p(XIY)p(Y)
р уХ - р(Х) (1.12)
( 1 )

которое называется теоремой Байеса и играет центральную роль в распознава­


нии образов и машинном обучении. Используя правило сложения вероятностей,
знаменатель в теореме Байеса можно выразить через величины, входящие в чис­
литель:

р(Х)= LP(XIY)p(Y). (1.13)


у

Знаменатель в теореме Байеса можно рассматривать как константу нормировки,


необходимую для того, чтобы сумма условной вероятности в левой части (1.12)
по всем значениям У равнялась единице.

На рис. 1.11 приведен простой пример, включающий совместное распреде­


ление по двум переменным и иллюстрирующий концепцию маргинальных и

условных распределений. Здесь в левом верхнем углу показана конечная вы­


борка данных при N = 60, которая была извлечена из генеральной совокупно­
сти с совместным распределением. В правом верхнем углу приведена гисто­
грамма долей данных, принимающих каждое из двух значений У. В соответ­

ствии с определением вероятности эти доли равны соответствующим

вероятностям р(У) при N ~ оо. Гистограмму можно рассматривать как простой

способ моделирования распределения вероятностей, учитывающий только ко-


42 ГЛАВА 1. ВВЕДЕНИЕ

нечное число точек, взятых из генеральной совокупности с этим распределе­


нием. Моделирование распределений по данным лежит в основе распознава­

ния статистических моделей и будет подробно изучено в этой книге. Осталь­


ные два графика на рис. 1.11 показывают соответствующие гистограммные

оценки р(Х) и р(Х 1 У= 1).

р(Х, У) р(У)

• • 1. •
У=2
• ••• ~· t • •

Y= l ...
•"' '- ~. •' •
• •• •


х

р(Х) p(XI У= 1)
--
- -
- -

п
х х

Рис. 1.11. Распределение по двум переменным: Х, которая принимает 9 возможных


значений, и У, которая принимает два возможных значения . Слева вверху показана

выборка из 60 точек , взятых из совместного распределения вероятностей по этим

переменным . На остальных рисунках показаны гистограммные оценки маргинальных

распределений р(Х) и р{ У), а также условное распределение р(Х 1 У= l ),


соответствующее нижней строке на верхнем левом рисунке

Вернемся к примеру с ящиками фруктов . На данный момент мы еще раз про­


ведем четкое разграничение между случайными величинами и их экземплярами.
Мы видели, что вероятности выбора либо красных, либо синих ящиков даются
выражениями

р(В = r) = 4110, (1.14)


р(В = Ь) = 6110 ( 1.15)
соответственно. Заметим, что они удовлетворяют условию р(В = r) + р(В = Ь) = 1.
1.2. Теория вероятностей 43

Теперь предположим, что мы выбираем ящик наугад, и он оказывается си­


ним. Тогда вероятность выбора яблока - это просто доля яблок в синем ящике,
которая равна 3/4, и поэтому p(F =а 1 В= Ь) = 3/4. Фактически мы можем выпи­
сать все четыре условные вероятности для вида фрукта, учитывая выбранный
ящик:

p(F =а 1 В= r) = 114, (1.16)


p(F = о 1 В = r) = 3/4, (1.17)
p(F =а 1 В= Ь) = 3/4, (1.18)
p(F=o 1В=Ь)=114. (1.19)
Снова отметим, что эти вероятности нормированы так, что

p(F =а 1 В= r) + p(F =о 1 В= r) = 1, (1.20)

и аналогичным образом

p(F = а 1 В = Ь) + p(F = о 1 В = Ь) = 1. (1.21)

Теперь мы можем использовать правила сложения и умножения вероятностей


для вычисления общей вероятности выбора яблока:

p(F =а)= p(F =alB = r)p(B = r)+ p(F =alB =Ь)р(В =Ь) =
1 4 3 6 11 (1.22)
=-·-+-·-=-.
4 10 4 10 20

Из этого значения и правила сложения вероятностей следует, что p(F = о) = 1-


- 11/20 = 9/20.
Предположим, что вместо этого нам говорят, что выбран апельсин, и мы хо­
тели бы знать, из какого ящика он взят. Для этого необходимо вычислить рас­
пределение вероятностей ящиков при заданном виде фрукта, в то время как
формулы (1.16)-(1.19) дают распределение вероятностей фруктов при заданном
цвете ящика. Мы можем решить задачу об обращении условной вероятности,
используя теорему Байеса:

р (В = rl F = 0 ) = р ( F = ol В = r) р (В = r) = ~. _±_. 20 = ~. (1.23)
p(F=o) 4 10 9 3

Из правила сложения вероятностей следует, что р(В = Ь 1 F =о)= 1 - 2/3 = 1/3.


Мы можем обеспечить важную интерпретацию теоремы Байеса следующим
образом. Если бы нас спросили, какой ящик был выбран до того, как сообщается
вид выбранного фрукта, то самая полная информация, которую мы имеем, обес-
44 ГЛАВА 1. ВВЕДЕНИЕ

печивается вероятностью р(В). Мы называем это априорной вероятностью, по­


тому что это вероятность, доступная до того, как мы увидим вид фрукта. Как
только нам говорят, что выбран апельсин, мы можем использовать теорему Бай­
еса для вычисления вероятности p(BIF), которую будем называть апостериор­
ной вероятностью, потому что это вероятность, полученная после наблюдения
величины F. Заметим, что в данном примере априорная вероятность выбора
красного ящика составляла 4/10, так что мы с большей вероятностью могли вы­
брать синий ящик, чем красный. Однако, как только мы заметим, что выбран
апельсин, то обнаружим, что апостериорная вероятность красного ящика теперь
составляет 2/3, так что теперь более вероятно, что выбранный нами ящик был на
самом деле красным. Этот результат согласуется с нашей интуицией, так как до­

ля апельсинов намного выше в красном ящике, чем в синем, и поэтому выбор


апельсина дает важные доказательства в пользу красного ящика. Это доказатель­
ство перевешивает априорное предположение и делает более вероятным, что
был выбран красный ящик, а не синий.
Наконец, отметим, что если совместное распределение двух переменных равно

произведению маргинальных вероятностей, так что р(Х, У)= р(Х)р(У), то пере­


менные Х и У называются независимыми. Из правила умножения мы видим, что

p(YIX) =р(У), и поэтому условное распределение У при условии Хна самом деле не
зависит от значения Х Например, если в примере с фруктами в каждом ящике ле­
жала бы одинаковая доля яблок и апельсинов, то p(FIB) =p(F), так что вероятность
выбора, скажем, яблока не зависела бы от того, какой ящик бьm выбран.

1.2.1. Плотность вероятности

Помимо рассмотрения вероятностей, определенных на дискретных множе­

ствах событий, мы также хотим рассматривать вероятности по непрерывным пе­


ременным. Мы ограничимся относительно неформальным обсуждением. Если
вероятность того, что значение действительной переменной х лежит в интервале
(х, х + дх), определяется выражением р(х)дх при дх~О, то р(х) называется плот­

ностью вероятности случайной величины х (рис. 1.12). Тогда вероятность того,


что х будет лежать в интервале (а, Ь), задается формулой

J
р(хЕ(а,Ь))= p(x)dx. (1.24)
а
1.2. Теория вероятностей 45

ох х

Рис. 1.12. Понятие вероятности для дискретных случайных величин можно

распространить на понятие плотности вероятности р(х) непрерывной случайной

величины х так, что вероятность того, что значение случайной величины х

лежит в интервале (х, х + дх), определяется выражением р(х)дх при (>х~О.

Плотность вероятности может быть выражена как производная

от кумулятивной функции распределения Р(х)

Поскольку вероятности неотрицательны и значение х должно находиться где­


то на действительной оси, плотность вероятности р(х) должна удовлетворять
двум условиям:

р(х) ~О, (1.25)


00

f p(x)dx=1. (1.26)

При нелинейном изменении переменной плотность вероятности по-разному


преобразуется из простой функции, что обусловлено якобианом. Например, если
мы рассмотрим замену переменных х = g(y), то функция f(x) превратится в
j(y) = f (g(y )) . Теперь рассмотрим плотность вероятности рх(х), соответству­
ющую плотности ру(у), зависящей от новой переменной у, где суффиксы отме­
чают тот факт, что рх(х) и ру(у) представляют собой разные плотности. Наблю­
дения, попадающие в диапазон (х, х + дх), при малых значениях дх будут преоб­
разованы в область (у, у+ ду), где рх(х)дх::::: ру(у)ду, и, следовательно,

Py(y)=px(x)l:I= (1.27)
= Рх (g(y))lg'(y)I·
46 ГЛАВА 1. ВВЕДЕНИЕ

Одним из следствий этого свойства является то, что понятие максимума

плотности вероятности зависит от выбора переменной (см. упраNснение 1.4).


Вероятность того, что х лежит в интервале (-оо, z), задается кумулятивной
функцией распределения, определяемой формулой
z
P(z)= J p(x)dx, (1.28)

которая удовлетворяет условию Р'(х) = р(х), как показано на рис. 1.12.


Если мы имеем несколько непрерывных случайных величин х 1 , •• " xv, обозна­
чаемых в совокупности как вектор х, то можем определить совместную плот­

ность вероятности р(х) = р(х 1 , •• " xv), так что вероятность попадания векторах в
бесконечно малый объем х, содержащий точку х, равна р(х)дх. Эта многомер­
ная плотность вероятности должна удовлетворять условиям

р(х) ~О, (1.29)


Jp(x)dx=l, (1.30)

где интеграл берется по всему пространству, которому принадлежит вектор х.

Мы можем также рассмотреть совместные распределения вероятностей комби­


нации дискретных и непрерывных случайных величин.
Заметим, что если х - дискретная переменная, то р(х) иногда называют
функцией распределения масс, потому что ее можно рассматривать как набор
вероятностных масс, сконцентрированных в допустимых значениях х.

Правила сложения и умножения вероятностей, а также теорема Байеса одина­


ково применимы к случаям плотностей вероятности и к комбинациям дискретных
и непрерьшных случайных величин. Например, если х и у - две действительные
случайные величины, то правила сложения и умножения принимают вид

f
р(х) = p(x,y)dy, (1.31)
р(х, у)= p(ylx)p(x). (1.32)
Формальное обоснование правил сложения и умножения вероятностей для
непрерывных случайных величин (Feller, 1966) требует использования отрасли
математики, называемой теорией меры, и выходит за рамки рассмотрения этой
книги. Однако их корректность можно обосновать неформально, разделив каж­
дую действительную переменную на интервалы ширины Л и рассмотрев распре­
деление дискретных вероятностей по этим интервалам. При переходе к пределу
при Л ~О суммы превращаются в интегралы, что дает желаемый результат.
1.2. Теория вероятностей 47

1.2.2. Математическое ожидание и ковариация

Одной из наиболее важных операций, связанных с вероятностями, является


вычисление средневзвешенных значений функций. Среднее значение некоторой
функцииf(х) при распределении вероятности р(х) называется математическим
ожиданием функцииf(х) и обозначается как JЕ[Л. Для дискретного распределе­
ния оно задается формулой

JE[f]= LP(x)f(x), (1.33)


х

так что среднее значение является взвешенным относительно вероятностей раз­

ных значений х. В случае непрерывных случайных величин математическое


ожидание выражается с помощью интегрирования по соответствующей плотно­

сти вероятности:

JE[f] =Jp(x)f(x)dx, (1.34)

В любом случае, если задано конечное число N точек, взятых из распределе­


ния вероятности или плотности, то ожидание можно аппроксимировать конеч­

ной суммой по этим точкам:

(1.35)

Мы будем широко использовать этот результат, когда будем обсуждать мето­


ды выбора в главе 11. Аппроксимация в формуле (1.35) становится точной
в пределе при N ~оо.
Иногда мы будем рассматривать математическое ожидание функций не­
скольких переменных и в этом случае сможем использовать индекс, чтобы ука­
зать, какая переменная усредняется, так что, например,

(1.36)

обозначает среднее значение функцииf(х, у) относительно распределениях. За­


метим, что математическое ожидание Ex[f(x, у)] является функцией от у.
Мы можем также рассмотреть условное математическое ожидание относи­
тельно условного распределения, так что

Ех [!IY] = LP(xly )f(x) (1.37)


х

с аналогичным определением для непрерывных случайных величин.


48 ГЛАВА 1. ВВЕДЕНИЕ

Дисперсия функцииf(х) определяется формулой

var[f] = Щ(f(х)- E[f(x)]) 2 ] (1.38)

и дает оценку того, насколько сильно изменчивой является функция f(x) в


окрестности ее среднего значения E[f(x)]. Раскрыв квадрат, мы видим, что дис­

персия также может быть записана в терминах математического ожидания


функцийf(х) иf(х) 2 (с,11. упраж11е11ие 1.5):

(1.39)

В частности, мы можем рассмотреть дисперсию самой случайной величины х,

которая задается формулой

2 2
var[x] = Щх ] - Е[х] . (1.40)

Ковариация двух случайных величин х и у определяется формулой

cov[x,y] = Ех,у[ {х-Щх]} {у-Е[у]}] = Ех,у [ху]-Щх]Е[у], (1.41)

которая отражает, насколько сильно случайные величины х и у изменяются вме­


сте. Если х и у являются независимыми, то ковариация равна нулю (см. упраж·­
ие11ие 1.6).
В случае двух векторов случайных величин х и у ковариация является мат­

рицей

т т т т
cov[x, у]= Ех,у [ {х -Е [ х]} {у - Е[у ]} ] = Ех,у [ху ] - Е[х]Щу ]. (1.42)

Рассматривая ковариацию компонентов вектора х друг с другом, мы исполь­

зуем несколько более простые обозначения cov[x] =cov[x, х].


1.2.3. Байесовские вероятности

До сих пор в этой главе мы рассматривали вероятности в терминах частот


случайных, повторяемых событий. Мы будем называть это классической или ча­
стотной интерпретацией вероятности. Теперь обратимся к более общей, байе­
совской точке зрения, в которой вероятности дают количественную оценку не­
определенности.

Рассмотрим неопределенное событие, например, вращалась ли Луна когда-то


на собственной орбите вокруг Солнца, или исчезнет ли арктическая ледяная
шапка к концу века. Это не события, которые могут повторяться много раз, что-
1.2. Теория вероятностей 49

бы определить понятие вероятности, как мы это делали ранее, в контексте ящи­


ков с фруктами. Тем не менее мы, как правило, имеем некоторое представление
о скорости таяния полярного льда. Если теперь мы получим новые доказатель­

ства, например, с нового спутника наблюдения Земли, собирающего новые фор­


мы диагностической информации, то можем пересмотреть наше мнение о скоро­
сти таяния льда. Наша оценка таких вопросов будет влиять на действия, которые
мы предпринимаем, например, в какой степени мы стремимся уменьшить вы­
бросы парниковых газов. В таких обстоятельствах мы хотели бы иметь возмож­
ность количественно определять наше выражение неопределенности и делать

точные пересмотры неопределенности в свете новых доказательств, а также впо­

следствии иметь возможность принимать оптимальные действия или решения.

Все это может быть достигнуто благодаря элегантной и очень общей байесов­
ской интерпретации вероятности.
Если мы хотим уважать здравый смысл, делая рациональные последовательные
выводы, то использование вероятности как меры неопределенности является не

произвольным, а неизбежным выбором. Например, Сох (1946) показал, что если


для представления степени убежденности используются числовые значения, то
простой набор аксиом, кодирующих свойства здравого смысла таких убеждений,
однозначно приводит к набору правил манипулирования степенями убежденно­
сти, которые эквивалентны правилам сложения и умножения вероятностей. Это
было первым строгим доказательством того, что теорию вероятностей можно рас­
сматривать как применение строгой логики к ситуациям, связанным с неопреде­
ленностью (Jaynes, 2003). Многие другие авторы предлагали разные наборы
свойств или аксиом, которым должны удовлетворять такие меры неопределенно­
сти (Ramsey, 1931; Good, 1950; Savage, 1961; deFinetti, 1970; Lindley, 1982). В каж­
дом случае результирующие числовые величины ведут себя точно в соответствии
с правилами вероятности. Следовательно, естественно относиться к этим величи­
нам как к (байесовским) вероятностям.
В области распознавания образов полезно также иметь более общее понятие
вероятности. Рассмотрим пример аппроксимации полиномиальной кривой, рас­

смотренный в разделе 1.1. Представляется разумным применить частотное пред­


ставление о вероятности к случайным значениям наблюдаемых случайных вели­

чин tn. Однако мы хотели бы рассмотреть и количественно оценить неопреде­


ленность, которая окружает соответствующий выбор для параметров модели w.
Мы увидим, что с байесовской точки зрения мы можем использовать механизм
теории вероятностей для описания неопределенности в параметрах модели, та­
ких как w, или в виде выбора самой модели.
50 ГЛАВА 1. ВВЕДЕНИЕ

Томас Байес

1701-1761
Томас Байес (Thomas Bayes) родился в Танбридж­
Уэллсе (Tunbridge Wells) и был священнослужителем,
а также ученым-любителем и математиком. Он изучал
логику и теологию в Эдинбургском университете и
бьш избран членом Королевского общества в 1742 го­
ду. В течение XVIII века возникли вопросы относи-
тельно вероятности в азартных играх и новой концепции страхования. Од­
на особенно важная проблема касается так называемой обратной вероят­
ности. Ее решение было предложено Томасом Байесом в его статье "Очер­
ки к решению проблемы доктрины шансов", которая бьша опубликована в
1764 году, спустя три года после его смерти, в "Философских трудах Ко­
ролевского общества". На самом деле Байес сформулировал свою теорию
только для случая равномерного априорного распределения вероятностей,

и только Пьер-Симон Лаплас самостоятельно открьш теорию в общем ви­


де и продемонстрировал ее широкую применимость.

Теперь теорема Байеса приобретает новое значение. Напомним, что в приме­


ре с ящиками с фруктами наблюдение за идентичностью плода предоставляло
соответствующую информацию, которая изменяла вероятность того, что вы­
бранный ящик был красным. В этом примере теорема Байеса использовалась для
преобразования априорной вероятности в апостериорную путем учета доказа­
тельств, представленных наблюдаемыми данными. Как мы увидим позже, мы
можем применить аналогичный подход, делая выводы о величинах, таких как
параметры wв примере аппроксимации полиномиальной кривой. Мы фиксируем
наши предположения о параметрах w до наблюдения данных в виде априорного
распределения вероятностей p(w). Влияние наблюдаемых данных V = {t1, "., tN}
выражается через условную вероятность p('Dlw), и мы увидим ниже, в разде­
ле 1.2.5, как это можно представить явно. Теорема Байеса, которая принимает вид

- p(Vlw)p(w)
р w1V - (1.43)
( )
p(V) ,
1.2. Теория вероятностей 51

позволяет оценить неопределенность в параметрах w после того, как мы наблю­


даем D в виде апостериорной вероятностир(wl'D).
Величина p(Dlw) в правой части теоремы Байеса вычисляется по наблюдае­
мому множеству данных Dи может рассматриваться как функция вектора пара­
метров w, в этом случае она называется функцией правдоподобия. Она выражает,
насколько вероятно наблюдаемое множество данных для разных значений век­
тора параметров w. Заметим, что правдоподобие не является распределением ве­
роятности по w, а ее интеграл по w не обязательно равен единице.
Учитывая это определение правдоподобия, мы можем сформулировать тео­
рему Байеса так:

апостериорная вероятность ос правдоподобие ос априорная вероятность, (1.44)


где все эти величины рассматриваются как функции от w. Знаменатель в форму­
ле (1.43) является константой нормировки, которая гарантирует, что апостери­

орное распределение в левой части является допустимой плотностью вероятно­

сти и ее интеграл равен единице. Действительно, интегрируя обе части (1.43)


по w, мы можем выразить знаменатель по теореме Байеса в терминах априорного

распределения и функции правдоподобия

(1.45)

В байесовских и частотной парадигмах функция правдоподобияр('Dlw) игра­


ет центральную роль. Однако способ, которым она используется, в этих двух
подходах принципиально отличается. В рамках частотного подхода вектор w
считается фиксированным параметром, значение которого определяется путем
определенного вычисления, а величины ошибок в этой оценке получаются пу­
тем изучения распределения возможных наборов данных D. С байесовской точ­
ки зрения, наоборот, есть только один набор данных D (а именно тот, который
фактически наблюдается), а неопределенность в параметрах выражается через
распределение вероятности по w.
Широко используемой частотной оценкой является оценка максимального
правдоподобия, при котором значение w максимизирует функцию правдоподо­
бия p('Dlw). Это соответствует выбору значения w, для которого вероятность
наблюдаемого набора данных максимизируется. В литературе по машинному
обучению отрицательная логарифмическая функция правдоподобия называется
функцией ошибок. Поскольку отрицательный логарифм является монотонно
убывающей функцией, максимизация правдоподобия эквивалентна минимиза­
ции ошибки.
52 ГЛАВА 1. ВВЕДЕНИЕ

Одним из подходов к определению частотной величины ошибки является


бутстрэп (Efron, 1979; Hastie et al., 2001), в котором несколько наборов данных
создаются следующим образом. Предположим, наш исходный набор данных со­
стоит из N точек данных Х = {х 1 , ••• , xN}· Мы можем создать новый набор дан­
ных Х8 , извлекая N точек случайным образом из набора Х с возвращением, так
что некоторые точки из Х могут повторяться в Х8 , тогда как другие точки в Х
могут отсутствовать в Х8 . Этот процесс может быть повторен L раз для генера­
ции L наборов данных, содержащих по N точек, и каждый из них получается пу­
тем выбора из исходного набора данных Х. Статистическую точность оценок
параметров можно определить, посмотрев на изменчивость предсказаний между

различными наборами данными.


Одно из преимуществ байесовской точки зрения состоит в том, что учет
априорных знаний осуществляется естественным образом. Предположим,
например, что идеальная монета бросается три раза и каждый раз выпадает орел.
Классическая оценка максимального правдоподобия вероятности орла даст еди­
ницу, т.е. результатом всех будущих подбрасываний будет орел! Напротив, бай­
есовский подход с любой разумной априорной вероятностью приведет к гораздо
менее экстремальному выводу (см. раздел 2.1).
Бьто много споров и дискуссий, связанных с относительными достоинствами
частотной и байесовской парадигм, разрешению которых не помогло даже то, что
единственной частотной или даже байесовской точки зрения не существует.
Например, одно из распространенных возражений против байесовского подхода
заключается в том, что априорное распределение часто выбирается исходя из ма­
тематического удобства, а не как отражение каких-либо априорных убеждений.
Даже субъективный характер выводов, проявляющийся в их зависимости от выбо­
ра априорной вероятности, рассматривается некоторыми как недостаток. Умень­

шение зависимости от априорной вероятности является одной из причин появле­

ния так назьmаемых неинформативных априорных распределений (с.111. раз­


дел 2.4.3). Однако это приводит к трудностям при сравнении разных моделей, и,
действительно, байесовские методы, основанные на неудачном выборе априор­
ного распределения, с высокой степенью уверенности могут дать плохие резуль­
таты. Частотные методы оценки предлагают некоторую защиту от таких про­
блем, и такие методы, как перекрестная проверка, остаются полезными в таких
областях, как сравнение моделей (см. раздел 1.3).
В этой книге байесовской точке зрения уделяется особое внимание, что отра­
жает огромный рост практического влияния байесовских методов за последние
1.2. Теория вероятностей 53

несколько лет 1 , а также по мере необходимости обсуждаются полезные, часто


используемые концепции.

Хотя байесовская структура берет свое начало в XVIII веке, практическое


применение байесовских методов в течение длительного времени сильно огра­
ничивалось трудностями при осуществлении полной байесовской процедуры,
в частности, необходимостью маргинализации (суммирования или интегрирова­
ния) по всему пространству параметров, которая, как мы увидим, требуется для
того, чтобы делать прогнозы или сравнивать разные модели. Разработка методов
выбора, таких как алгоритм Монте-Карло с использованием цепи Маркова (об­
суждаемый в главе 11 ), а также резкое повышение скорости и объема памяти
компьютеров открыли путь к практическому использованию байесовских техно­
логий во впечатляющем диапазоне предметных областей. Методы Монте-Карло
очень гибкие и могут применяться к широкому спектру моделей. Однако они
являются интенсивными с точки зрения вычислительной мощности и в основ­

ном используются для решения небольших проблем.


Совсем недавно были разработаны высокоэффективные схемы детерминиро­
ванной аппроксимации, такие как вариационный байесовский метод и распро­
странение ожидания (речь о них пойдет в главе 1О). Они предлагают дополни­
тельную альтернативу методам выбора и позволяют использовать байесовские
методы в крупномасштабных приложениях (Blei et а/., 2003).

1.2.4. Нормальное распределение

Изучению различных распределений вероятностей и их ключевых свойств


будет посвящена глава 2. Однако здесь удобно ввести одно из важнейших рас­
пределений вероятностей для непрерывных случайных величин - нормшzыюе,
или распределение Гаусса. Мы будем широко использовать это распределение
в оставшейся части этой главы и на протяжении большей части книги.
Для одной действительной случайной величины х нормальное распределение
определяется формулой

(1.46)

1
Написано в 2006 г. - Примеч. ред.
54 ГЛАВА 1. ВВЕДЕНИЕ

которая зависит от двух параметров: µ, называемого математическим ожида-


2 д исперсиеи.
v к вадратныи
v
корень дисперсии, а; называ-
нием, и а, называемого
2
ется стандартным отклонением, а величина, обратная к дисперсии, Р= 1/а-,
называется точностью. Объяснение этих терминов будет приведено позднее.
График плотности нормального распределения показан на рис. 1.13.

N (xlµ,u2 )

µ х

Рис. 1.13. График плотности одномерного нормального распределения с

математическим ожиданием р и стандартным отклонением ст

Из формулы (1.46) видно, что нормальное распределение удовлетворяет


условию

(1.47)

Также нетрудно показать, что нормальное распределение является нормиро­


ванным:

00

f N(xlµ,a- 2 )dx=1. (1.48)

Таким образом, функция (1.46) удовлетворяет двум требованиям, предъявляе­


мым к плотности вероятности.

Математическое ожидание функции, зависящей от случайной величины х,


имеющей нормальное распределение, вычислить несложно. В частности, сред­
нее значение х задается формулой (см. упраJк11е11ие 1.8)
00

Е[х]= f N(xlµ,a- 2 )xdx=µ. (1.49)


1.2. Теория вероятностей 55

Пьер-Симон Лаплас
1749-1827
Говорят, что ЛaIUiac был очень нескромным и называл се­
бя лучшим в то время математиком Франции, и это
утверждение бьmо правдой. Помимо того, что он был вы­
дающимся математиком, он также внес большой вклад в
астрономию, в том числе сформулировал гипотезу туман­
ности, согласно которой Земля образовалась путем кон­
денсации и охлаждения большого вращающегося диска
газа и пъmи. В 1812 году он опубликовал первое издание Анш~итической
теории вероятностей, в котором утверждал: "теория вероятностей - это не
что иное, как здравый смысл, сведенный к вычислению". Эга работа вюnоча­
ла в себя обсуждение вычисления обратной вероятности (позднее названной
Пуанкаре теоремой Байеса), которую он использовал для решения задачи об
ожидаемой продолжительности жизни, а также вопросы юриспрудеющи, вы­
числения IUiанетарных масс, триангуляции и оценки ошибок.

Поскольку параметр µ представляет собой среднее значение случайной вели­


чины х при заданном распределении, он называется математическим ожидани­
ем. Аналогично для момента второго порядка

00

ш{ х2] = JN( xlµ,0'2 )x2dx = µ1+0'2. (1.50)

Из формул (1.49) и (1.50) следует, что дисперсия случайной величины х зада­


ется формулой

var[x] = JE[i] - Е[х] 2 = 0'2• (1.51)

Именно поэтому параметр 0'2 называется дисперсией. Максимум плотности рас­


пределения называется его модой. У нормального распределения мода совпадает
с его математическим ожиданием (см. упра;щ11е11ие 1.9).
Нас также интересует нормальное распределение, определенное для D-мерного
векторах непрерывных случайных величин, которое задается формулой

(1.52)
56 ГЛАВА 1. ВВЕДЕНИЕ

где D-мерный вектор µ называется математическим ожиданием, матрица 1: раз­


мерности D х D называется ковариационной матрицей, а 11:1 обозначает опреде­
литель матрицы 1:. В этой главе мы вскоре воспользуемся многомерным нормаль­

ным распределением, хотя его свойства будут подробно изучены в разделе 2.3.

р(х)

Рис. 1.14. Функция правдоподобия для нормального распределения,

показанного красной кривой. Здесь черные точки обозначают

набор данных значений {x,J, а функция правдоподобия(\ .53) соответствует

произведению значений, показанных на графике в виде синих точек. Максимизация

правдоподобия сводится к вычислению математического ожидания и дисперсии

нормального распределения, обеспечивающих максимум этого произведения

т
Предположим теперь, что у нас есть набор данных х = (х 1 , "., xN) , представ-
ляющий собой N наблюдений скалярной случайной величины х. Заметим, что
мы используем шрифт х, чтобы отличить это множество от одного наблюдения
векторной случайной величины (х 1 , "" хп/, которую обозначим как х. Мы будем
предполагать, что наблюдения независимо друг от друга извлекаются из гене­
ральной совокупности, имеющей нормальное распределение, математическое
2 ~ б
ожидание µ, и дисперсия а которои неизвестны, и мы хотели ы определить эти

параметры по набору данных. Данные, которые извлекаются независимо друг от


друга из одной и той же генеральной совокупности, считаются независимыми и

одинаково распределенными, что часто сокращается до i.i.d. (independent and


identically distributed) Мы видели, что совместная вероятность двух независимых
событий равна произведению маргинальных вероятностей каждого события. По­
скольку наш набор данных х состоит из независимых и одинаково распределен­
ных случайных величин, мы можем записать вероятность набора данных при за­
данных параметрах µ и а2 в виде
1.2. Теория вероятностей 57

N
р(хJµ,ст 2 )= ПN(хпJµ,ст 2 ). (1.53)
n=I
2
Если рассматривать эту вероятность как функцию от µ и ст , то получим функ-
цию правдоподобия для нормального распределения, схематически показанную
на рис. 1.14.
Часто для определения параметров распределения вероятности на основе
наблюдаемого набора данных вычисляют значения параметров, которые макси­
мизируют функцию правдоподобия. Это может показаться странным, потому
что из нашего предыдущего обсуждения теории вероятностей представляется
более естественным максимизировать вероятность параметров при заданных
данных, а не вероятность данных при заданных параметрах. На самом деле эти
два способа взаимосвязаны, как будет показано в контексте аппроксимации кри­
вой (см. раздел 1.2.5).
Однако на данный момент мы определим значения для неизвестных парамет-
2
ров µ и ст нормального распределения, максимизируя функцию правдоподобия
(1.53). На практике удобнее максимизировать логарифмическую функцию прав­
доподобия. Поскольку логарифм является монотонно возрастающей функцией
своего аргумента, максимизация логарифма функции эквивалентна максимиза­
ции самой функции. Взятие логарифма не только упрощает последующие мате­
матические преобразования, но также облегчает вычисления, потому что произ­
ведение большого числа малых вероятностей может легко привести к потере
значимости при компьютерных вычислениях, и эта опасность устраняется путем

вычисления суммы логарифмов вероятностей. Из формул (1.46) и (1.53) следует,


что логарифмическая функция правдоподобия может быть записана в виде

(1.54)

Максимизируя (1.54) по µ, получаем решение задачи о максимальном прав­


доподобии математического ожидания (см. упра:щ11е11ие 1.11)
1 N
µML = NLXn, (1.55)
n=I

которое представляет собой среднее выборочное значение, т.е. среднее значение


наблюдаемых значений {хп}. Аналогично, максимизируя (1.54) по ст2 , получаем
решение задачи о максимальном правдоподобии дисперсии в виде
58 ГЛАВА 1. ВВЕДЕНИЕ

1 ~(
2 = NL,, )2 , (1.56)
О-мL хп -µМL
n=\

которое представляет собой выборочную дисперсию, вычисленную по выбороч­


ному среднему значению µМL. Заметим, что мы выполняем совместную макси-
2
мизацию (1.54) поµ и о- , но в случае нормального распределения решение дляµ
отделяется от решения для о-2 , так что мы можем сначала вычислить (1.55),
а затем использовать этот результат для вычисления (1.56).
Позднее в этой главе, а также в последующих главах мы остановимся на зна­
чительных ограничениях метода максимального правдоподобия. Здесь мы лишь
укажем на проблему в контексте наших решений задачи о параметрах макси­
мального правдоподобия для одномерного нормального распределения. В част­
ности, покажем, что метод максимального правдоподобия систематически недо­
оценивает дисперсию распределения. Это пример явления, называемого смеще­
нием. Оно связано с проблемой переобучения, встречающейся в контексте
аппроксимации полиномиальной кривой (см. раздел 1.1). Прежде всего заметим,
что решения задачи о максимальном правдоподобии µМL и о-~ являются функ­
циями от значений из набора данных х 1 , "., xN. Рассмотрим математические ожи­
дания этих величин по отношению к значениям, которые извлечены из гене­

ральной совокупности с нормальным распределением, имеющим параметры µ


2
и о-. Нетрудно показать (см. ynpaJ1c11e11ue 1.12), что

Е[.имr,] = µ, (1.57)

11"[ 0-МL
JrJ
2 J-N-1
-
N
0- 2
'
(1.58)

так что в среднем оценка максимального правдоподобия будет давать правиль­


ное математическое ожидание, но будет недооценивать истинную дисперсию на
множитель (N-1)/N. Интуитивная интерпретация этого результата представлена
на рис. 1.15.
Из формулы (1.58) следует, что следующая оценка для параметра дисперсии
является несмещенной:

-2
О-
N 2
=--O-мL=--L,, Xn-µML
N ~( )1 · (1.59)
N-1 N-1 n=I
1.2. Теория вероятностей 59

а)
!\,
б)

в)

Рис. 1.15. Причины смещения при исполиовании максимального правдоподобия

для определения дисперсии нормального распределения. Зеленая кривая показывает

истинное нормальное распределение, из которого генерируются данные, а три красные

кривые показывают нормальные распределения, полученные путем приближения к трем

наборам данных, каждая из которых состоит из двух точек, показанных синим цветом,

с использованием результатов максимального правдоподобия (1.55) и (1.56). Среднее

значение, усредненное по трем наборам данных, является правильным, но дисперсия

систематически недооценивается, поскольку она измеряется относительно среднего

выборочного значения, а нс относительно истинного математического ожидания

Обратите внимание, что смещение решения максимального правдоподобия


становится менее значительным по мере увеличения количества данных N и в

пределе при N~oo оценка дисперсии по методу максимального правдоподобия


равна истинной дисперсии распределения, которое генерирует данные. На прак­

тике, если значение N не является малым, смещение не является серьезной про­


блемой. Однако в этой книге нас будут интересовать более сложные модели со
многими параметрами, для которых проблемы смещения, связанные с макси­
мальным правдоподобием, будут значительно более серьезными. На самом деле,
как мы увидим, вопрос о смещении оценки в методе максимального правдопо­

добия уходит корнями в более сложную проблему, с которой мы столкнулись


ранее в контексте аппроксимации полиномиальной кривой.

1.2.5. Еще раз об аппроксимации кривой

Мы видели, как проблема аппроксимации полиномиальной кривой может быть


выражена в терминах минимизации ошибок. Здесь мы вернемся к примеру ап-
60 ГЛАВА 1. ВВЕДЕНИЕ

проксимации кривой (см. раздел 1.1) с вероятностной точки зрения, тем самым

получив некоторое представление о функциях ошибок и регуляризации, а также


сформулируем полное байесовское решение этой задачи. Цель в задаче аппрокси­
мации кривой состоит в предсказании значений целевой переменной t для новых

значений входной переменной х на основе обучающего множества данных, содер­


жащего N входных значений х = (х 1 , "., хN)т и соответствующих им целевых значе­
ний t = (t1, ". , tN)т. Мы можем выразить неопределенность значения целевой пере­
менной с помощью распределения вероятностей. Для этой цели предположим, что
при заданном значении х соответствующее значение t имеет нормальное распреде­
ление с математическим ожиданием, равным значению у(х, w) полиномиальной
кривой, заданной формулой (1 .1). Таким образом, имеем:

p(tlx, w,/J) = N{tly(x, w),р- 1 ). (1 .60)

Здесь для согласованности с обозначениями в последующих главах мы ввели


параметр точности fJ, соответствующий обратной дисперсии распределения. Это

схематически показано на рис. 1.16.

Хо х

Рис. 1.16. Схематическое представл ение условного нормального р а спределения ( 1.60)


для t при усл овии х , в котором математическое ожидание задастся

полиномиальной функцией у(х , w), а точность задается параметром fJ,


который связан с дисперсией соотношением /Г 1 = а 2

Теперь мы используем данные обучения {х, t}, чтобы определить значения


неизвестных параметров w и fЗ с помощью метода максимального правдоподо­
бия. Если данные независимо извлекаются из генеральной совокупности с рас­
пределением (1.60), то функция правдоподобия определяется формулой
1.2. Теория вероятностей 61

N
p(tlx,w,fi)= ПN(t11 ly(x11 ,w),p- 1 ). (1.61)
n=I

Как и в случае одномерного нормального распределения, рассмотренного ра­


нее, удобно перейти к максимизации логарифма функции правдоподобия. Исполь­
зуя формулу (1.46), получаем логарифмическую функцию правдоподобия в виде
р N N
LN 2
lnp(tlx,w,p) =-- {y(x11 ,w)-t11 } +-lnfi--ln(2tr).
2 n=I 2 2
(1.62)

Рассмотрим сначала решение задачи максимального правдоподобия для по­


линомиальных коэффициентов, которое будет обозначаться через wМL. Эти ко­
эффициенты определяются путем максимизации (1.62) по w. В этом случае мы
можем отбросить последние два члена в правой части (1.62), поскольку они не
зависят от w. Также отметим, что масштабирование логарифмической функции
правдоподобия положительным постоянным коэффициентом не изменяет ме­
стоположение максимума по w, и поэтому мы можем заменить коэффициент fi/2
на 1/2. Наконец, вместо максимизации логарифмической функции правдоподо­
бия мы можем перейти к минимизации отрицательной логарифмической функ­
ции правдоподобия. Следовательно, максимизация правдоподобия параметров w
эквивалентна минимизации суммы квадратов ошибок, определенной формулой
(1.2). Таким образом, сумма квадратов ошибок возникла в результате максими­
зации правдоподобия при условии, что шум имеет нормальное распределение.
Мы также можем максимизировать правдоподобие для определения парамет­
ра точности р в условном нормальном распределении. Максимизация (1.62) пор

дает

(1.63)

И снова мы можем сначала определить вектор параметров wМL, от которого за­


висит математическое ожидание, и затем использовать его, чтобы найти точность
fЗМL, как это бьmо в случае одномерного нормального распределения (см. раз­
дел 1.2.4).
Определив параметры w и Р, мы можем теперь делать прогнозы при новых
значениях х. Поскольку у нас теперь есть вероятностная модель, эти значения
выражаются через прогностическое распределение, которое дает распределение
вероятности по t, а не просто точечную оценку, и получается путем подстановки

параметров максимального правдоподобия в (1.60):


62 ГЛАВА 1. ВВЕДЕНИЕ

p(tlx, wМL,pМL) = N(tly(x, wМL ),p;,ri_ ). (1.64)

Теперь сделаем шаг в направлении к байесовскому подходу и введем в рас­


смотрение априорное распределение коэффициентов полинома w. Для простоты
рассмотрим нормальное распределение вида

(1.65)

где а- точность распределения; М + 1- общее количество элементов вектора


w для полинома М-го порядка. Переменные, такие как а, от которых зависит
распределение параметров модели, называются гиперпараметрами. По теореме

Байеса апостериорное распределение параметров w пропорционально произве­


дению априорного распределения и функции правдоподобия

p(wlx,t,a,p) ос p(tlx,w,p)p(wla ). (1.66)

Теперь мы можем определить вектор w, найдя его наиболее вероятное значение


при заданных данных, иначе говоря, максимизируя априорное распределение. Этот

метод назьmается методом апостериорного максимума, или МАР (maximum poste-


rior). Беря отрицательный логарифм (1.66) и комбинируя его с (1.62) и (1.65), нахо­
дим, что апостериорный максимум определяется минимумом выражения

Р N 2 а т
-I{y(xп,w)-tп} +-w w. (1.67)
2 n=I 2
Таким образом, мы видим, что максимизация апостериорного распределения
эквивалентна минимизации регуляризованной суммы квадратов ошибок, встре­
чавшейся ранее в форме (1.4), с параметром регуляризации, равным А,= а/р.

1.2.6. Байесовская аппроксимация кривой

Хотя мы учли априорное распределение p(wl а), мы до сих пор все еще не по­
лучили точечную оценку w, и поэтому это еще не совсем байесовский подход.
В полностью байесовском подходе мы должны последовательно применять пра­
вила сложения и умножения вероятностей, что требует, как мы вскоре увидим,
интегрирования по всем значениям w. Именно такая маргинализация лежит в ос­
нове байесовских методов распознавания образов.
В задаче аппроксимации кривой мы имеем обучающие данные х и t вместе
с новой тестовой точкой х, и наша цель - предсказать значение t. Следователь­

но, мы хотим вычислить прогностическое распределение p(tlx, х, t). Здесь мы


1.2. Теория вероятностей 63

будем предполагать, что параметры а и /3 фиксированы и известны заранее


(в последующих главах мы обсудим, как такие параметры могут быть выведены
из данных в рамках байесовского подхода).
Байесовский подход, по существу, сводится к последовательному примене­
ншо правил сложения и умножения вероятностей, которые позволяют записать

прогностическое распределения в форме

p(tlx,x, t) = Jp(tlx, w)Р( wlx, t)dw, (1.68)

где p(tlx, w) задается формулой (1.60), причем мы не указали зависимость от а


и /3 для упрощения обозначений. Функция p(wlX, t) является априорным распре­
делением по параметрам и может быть найдена путем нормирования правой ча­
сти (1.66). В разделе 3.3 мы увидим, что для таких задач, как аппроксимация
кривой, это апостериорное распределение является нормальным и вычисляется

аналитически. Точно так же интегрирование в формуле (1.68) можно выполнить


аналитически, в результате чего прогностическое распределение принимает вид

нормального распределения:

p(tlx,x, t) =N( tl т( х ),s 2 ( х) ), (1.69)

где математическое ожидание и дисперсия задаются формулой

Т N
т(х)=/ЗФ(х) SLФ(хп)tп, (1.70)
n=I

(1.71)

Здесь матрица S задается формулой

(1.72)

где 1- единичная матрица, а вектор ф(х) определен как вектор элементов


ф;(х)(х) = х; при i = О, "., М.
Мы видим, что дисперсия и математическое ожидание прогностического рас-

пределения в (1.69) зависит от х. Первое слагаемое в (1.71) представляет собой


неопределенность в предсказанном значении t из-за шума в целевых перемен­

ных. Оно уже отражено в прогностическом распределении максимального прав-

доподобия (1.64) с помощью величины /3~. Однако второе слагаемое возникает


из-за неопределенности параметров w и является следствием байесовского под­
хода. Прогностическое распределение для задачи синусоидальной регрессии по­
казано на рис. 1.17.
64 ГЛАВА 1. ВВЕДЕНИЕ

о
-1

о х

Рис. 1.17. Прогностическое распределение, полученное в результате байесовской

аппроксимации полиномиальной кривой с использованием полинома степени М = 9


-3
с фиксированными параметрами а= 5 · 1О и fЗ = 1 1, 1 (что соответствует известной

дисперсии шума), в которой красная кривая обозначает математическое ожидание

прогностического распределения, а красная область соответствует отклонению от

математического значения на величину, не превышающую одно стандартное отклонение

1.3. Выбор модели


В примере, посвященном аппроксимации полиномиальных кривых с исполь­

зованием метода наименьших квадратов, мы видели, что существует оптималь­

ный порядок полинома, который дает наилучшее обобщение. Порядок полинома


определяет количество свободных параметров в модели и тем самым определяет
ее сложность. В регуляризованном методе наименьших квадратов на реальную

сложность модели влияет коэффициент регуляризации А., в то время как для бо­
лее сложных моделей, таких как смеси распределений или нейронные сети, мо­
жет существовать множество параметров, определяющих их сложность. Для
практического применения нам необходимо определить значения таких пара­
метров, и главная цель при этом - достижение наилучших прогностических ха­

рактеристик для новых данных. Кроме того, чтобы найти подходящие значения
параметров сложности в данной модели, мы можем рассмотреть ряд различных
видов моделей, пытаясь найти наилучшую для нашего конкретного приложения.
Мы уже видели, что в методе максимального правдоподобия точность на обу­
чающем множестве не является хорошим показателем прогностической точности
на неизвестных данных из-за проблемы переобучения. Если данных много, то один
из возможных подходов состоит в том, чтобы просто использовать некоторые из
доступных данных для обучения целого ряда моделей или одной выбранной моде-
1.3. Выбор модели 65

ли с заданными параметрами сложности, а затем сравнить их с независимыми дан­

ными, иногда назьmаемыми контрольным множеством, и выбрать ту модель, ко­


торая имеет наилучшую прогностическую точность. Если выбор модели много­
кратно повторяется на одном и том же контрольном множестве, может произойти
переобучение, и поэтому иногда необходимо отложить третье, тестовое множе­
ство, на котором определяется окончательная прогностическая точность.

Во многих приложениях объем данных для обучения и тестирования огра­


ничен, хотя для создания хороших моделей необходимо использовать как
можно больше доступных данных. В то же время, если контрольное множе­
ство невелико, оно дает искаженную оценку прогностической точности. Од­
ним из решений этой дилеммы является использование перекрестной провер­
ки2 (рис. 1.18). Она позволяет использовать для обучения все доступные дан­
ные в пропорции (S- l)/S. Если данных очень мало, может быть уместно
рассмотреть случай S = N, где N - общее количество данных. Такой метод
называется поэлементной перекрестной проверкой.

попытка 1

попытка 2

попытка 3

...__ __._ ___.__ _ _5


_,_·~__, попытка 4
Рис. 1.18. Метод S-групповой перекрестной проверки, проиллюстрированный здесь для

случая S = 4, включает в себя получение доступных данных и разбиение их на S групп


(в простейшем случае они имеют одинаковый размер). Затем S - 1 групп используются

для обучения набора моделей, а оценка точности осуществляется на оставшейся группе.

После этого описанная процедура повторяется для всех возможных вариантов выбора S
групп, обозначенных здесь красным цветом, а показатели точности, полученные

в результате S сеансов обучения, усредняются

Одним из основных недостатков перекрестной проверки является то, что коли­


чество сеансов обучения, которые необходимо выполнить, увеличивается в S раз,
что может оказаться проблематичным для моделей, в которых обучение само по
себе является дорогостоящим. Еще одна проблема с такими методами, как пере­
крестная проверка, использующая отдельные данные для оценки точности, со­

стоит в том, что у нас может быть несколько параметров сложности одной модели

2
Используется также термин кроссвалидация. - Примеч. ред.
66 ГЛАВА 1. ВВЕДЕНИЕ

(например, несколько параметров регуляризации). Изучение комбинаций таких


параметров могло бы в худшем случае потребовать нескольких сеансов обучения,
количество которых экспоненциально растет при увеличении количества парамет­

ров. Очевидно, что нам нужен более эффективный подход.


В идеале бьmо бы желательно основываться только на данных обучения и срав­
нивать несколько гиперпараметров и типов моделей в рамках одного сеанса обуче­
ния. Следовательно, нам необходимо найти показатель точности, который зависит
только от данных обучения и не страдает от смещения из-за переобучения. Истори­
чески сложилось так, что бъти предложены различные "информационные крите­
рии", которые пытаются исправить смещение максимального правдоподобия путем
добавления штрафа, чтобы компенсировать переобучение более сложных моделей.
Например, информационный критерий Акаике, или AIC (Akaike, 1974), выбирает
модель, для которой величина

Inp(VlwМL)-м (1.73)

является самой большой. Здесь p(VlwмL) - максимум логарифмической функ­


ции правдоподобия, а М - количество регулируемых параметров в модели. Ва­
риант этой величины, называемой байесовским информационным критерием,
или BIC, будет рассмотрен в разделе 4.4.1. Однако такие критерии не учитывают
неопределенность в параметрах модели, и на практике они, как правило, пред­

почитают слишком простые модели. Поэтому в разделе 3.4 мы переходим к

полностью байесовскому подходу, в котором штрафы за сложность возникают


естественным и принципиальным образом.

1.4. Проклятие размерности

В примере, посвященном аппроксимации полиномиальной кривой, мы имели

только одну входную переменную х. Однако для практического применения


распознавания образов нам придется иметь дело с пространствами большой раз­
мерности, включающими множество входных переменных. Сейчас мы обсудим,

как это создает серьезные проблемы и почему является важным фактором, вли­
яющим на разработку методов распознавания образов.
Чтобы проиллюстрировать проблему, рассмотрим искусственный набор дан­
ных, представляющий собой измерения, взятые из трубопровода, содержащего
смесь нефти, воды и газа (Вishop and James, 1993). Эти три материала могут при­
сутствовать в одной из трех различных геометрических конфигураций, известных
как однородные, кольцевые и ламинарные, причем фракции трех материалов так-
1.4. Проклятие размерности 67

же моrут варьироваться. Каждая точка данных содержит 12-мерный входной век­


тор, состоящий из измерений, выполненных с помощью радиоактивных денсито­
метров, которые измеряют затухание гамма-лучей, проходящих в виде узких пуч­
ков через трубу. Этот набор данных подробно описан в приложении А. На
рис.1.19 показаны 100 точек из этого набора данных в виде диаграммы рассеяния,
показывающей 2 из 12 измерений, х6 и х7 (остальные десять входных значений не
указаны, чтобы не усложнять рисунок). Каждая точка данных помечена в соответ­
ствии с тем, какому из трех геометрических классов она принадлежит. Наша цель
состоит в том, чтобы использовать эти данные в качестве обучающего множества
и получить возможность классифицировать новое наблюдение (х6 , х7), обозначен­
ное крестиком на рис. 1.19. Мы видим, что крестик окружен многочисленными
красными точками, поэтому можем предположить, что он принадлежит красному

классу. Однако поблизости есть множество зеленых точек, поэтому мы можем по­
думать, что он может принадлежать зеленому классу. Кажется маловероятным,
что он принадлежит синему классу. Интуитивное предположение заключается в
том, что идентичность крестика должна сильнее определяться соседними точками

из обучающего множества и слабее - более отдаленными точками. Фактически


это интуитивное предположение оказывается разумным и более подробно обсуж­
дается в последующих главах.

Рис. 1.19. Диаграмма рассеяния данных о п отоке нефти дл я входных переменных х 6 и х 7 ,

в которых крас ный цвет обоз нач ает однорощ1ый кла с с , зеле ный - кол ьце во й класс ,

сини й -- ламинарный кла сс. Наша нсль - класс ифицировать н овую

контрольн у ю точ ку, обоз н ач енн ую крести ко м


68 ГЛАВА 1. ВВЕДЕНИЕ

Как превратить интуитивное предположение в алгоритм обучения? Один


очень простой подход состоял бы в том, чтобы разделить входное пространство
на обычные ячейки, как показано на рис. 1.20. Когда нам дана тестовая точка
и мы хотим предсказать ее класс, мы сначала решаем, какой ячейке она принад­

лежит, а затем находим все точки данных из обучающего множества, которые


попадают в ту же ячейку. Идентичность тестовой точки определяется классом,
имеющим наибольшее количество обучающих точек в той же самой ячейке, что
и тестовая точка (со случайными нарушениями связей).
2 .------т-----т-----.---~

0,25 0,75

Рис. 1.20. Простой подход к решению проблемы классификации, в которой входное

пространство разделяется на ячейки, и любая новая тестовая точка присваивается

классу, который имеет большинство представителей в той же ячейке, что и тестовая

точка. Как мы вскоре увидим, этот упрощенный подход имеет серьезные недостатки

С этим наивным подходом связано много серьезных проблем, но одна из самых


серьезных проявляется, когда мы рассматриваем его расширение для задач с

большим количеством входных переменных, соответствующих входным про­


странствам большей размерности. Происхождение проблемы проиллюстрировано
на рис. 1.21, который показывает, что если мы разделим область пространства на
регулярные ячейки, то число таких ячеек с увеличением размерности пространства

растет экспоненциально. Проблема, связанная с экспоненциально большим коли­


чеством ячеек, заключается в том, что нам потребуется экспоненциально большое
количество данных для обучения, чтобы гарантировать, что ячейки не будут пу­
сть~ми. Ясно, что применить такой метод в пространстве более чем нескольких пе­
ременных практически невозможно, поэтому нужно найти более сложный подход.
1.4. Проклятие размерности 69

Хз
D= 1 D =2 D=3
Рис. 1.21. Проклятие размерности: количество областей регулярной сетки

экспоненциально растет при увеличении размерности пространства D.


Для ясности показано только подмножество кубических областей для D =3

Мы можем получить более полное представление о проблемах, связанных


с пространствами большой размерности, вернувшись к примеру о полиномиаль­
ной кривой (см. раздел 1.1) и рассмотрев пространство несколько переменных.
Если у нас есть D входных переменных, то общий полином не более третьего
порядка примет вид

D D D D D D
y(x,w)=w0 + LW;X; +
i=l
IIw11 x x1 + LLLW/lkx x1xk.
i=I J=I
1
i=I }=1 k=I
1 (1.74)

При увеличении размерности D количество независимых коэффициентов (не


все коэффициенты являются независимыми из-за взаимной симметрии между
переменными х) растет пропорционально D3• На практике для отражения слож­
ных зависимостей в данных нам может потребоваться использовать полином бо­
лее высокого порядка. Для полинома порядка М рост количества коэффициентов
равен if. Несмотря на то что теперь это рост степенной, а не экспоненциальный
(см. упражнеиие 1.16), он все же указывает на то, что метод становится очень
громоздким и имеет ограниченную практическую полезность.

Наши геометрические интуитивные предположения, сформированные в тече­


ние жизни, проведенной в пространстве трех измерений, могут сильно подвести

нас в пространствах большей размерности. В качестве простого примера рас­


смотрим сферу радиуса r =1в пространстве размерности D и определим, какая
доля объема сферы лежит между радиусом r = 1 - с и r = 1. Мы можем оценить
эту долю, отметив, что объем сферы радиуса r в пространстве D измерений дол­
жен масштабироваться как rD, и поэтому пишем
(1.75)
70 ГЛАВА 1. ВВЕДЕНИЕ

где постоянная Кп зависит только от D. Таким образом, искомая доля определя­


ется (см. упра;нснение 1.18) как

(1.76)

График этой функции для различных значений D приведен на рис. 1.22. Мы видим,
что при больших D эта доля стремится к единице даже при малъ~х значениях &.
Таким образом, в пространствах большой размерности большая часть объема шара
сосредоточена в тонкой оболочке вблизи поверхности!

0,8

"'::;;
Q)
..а

о
о;
i::;
о
i::t

0,2

Рис. 1.22. График доли объема сферы, лежащей в диапазоне

от r = 1- Е до r = 1 при различных значениях размерности D

В качестве еще одного примера, непосредственно относящегося к распозна­

ванию образов, рассмотрим поведение нормального распределения в простран­


стве большой размерности. Если мы перейдем от декартовых к полярным коор­
динатам, а затем проинтегрируем по полярному углу, то получим выражение

для плотности p(r) как функции расстояния r от начала координат (см. упраж­
нение 1.20). Таким образом, p(r)дr - это масса вероятности внутри тонкой обо­
лочки толщиной дr, расположенной на расстоянии r от начала координат. На
рис. 1.23 это распределение построено для различных значений D, и мы видим,
что при больших D масса вероятности нормального распределения сосредоточе­
на в тонкой оболочке.
1.4. Проклятие размерности 71

Рис. 1.23. График плотности вероятности по радиусу r нормального


распре11еления при различных значениях размерности D. В пространстве

большой размерности большая часть массы вероятности нормального

распределения находится в тонкой оболочке с опре11елс1111ым радиусом

Трудная проблема, которая может возникнуть в пространствах многих изме­


рений, иногда называется проклятием размерности (Bellman, 1961 ). В этой кни­
ге мы будем широко использовать иллюстративные примеры, включающие ис­
ходные пространства одного или двух измерений, поскольку это особенно удоб­
но для графической иллюстрации методов. Однако читателю следует помнить,
что не все интуитивные предположения, развитые в пространствах с низкой раз­
мерностью, можно обобщать на пространства многих измерений.
Хотя проклятие размерности, безусловно, создает сложные проблемы для
приложений распознавания образов, это не мешает нам находить эффективные
методы, применимые к пространству с большой размерностью. Причины этого
двоякие. Во-первых, реальные данные часто ограничиваются областью про­

странства, имеющей более низкую эффективную размерность, и, в частности,


направления, в которых происходят важные изменения в целевых переменных,

могут быть ограниченными. Во-вторых, реальные данные обычно демонстриру­


ют некоторые свойства гладкости (по крайней мере, локальной), так что по
большей части небольшие изменения входных переменных будут приводить к
небольшим изменениям в целевых переменных. Поэтому мы можем использо­
вать локальные методы, подобные интерполяции, и делать предсказания целе­
вых переменных для новых значений входных переменных. У спешные методы

распознавания образов используют одно или оба этих свойства. Рассмотрим,


например, промышленное приложение, в котором на конвейерной ленте пода­

ются изображения одинаковых плоских объектов с целью определения их ори-


72 ГЛАВА 1. ВВЕДЕНИЕ

ентации. Каждое изображение является точкой в пространстве большой размер­


ности, которая определяется количеством пикселей на изображении. Поскольку
объекты могут встречаться на изображении в разных положениях и в разной
ориентации, существуют три степени свободы изменчивости между изображе­
ниями, а набор изображений будет лежать в трехмерном многообразии, вложен­
ном в пространство большой размерности. Из-за сложных отношений между по­
зицией или ориентацией объекта и интенсивностью пикселей это многообразие
будет сильно нелинейным. Если цель состоит в том, чтобы изучить модель, ко­
торая может принимать входное изображение и выводить ориентацию объекта
независимо от его положения, тогда существует только одна степень свободы
изменчивости внутри многообразия, что является значительным упрощением.

1.5. Теория принятия решений

В разделе 1.2 мы видели, как теория вероятностей предоставляет нам строгую

математическую основу для количественной оценки неопределенности. Здесь


мы переходим к обсуждению теории принятия решений, которая в сочетании с
теорией вероятностей позволяет принимать оптимальные решения в ситуациях,

связанных с неопределенностью, таких как те, которые встречаются при распо­

знавании образов.
Предположим, у нас есть входной вектор х вместе с соответствующим векто­
ром t целевых переменных, и наша цель - предсказать t с учетом нового зна­

чения х. В задачах регрессии вектор t будет содержать значения непрерывных


случайных величин, тогда как в задачах классификации вектор t будет пред­
ставлять метки классов. Совместное распределение вероятностей р(х, t) дает
полное описание неопределенности, связанной с этими случайными величина­
ми. Определение вероятности р(х, t) по набору обучающих данных является
примером логического вывода и, как правило, представляет собой очень слож­
ную задачу, решение которой является предметом большей части этой книги.
Однако в практическом применении мы часто должны делать конкретное пред­

сказание для значения t или, как правило, предпринимать конкретное действие,


основанное на нашем понимании значений t, которое, вероятно, будет иметь
место, и этот аспект является предметом теории принятия решений. Рассмотрим,
например, проблему медицинского диагноза, в которой мы получаем рентгенов­
ское изображение пациента и хотим определить, есть ли у него рак или нет.
В этом случае входной вектор х представляет собой набор интенсивностей пик­
селей на изображении, а выходная переменная t будет представлять наличие ра-
1.5. Теория принятия решений 73

ка, которое мы обозначаем классом С 1 , или отсутствие рака, которое обозначаем


классом С2 • Например, мы можем выбрать бинарную переменную t, так что
условие t =О соответствует классу С 1 , а условие t= 1- классу С2 • Мы увидим
позже, что этот выбор значений меток особенно удобен для вероятностных мо­
делей. Тогда общая проблема логического вывода включает в себя определение
совместного распределения р(х, Ck), или, эквивалентно, p(x,t), что дает нам
наиболее полное вероятностное описание ситуации. Хотя это может быть очень
полезным и информативным, в конце концов мы должны решить, лечить паци­
ента или нет, и мы хотели бы, чтобы этот выбор был оптимальным в некотором
разумном смысле (Duda and Hart, 1973). Это этап решения, и теория принятия
решений должна рассказать нам, как принимать оптимальные решения с учетом
соответствующих вероятностей. Мы увидим, что как только мы решили пробле­
му логического вывода, этап принятия решения, как правило, становится очень

простым и даже тривиальным.

Далее мы даем введение в ключевые идеи теории принятия решений, необхо­


димые для остальной части книги. Дальнейшую информацию, а также более по­
дробные сведения можно найти в Berger (1985) и Bather (2000).
Прежде чем дать более подробный анализ, сначала неформально рассмотрим
роль, которую вероятности могут играть в принятии решений. Если мы получа­

ем рентгеновское изображение х для нового пациента, наша цель - решить, ка­


кой из двух классов назначить изображению. Нас интересуют вероятности двух
классов для фиксированного изображения, которые задаются величинами
p(Ckjx). Используя теорему Байеса, эти вероятности можно выразить в виде

(с )
= p(xlCk)p(Ck)
(1.77)
р х р(х)
1
k .

Отметим, что любая из величин, входящих в теорему Байеса, может быть по­
лучена из совместного распределения р(х, Ck) либо с помощью маргинализации,
либо путем обусловливания относительно соответствующих переменных. Те­
перь мы можем интерпретировать p(Ck) как априорную вероятность класса Ck, а
p(Ckjx)- как соответствующую апостериорную вероятность. Таким образом,
р(С 1 ) представляет собой вероятность того, что у человека есть рак, до того как
мы сделаем рентгеновский снимок. Аналогично p(C1 jx)- это соответствующая
вероятность, пересмотренная с использованием теоремы Байеса в свете инфор­
мации, содержащейся на рентгеновском снимке. Если наша цель состоит в том,

чтобы свести к минимуму вероятность присвоениях неправильному классу, то-


74 ГЛАВА 1. ВВЕДЕНИЕ

гда интуитивно мы будем выбирать класс, имеющий более высокую апостери­


орную вероятность. Теперь мы покажем, что это интуитивное предположение
является верным, а также обсудим более общие критерии принятия решений.

1.5.1. Сведение к минимуму уровня ошибок


Предположим, что наша цель - сделать как можно меньше ошибочных оце­
нок. Нам нужно правило, которое присваивает каждое значение х одному из до­
ступных классов. Такое правило будет разделять входное пространство на области
Rь называемые областями принятия решений, по одной для каждого класса, так
что все точки в Rk присваиваются классу Ck. Границы между областями принятия
решений называются границами решений, или поверхностями решений. Обратите
внимание на то, что области принятия решений не обязаны быть связными и могут
состоять из некоторого количества непересекающихся областей. Конкретные при­
меры границ и областей решений мы встретим в последующих главах. Чтобы
найти оптимальное правило принятия решения, рассмотрим в первую очередь

случай двух классов, на примере проблемы диагностики рака. Ошибка возникает,


когда входной вектор, принадлежащий классу С 1 , присваивается классу ~.
и наоборот. Вероятность этого события определяется формулой

р (ошибка) = р ( х Е 'Ri, с;) + р ( х Е ~, Ci ) =


(1.78)
= Jp(x,c;)dx+ Jp(x,Ci)dx.
Ri ~

Мы можем свободно выбирать правило принятия решений, которое присваи­


вает каждую точку х одному из двух классов. Ясно, что для минимизации веро­

ятности ошибки мы должны сделать так, чтобы каждая точка х присваивалась


классу с меньшим значением подынтегрального выражения в (1.78). Таким обра­

зом, если р(х, С 1 ) > р(х, С2 ) при заданном значении х, то мы должны назначить
эту точку х классу С 1 • Из правила умножения вероятностей следует, что
р(х, Ck) = p(Ckix)p(x). Поскольку множитель р(х) является общим для обоих сла­
гаемых, мы можем повторить этот результат, указав, что минимальная вероят­

ность совершения ошибки получается, если каждому значению х присваивается


класс, для которого апостериорная вероятность p(Cklx) является наибольшей.
Этот результат проиллюстрирован для двух классов и одной входной перемен­
ной х на рис. 1.24.
1.5. Теория принятия решений 75

Рис. 1.24. Графики совместных вероятностей р(х, Ck) для каждого из двух классов в
зависимости от х вместе с границей решений х = х . Значения, удовлетворяющие
условие х ~ х, классифицируются как принадлежащие классу С2 и, следовательно,
относятся к области решения Rz, тогда как точки, удовлетворяющие условие х < х,
классифицируются как принадлежащие классу С 1 и относятся к области R 1. Ошибки
возникают в синей , зеленой и красной областях: при х <х ошибки возникают из-за

того, что точки из класса С2 ошибочно классифицируются как точки из класса С 1


(представлен суммой красной и зеленой областей) . И наоборот, для точек из области

х ~ х ошибки связаны с точками из класса С 1 , которые классифицируются как точки из


класса С2 (представлен синей областью). При варьировании границы решения х
объединения синей и зеленой областей остаются постоянными, тогда как размер

красной области изменяется. Оптимальным выбором для х является пересечение

кривых р(х, С 1 ) и р(х, С2 ), соответствующих условию х = х0 , так как в этом случае

красная область исче:Jает . Это соответствует решающему правилу с минимальным

уровнем ошибок, которое присваивает каждое значение х классу, имеющему более

высокую апостериорную вероятность p(Cklx)

Для более общего случая К классов максимизировать вероятность правиль­


ной классификации немного легче:
к

р (правильный ответ) = L р ( х Е Rk' ck) =


k=I
к
(1.79)
= L Jp(x,Ck)dx.
k=t nк

Эrа вероятность достигает максимума, если области Rk выбраны так, что каждому
значению х присваивается класс, для которого вероятность р(х, Ck) является
наибольшей. Опять же, используя правило умножения вероятностей р(х, Ck) =
76 ГЛАВА 1. ВВЕДЕНИЕ

=p(Cklx)p(x) и отмечая, что множитель р(х) является общим для всех слагаемых,
мы видим, что каждое значение х должно быть отнесено к классу, имеющему
наибольшую апостериорную вероятность p(Cklx).

1.5.2. Минимизация ожидаемых потерь

Во многих приложениях задача является более сложной, чем просто минимиза­


ция количества ошибочных классификаций. Снова рассмотрим проблему меДIЩИН­
ского диагноза. Мы отмечаем, что если у пациента, у которого нет рака, ошибочно
диагностирован рак, он может подвергнуться болезненному лечению или пройти
дальнейшие исследования. И наоборот, если раковый больной диагностируется как
здоровый, результатом может быть его преждевременная смерть из-за отсутствия
лечения. Таким образом, последствия этих двух типов ошибок могут быть совер­
шенно разными. Очевидно, было бы лучше делать меньше ошибок второго рода,
даже если это бьmо бы связано с тем, чтобы делать больше ошибок первого рода.
Мы можем формализовать такие проблемы посредством введения функции по­
терь, также называемой функцией стоимости, которая представляет собой еди­
ную общую меру потерь, понесенных при принятии любого из достуrшых реше­
ний или действий. Наша цель - минимизировать общие потери. Обратите внима­
ние на то, что некоторые авторы рассматривают вместо этого функцию
полезности, значение которой они стремятся максимизировать. Это эквивалент­
ные понятия, если мы используем слово "полезность" просто как противополож­
ность потери, и в этом тексте мы будем использовать термин "функции потерь".
Предположим, для нового значения х истинным классом является Ck и мы относим
х к классу ~ (где j может быть или не быть равным k). При этом мы несем некото­
рые потери, уровень которых обозначим как LkJ и будем рассматривать как эле­
мент ячейки k, j в матрице потерь (loss matrix). Например, в примере диагностики
рака у нас может быть матрица потерь, показанная на рис. 1.25. Эта конкретная

матрица потерь говорит о том, что при принятии правильного решения нет потерь,

если у здорового пациента диагностируется рак, и есть потери, уровень которых

равен 1ООО, если раковый пациент диагностируется как здоровый.

рак норма

рак ( о
1~00 )
норма 1

Рис. 1.25. Пример матрицы потерь с элементами LkJ для пробJiемы диагностики рака.

Строки соответствуют истинному классу, тогда как столбцы соответствуют классу,

присвоенному в соответствии с нашим критерием принятия решения


1.5. Теория принятия решений 77

Оптимальным решением является минимизация функции потерь. Однако

функция потерь зависит от истинного класса, который неизвестен. Для данного


входного вектора х наша неопределенность истинного класса выражается через

совместное распределение вероятностей р(х, Ck), и поэтому вместо этого мы


стремимся минимизировать средние потери, где среднее значение вычисляется

относительно данного распределения и представлено формулой

JE[L]= LL JLkJp(x,Ck)dx. (1.80)


k j 'R;

Каждое значение х может быть независимо назначено одной из областей ре­


шения R1. Наша цель - выбрать области R 1 так, чтобы минимизировать ожида­
емые потери(1.80), что означает, что для каждого х мы должны минимизиро­
вать функцию L
LkJ р ( х, Ck ) . Как и ранее, мы можем использовать правило
умножения вероятностей р(х, Ck) = p(Cklx)p(x), чтобы устранить общий множи­
тельр(х).
Таким образом, правило принятия решения, которое минимизирует матема­

тическое ожидание потерь, - это решение, которое присваивает каждое новое

значение х классу j , для которого величина

(1.81)

является минимальной. Это очевидно и тривиально, если мы знаем апостериор­

ные вероятности классов p(Cklx).

1.5.3. Отказ от принятия решения

Мы видели, что ошибки классификации возникают из-за областей исходного


пространства, в которых наибольшая из апостериорных вероятностей p(Cklx) зна­
чительно меньше единицы или, что эквивалентно, где совместные распределения

р(х, Ck) имеют сопоставимые значения. Это те области, где мы не совсем уверены
в решении. В некоторых приложениях бьmо бы целесообразно избегать принятия
решений в сложнъ~х случаях, стремясь понизить частоту ошибок на тех образцах,
для которь~х принято решение о классификации. Это называется непринятием ре­
шения. Например, в нашей гипотетической медицинской иллюстрации может быть
целесообразным использовать автоматическую систему для классификации тех
рентгеновских снимков, в отношении которых нет никаких сомнений, предостав­

ляя специалистам классифицировать более неоднозначные случаи. Мы можем до­


биться этого, введя порог 8и отбрасывая те значения х, для которь~х наибольшая
78 ГЛАВА 1. ВВЕДЕНИЕ

из апостериорных вероятностей р(Скlх) меньше или равна В. Эта ситуация проил­


шострирована на рис. 1.26 для случая двух Юiассов и одной непрерывной входной

переменной х. Обратите внимание, что условие В= 1 гарантирует, что все приме­

ры будут отЮiонены, тогда как для К Юiассов условие В< 1/К гарантирует, что ни
один пример не будет оТЮiонен. Таким образом, доля примеров, которые оТЮiо­
няются, контролируется значением условия()= 1.
Мы можем легко расширить критерий отЮiонения, чтобы свести к минимуму
математическое ожидание потерь при заданной матрице потерь, с учетом по­

терь, понесенных при отказе от принятия решения (см. ynpaJ1cue11ue 1.24).

р(С1 lx)
1,0 i-- - - -
()

0,0...__ _ _......____________,.
х
область неприятия
решения

Рис. 1.26. Отказ от принятия решения . Значениях такие,

что большая из двух апостериорных вероятностей меньше

или равна некоторому порогу В, поэтому решение нс будет принято

1.5.4. Вывод и решение

Мы разделили задачу Юiассификации на два отдельных этапа: этап логическо­


го вывода, в котором мы используем данные обучения, чтобы изучить модель
для вычисления p(Cklx), и последующий этап принятия решения, на котором мы
используем эти апостериорные вероятности, чтобы сделать оптимальный выбор
Юiассов. Альтернативной возможностью было бы решить обе задачи вместе и
изучить функцию, которая напрямую отображает входные данные х в решения.
Такая функция называется дискриминантной.
На самом деле мы можем выделить три подхода к решению проблем приня­
тий решений, которые были использованы в практических приложениях. Они
приводятся в порядке убывания сложности .
1.5. Теория принятия решений 79

а) Сначала решаем проблему логического вывода для определения условных


плотностей p(xlCk) для каждого класса Ck по отдельности. Также отдельно
выводим априорные вероятности классов p(Ck). Затем воспользуемся тео­
ремой Байеса в виде

р
( с Iх )= p(xlck)p(Ck)
k р(х)
(1.82)

для вычисления апостериорных вероятностей классов p(Cklx). Как обыч­


но, знаменатель по теореме Байеса можно выразить в терминах величин,
входящих в числитель, потому что

р( х) = LP( xlCk )Р( ck). (1.83)


k

Эквивалентно мы можем моделировать совместное распределение р(х, Ck)


непосредственно, а затем нормировать его для получения апостериорных

вероятностей. Найдя апостериорные вероятности, мы используем теорию

принятия решений для определения классов для каждого нового значения


х. Подходы, в которые явно или неявно моделируются распределения

входов и выходов, называются порождающими моделями, потому что пу­


тем выбора из них можно создавать искусственные точки данных во
входном пространстве.

б) Сначала решаем проблему вывода путем определения апостериорных ве­


роятностей классов p(Cklx), а затем применяем теорию принятия решений,
чтобы каждое новое значение х было отнесено к одному из классов. Под­
ходы, которые непосредственно моделируют апостериорные вероятности,

называются дискриминантными моделями.


в) Находим функцию f{x), называемую дискриминантной, которая отображает
каждое входное значение х непосредственно в метку класса. Например,

в случае двух классов функция/(·) может быть бинарной, так что условие
f= О соответствует классу С 1 , а условие f= 1 - классу ~. В этом случае
вероятности не играют никакой роли.

Рассмотрим относительные преимущества этих трех альтернатив. Подход а)


является наиболее требовательным, поскольку предполагает поиск совместного
распределения по х и Ck. Во многих приложениях вектор х будет иметь большую
размерность, и, следовательно, нам может понадобиться большой набор обучаю­
щих данных, чтобы иметь возможность определять условные по классу плотности
(class-conditional densities) с разумной точностью. Обратите внимание, что априор­
ные вероятности классов р( Ck) часто можно вычислить просто как долю точек из
80 ГЛАВА 1. ВВЕДЕНИЕ

множества обучающих данных, принадлежащих каждому из классов. В то же вре­


мя одним из преимуществ подхода а) является то, что он также позволяет опреде­
лить маргинальную ruютность данных р(х) из (1.83). Это может быть полезно для
обнаружения по модели новых точек с низкой вероятностью и точек, для которых
прогнозы могут иметь низкую точность. Это явление назьmается обнаружением
выбросов, или обнаружение новизны (Вishop, 1994; Tarassenko, 1995).

5 1,2
р(С 1 1х) p(C2lx)
p(x lC2)
<D
о
4
(.)
(.)
ctl
;2 0,8
:s: 3
"""
(.)
о 0,6
~
о
с:;
2
i::: 0,4

0,2

о
0,2 0,4 0,6 0,8 о 0,2 0,4 0,6 0,8
х х

Рис. 1.27. Пример двух условных по классу плотностей, имеющих одну входную

переменную х (левый график) вместе с соответствующими апостериорными

вероятностями (правый график). Заметим, что условная по классу плотность р(х1С 1 ),

показанная синим цветом на левой панели, нс влияет на апостериорные вероятности.

Вертикальная зеленая линия на правом графике показывает границу решения по х,

которая обеспечивает минимальный уровень ошибочной классификации, при условии

что априорные вероятности классовр(С 1 ) ир(С 2 ) одинаковы

Однако, если мы хотим всего лишь принимать решения о классификации, та­


кой подход может оказаться расточительным с точки зрения вычислительных

ресурсов и чрезмерно требовательным к данным, которые необходимы для того,


чтобы найти совместное распределение р(х, Ck). В то время как на самом деле
нам нужны только апостериорные вероятности подхода p(C1;lx), которые могут
бьпь получены непосредственно с помощью подхода б). Действительно, плот­
ности классов могут мало влиять на апостериорные вероятности, как показано

на рис. 1.27. Исследование относительных преимуществ порождающих и дис­


криминантных подходов к компьютерному обучению и поиску способов их со­
четания вызывает большой интерес (Jebara, 2004; Lasserre et al., 2006). Еще более
1.5. Теория принятия решений 81

простой подход в), в котором мы используем данные обучения, чтобы найти


дискриминантную функцию fl.x), которая отображает каждый вектор х непо­
средственно в метку класса, тем самым объединяя этапы вывода и принятия ре­
шения в единую задачу обучения. В примере, приведенном на рис. 1.27, это со­
ответствовало бы определению значения х, показанного вертикальной зеленой
линией, потому что это граница решения, обеспечивающая минимальный уро­
вень ошибочной классификации.
Однако в подходе в) мы больше не имеем доступа к апостериорным вероят­
ностям p(Cklx). Есть много веских причин для желания вычислить апостериор­
ные вероятности, даже если мы впоследствии используем их для принятия ре­

шений. К ним относятся:

Сведение риска к минимуму. Рассмотрим задачу, в которой элементы матрицы


потерь периодически подвергаются пересмотру (например, это характерно
для финансовых приложений). Если мы знаем апостериорные вероятности, то
можем тривиально пересмотреть критерий решения на основе минимального
риска, изменив соответствующим образом (1.81). Если у нас есть только дис­
криминантная функция, то любое изменение матрицы потерь потребует, что­
бы мы возвращались к данным обучения и заново решали проблему класси­
фикации.

Возможность отказаться от принятия решения. Апостериорные вероятности


позволяют определить критерий отказа от принятия решения, который мини­
мизирует уровень ошибочной классификации или, в более общем плане, ма­
тематическое ожидание потерь для данной доли отклоненных точек.

Компенсирование априорных вероятностей классов. Рассмотрим медицин­


скую задачу с рентгеновским снимком еще раз и предположим, что мы со­

брали большое количество рентгеновских снимков из генеральной совокуп­


ности для использования в качестве обучающих данных для создания автома­
тизированной системы скрининга. Поскольку рак среди населения в целом
встречается редко, мы можем обнаружить, что, скажем, только один из каж­
дых 1ООО примеров соответствует наличию рака. Если бы мы использовали
такой набор данных для обучения адаптивной модели, то могли бы столк­
нуться с серьезными трудностями из-за небольшой доли рака. Например,
классификатор, который назначал бы каждую точку классу здоровых людей,
уже достиг бы 99,9% точности, и было бы трудно избежать этого тривиально­
го решения. Кроме того, даже большой набор данных будет содержать очень
мало примеров рентгеновских снимков, соответствующих раку, и поэтому
82 ГЛАВА 1. ВВЕДЕНИЕ

алгоритм обучения не будет учитывать широкий спектр таких изображений


и, следовательно, вряд ли будет хорошо обобщаться. Сбалансированный
набор данных, в котором мы выбираем равное количество примеров из каж­
дого класса, позволил бы найти более точную модель. Однако мы должны
компенсировать последствия наших модификаций для данных обучения.
Предположим, мы использовали такой модифицированный набор данных и
нашли модели для апостериорных вероятностей. Из теоремы Байеса (1.82)
следует, что апостериорные вероятности пропорциональны априорным веро­

ятностям, которые мы можем интерпретировать как доли точек в каждом

классе. Поэтому мы можем взять апостериорные вероятности, полученные из


нашего искусственно сбалансированного набора данных, и сначала разделить
их на доли класса в этом наборе данных, а затем умножить на доли класса в
популяции, к которой хотим применить модель. Наконец, необходимо вы­
полнить нормализацию, чтобы сумма новых апостериорных вероятностей
равнялась единице. Обратите внимание, что эту процедуру нельзя применить,
если бы мы строили дискриминантную функцию напрямую, а не определяли
апостериорные вероятности.

Комбинирование моделей. Для сложных приложений мы, возможно, захотим


разбить задачу на ряд меньших подзадач, каждая из которых может решаться

отдельным модулем. Например, в гипотетической проблеме медицинского


диагноза у нас может быть информация, полученная из анализов крови, а
также по рентгеновским снимкам. Вместо того чтобы объединять всю эту не­
однородную информацию в одном огромном пространстве входных данных,
может быть более эффективным создание одной системы для интерпретации
рентгеновских изображений и другой для интерпретации показателей крови.
Поскольку каждая из двух моделей дает апостериорные вероятности для
классов, мы можем систематически комбинировать выходы с использованием
правил теории вероятностей. Простой способ сделать это - предположить,
что для каждого класса в отдельности входные данных о рентгеновских

снимках, обозначенные как х1 , и данные о крови, обозначенные как хв, явля­


ются независимыми, так что

(1.84)

Это пример условной независимости, поскольку эта независимость имеет ме­


сто, если распределение обусловлено классом Ck. Следовательно, апостериор-
1.5. Теория принятия решений 83

ная вероятность, учитывающая как рентгеновские данные, так и данные о

крови, определяется формулой

p(Ck Х1, хв) ос р(х1, XвiCk)p(Ck) ос


ос p(x1ICk)p(xвiCk)p(Ck) ос (1.85)

ос
Р( Cklx1)P( Cklxв)
p(Ck)
Таким образом, нам нужны априорные вероятности класса р( Ck), которые
легко можно вычислить на основе долей данных в каждом классе. Затем нам
нужно нормировать полученные апостериорные вероятности, чтобы их сумма
равнялась единице. Особое предположение об условной независимости (1.84)
является примером наивной модели Байеса (см. раздел 8.2.2). Обратите внима­
ние на то, что совместное маргинальное распределение р(х 1 , хв) обычно не будет
факторизоваться в рамках этой модели. В последующих главах мы увидим, как
строить модели для объединения данных, которые не требуют предположения
об условной независимости (1.84).

1.5.5. Функции потерь для регрессии

До сих пор мы обсуждали теорию принятия решений в контексте классифи­


кации. Обратимся теперь к случаю регрессионных задач, таких как аппроксима­
ция кривой, рассмотренная ранее. Этап решения состоит в том, чтобы выбрать
конкретную оценку у(х) значения t для каждого входного значениях. Предпо­
ложим, что при этом мы несем потери L(t, у(х)). Средние, или ожидаемые, поте­
ри определяются формулой

JE[ L] = Jf L{t,y( х)) р( x,t )dxdt. (1.86)

Типичным выбором функции потерь в регрессионных задачах является квад­


рат потерь, задаваемый формулой L(t, у(х)) = {у(х) - t} 2 • В этом случае ожидае­
мые потери можно записать как

JE[L]= Jf {y(x)-t} 2 p(x,t)dxdt. (1.87)

Наша цель - выбрать у(х) так, чтобы минимизировать JE[L]. Если мы пред­
положим, что функция у(х) является достаточно гладкой, то можем сделать это
формально, используя вариационное исчисление (с.и. приложеиие I):
84 ГЛАВА 1. ВВЕДЕНИЕ

дЕ(L)
( ) = 2f{ у ( х) - t} р ( х, t) dt = о. (1.88)
ду х

Решая это уравнение относительно у(х) и используя правила сложения и


умножения вероятностей, получим:

Jtp(x,t)dt
у(х)= р(х) J
= tp(tlx)dt=E 1 [tlx]. (1.89)

Эта функция является условным средним случайной величины t при условии хи


называется функцией регрессии (рис. 1.28). Этот результат можно легко распро­
странить на несколько целевых переменных, представленных вектором t, и в

этом случае оптимальным решением является условное среднее у(х) = E 1[tlx]


(см. упражиеиие 1.25).

Рис. 1.28. Функция регрессии у(х), которая минимизирует ожидаемые квадратичные

потери, определяется математическим ожиданием условного распределения p(tlx)

Мы также можем получить этот результат несколько иначе, что также проли­
вает свет на характер задачи о регрессии. Учитывая то, что оптимальным реше­

нием является условное ожидание, мы можем разложить квадратный член сле­

дующим образом:

2 2
{у(х) - t} = {у(х)- IEl[tlx] + E[tlx] - t} =
= {y(x)-E[tlx]} 2 + 2{y(x)-E[tlx]}{E[tlx] - t} + {E[tlx] - t} 2 ,

где, чтобы не усложнять обозначения, мы используем E[tlx] вместо E 1[tlx]. Под­


ставляя это выражение в функцию потерь и выполняя интегрирование по t, мы
1.5. Теория принятия решений 85

видим, что смешанное слагаемое обращается в нуль, и получаем выражение для


функции потерь в виде

f
JE(L) = J{y( х )-JE(tlx )} 2 р( х )dx + var[tlx ]Р( x)dx. (1.90)

Функция у(х), которую мы пытаемся определить, входит только в первый


член, который будет минимальным, когда у(х) будет равным JE[tlx], и в этом
случае этот член исчезнет. Это просто результат, который мы получили ранее, и
он показывает, что оптимальный предиктор наименьших квадратов задается

условным математическим ожиданием. Второй член - дисперсия распределе­

ния t, усредненная по х. Она отражает внутреннюю изменчивость целевых дан­

ных и может рассматриваться как шум. Она не зависит от у(х) и поэтому пред­
ставляет собой минимально возможное значение функции потерь.
Как и в задаче классификации, мы можем либо определить соответствующие
вероятности, а затем использовать их для принятия оптимальных решений, либо
строить модели, которые принимают решения напрямую. В самом деле, мы мо­
жем выделить три подхода к решению регрессионных задач, перечисленных ни­

же в порядке убывания сложности.

а) Сначала определяем совместную плотность р(х, t). Затем нормируем, что­


бы найти условную плотность p(tlx), и наконец вычисляем условное мате­
матическое ожидание, заданное формулой (1.89).
б) Сначала определяем условную плотность p(tlx), а затем вычисляем услов­
ное математическое ожидание, заданное формулой (1.89).
в) Находим функцию регрессии у(х) непосредственно по обучающим дан­
ным. Относительные преимущества этих трех подходов те же, что и в за­
дачах классификации, перечисленных выше.

Квадратичные потери - не единственный возможный выбор функции потерь


для регрессии. Бывают ситуации, когда потери в квадрате могут привести
к очень плохим результатам и необходимо разработать более сложные подходы.
Важным примером служат ситуации, когда условное распределение p(tlx) явля­
ется многомодальным, что часто бывает при решении обратных задач. Здесь мы
вкратце рассмотрим одно простое обобщение квадратичных потерь (c,w. раз­
дел 5.6), называемое функцией потерь Минковского, математическое ожидание
которой задается формулой

(1.91)
86 ГЛАВА 1. ВВЕДЕНИЕ

При q =2 она сводится к математическому ожиданию квадратичных потерь.

График функции IY - tlq в зависимости от IY - tl при различных значениях q по­


казан на рис. 1.29. Минимум IFJ[Lq] задается условным математическим ожидани­
ем при q = 2, условной медианой при q=1 и условной модой при q = О (с.'И.
упра.жиение 1.27).

q=О,З

"
= =
"
1 1
~ ~

-1 о 2 -1 о
y-t y- t
2

q = 10

"
=1
=
"
1
~ ~

о~~~~~~~~~~~~~

-2 -1 о 2
о
-2 -1
~ о
)
2
y- t y-t
Рис. 1.29. Графики функции Lq = ly - tlq при разных значениях q

1.6. Теория информации


В этой главе мы обсудили различные концепции теории вероятностей и теории

решений, которые станут основой для большей части последующего обсуждения в


этой книге. Мы заканчиваем эту главу, введя некоторые дополнительные понятия
из области теории информации, которые также окажутся полезными в нашем ана­
лизе методов распознавания образов и машинного обучения. Опять же, мы сосре­
доточимся только на ключевых понятиях и за более подробной информацией бу­
дем отсылать читателя к другим источникам (ViterЬi and Omura, 1979; Cover and
Thomas, 1991; МасКау, 2003).
1.6. Теория информации 87

Начнем с рассмотрения дискретной случайной величины х и спросим, сколь­


ко информации мы получаем, наблюдая определенное значение этой случайной
величины. Объем информации можно рассматривать как "степень удивления"
при изучении значениях. Если нам говорят, что произошло очень маловероятное

событие, мы получим больше информации, чем если бы нам сказали, что про­
изошло очень вероятное событие, и если бы мы знали, что событие обязательно
произойдет, то не получили бы никакой информации. Поэтому наша мера ин­
формационного содержания будет зависеть от распределения вероятности р(х),
поэтому мы ищем величину h(x), которая является монотонной функцией веро­
ятности р(х) и выражает информационное содержание. Форму функции h(")
можно найти, заметив, что если мы имеем два событиях и у, которые не связаны
друг с другом, то выигрыш информации от наблюдения за ними должен быть
суммой информации, полученной от каждого из них по отдельности, так что

h(x,y) = h(x) + h(y). Два несвязанных события будут статистически независимы­


ми, поэтому р(х, у) = р(х)р(у). Из этих двух соотношений легко показать, что
функция h(x) задается логарифмомр(х), и поэтому (см. упраж11е11ие 1.28)
h(x) = -log2 р(х), (1.92)

где отрицательный знак гарантирует, что информация является положительной


или нулевой. Обратите внимание, что события с низкой вероятностью х соответ­
ствуют высокому информационному содержанию. Выбор основания для лога­
рифма произволен, и на данный момент мы примем соглашение, распространен­
ное в теории информации об использовании логарифмов с основой 2. В этом
случае, как мы вскоре увидим, единицами измерения h(x) являются биты ("дво­
ичные цифры").
Теперь предположим, что отправитель хочет передать получателю значение

случайной величины. Среднее количество информации, которую он передает


в процессе, равно математическому ожиданию (1.92) относительно распределе­
нияр(х) и задается формулой

Н[х) =-Ip(x)log 2 р(х). (1.93)


х

Эта важная величина называется энтропией случайной величины х. Заметим,

что lim р log 2 р =О, поэтому будем считать, что р(х) log 2 р(х) =О всякий раз, ко­
р~о
rда мы сталкиваемся со значением х, для которого р(х) = О.

До сих пор мы приводили эвристическую мотивацию для определения ин­


формации (1.92) и соответствующей энтропии (1.93). Покажем теперь, что эти
88 ГЛАВА 1. ВВЕДЕНИЕ

определения действительно обладают полезными свойствами. Рассмотрим слу­


чайную величину х, имеющую восемь возможных значений, каждое из которых
одинаково вероятно. Чтобы передать значение х получателю, нам нужно пере­
дать сообщение длиной три бита. Заметим, что энтропия этой случайной вели­
чины дается выражением

1 1
Н [х] = -8 · - log 2 - = 3 бита.
8 8
Рассмотрим теперь пример
(Cover and Thomas, 1991) случайной величины,
имеющей восемь возможных значений {а, Ь, с, d, e,f, g, h}, для которых соответ­
ствующие вероятности равны (1/2, 114, 1/8, 1/16, 1164, 1164, 1164, 1164). В этом
случае энтропия задается выражением

Мы видим, что случайная величина с неравномерным распределением имеет

меньшую энтропию, чем случайная величина с равномерным распределением.


И вскоре мы поймем причины этого явления, когда обсудим интерпретацию эн­
тропии с точки зрения неупорядоченности. На данный момент рассмотрим, как
мы передаем идентификатор состояния случайной величины получателю. Мы
могли бы сделать это, как и прежде, с помощью трехбитного номера. Однако мы
можем воспользоваться неравномерным распределением, используя более ко­
роткие коды для более вероятных событий за счет более длинных кодов для ме­
нее вероятных событий, в надежде получить более короткую среднюю длину
кода. Это можно сделать, представив значения {а, Ь, с, d, e,f, g, h}, используя,
например, следующий набор строк кода: О, 10, 110, 1110, 111100, 111101,
11111 О, 111111. Средняя длина кода, который должен быть передан, равна

1 1 1 1 1
средняя длина кода = - ·1 + - · 2 + - · 3 + - · 4 + 4 · - · 6 = 2 бита.
2 4 8 16 64
Это значение совпадает с энтропией случайной величины. Обратите внимание,
что более короткие строки кода использовать невозможно, потому что разложе­

ние строки на компоненты должно быть однозначным. Например, код 1100111 О


однозначно кодирует последовательность значений с, а, d.
Это соотношение между энтропией и кратчайшей длиной кодирования явля­
ется общей закономерностью. В теореме о кодировании для канш~а без помех
1.6. Теория информации 89

(Shannon, 1948) утверждается, что энтропия является нижней границей количе­


ства битов, необходимых для передачи значения случайной величины.
С этого момента мы перейдем к использованию натуральных логарифмов при
определении энтропии, поскольку это обеспечит более удобную связь с идеями,
изложенными в других главах этой книги. В данном случае энтропия измеряется

в натах (nats), которые отличаются от битов в ln 2 раз.


Мы ввели понятие энтропии в терминах среднего объема информации, необ­
ходимой для определения значения случайной величины. На самом деле понятие
энтропии гораздо раньше появилось в физике, где оно было введено в контексте
равновесной термодинамики, а затем по мере развития статистической механики
получило более глубокую интерпретацию как мера неупорядоченности. Мы мо­
жем понять этот альтернативный взгляд на энтропию, рассматривая множество
N одинаковых объектов, которые должны быть размещены во множестве ячеек
так, чтобы в i-й ячейке содержалось n; объектов. Рассмотрим количество различ­
ных способов размещения объектов по ячейкам. Существует N способов выбора
первого объекта, (N - 1) способов выбора второго объекта и т.д., что приводит к
№. способов размещения всех N объектов по ячейкам, где N! (произносится как
"N факториал") обозначает произведение N · (N - 1) · ". · 2 · 1. Однако мы не хо­
тим различать перестановки объектов в каждой ячейке. Существует п;! способов
переупорядочить объекты в i-й ячейке, поэтому общее количество способов раз­
мещения N объектов по ячейкам определяется выражением

(1.94)

которое называется кратностью. Затем энтропия определяется как логарифм


кратности, масштабируемой соответствующей константой:

1 1 1
Н =-lnW =-lnN!--"lnn.!. (1.95)
N N N~ 1
1

Теперь перейдем к пределу при N ~ оо, выделяя дроби n/N, и применим при­
ближение Стирлинга:

lnN!=NlnN-N, (1.96)

которое с учетом условия L n; = N приводит нас к формуле

Н =- ~im L (!!!__)
N--)ooN i
1n (!!!__) =- L Р; 1n Р; ·
N i
(1.97)
90 ГЛАВА 1. ВВЕДЕНИЕ

Здесь Р; = lim !i. - это вероятность того, что объект будет размещен в i-й
N~ooN
ячейке. В терминологии физики конкретные расположения объектов в ячейках

называются микросостоянием, а общее распределение степени заполнения яче­

ек, выраженное отношением n;IN, называется макросостоянием . Кратность W


называется весом макросостояния.

Мы можем интерпретировать ячейки как значения Х; дискретной случайной


величины Х, где р(Х = х;) = р;. Тогда энтропия случайной величины Х равна
Н[р] =-L:p(x; )Inp(x; ). (1.98)

0,5 0,5 ~-----------~

Н= 1,77 Н=З,09

t
о
:>::
~
t
о
:>::
:;: 0,25 ~ 0,25
g_ о
а.
Q) Q)
СХ1 СХ1

r ,_
о

Рис. 1.30. Гистограммы двух распределений вероятностей размещения

объектов по 30 ячейкам, иллюстрирующие более высокое значение энтропии Н

для более широкого распределения. Наибольшая энтропия возникла бы

у равномерного распределения , для которого она равна Н = ·- ln (1 /30) = 3,40

Как показано на рис . 1.30, распределения р(х;), имеющие резкий пик в


окрестности нескольких значений, будут иметь относительно низкую энтропию,
тогда как более широкие распределения - более высокую. Поскольку О ~ р; ~ 1,
энтропия является неотрицательной и достигает минимального значения, равно­

го нулю, если одна из вероятностей р; равна единице, а все остальные вероятно­


сти PIF-i равны нулю. Конфигурация с максимальной энтропией может быть
найдена путем максимизации Н с использованием множителей Лагранжа, обес­
печивающих условие нормировки вероятностей. Таким образом, мы максимизи­
руем функцию

Н (р] =- ~ р ( Х; ) ln р ( Х;) + А ( ~ р ( Х; )-1} (1.99)


1.6. Теория информации 91

В результате находим, что все р(х;) равны между собой и задаются формулой
р(х;) = 1/М, где М - общее количество значений xi. Соответствующее значение
энтропии равно Н = ln М. Этот результат можно также получить из неравенства
Йенсена, которое мы вскоре рассмотрим. Чтобы убедиться, что стационарная
точка действительно является точкой максимума, мы можем вычислить вторую

производную энтропии, которая дает (с.111. ynpaJ1cue11ue 1.29)

82 Н 1
-----=-1"- (1.100)
ор(х;)ор(х;) у PiJ'

где Iij - элементы единичной матрицы.


Мы можем расширить определение энтропии и включить в рассмотрение

плотность распределения р(х) непрерывных случайных величин х. Для этого


сначала распределим величину х по ячейкам ширины Л. Тогда, считая функцию
р(х) непрерывной, по теореме о среднем значении (Weisstein, 1999) получаем,
что для каждой такой ячейки должно существовать такое значение Х;, что

(i+l)Л

f р (Х) dx =р (Х; ) Л. ( 1.101)


Теперь можем квантовать непрерывную случайную величину х, присваивая


ей значение Х; всякий раз, когда х попадает в i-ю ячейку. Вероятность наблюде­
ния значения xi равна р(х;). Это дает дискретное распределение, для которого эн­
тропия принимает вид

Нл =-Ip(xi )Лln(p(xi )л) =-LP(x; )Лlnp(x; )-lnЛ. (1.102)

Здесь мы использовали условие LР(х1 )Л=1, которое следует из (1.101). Те-

перь мы отбросим второй член -ln Л в правой части (1.102), а затем перейдем к
пределу при Л ~О. Первое слагаемое в правой части (1.102) будет стремиться к
интегралу от р(х) ln р(х), так что

-li~{ ~p(xi )Л1nр(х1 )} =-J p(x)lnp(x)dx, (1.103)

где величина в правой части называется дифференциш~ьной энтропией. Мы ви­


дим, что дискретные и непрерывные формы энтропии отличаются величиной ln,
которая расходится при Л ~О. Это отражает тот факт, что для задания непре­
рывной переменной с высокой точностью требуется большое количество битов.
92 ГЛАВА 1. ВВЕДЕНИЕ

Для плотности вероятности нескольких случайных величин, обозначаемой в ви­


де вектора х, дифференциальная энтропия вычисляется по формуле

Н(х] =-J p(x)lnp(x)dx. (1.104)

Людвиг Больцман
1844-1906
Людвиг Эдуард Больцман - австрийский физик, осно­
воположник статистической механики. Еще до Больцма­
на понятие экrропии было известно из классической
термодинамики, где оно количественно оценивает тот

факт, что, когда мы извлекаем энергию из системы, не


вся эта энергия обычно доступна для полезной работы.
Больцман показал, что термодинамическая экrропия S, представляющая со­
бой макроскопическую величину, может быть связана со статистическими
свойствами на микроскопическом уровне. Этот факт выражается в виде из­
вестного уравнения S = k 1n W, в котором W представляет собой число воз­
можных микросостояний в макросостоянии, а число kr:;: 1,38 · 10-23 Дж/К из­
вестно как постоянная Больцмана. Идеи Больцмана оспаривались многими

учеными того времени. Одна из трудностей, которую они видели, следовала


из второго закона термодинамики, в котором говорится, что энтропия за­

мкнутой системы со временем возрастает. Напротив, на микроскопическом


уровне классические ньютоновские уравнения физики обратимы, и поэтому
им было трудно понять, как второе могло объяснить первое. Они не поmю­
стью приняли аргументы Больцмана, которые были статистическими по
своей природе и означали не то, что экrропия никогда не может со временем

уменьшаться, а просто, что с подавляющей вероятностью она обычно воз­


растает. У Больцмана даже разгорелся доший спор с редактором ведущего
немецкого физического журнала, который не позволял ему ссьmаться на ато­
мы и молекулы как на нечто иное, чем удобные теоретические конструкции.
Продолжающиеся атаки на его работу привели к приступам депрессии, и в
конечном итоге он покончил жизнь самоубийством. Вскоре после смерти
Больцмана новые эксперименты Перрена над коллоидными суспензиями
подтвердили его теории и точность постоянной Больцмана. Уравнение

S = k lnW вырезано на надгробной плите Больцмана.


1.6. Теория информации 93

В случае дискретных распределений мы видели, что максимальная конфигу­


рация энтропии соответствовала равномерному распределению вероятностей по
возможным значениям случайной величины. Рассмотрим теперь максимальную
конфигурацию энтропии для непрерывной случайной величины. Чтобы этот
максимум был правильно определен, необходимо ограничить первый и второй
моменты р(х), а также выполнить ограничение нормировки. Поэтому мы макси­
мизируем дифференциальную энтропию с тремя ограничениями:

00

Jp(x)dx =1, (1.105)


-<Ю

00

Jxp(x)dx = µ, (1.106)
-<Ю

00

J(х-µ) 2 p(x)dx=a 2• (1.107)


-<Ю

Максимизация с ограничениями может быть выполнена с использованием


множителей Лагранжа, поэтому мы максимизируем следующий функционал по
р(х) (см. приложе11ие Д):

-Ip(x)lnp(x)dx+A, [I p(x)dx-1)+

+,!, [I xp(x)dx-µ )+A,[I (х-µ)2 p(x)dx-<7 2}

Используя вариационное исчисление, приравняем производную этого функцио­


нала нулю (см. прилож:е11ие l) и в результате получим:

(1.108)

Множители Лагранжа могут быть найдены путем обратной подстановки это­


го результата в три уравнения, задающих ограничения (с;н. упра:J1сне11ие 1.34):

Р ( х) =
1
1;2 ехр
{ (х-µ)
2
2}
• (1.109)
( 21ra2) 2а

Следовательно, распределение, максимизирующее дифференциальную энтропию,


является нормальным. Обратите внимание на то, что, максимизируя энтропию, мы
не требовали, чтобы распределение бьmо неотрицательным. Однако, поскольку
94 ГЛАВА 1. ВВЕДЕНИЕ

результирующее распределение действительно является неотрицательным, мы ре­


троспективно видим, что такое ограничение бьmо необязательным.
Если мы вычислим дифференциальную энтропию нормального распределе­
ния, то получим (см. упражнение 1.35)

Н [х] = ~ {1+ ln ( 2tra 2)}


• (1.110)

Таким образом, мы снова видим, что энтропия возрастает по мере того, как
2
распределение становится более широким, т.е. при увеличении а . Этот результат
также показывает, что дифференциальная энтропия, в отличие от дискретной эн­
тропии, может быть отрицательной, так как в (1.110) Н(х) <О при а2 < 1/(2tre).
Предположим, что мы имеем совместное распределение р(х, у), из которого
извлекаем пары значений х и у. Если значение х уже известно, то объем допол­

нительной информации, необходимой для определения соответствующего зна­


чения у, задается величиной -lnp(ylx). Таким образом, среднее количество до­
полнительной информации, необходимой для определения значения у, может
быть записано как

н[уlх] = п p(y,x)lnp(ylx)dydx. (1.111)

Эта величина называется условной энтропией у при условии х. Используя пра­


вило умножения, легко показать, что условная энтропия удовлетворяет соотно­

шению (см. упраж:неиие 1.37)


Н[х, у]= Н[хlу] + Н[х], (1.112)
где Н[х, у] - дифференциальная энтропия р(х, у) и Н[х]- дифференциальная
энтропия маргинального распределения р(х). Таким образом, информация, не­
обходимая для определениях и у, определяется суммой информации, необхо­
димой для определения х, а также дополнительной информации, необходимой
для определения у при условии х.

1.6.1. Относительная энтропия и взаимная информация

Ранее в этом разделе мы ввели ряд понятий из теории информации, включая


ключевое понятие энтропии. Теперь мы начинаем связывать эти идеи с распо­
знаванием образов. Рассмотрим некоторое неизвестное распределение р(х) и
предположим, что мы смоделировали его, используя аппроксимирующее рас­

пределение q(x). Если мы используем распределение q(x) для создания схемы


кодирования с целью передачи значений х получателю, тогда среднее дополни­
тельное количество информации (измеренное в патах), необходимое для указа-
1.6. Теория информации 95

ния значениях (при условии, что мы выбираем эффективную схему кодирова­


ния), в результате использования q(x) вместо истинного распределения р(х) за­
дается формулой

КL(Pllq) = -f p(x)lnq(x)dx-{-J p(x)lnp(x)dx) =


(1.113)
=-J p(x)ln{;\:\}dx
Эта величина называется относительной энтропией, или дивергенцией
Кульбака-Лейблера, или КL-дивергенцией (Кullback и LeiЫer, 1951), между рас­
пределениями р(х) и q(x). Заметим, что это не симметричная величина, т.е.

КL(pllq) J КL(ql[p).
Покажем теперь, что дивергенция Кульбака-Лейблера удовлетворяет усло­
вию КL(pllq) ~О, причем равенство достигается, если и только если р(х) = q(x).
Для этого мы вначале введем понятие выпуклых функций. Функцияf(х) называ­
ется выпуклой, если каждая хорда лежит на графике или над графиком этой
функции, как показано на рис. 1.31. Любое значение х в интервале от х = а до
х = Ь может быть записано в виде Аа + (1 - Л)Ь, где О ::;; Л::;; 1. Соответствующая
точка на хорде задается выражением Лf(а) + (1 - Л)f(Ь), а соответствующее зна­
чение функции равно f(м + (1- Л)Ь). Тогда выпуклость подразумевает следую­

щее свойство:

f(Ла + (1 -·Л)Ь)::;; Лf(а) + (1 - Л)f(Ь). (1.114)

f(x)j

хорда\. /
~
а ь х

Рис. 1.31. Выпуклой функцией.f(х) является такая функция,

что любая хорда (показана синим цветом) лежит либо

на графике функции, либо выше него (показан красным цветом)


96 ГЛАВА 1. ВВЕДЕНИЕ

Клод Шеннон
1916-2001
После окончания Мичиганского университета и Масса­
чусетсского технологического института в 1941 году
Шеннон поступил на работу в компанию АТ &Т Bell
Telephone Laboratories. Его статья "А Mathematical Тhe­
ory of Communication", опубликованная в Bell Systeт
Technical Journal в 1948 году, заложила основы совре­
менной теории информации. В этой статье было введе-
но слово "бит" и изложена теория о том, что информация может быть от­
правлена как поток единиц и нулей, которая открыла путь для революции
в области систем связи. Говорят, что фон Нейманн рекомендовал Шенно­
ну использовать термин "энтропия" не только из-за его сходства с величи­
ной, используемым в физике, но также и потому, что "никто не знает, что
такое энтропия, поэтому в любом обсуждении вы всегда будете иметь
преимущество".

Это эквивалентно требованию, чтобы вторая производная функции была


всюду положительной. Примерами выпуклых функций являются х ln х (при
х >О) и х2. Функция называется строго выпуклой, если равенство выполняется
только для А= О и А= 1 (см. упражиение 1.36).
Если функция имеет противоположное свойство, а именно, что любая хорда
лежит либо на графике функции, либо ниже него, то она называется вогнутой, с
соответствующим определением для строго вогнутой функции. Если функция f
(х) является выпуклой, то-f(х)- вогнутой.
Используя метод доказательства по индукции, из (1.114) можно сделать вы­
вод, что выпуклая функция/(х) удовлетворяет условию (см. упражнение 1.38):

(1.115)

где А;~ О и ~)-; = 1 для любого множества точек {х;}. Результат (1.115) изве-
; ~
стен как неравенство Иенсена. Если мы интерпретируем А; как распределение
вероятности дискретной переменной х, принимающей значения {х;}, то (1.115)
можно записать как
1.6. Теория информации 97

/(E[x])~JE/([x]), (1.116)

где JE[ ·] обозначает математическое ожидание. Для непрерывных переменных


неравенство Йенсена принимает вид

J(f xp(x)dx) ~ J/(x)p(x)dx. (1.117)

Применяя неравенство Йенсена в виде ( 1.117) к дивергенции Кульбака­


Лейблера (1.113), получаем:

КL(ф) =-J p(x)1n{;i:\ }dx ~-ln Jq(x)dx =0. (1.118)

Здесь мы использовали тот факт, что функция -ln х является выпуклой, а

также условие нормировки Jq ( х) dх = 1. На самом деле функция -ln х является

строго выпуклой, поэтому равенство будет выполняться, если и только если,


q(x) = р(х) для всех х. Таким образом, мы можем интерпретировать диверген­

цию Кульбака-Лейблера как меру несходства двух распределений р(х) и q(x).


Как видим, существует тесная связь между сжатием данных и оценкой плот­
ности вероятности (т.е. проблемой моделирования неизвестного распределения
вероятности), поскольку наиболее эффективное сжатие достигается, когда мы
знаем истинное распределение.

Если мы используем распределение, отличное от истинного, то обязательно


получим менее эффективное кодирование, и в среднем дополнительная инфор­
мация, которая должна быть передана (по крайней мере), равна дивергенции
Кульбака-Лейблера между двумя распределениями.
Предположим, что данные генерируются из генеральной совокупности с не­
известной плотностью распределения р(х), которое мы хотим моделировать. Мы
можем попытаться аппроксимировать эту плотность распределения, используя

параметризованную плотность распределения q(xl В), определяемую набором

регулируемых параметров В и, например, многомерным нормальным распреде­


лением. Один из способов определения В состоит в том, чтобы минимизировать
дивергенцию Кульбака-Лейблера между р{х) и q(xl В) по В. Мы не можем сде­
лать это непосредственно, потому что не знаем р(х). Предположим, однако, что
мы наблюдаем конечное множество обучающих значений Хп для п = 1, "., N, взя­
тых из генеральной совокупности с плотностью распределения р(х). Тогда ма-
98 ГЛАВА 1. ВВЕДЕНИЕ

тематическое ожидание по р(х) можно аппроксимировать конечной суммой по


этим точкам, используя (1.35), так, что

1 N
КL(Pllq) ==- L {-Inq(xnlB)+ lnp(xп)}. (1.119)
N n=I

Второе слагаемое в правой части (1.119) не зависит от В, а первое слагае­


мое - это отрицательная логарифмическая функция правдоподобия при распре­
делении q(x 1 В), вычисленная по обучающему множеству. Таким образом, мы
видим, что минимизация дивергенции Кульбака-Лейблера эквивалентна макси­
мизации функции правдоподобия.
Теперь рассмотрим совместное распределение двух наборов переменных х и у,
заданное функцией р(х, у). Если х и у независимы, то их совместное распреде­
ление можно представить как произведение из маргинальных функций плотно­
сти р(х, у)= р(х)р(у). Если х и у не являются независимыми, мы можем получить
некоторое представление о том, являются ли они "близкими" к независимости,
учитывая дивергенцию Кульбака-Лейблера между совместным распределением и
произведением маргинальных функций плотности, заданную величиной

I[x,y] =КL(р(х,у )llP( х)р(у)) =


(1.120)
=-Jf p(x,y)ln(p(x)p(y)}xdy,
р(х,у)

которая называется взаимной информацией между переменными х и у. Из


свойств дивергенции Кульбака-Лейблера следует, что I(x, у)~ О и l(x, у)= О,
если и только если х и у независимы. Используя правила сложения и умножения
вероятностей, мы видим, что взаимная информация связана с условной энтропи­
ей следующей формулой (см. упражиение 1.41):
I[x, у]= Н[х] -H[xly] = Н[у] -Н[уlх]. (1.121)
Таким образом, мы можем рассматривать взаимную информацию как умень­
шение неопределенности относительно значения х после того, как станет из­

вестным значение у (и наоборот). С байесовской точки зрения мы можем рас­


сматривать р(х) как априорное распределение для х, а p(xly) - как апостери­
орное распределение после того, как мы наблюдаем новые значения у. Таким
образом, взаимная информация представляет собой уменьшение неопределенно­
сти относительно х в результате нового наблюдения у.
Упражнения 99

Упражнения

1.1. (*) WWW Рассмотрим сумму квадратов ошибок, заданную формулой (1.2), в
которой функция у(х, w) задается полиномом (1.1). Покажите, что коэф­
фициенты w = {w;}, минимизирующие эту функцию, являются решением
следующей системы линейных уравнений:
м

I~1wu =т;, (1.122)


}=О

где

(1.123)
n=l n=l

Здесь суффиксы i иj обозначают индекс компонента, а (х); обозначает зна­


чение х, возведенное в степень i.
1.2. (*)Запишите систему линейных уравнений, аналогичную (1.122), решени­
ем которой являются коэффициенты w1, минимизирующие регуляризован­
ную сумму квадратов ошибок, заданную формулой (1.4).
1.3. (**)Предположим, у нас есть три цветных ящика: r (красный), Ь (синий) и
g (зеленый). Ящик r содержит 3 яблока, 4 апельсина и 3 лимона, ящик Ь
содержит 1 яблоко, 1 апельсин и О лимонов, а ящик g содержит 3 яблока, 3
апельсина и 4 лимона. Если ящики выбираются случайным образом с ве­
роятностями p(r) = 0,2; р(Ь) = 0,2; p(g) = 0,6, а фрукт извлекается из ящика
без возвращения (с равной вероятностью выбора любого из фруктов в
ящике), то какова вероятность извлечь яблоко? Если мы заметим, что вы­
бранный фрукт на самом деле апельсин, какова вероятность того, что он
был извлечен из зеленого ящика?

1.4. (**) WWW Рассмотрим плотность вероятности рх(х) непрерывной перемен­

ной х и предположим, что мы выполняем нелинейную замену х = g(y), так


что плотность преобразуется согласно формуле (1.27). Дифференцируя

(1.27), покажите, что местоположение максимума у плотности по у, во-

обще говоря, не связано с местоположением максимума х плотности по х

простым функциональным соотношением х =g (у) , выраженным через

якобиан. Это показывает, что максимум плотности вероятности (в отличие

от обычной функции) зависит от выбора переменной. Убедитесь, что в


случае линейного преобразования местоположение максимума преобразу­
ется так же, как и сама переменная.
100 ГЛАВА 1. ВВЕДЕНИЕ

1.5. (*)Используя определение (1.38), покажите, что var[f(x)] удовлетворяет


условию (1.39).
1.6. (*) Покажите, что если две переменные х и у независимы, то их ковариа­
ция равна нулю.

1.7. (**) WWW В этом упражнении мы докажем условие нормировки (1.48) для
одномерного нормального распределения. Для этого рассмотрим интеграл

1=
-оо
f exp(-~x2 )dx,

(1.124)

который можно вычислить, сначала записав его квадрат в виде

1 2= OOJ 1
OOJ ехр ( --х 1 2) dxdy.
2--у (1.125)
-00-00
2а 2 2а 2

Теперь сделаем преобразование из декартовых координат (х, у) в полярные


(r, В) и выполним подстановку и= r2• Покажите, что, интегрируя по Ви и,
а затем извлекая квадратный корень из обеих частей, мы получим

1 =(2tra 2 )112 • (1.126)

Наконец, используйте этот результат, чтобы показать, что нормальное


распределение N(xlµ, а2 ) нормировано.
1.8. (**) WWW Воспользовавшись заменой переменных, убедитесь, что одно­
мерное гауссовское распределение, заданное формулой (1.46), удовлетво­

ряет условию (1.49). Далее, дифференцируя обе части условия нормировки


00

JN( xlµ,a 2 )dx=1 (1.127)

2
по а, убедитесь, что нормальное распределение удовлетворяет условию
(1.50). Наконец, покажите, что выполняется условие (1.51 ).
1.9. (*) WWW Покажите, что мода (т.е. максимум) нормального распределения
(1.46) равнаµ? Аналогично покажите, что мода многомерного нормально­
го распределения (1.52) равнаµ.

1.10. (*) WWW Предположим, что две переменные х и z статистически независи­


мы. Покажите, что математическое ожидание и дисперсия их суммы удо­

влетворяет условиям

Е[х + z] = Е[х] + E[z],


var[x + z] = var[x] + var[z].
Упражнения 101

1.11. (*) WWW Приравняв нулю производные логарифмической функции правдо­


подобия (1.54) по µи (i, докажите результаты (1.55) и (1.56).
1.12. (**) WWW Используя результаты (1.49) и (1.50), покажите, что

(1.130)

где Хп и Хт обозначают точки, извлеченные из генеральной совокупности,


имеющей нормальное распределение с математическим ожиданием µ и

дисперсией (i, а Jnm удовлетворяет условиям Inm = 1, если п = т, и Inm = О в


противном случае. Отсюда следуют результаты (1.57) и (1.58).
1.13. (*)Предположим, что дисперсия нормального распределения вычисляется

с использованием результата (1.56), но оценка максимального правдопо­


добия µМL заменяется истинным значением математического ожидания µ.
Покажите, что математическое ожидание этой оценки совпадает с истин-
~ ~ 2
нои дисперсиеи а .
1.14. (**) Покажите, что произвольную квадратную матрицу с элементами w!i
А А
можно записать в виде w!i = w!iS + w!i , где
S
w!i и w!i - симметричные и ан-

тисимметричные матрицы соответственно, удовлетворяющие условиям

wl = wJ; и wJ = -wj; для всех i и j. Теперь рассмотрите член второго по­


рядка в полиноме более высокого порядка в D-измерениях, заданный вы­

ражением

(1.131)

Покажите, что

(1.132)

так что вклад антисимметричной матрицы обращается в нуль. Поэтому


мы видим, что без ограничения общности матрица коэффициентов w!i
может быть выбрана симметричной, и не все D 2 элементов этой матрицы
могут быть выбраны независимо. Покажите, что количество независимых
параметров в матрице wg
равно D(D + 1)/2.
1.15. (***) WWW В этом и следующем упражнении мы исследуем, как количество
независимых параметров в полиноме растет с увеличением порядка М по­

линома и размерности D исходного пространства. Начнем с записи члена


М-го порядка для полинома в пространстве размерности D в виде
102 ГЛАВА 1. ВВЕДЕНИЕ

D D D

LL"· L wi1i2 .. "iмxi1xi2 ".хiм · (1.133)


i1 =1 i2 =1 iм=l

Коэффициенты W;1 ;2 ".iм порождают if чисел, но количество независимых


параметров значительно меньше в силу симметричности множителя

Х;1 Х;2 ."хiм . Для начала покажем, как избавиться от лишних коэффициен-

тов, переписав член М-го порядка в виде

(1.134)

Заметим, что точная зависимость между коэффициентами w и w не обяза­


тельно должна быть явной. Используя этот результат, покажите, что коли­
чество независимых параметров n(D, М) определяется следующим рекур­
рентным отношением:

D
n(D,M) = Ln(i,M -1). (1.135)
i=I

Затем, используя доказательство по индукции, покажите, что справедлив

следующий результат:

D (i+M-2)! (D+M-1)
~(i-l)!(M-1)!= (D-l)!M!'
(1.136)

предварительно доказав результат для D = 1 и произвольного М, используя


факт О!= 1, а затем, полагая, что он имеет место для размерности D, дока­
зав его правильность для размерности D + 1. Наконец, используйте два

предьщущих результата вместе с доказательством по индукции, чтобы по­


казать, что

п (D М) = _(D_+_M_-_1_)! (1.137)
' (D-l)!M!.

Для этого сначала покажите, что результат верен для М = 2 и любого зна­

чения D ~ 1 путем сравнения с результатом упражнения 1.14. Затем вос­

пользуйтесь (1.136), чтобы показать, что если результат выполня­


(1.135) и
ется для порядка М - 1, то он также будет выполняться для порядка М.

1.16. (***)В упражнении 1.15 мы доказали результат (1.135) для количества не­

зависимых параметров в члене М-го порядка D-мерного полинома. Теперь


найдем выражение для полного количества N(D, М) независимых парамет-
Упражнения 103

ров во всех членах вплоть до М-го порядка. Сначала покажем, что вели­

чина N(D, М) удовлетворяет отношению


м

N(D,M)= :Lп(D,m), (1.138)

где n(D, т)- количество независимых параметров в члене порядка т. Те­

перь воспользуемся результатом (1.137) вместе с доказательством по ин­


дукции, чтобы показать, что

_ (D+M)!
N ( D,M ) - . (1.139)
D!M!
Это можно сделать, предварительно доказав, что результат справедлив для
М = О и произвольного D ~ 1, а затем предположив, что он выполняется

для порядка М и, следовательно, для порядка М + 1. Наконец, воспользу­

емся аппроксимацией Стирлинга в форме

(1.140)
для больших п, чтобы показать, что при D » М величина N(D, М) растет
как пМ, а при М » D она растет как MD. Рассмотрите кубический (М = 3)
полином в D-измерениях и вычислите общее число независимых парамет­
ров для случаев а) D = 10 и б) D = 100, что соответствует типичным малым
и средним приложениям в области машинного обучения.

1.17. (**) WWW Гамма-функция определяется формулой


00

J
Г(х)= ux-le-"du. (1.141)
о

Используя интегрирование по частям, докажите соотношение Г(х + 1) = хГ(х).

Покажите также, что Г(l) = 1 и, следовательно, Г(х + 1) = х!, если х является

целым числом.

1.18. (**) WWW Мы можем использовать результат (1.126) для вывода выражения

для площади поверхности Sv и объема Vv сферы единичного радиуса в D-


измерениях. Для этого рассмотрим следующий результат, полученный пу­
тем перехода от декартовой к полярной системе координат:
D
п
ОС)

f е
-xtdx; -- S D f
оо

е
_,2
r D-ldr. (1.142)
i=l -«) о

Используя определение (1.141) гамма-функции вместе с (1.126), вычисли­


те обе части этого уравнения и покажите, что
104 ГЛАВА 1. ВВЕДЕНИЕ

21lD/2
S=--- (1.143)
D Г(D/2).

Далее, интегрируя по радиусу от О до 1, покажите, что объем единичной


сферы размерности D задается формулой

vv-- SD
D (1.144)

Наконец, воспользуемся результатами Г(l) = 1 и Г(3/2) = J; 12, чтобы пока­


зать, что ( 1.143) и ( 1.144) сводятся к обычным выражениям для D = 2 и D = 3.

1.19. (* *) Рассмотрите сферу радиуса а в пространстве размерности D вместе с


концентрическим гиперкубом со стороной 2а, так что сфера касается гипер­
куба в центрах каждой из его сторон. Используя результаты упражнения 1.18,
покажите, что отношение объема сферы к объему куба задается формулой

объем сферы
=------ (1.145)
объем куба D2D-'Г(D/2) ·

Теперь воспользуемся формулой Стирлинга в виде

Г(.х+ 1) ~ (2п) 112 е-ххх+\12, (1.146)


которая справедлива для х » 1, чтобы показать, что при D ~ оо отношение
(1.145) обращается в нуль. Покажите также, что отношение расстояния от
центра гиперкуба до одного из углов, деленное на перпендикулярное рас­
стояние до одной из сторон, равно .Ji5 , поэтому при D ~ оо оно стремит­
ся к оо. Из этих результатов видно, что в пространстве большой размерно­
сти большая часть объема куба сосредоточена в многочисленных углах,
которые сами становятся очень длинными "шипами"!

1.20. (**) WWW В этом упражнении мы исследуем поведение нормального рас­


пределения в многомерных пространствах. Рассмотрим нормальное рас­

пределение в пространстве размерности D, заданное формулой

р(х) = 1 exp[-~J.
2а2
(1.147)
( 2па 2)D/2

Мы хотим найти плотность в зависимости от радиуса в полярных коорди­

натах, проинтегрировав ее по углу. Для этого покажем, что интеграл от


плотности вероятности по тонкой оболочке радиуса r и толщины &, где
с«: 1, равен p(r)c, где
Упражнения 105

p(r) = SDrD-~/2 ехр[- r2 2 ). (1.148)


( 2rra2 ) 2а

где SD- площадь поверхности единичной сферы в D измерениях. Пока­

p(r) имеет единственную стационарную точку, которая


жите, что функция
при больших D имеет координату r = JDa. Рассматривая p(r +с), где
с « r, покажите, что при больших D
p(f +&) = p(f )ехр[- ;: } (1.149)

из которой следует, что r- это максимум радиальной плотности вероят­


ности, а также, что p(r) экспоненциально убывает по мере удаления от
своего максимума при r с коэффициентом о: Мы уже видели, что а« r
при больших D, и поэтому большая часть массы вероятности сосредоточе­
на в тонкой оболочке с большим радиусом. Наконец, покажите, что плот­
ность вероятности р(х) больше в начале координат, чем на радиусе r, в
exp(D/2) раз. Отсюда следует, что большая часть массы вероятности в нор­
мальном распределении высокой размерности находится на расстоянии от

области высокой плотности вероятности. Это свойство распределений в


пространствах большой размерности будет иметь важные последствия для
байесовского вывода параметров моделей в последующих: главах.

1.21. (**)Рассмотрите два неотрицательных числа а и Ь и покажите, что если


а~ Ь, то а~ (аЬ) 112 • Используйте этот результат, чтобы показать, что если
области решения проблемы бинарной классификации выбраны по правилу
минимизации уровня ошибочной классификации, то эта вероятность будет
удовлетворять неравенству

р( ошибка)~ f{p(x,c;) р( х,С2 )} 112 dx. (1.150)

1.22. (*) www. При заданной матрице потерь с элементами Lkj ожидаемый риск
достигает минимума, если для каждого х мы выбираем класс, который
минимизирует выражение (1.81). Убедитесь, что когда матрица потерь за­
дается формулой Lkj = 1- Ikj• где Ikj - элементь1 единичной матрицы, зада­
ча сводится к выбору класса, имеющего наибольшую апостериорную веро­
ятность. Какова интерпретация этой формы матрицы потерь?
1.23. (*)Выведите критерий минимизации ожидаемых потерь при заданных
общей матрице потерь и общих априорных вероятностях для классов.
106 ГЛАВА 1. ВВЕДЕНИЕ

1.24. (**) WWW Рассмотрите проблему классификации, в которой потери, возни­


кающие, когда входной вектор из класса Ck классифицируется как принад­
лежащий классу ~, задаются матрицей потерь LkJ и для которой потери,
возникающие при отказе от решения, равны А. Найдите критерий приня­
тия решения, который гарантирует минимальные ожидаемые потери. Убе­
дитесь, что он сводится к критерию отказа от решения, обсуждаемому в
разделе 1.5.3, если матрица потерь задается LkJ = 1 -lkJ· Какова связь меж­
ду Л и порогом отказа от решения В?

1.25. (*) WWW Рассмотрите обобщение квадратичной функции потерь (1.87) для
одной целевой переменной t на случай нескольких целевых переменных,
описываемых вектором t, заданных формулой
Е[ L( t,y(x))] = Jf lly(x)-tll 2 р(х, t)dxdt. (1.151)

Используя вариационное исчисление, покажите, что функция у(х), для ко­


торой минимизируются эти ожидаемые потери, определяется выражением

у(х) = E 1[t 1 х]. Покажите, что для случая одной целевой переменной t
этот результат сводится к (1.89).
1.26. (*)Раскрыв квадрат в (1.151), получите результат, аналогичный (1.90), и,
как следствие, покажите, что функция у(х), которая минимизирует ожида­
емые квадратичные потери для вектора t целевых переменных, снова за­

дается условным математическим ожиданием t.


1.27. (**) WWW Вычислите математическое ожидание потерь для задачи регрес­
сии при функции потерь Lq, заданной выражением (1.91). Запишите усло­
вие, которое должна удовлетворять функция у(х), чтобы минимизировать
E[Lq]. Покажите, что при q = 1 это решение представляет условную меди­
ану, т.е. такую функцию у(х), что масса вероятности при t < у(х) такая же,
как при t ~ у(х). Также покажите, что минимальная ожидаемые потери Lq
при q~ оо задается условной модой, т.е. функцией у(х), равной значению
t, которое максимизирует p(tix) при любом х.
1.28. (*)В разделе 1.6 мы ввели понятие энтропии h(x) как информации, полу­
ченной при наблюдении значения случайной величины х с плотностью
распределения р(х). Мы видели, что для независимых случайных величин
х и у, для которых р(х, у) = р(х)р(у), энтропийные функции являются адди­
тивными, так что h(x, у)= h(x) + h(y). В этом упражнении мы выводим со­
отношение между h и р в виде функции h(p). Сначала покажите, что
h(/) = 2h(p) и, следовательно, по индукции, что h(pn) = nh(p), где п -
Упражнения 107

положительное целое число. Следовательно, h(pn1m) = (n/m)h(p), где т


также является положительным целым числом. Отсюда следует, что
h(px) = xh(p ), где х - положительное рациональное число, и, следователь­
но, по непрерывности, для любого положительного действительного чис­
лах. Наконец, покажите, что h(p) должно принимать вид h(p) ос lnp.
1.29. (*) WWW Рассмотрите дискретную случайную переменную х, принимающую
М значений, и, применяя неравенство Йенсена в виде (1.115), покажите, что
энтропия его распределения р(х) удовлетворяет условию Н[х] ~ 1n М.

1.30. (**) Вычислите дивергенцию Кульбака-Лейблера (1.113) между двумя


нормальными распределениями р(х) = N(xlµ, о-2 ) и q(x) = N(xlm, i) .
1.31. (**) WWW Рассмотрите две случайные величины х и у, имеющие совмест­
ное распределение с плотностью р(х, у). Покажите, что дифференциальная
энтропия этой пары переменных удовлетворяет условию

Н[х, у]~ Н[х] + Н[у], (1.152)


которое превращается в равенство, если и только если случайные величи­

ны х и у статистически независимы.

1.32. (*)Рассмотрите вектор х непрерывных переменных с плотностью распре­


деления р(х) и соответствующей энтропией Н[х]. Предположим, что мы
осуществляем невырожденное линейное преобразование х и получаем но­
вую переменную у = Ах. Покажите, что соответствующая энтропия зада­

ется формулой Н[у] = Н[х] + lnldet(A)I где ldet(A)I обозначает определи­


тель матрицы А.

1.33. (**)Предположим, что условная энтропия H[ylx] между двумя дискрет­


ными случайными величинами х и у равна нулю. Покажите, что для всех

значений х, таких, что р(х) > О, переменная у должна быть функцией, зави­
сящей от х, иначе говоря, для каждого х существует только одно значе­

ние у, такое, что p(ylx) "*О.

1.34. (**) WWW Используя вариационное исчисление, докажите, что стационар­


ная точка функционала, приведенного перед формулой (1.108), задается
формулой (1.108). Затем воспользуйтесь ограничениями (1.105)-(1.107),
чтобы исключить множители Лагранжа, и покажите, что максимальное эн­

тропийное решение дает нормальное распределение ( 1.109).


1.35. (*) WWW Используя результаты ( 1.106) и( 1.107), покажите, что энтропия од­
номерного нормального распределения (1.109) задается формулой (1.11 О).
108 ГЛАВА 1. ВВЕДЕНИЕ

1.36. (*)Строго выпуклая функция- это функция, у которой любая хорда ле­
жит над графиком функции. Покажите, что это эквивалентно условию по­
ложительности второй производной функции.

1.37. (*)Используя определение (1.111) вместе с правилом умножения вероят­


ностей, докажите результат (1.112).
1.38. (**) WWW Используя доказательство по индукции, покажите, что из нера­
венства (1.114) для выпуклых функций следует результат (1.115).

1.39. (***) Рассмотрите две бинарные случайные величины х и у, имеющие сов­


местное распределение, приведенное в табл. 1.3. Вычислите следующие
величины:

а) Н[х]

б) Н[у]

в) Н[уlх]

r) H[xly]
д) Н[х,у]

е) I[x,y]
Нарисуйте диаграмму, чтобы показать взаимосвязь между этими величи­
нами.

Таблица 1.3. Совместное распределение р(х, у) для двух бинарных случайных


величин х и у, используемых в упражнении 1.39

х о 1/3 1/3
1 о 1/3

1.40. (*)Применяя неравенство Йенсена (1.115) к функцииf(х) = ln х, покажите,


что среднее арифметическое множества действительных чисел всегда
больше или равно их геометрическому среднему.

1.41. (*) WWW Используя правила сложения и умножения вероятностей, покажи­

те, что взаимная информация /(х, у) удовлетворяет соотношению (1.121).


2

В главе 1 мы подчеркнули центральную роль теории вероятностей в решении


задач распознавания образов. Перейдем теперь к изучению некоторых конкрет­
ных примеров распределений вероятностей и их свойств. Помимо того, что они
вызывают большой интерес сами по себе, эти распределения могут служить
элементами более сложных моделей и будут широко использоваться во всей
книге. Распределения, представленные в этой главе, также будут служить еще
одной важной цели, а именно: предоставлять нам возможность обсудить некото­
рые ключевые статистические концепции, такие как байесовский вывод, в кон­
тексте простых моделей, прежде чем мы встретим их в более сложных ситуаци­
ях в последующих главах.

Мы используем распределения, обсуждаемые в настоящей главе, для иллю­


страции моделирования распределения вероятностей р(х) случайной величины х
при заданном множестве х 1 , "., xN наблюдений. Эта задача называется оценкой
плотности. В этой главе мы будем предполагать, что наблюдаемые случайные
110 ГЛАВА 2. РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ

величины независимы и одинаково распределены. Следует подчеркнуть, что с

теоретической точки зрения задача оценки плотности является некорректной,


так как существует бесконечное множество распределений вероятностей, кото­
рые могли бы соответствовать наблюдаемому конечному набору данных. Дей­
ствительно, любое распределение р(х), отличное от нуля в каждой из точек
х 1 , .• "хм является потенциальным кандидатом. Вопрос о выборе соответствую­
щего распределения относится к задаче выбора модели, которая уже встречалась
нам в контексте приближения полиномиальной кривой в главе 1, и является
главной задачей распознавания образов.
Начнем с рассмотрения биномиального и мультиномиального распределений
для дискретных случайных величин и нормального распределения для непре­
рывных случайных величин. Это конкретные примеры параметрических рас­
пределений, которые называются так потому, что они зависят от небольшого
числа адаптивных параметров, таких как математическое ожидание и дисперсия

в случае нормального распределения, например. Чтобы применить такие модели


для оценки плотности, нам нужна процедура определения подходящих значений
для параметров с учетом наблюдаемого набора данных. В рамках частотного
подхода мы выбираем конкретные значения для параметров путем оптимизации
некоторого критерия, такого как функция правдоподобия. В отличие от частот­
ного подхода, в байесовском анализе мы вводим априорные распределения по
параметрам, а затем используем теорему Байеса для вычисления соответствую­

щего апостериорного распределения с учетом наблюдаемых данных.


Мы увидим, какую важную роль играют сопряженные априорные распреде­
ления, которые приводят к апостериорным распределениям, имеющим ту же

функциональную форму, что и априорные, и поэтому позволяют значительно


упростить байесовский анализ. Например, сопряженное априорное распределе­
ние для параметров мультиномиального распределения называется распределе­

нием Дирихле, а сопряженное априорное распределение для математического


ожидания нормального распределения само является нормальным распределе­

нием, только с другими параметрами. Все эти распределения являются членами


экспоненциального семейства распределений, которые обладают рядом важных
свойств и будут подробно обсуждаться.
Одним из ограничений параметрического подхода является то, что он пред­

полагает, что распределение имеет определенную функциональную форму, ко­


торая может оказаться неприемлемой для конкретного приложения. Альтерна­
тивный подход задается методами непараметрической оценки плотности, в ко­
торых форма распределения обычно зависит от размера набора данных. Такие
2.1. Бинарные случайные величины 111

модели также содержат параметры, но они управляют сложностью модели, а не

формой распределения. Мы закончим эту главу, рассмотрев три непараметриче­


ских метода, основанных соответственно на гистограммах, ближайших соседях
и ядрах.

2.1. Бинарные случайные веnичины

Начнем с рассмотрения одной бинарной случайной величиных Е {О, 1}. Напри­


мер, случайная величина х может описывать результат подбрасьmания монеты:
х = 1, если выпадает орел, и х =О, если выпадает решка. Мы можем представить,

что это неидеальная монета, так что вероятность выпадения орла не обязательно
совпадает с вероятностью выпадения решки. Вероятность х =1 обозначим пара­

метром µ, так что

р(х = 11µ) = µ, (2.1)

где О$µ$ 1, откуда следует, что р(х = 01µ) = 1 - µ. Поэтому распределение ве­
роятности по х можно записать в виде

Bern(xlµ) = µх(1 - µ) 1 -х. (2.2)

Это распределение называется распределением Бернулли. Легко проверить, что


это распределение (с.м. упра.нс11е11ие 2.1) нормировано и имеет математическое
ожидание и дисперсию, заданные формулой

Е[х] = µ, (2.3)

var[x] = µ(1 - µ). (2.4)

Предположим теперь, что мы имеем набор данных V = {х 1 , "" xN} наблюдае­


мых значений х. Мы можем построить функцию правдоподобия, являющуюся
функцией от µ, в предположении, что наблюдения получены независимо друг от
друга из генеральной совокупности с распределением p(xlµ ), так что
N N
p(VIµ)= Пр(хпlµ)= пµх" (1-µ)1-х•. (2.5)
n=I n=I

В рамках частотного подхода мы можем вычислить значение µ, максимизи­

руя функцию правдоподобия, или, что эквивалентно, максимизируя логарифми­


ческую функцию правдоподобия. В случае распределения Бернулли логарифми­
ческая функция правдоподобия определяется формулой
112 ГЛАВА 2. РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ

N N
lnp(VIµ) =LlnP( хпlµ) =L {хп lnµ + (1-хп )In(l- µ)}. (2.6)
n=I n=I

На этом этапе стоит отметить, что логарифмическая функция правдоподобия


зависит от N наблюдений Хп только через их сумму L хп . Эта сумма служит
~ п
примером достаточнои статистики для данных, имеющих это распределение,
и позже мы изучим важную роль достаточной статистики подробнее. Если мы
положим производную от lnp(VIµ) равной нулю, то получим следующую оценку
максимального правдоподобия (см. раздел 2.4)
1 N
µМl.. = NLXn' (2.7)
n=I

которая также известна как среднее выборочное значение. Если мы обозначим


количество наблюдений х = 1 (орел) среди наблюдаемых данных как т, то мо­
жем переписать (2.7) в виде

(2.8)

так что вероятность выпадения орла в рамках подхода, основанного на макси­

мальном правдоподобии, равна доле орлов в наборе данных.

о 2 3 4 5 6 7 8 9 10
т

Рис. 2.1. Гистограмма биномиального распределения (2.9)


в зависимости от т при N = 1О и µ = 0,25

Теперь предположим, что мы подбрасываем монету, скажем, три раза и


наблюдаем три орла. Тогда N= т = 3иµML=1. В этом случае оценка максималь­
ного правдоподобия предсказывает, что при всех будущих подбрасываниях мо­
неты будут выпадать орлы. Здравый смысл подсказывает нам, что этот вывод
2.1. Бинарные случайные величины 113

необоснованный, и на самом деле это крайний пример переобучения, связанного


с максимальным правдоподобием. Мы вскоре увидим, как прийти к более ра­
зумным выводам с помощью изучения априорного распределения по µ.

Якоб Бернулли
1654-1705
Якоб Бернулли, также известный как Жак или
Джеймс Бернулли, был швейцарским математиком и
первым из многочисленных ученых в семье Бернулли.
Хотя родители заставили его изучать философию и
теологию против его воли, он много путешествовал

после окончания университета, встречаясь со многи­

ми ведущими учеными, включая Бойля и Гука в Ан­


глии. Вернувшись в Швейцарию, он преподавал механику и стал профес­
сором математики в Базеле в 1687 году. К сожалению, изначально плодо­
творное сотрудничество Якоба и его младшего брата Иоганна переросло
со временем в неприятное публичное соперничество. Самый значительный
вклад Якоба в математику выразился в работе "Art of Conjecture" ("Искус­
ство гипотезы"), опубликованной в 1713 году, спустя восемь лет после его
смерти, в которой рассматриваются вопросы теории вероятностей, в том
числе то, что стало известно как распределение Бернулли.

Мы также можем определить распределение числа наблюдений х = 1, учиты­


вая, что набор данных имеет размер N. Это распределение называется биноми­
альным, а из (2.5) видно, что оно пропорционально µm(l - µ)N-m. Чтобы получить
нормировочный коэффициент, отметим, что необходимо учесть все возможные
способы получения т орлов в результате N подбрасываний монеты, так что би­
номиальное распределение можно записать в виде

Bin(nlN,µ) = С~µт µN-m, (2.9)


где

т_
сN- N!
(2.10)
(N-m)!m!
114 ГЛАВА 2. РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ

представляет собой количество способов выбора т из N одинаковых объектов


(c.w. упражиеиие 2.3). На рис. 2.1 показан график биномиального распределения
приN= 10иµ=О,25.
Математическое ожидание и дисперсmо биномиального распределения можно
найти, используя результат упражнения 1.1 О, который показывает, что математиче­
ское ожидание суммы независимых случайных величин представляет собой сумму
их математических ожиданий, а дисперсия их суммы - это сумма их дисперсий.
Поскольку т = х 1 + ". + xN и для каждого набmодения его математическое ожидание
и дисперсия задаются формулами (2.3) и (2.4) соответственно, мы имеем:
N
Е[т]= LтВin(тlN,µ)=Nµ, (2.11)
m=O
N 2
var[т]= L(т-Е[т]) Bin(тlN,µ)=Nµ(l-µ). (2.12)
m=O

Эти результаты также могут быть доказаны непосредственно с использовани­


ем методов математического анализа (см. упражиеиие 2.4).

2.1.1. Бета-распределение

Из формулы (2.8) следует, что максимальное правдоподобие для параметраµ


в распределении Бернулли и, следовательно, в биномиальном распределении
определяется частотой результата х =1в наборе данных. Как мы уже отмечали,
для небольших наборов данных это может привести к сильному переобучению.
Чтобы найти байесовское решение этой задачи, необходимо ввести априорное
распределение р(µ) для параметра µ. Здесь мы рассмотрим форму априорного
распределения, которая имеет простую интерпретацию, а также некоторые по­

лезные аналитические свойства. Для того чтобы обосновать этот выбор априор­
ного распределения, отметим, что функция правдоподобия имеет вид произве­
дения множителей вида µx(l - µ) 1 -х. Если мы выберем априорное распределение
пропорциональным степеням µ и 1 - µ, то апостериорное распределение, про­

порциональное произведению априорного распределения и функции правдопо­


добия, будет иметь ту же функциональную форму, что и априорное распределе­
ние. Это свойство называется сопряженностью, и позже в этой главе мы приве­

дем несколько его примеров. Таким образом, мы выбираем априорное


распределение, называемое бета-распределением, заданное формулой

Г( а+ Ь) a-I ( )ь-1
Beta µа,Ь =г(а)Г(Ь)µ (2.13)
( 1 )
1-µ ,
2.1. Бинарные случайные величины 115

где Г(х) - это гамма-функция, определяемая формулой ( 1.141 ), а коэффициент

в выражении (2.13) обеспечивает нормализацию бета-распределения, так что


(см. упражнеиие 2.5)
1
fBeta(µla,b )dµ = 1. (2.14)
о

Математическое ожидание и дисперсия бета-распределения определяются по


формулам (см. упражнепие 2.6)

Е[µ]=~ь'
а+
(2.15)

var[µ]= 2аЬ . (2.16)


(а+Ь) (а+Ь+1)

Параметры а и Ь часто называют гиперпараметрами, поскольку они управляют


распределением параметра µ. На рис. 2.2 показаны графики бета-распределения

для различных значений гиперпараметров.

а = О,1 а= 1

Ь= 0,1 Ь= 1
2 2

о о
о 0,5 µ о 0,5 µ
3 3
а= 2 а= 8

Ь= з Ь= 4
2 2

0 '-----"'=----~-----~
0,5 µ о 0,5 µ

Рис. 2.2. Графики бста-распрсдслс11ия Bcta(µ ia, Ь), заданные формулой (2 .13), как

функции отµ при различных :шачсниях rиперпарамстров а и Ь


116 ГЛАВА 2. РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ

Апостериорное распределение параметра µ теперь получается путем умно­


жения априорного бета-распределения (2.13) на биномиальную функцию прав­
доподобия (2.9) и нормировки. Сохраняя только множители, зависящие отµ, мы
видим, что это апостериорное распределение имеет вид

р (µ 1 т, /
, а, ь) ос µ т+а-\ (l _ µ )l+b-\ , (2.17)
где /= N- т и, следовательно, соответствует количеству решек в примере с под­
брасыванием монеты. Мы видим, что распределение (2.17) имеет ту же функци­
ональную зависимость от µ, что и априорное распределение. Это отражает свой­

ства сопряженности априорного распределения по отношению к функции прав­


доподобия. Действительно, это просто другое бета-распределение, поэтому его
коэффициент нормировки можно получить путем сравнения с (2.13):

- Г( т +а+ Z+ Ь) т+а-\ ( _ )l+b-1


р ( µ 1m,l,a,b ) - ( ) ( )µ 1 µ . (2.18)
Г т+а Г l+b

Мы видим, что эффект наблюдения набора данных, состоящего из т значе­


ний х =1 и/ значений х = О, состоит в том, что значение а увеличилось на т,
а значение Ь- на /, т.е. априорное распределение превратилось в апостериор­
ное. Это позволяет дать простую интерпретацию гиперпараметров а и Ь в апри­
орном распределении как эффективного числа наблюдений х = 1их= О соответ­
ственно. Обратите внимание, что параметры а и Ь не обязательно должны быть
целыми числами. Кроме того, если мы впоследствии будем наблюдать дополни­

тельные данные, апостериорное распределение может играть роль априорного.

Чтобы продемонстрировать это, представим себе, что мы получаем наблюдения


одно за одним и после каждого наблюдения обновляем текущее апостериорное
распределение, умножая его на функцию правдоподобия с учетом нового
наблюдения, а затем нормируя, чтобы получить новое, уточненное апостериор­
ное распределение. На каждом этапе апостериорное распределение является бе­
та-распределением с некоторым общим количеством (априорных и фактических)
наблюдаемых значений х = 1 их= О при заданных параметрах а и Ь. Включение
дополнительного наблюдения х = 1 просто соответствует увеличению значения а
на единицу, а для наблюдениях= О - увеличению значения Ь на единицу. Один
шаг этого процесса показан на рис. 2.3.
2.1. Бинарные случайные величины 117

Априорное распределение Функция правдоподобия

0,5
µ

Рис. 2.3. Один шаг последовательного байесовскоrо вывода. Априорное распределение

задается бета-распределением с параметрами а = 2, Ь = 2, а функция правдоподобия ,

определяемая (2.9) с N = т = 1, соответствует одному наблюдению х = 1, так что

апостериорное распределение .задается бета-распределением с параметрами а = 3, Ь = 2

Мы видим, что, когда мы принимаем байесовскую точку зрения, этот после­


довательный подход к обучению возникает естественным образом. Он зависит
не от выбора априорного распределения и функции правдоподобия, а только от
предположения о независимости и одинаковом распределении данных. Последо­

вательные методы используют наблюдения по одному или небольшими партия­


ми, а затем отбрасывают их до получения следующих наблюдений. Они могут
использоваться, например, в сценариях обучения в режиме реального времени,
в которых существует постоянный поток данных, а предсказания должны быть
сделаны до того, как будут получены все данные. Поскольку эти методы не тре­
буют, чтобы весь набор данных был сохранен или загружен в память, последо­
вательные методы также полезны для больших наборов данных. Методы макси­
мального правдоподобия можно также представить в виде методов последова­
тельного анализа (см. раздел 2.3.5) .
Если наша цель состоит в том, чтобы предсказать, насколько это возможно,
результат следующего испытания, то мы должны вычислить прогностическое

распределение х, учитывая наблюдаемый набор данных V. С учетом правил


сложения и умножения вероятностей это предсказание принимает вид

1 1

= =Jр(х =11µ )p(µIV)dµ =J µp(µIV)dµ =E[µIV ].


р(х llV) (2.19)
о о

Используя результат (2.18) для апостериорного распределения р(µ JV) вместе с


результатом (2.15) для математического ожидания бета-распределения, получим:
т+а
р ( х=1 1V )
= . (2.20)
m+a+l+b
118 ГЛАВА 2. РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ

Эту величину можно интерпретировать как полную долю наблюдений (как ре­
альных, так и фиктивных априорных), которые соответствуют значению х = 1.
Заметим, что в пределе, при бесконечно большом наборе данных, когда т, 1~ оо,
результат (2.20) сходится к результату, полученному с помощью оценки макси­
мального правдоподобия (2.8). Как мы увидим, это универсальное свойство: как
байесовские результаты, так оценки максимального правдоподобия согласуются
в пределе при бесконечно большом наборе данных. Для конечного набора дан­
ных апостериорное математическое ожидание параметра µ всегда лежит между

априорным математическим ожиданием и оценкой максимального правдоподо­


бия для µ, соответствующей относительным частотам событий, заданных фор­
мулой (2.7) (см. упражнеиие 2. 7).
На рис. 2.2 видно, что по мере увеличения количества наблюдений пик апо­
стериорного распределения становится более острым. Это также следует из ре­
зультата (2.16) для дисперсии бета-распределения, в котором мы видим, что
дисперсия стремится к нулю при а ~ оо или Ь ~ оо. На самом деле мы можем за­
даться вопросом: является ли универсальным свойство байесовского обучения,
которое состоит в том, что при наблюдении все большего и большего количе­
ства данных неопределенность, представленная апостериорным распределением,

будет неуклонно уменьшаться.


Чтобы решить эту проблему, мы можем принять частотную точку зрения на
байесовский подход и показать, что в среднем такое свойство действительно
имеет место. Рассмотрим общую байесовскую задачу вывода для параметра (}на
основе набора наблюдаемых данных 'D, описываемых совместным распределе­
ниемр((}, 'D). Результат (см. упражнеиие 2.8)
Ее [ 8] = 1Ev[1Ee [ 8 l'D]], (2.21)
где

1Е 8 [8]= Jp(8)8d8, (2.22)

1Ev [Ее [8ID ]] = f{f Вр (8ID)d8} p(D)d'D, (2.23)

свидетельствует о том, что апостериорное математическое ожидание 8, усред­


ненное по распределению, генерирующему данные, равно априорному матема­

тическому ожиданию 8. Аналогично мы можем показать, что


(2.24)

В левой части (2.24) стоит априорная дисперсия параметра 8. В правой части


первое слагаемое представляет собой среднюю апостериорную дисперсию пара-
2.2. Мультиномиальные случайные величины 119

метра (}, а второе слагаемое - дисперсию апостериорного математического


ожидания параметра 8. Поскольку дисперсия является положительной величи­
ной, этот результат показывает, что в среднем апостериорная дисперсия пара­
метра (} меньше его априорной дисперсии. Если дисперсия апостериорного ма­
тематического ожидания увеличивается, то дисперсия уменьшается сильнее.

Однако обратите внимание на то, что этот результат выполняется только в сред­
нем и что для определенного наблюдаемого набора данных возможно, что апо­
стериорная дисперсия больше априорной дисперсии.

2.2. Мультиномиальные случайные величины

Бинарные случайные величины можно использовать для описания величин,

которые могут принимать одно из двух возможных значений. Часто, однако, мы


сталкиваемся с дискретными случайными величинами, которые могут прини­

мать одно из К возможных взаимоисключающих значений. Хотя существуют


различные альтернативные способы выражения таких случайных величин, мы
вскоре увидим, что особенно удобной является схема 1 из К, в которой перемен­
ная представлена К-мерным вектором х так, что один из элементов xk равен еди­

нице, а все остальные элементы равны нулю. Итак, например, если у нас есть

случайная величина, которая может принимать К= 6 значений, и конкретное

наблюдение переменной соответствует значению, в котором х 3 = 1, то величина


х будет представлена вектором
т
х =(О, О, 1, О, О, О) . (2.25)
к

Заметим, что такие векторы удовлетворяют условию L xk =1. Если мы oбo­


k=I
значим вероятность того, что xk = 1 с помощью параметра µk, то распределение х

задается формулой
к

p(xlµ)= пµ:k, (2.26)


k=I
т
гдеµ = (µ 1, "., µк) , а параметры µk удовлетворяют ограничениям µk ~О и
Lµk =1, поскольку они представляют вероятности. Распределение (2.26) мож­
k
но рассматривать как обобщение распределения Бернулли на более чем два ис-
хода. Легко видеть, что это распределение нормировано

LP(xlµ)= Lµk =1 (2.27)


х х

и что
120 ГЛАВА 2. РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ

(2.28)
х

Теперь рассмотрим набор данных 1J, состоящий из N независимых наблюде­


ний х 1 , .. " xN. Соответствующая функция правдоподобия имеет вид

NК К (LXпk) К
p(DIµ)= ппµ:·k = пµk • = пµ:k. (2.29)
n=I k=I k=I k=I

Мы видим, что функция правдоподобия зависит от N наблюдений только че­


рез К величин

(2.30)

которые представляют собой количество наблюдений, в которых xk = 1. Они назы­


ваются достаточными статистиками для этого распределения (см. раздел 2.4).
Для того чтобы найти решение задачи о максимальном правдоподобии для µ,
необходимо максимизировать функцию ln p(DIµ) по µk, учитывая ограничение,
которое требует, чтобы сумма всех µk была равна единице. Этого можно до­
стичь, используя множитель Лагранжа А и максимизируя функцию (см. прило­
жеииеД)

(2.31)

Полагая производную (2.31) по µk равной нулю, получим


µk =-тk/А.. (2.32)
Мы можем найти множитель Лагранжа А., подставляя (2.32) в ограничение
L,µk = 1 и получая А.= -N. Таким образом, решение задачи о максимальном
k

правдоподобии имеет вид

(2.33)

и представляет собой долю наблюдений, для которых xk = 1, среди N наблюдений.


Мы можем рассмотреть совместное распределение величин т 1 , •• " тк, обу­
словленных параметром µи общим количеством наблюдений N. Из (2.29) следу­
ет, что оно имеет вид

(2.34)
2.2. Мультиномиальные случайные величины 121

Такое распределение называется мультиномиальным. Коэффициент нормировки


представляет собой количество способов разбиения N объектов на К групп с
размерами т 1 , ""тки задается формулой

(2.35)

Заметим, что переменные mk подчиняются ограничению


к

Lmk =N. (2.36)


k=I

2.2.1. Распределение Дирихле


Введем теперь семейство априорных распределений для параметров {µk}
мультиномиалъного распределения (2.34). При анализе формы мулътиномиалъ­
ного распределения мы видим, что сопряженное априорное распределение зада­

ется формулой
к

p(µJa) ос пµ:k-1' (2.37)


k=I

где О ~ µk ~ 1 и L µk =1 . Здесь а1 , "., ак - параметры распределения, а а обо-


k т
значает вектор (а1 , "., ак) . Заметим, что из-за ограничения в виде суммы рас-
пределение {µk} по пространству ограничивается симплексом размерности К - 1,
как показано для К= 3 на рис. 2.4.
µ2

µ3
Рис. 2.4. Вследствие ограничений О s Jik s 1и L Jlk = 1 распределение Дирихле для трех
k
переменных р 1 , р2 , µ 3 ограничено симплексом (ограниченным линейным

многообразием) указанного вида


122 ГЛАВА 2. РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ

Нормализованная форма этого распределения (см. упраж11е11ие 2.9) имеет


вид

(2.38)

Это распределение называется распределением Дирихле. Здесь Г(х)- гамма­


функция, определяемая формулой (1.141), в то время как

(2.39)

Графики распределения Дирихле над симплексом при различных параметрах


ak показаны на рис . 2.5.

··:·

.·.
'.···

Рис. 2.5. Графики распределения Дирихле для трех переменных, где две горизонтальные

оси являются координатами в плоскости симплекса, а в ертикальная ось соответствует

значению плотности. Здесь {щ} = 0,1 на левом графике , { ak} = 1 в центре графика
и {щ } = 1О на правом графике

Умножая априорное распределение (2.38) на функцию правдоподобия (2.34),


получим апостериорное распределение для параметров {µk} в виде

p(µIV,a) ос p(Vlµ)p(µla) ос Пµ:k+mk-1 . (2.40)


k=l

Мы видим, что апостериорное распределение снова принимает форму рас­


пределения Дирихле, подтверждая, что оно действительно является сопряжен­

ным априорным распределением для мультиномиалъного распределения. Это


позволяет определить коэффициент нормировки путем сравнения с (2.38) сле­
дующим образом:
2.3. Нормальное распределение 123

р {µj D, а) =Dir {µj а + m) =

- Г(а0 +N) Пк µ аk +тk -\ (2.41)


- Г ( ао + т1 ) ."Г ( ао + т к ) k=I k '

где мы ввели обозначение m = (т 1 , .• " тк)т. Что касается случая биномиального


распределения с его априорным бета-распределением, то мы можем интерпрети­
ровать параметры а k априорного распределения Дирихле как эффективное чис-
ло наблюдений xk = 1.
Обратите внимание на то, что случайные величины с двумя возможными зна­
чениями могут быть представлены как бинарные и смоделированы с помощью
биномиального распределения (2.9) или схемы 1 из 2, а также с помощью муль­

тиномиального распределения (2.34) с К= 2.

Лежен Дирихле
1805-1859
Иоганн Петер Густав Лежен Дирихле был скромным и
сдержанным математиком, который внес вклад в тео­
рию чисел, механику и астрономию и дал первый
строгий анализ рядов Фурье. Его семья родом из го­
родка Ришле в Бельгии, а имя Лежен Дирихле проис­
ходит от фразы "le jeune de Richelet" ("молодой чело­
век из Ришле") . Первая статья Дирихле, опубликован-
ная в 1825 году, принесла ему мгновенную славу. Она была посвящена по­
следней теореме Ферма, в которой утверждается, что для п >2 не суще­

ствует положительных целочисленных решений х" +у" = z". Дирихле дал


частичное доказательство для случая п = 5, которое бьmо отправлено на
рецензию Лежандру, который, в свою очередь, закончил доказательство

этой теоремы. Позже Дирихле дал полное доказательство для п = 14, хотя
полное доказательство последней теоремы Ферма для любого п должно
было дождаться работы Эндрю Уайлса в последние годы ХХ века.

2.3. Нормаnьное распредеnение


Нормальное, или гауссовское, распределение является широко используемой
моделью распределения непрерывных переменных. В случае одной перемен­
ной х нормальное распределение можно записать в виде
124 ГЛАВА 2. РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ

N(x\µ,a 2 )= 1
112 ехр{-~(х-µ) 2 }, (2.42)
( 2tra2 ) 2а
2
где µ- математическое ожидание, а а - дисперсия. Для D-мерного вектора х
многомерное нормальное распределение принимает вид

(2.43)

где µ- D-мерный вектор математических ожиданий, 1: - ковариационная мат­

рица D х D, а 11: 1обозначает определитель матрицы 1:.

З N= 1 З N=2
2 2

Рис. 2.6. Гистограммы средних значений N равномерно распределенных чисел при


разных N. Как видим, при увеличении N распределение стремится к нормальному

Нормальное распределение возникает во многих контекстах и может быть


обосновано с разных точек зрения. Например, мы уже видели (см. раздел 1.6),
что для отдельной действительной случайной величины распределение, макси­
мизирующее энтропию, является нормальным. Этим свойством обладает и мно­
гомерное нормальное распределение (см. упражне11ие 2.14).
Другая ситуация, в которой используется нормальное распределение, возникает
при изучении суммы нескольких случайных величин. Центрш~ьная предельная
теорема Лапласа утверждает, что при определенных, довольно мягких условиях
сумма нескольких случайных величин, которая, конечно же, является случайной
величиной, имеет нормальное распределение, когда количество слагаемых стре­
мится к бесконечности (Walker, 1969). Мы можем проиллюстрировать это, рас­
смотрев N переменных х 1 , ".,хм каждая из которых имеет равномерное рас­
пределение на отрезке [О, 1], а затем изучив распределение среднего значения
(х 1 + ". + xN)/N. При больших N это распределение стремится к нормальному, как
показано на рис. 2.6. На практике сходимость к нормальному распределению при
возрастании N может быть очень быстрой. Одним из следствий этого результата
является то, что биномиальное распределение (2.9), являющееся распределени­
ем т, определяемым суммой N наблюдений бинарной случайной величины х, бу­
дет стремиться к нормальному при N ~ оо (см. рис. 2.1 для случая N = 1О).
2.3. Нормальное распределение 125

Нормальное распределение имеет много важных аналитических свойств, и мы


подробно рассмотрим некоторые из них. В результате этот раздел будет более
технически сложным, чем некоторые другие разделы, и потребует от читателя
знакомства с различными фактами теории матриц. Тем не менее мы настоятельно
рекомендуем читателю научиться свободно манипулировать нормальными рас­
пределениями, используя представлеЮIЫе здесь методы, поскольку это окажется

бесценным для понимания более сложных моделей, представленных в последую­


щих главах.

Карл Фридрих Гаусс


1777-1855
Говорят, что когда Гаусс отправился в начальную
школу в возрасте 7 лет, его учитель как-то попросил
учеников просуммировать все целые числа от 1до100.
К изумлению учителя Гаусс почти сразу нашел ответ,
заметив, что эта сумма может быть представлена в ви­
де 50 пар слагаемых (1 + 100, 2 + 99 и т.д.). Умножив
50 на 101, он получил правильный ответ: 5050. В
настоящее время считается, что задача, поставленная на самом деле, хотя

и имела такую же форму, бьша несколько сложнее, поскольку последова­


тельность имела большее начальное значение и большее приращение.
Гаусс бьш немецким математиком и ученым с репутацией трудолюбивого
перфекциониста. Одно из его многочисленных достижений заключается в
том, что он показал, что метод наименьших квадратов можно вывести на

основе предположения о нормальном распределении ошибок. Он также


создал ранний вариант неевклидовой геометрии (непротиворечивой гео­
метрической теории, которая нарушает аксиомы Евклида), но неохотно
обсуждал это публично, опасаясь, что его репутация может пострадать,
если люди узнают, что он верит в такую геометрию. В какой-то момент
Гаусса попросили провести геодезическую съемку королевства Ганновер,
что привело его к формулировке нормального распределения, известного
теперь как гауссовское распределение. Посмертное исследование его
дневников показало, что Гаусс обнаружил несколько важных математиче­
ских результатов на несколько лет и даже десятилетий раньше, чем они

были опубликованы другими математиками.


126 ГЛАВА 2. РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ

Начнем с рассмотрения геометрической формы нормального распределения.


Функциональная зависимость нормального распределения от х выражается
квадратичной формой

(2.44)
которая появляется в экспоненте. Величина Л называется расстоянием Махш~а­
нобиса от µдо х и сводится к евклидову расстоянию, когда 1: - единичная мат­
рица. Нормальное распределение будет постоянным на поверхностях в про­
странстве переменных х, для которых эта квадратичная форма постоянна.
Прежде всего отметим, что матрицу 1: без потери общности можно считать
симметричной, так как любой антисимметричный компонент из экспоненты ис­
чезает. Рассмотрим теперь уравнение для собственных значений ковариацион­
ной матрицы (см. упражиение 2.17):
(2.45)
где i = 1, ... , D. Поскольку 1:- действительная симметричная матрица, ее соб­
ственные значения будут действительными, а ее собственные векторы могут
быть выбраны так, чтобы образовывать ортонормированный набор векторов
(см. упражие1111е 2.18), так что
(2.46)

где liJ - (i,j)-й элемент единичной матрицы и удовлетворяет условию

1, если i = j,
{
= О, в противном случае.
1iJ (2.47)

Ковариационную матрицу 1: можно выразить как разложение по ее собствен­


ным векторам (см. ynpaJte11e1111e 2.19) в виде
D
1:= LA;U;uJ. (2.48)
i=l

Аналогично обратная ковариационная матрица r- 1 может быть выражена как

1:-l = f
i=l
_!._U;UJ.
Л;
(2.49)

Подставляя (2.49) в (2.44), преобразуем квадратичную форму к виду

(2.50)
2.3. Нормальное распределение 127

где

(2.51)

Мы можем интерпретировать {у;} как новую систему координат, определяемую


ортонормированными векторами u;, которая сдвинута и повернута относительно
т
исходных координат х;. Формируя вектор у= (У 1 , ••• , YD) , получаем:
у= U(x-µ), (2.52)

где U - матрица, строки которой заданы векторами uJ. Из (2.46) следует, что
U - ортогональная матрица, т.е. удовлетворяет условию UUт = 1, а значит, и
UтU = 1, где 1 является единичной матрицей (с.111. прило:ж:е11ие В).
Квадратичная форма и, следовательно, плотность нормального распределения
будут постоянными на поверхностях, для которых величина (2.50) является по­
стоянной. Если все собственные значения А; положительны, то эти поверхности
представляют собой эллипсоиды с центрами в точке µ и осями, ориентирован­
ными вдоль векторов U; с коэффициентами масппабирования в направлениях
осей, равными л/1 2 (рис. 2.7).

Рис. 2.7. Красная кривая обозначает эллити•1ескую поверхность постоянной плотности

вероятности для нормального распределения в двумерном пространстве х = (х 1 , х 2 ),

на которой плотность равна се значению при х =µ,умноженному на схр(-1/2).

Оси эллипса определяются собственными векторами u, ковариационной матрицы

с соответствующими собственными значениями А.;

Для правильного определения нормального распределения необходимо, что­


бы все собственные значения А; ковариационной матрицы были строго положи­
тельными, иначе распределение не может быть правильно нормировано. Матри-
128 ГЛАВА 2. РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ

ца, собственные значения которой строго положительны, называется положи­


тельно определенной. В главе 12 мы столкнемся с нормальными распределения­
ми, у которых одно или несколько из собственных значений равны нулю. В этом
случае распределение является сингулярным и ограничивается подпростран­

ством меньшей размерности. Если все собственные значения неотрицательны, то


ковариационная матрица называется положительно полуопределенной.
Теперь рассмотрим форму нормального распределения в новой системе ко­
ординат, определяемой векторами у;. Переходя от системы координат х к у, мы

получаем матрицу Якоби J с элементами, заданными формулой

дх.
J ij -- дуj
1 -и
- }i' (2.53)

где ~; - элементы матрицы uт. Используя свойство ортонормированности мат­


рицы U, мы видим, что квадрат определителя матрицы Якоби равен
IJl 2 =1uт1 2 = IUтllUI = IUтUI = 111=1 (2.54)
и, следовательно, IJI = 1. Кроме того, определитель III ковариационной матрицы
можно записать как произведение ее собственных значений, и, следовательно,
D
IIl112 =П лу2 . (2.55)
j=I

Таким образом, в системе координат у1 нормальное распределение принимает


вид

(2.56)

и представляет собой произведение D независимых одномерных нормальных


распределений. Таким образом, собственные векторы определяют новую систе­
му сдвинутых и повернутых координат, относительно которых совместное рас­

пределение вероятностей факторизуется в произведение независимых распреде­


лений. Тогда интеграл плотности распределения в системе координат у равен

Jp(y)dy= П -ооJ 2JrЛ1 ) 1/2 ехр { _у2_} dyi =1,


D
00

1 (2.57)
J=I ( 1 2}.J

где мы использовали результат (1.48) для нормировки одномерного нормального


распределения. Это гарантирует, что многомерное нормальное распределе­
ние (2.43) действительно нормировано.
2.3. Нормальное распределение 129

Перейдем теперь к моментам нормального распределения и приведем интер­

претацию параметров µ и I:. Математическое ожидание случайной величины х,


имеющей нормальное распределение, задается выражением

Е[ х] = D~2 112 Jехр{-.!.( х- µ)т 1:-1 ( х- µ)}xdx=


( 21Z") 11:1 2
(2.58)
= D~2 i12f exp{-_!_zт1:-'z}(z+µ)dz,
( 2JZ") 11:1 2
где мы провели замену переменных, используя подстановку z = х - µ. Заметим
теперь, что экспонента является четной функцией от компонентов z и, посколь­
ку интегралы по ним берутся на интервале (--оо, оо ), член, зависящий от z в мно­
жителе перед (z +µ),в силу симметрии исчезнет, и, следовательно,

JE[x] = µ. (2.59)

По этой причине мы будем назьmать величину µ математическим ожиданием


нормального распределения.

Рассмотрим теперь моменты второго порядка нормального распределения.

В одномерном случае мы рассмотрели момент второго порядка, заданный мате­


матическим ожиданием JE[i]. Для многомерного нормального распределения
2
существуют D моментов второго порядка, заданных математическим ожидани-

ем 1Е[х;х1 ], которые мы можем группировать вместе, чтобы сформировать матри­


цу JЕ[ххт]. Эта матрица может быть записана как

где мы снова провели замену переменных с помощью подстановки z = х - µ.


Заметим, что перекрестные слагаемые, включающие µzт и zµт, снова будут об­
ращаться в нуль вследствие симметрии. Член µµт является постоянным и может
быть вынесен за пределы интеграла, который сам по себе равен единице, потому
что нормальное распределение является нормированным. Рассмотрим член, со­
держащий zzr. Мы можем снова использовать разложение ковариационной
матрицы по собственным векторам, заданное формулой (2.45). Учитывая полно­
ту множества собственных векторов, можно написать
130 ГЛАВА 2. РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ

D
z= LY1UJ' (2.60)
J=l

(2.61)

D
= Lu;uJ А; =1:,
i=l

где мы использовали уравнение для собственного вектора (2.45), а также тот


факт, что интеграл в правой части средней строки обращается в нуль вследствие
симметрии, если i = j, а в заключительной строке мы использовали результаты

(1.50) и (2.55) вместе с (2.48). Таким образом, имеем:

(2.62)

Работая с одномерными случайными величинами, мы вычитали математиче­


ское ожидание, прежде чем вычислять второй момент, чтобы определить дис­
персию. Аналогично в многомерном случае снова удобно вычесть математиче­
ское ожидание, введя в рассмотрение ковариацию случайного вектора х, опреде­
ляемую формулой

cov[x] = Е(х - Е[х])(х - Е[х])т. (2.63)

Для конкретного случая нормального распределения мы можем положить

Е[х] =µ.Вместе с результатом (2.62) это дает

cov[x] = 1:. (2.64)


Поскольку матрица параметров I: определяет ковариацию случайной величи­
ны х при нормальном распределении, она называется ковариационной матрицей.
Хотя нормальное распределение (2.43) широко используется в качестве моде­
ли плотности, оно имеет некоторые существенные ограничения. Рассмотрим ко­
личество свободных параметров в распределении. Общая симметричная ковари­
ационная матрица 1: будет иметь D(D + 1)/2 независимых параметров, а другие D
независимых параметров содержатся в вектореµ, что в сумме дает D(D + 3)/2
параметров (см. упраJкнеиие 2.21). Поэтому при больших D общее количество
параметров квадратично возрастает с ростом D, а вычислительная задача обра-
2.3. Нормальное распределение 131

ботки и обращения больших матриц может стать непомерно трудной. Одним из


способов решения этой проблемы является использование ограниченных форм
ковариационной матрицы. Если рассматривать диагональные ковариационные

матрицы, так что L = diag (а} ) , то получим в общей сложности 2D независимых


параметров в модели плотности. Соответствующие изолинии постоянной плот­
ности задаются эллипсоидами, ориентированными вдоль координатных осей.
Можно еще сильнее ограничить ковариационную матрицу, сделав ее пропорци­

ональной единичной матрице, I: = а2 1 (так называемая изотропная ковариация).


В результате модель и сферические поверхности постоянной плотности будут
зависеть только от D + 1 независимых параметров. Три варианта общих, диаго­
нальных и изотропных ковариационных матриц показаны на рис. 2.8. К сожале­
нию, такие подходы, ограничивая число степеней свободы в распределении и
делая обращение ковариационной матрицы намного более быстрой операцией,
одновременно сильно ограничивают форму плотности вероятности и ее способ-
ностъ отражать важные корреляции между данными.

Xz Xz Xz

~ а)
Х1
с@)
б)
Х1
(@)
в)
Х1

Рис. 2.8. JЪолинии постоянной плотности нсрояпюсти для нормального распределения

в двух измерениях, в которых ковариа~1ионная матрица а) общего вида, б) диагональная,

в которой эллиптические изолинии вытянуты вдол1, координатных осей, и в) матрица,

пропорциональная единичной, в которой изолинии представляют собой

концентрические окружности

Еще одно ограничение нормального распределения состоит в том, что оно


является по существу одномодальным (т.е. его плотность имеет один максимум)
и поэтому не может обеспечить хорошее приближение к многомодальным рас­
пределениям. Таким образом, нормальное распределение может быть как слиш­
ком гибким, в смысле наличия слишком большого числа параметров, так и
слишком ограниченным с точки зрения диапазона распределений, которые оно

может адекватно представить. Позже мы увидим, что введение латентных пе­

ременных, также называемых скрытыми или ненаблюдаемыми переменными,


позволяет решить обе эти проблемы. В частности, богатое семейство многомо-
132 ГЛАВА 2. РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ

дальных распределений получается путем введения дискретных скрытых пере­


менных, приводящих к смесям нормальных распределений, как описано в разде­
ле 2.3.9. Точно так же введение непрерывных латентных переменных, как опи­
сано в главе 12, приводит к моделям, в которых количество свободных парамет­
ров можно контролировать независимо от размерности D пространства данных,

но при этом позволяя модели фиксировать доминирующие корреляции в дан­


ных. Действительно, эти два подхода могут быть объединены и расширены, что­
бы получить очень богатый набор иерархических моделей, которые могут быть
адаптированы к широкому спектру практических приложений. Например, гаус­

совская версия марковского случайного поля (см. раздел 8.3), широко использу­
емая в качестве вероятностной модели при анализе изображений, является нор­
мальным распределением в совместном пространстве интенсивности пикселей,

но становится вычислительно доступной благодаря наложению жесткой струк­


туры, отражающей пространственную организацию пикселей. Аналогично ли­
нейная динамическая система, используемая для моделирования временных ря­
дов данных для приложений, таких как отслеживание (см. раздел 13.3), также
является совместным нормальным распределением над потенциально большим
количеством наблюдаемых и латентных переменных и снова может стать при­
емлемой из-за структуры, наложенной на распределение. Мощной основой для
выражения формы и свойств таких сложных распределений является модель ве­
роятностных графов, которая станет предметом главы 8.

2.3.1. Условные нормальные распределения

Важным свойством многомерного нормального распределения является то,


что если два набора переменных являются совместно нормальными, то условное '
распределение одного множества, обусловленного другим, снова является нор­
мальным. Аналогично маргинальное распределение любого множества также
является нормальным.

Рассмотрим сначала случай условных распределений. Предположим, что х


является D-мерным вектором с нормальным распределением N(xlµ, :Е), и разо­
бьем х на два непересекающихся подмножества х 0 и хь. Без ограничения общно­
сти мы можем взять для образования вектора Ха первые М компонентов
вектора х, а хь пусть содержит оставшиеся D- М компонентов, так что

х=[::} (2.65)
2.3. Нормальное распределение 133

Кроме того, определим соответствующие разбиения вектора математических


ожиданий µ, заданного формулой

µ=(::) (2.66)

и ковариационной матрицы I:, заданной формулой

Iаь). (2.67)
Iьь

Заметим, что симметрия I:т = I: ковариационной матрицы означает, что I:aa и I:ьь
являются симметричными, а I:ьа = I:~ь.
Во многих ситуациях удобно работать с обратной ковариационной матрицей

(2.68)
которая называется матрицей точности (precision matrix). На самом деле мы
увидим, что некоторые свойства нормальных распределений наиболее есте­
ственно выражаются через ковариацию, тогда как другие принимают более про­
стую форму при рассмотрении с точки зрения точности. Поэтому мы также вво­
дим блочную форму матрицы точности

(2.69)

соответствующую разбиению (2.65) векторах. Поскольку обратная симметрич­


ная матрица также симметрична, мы видим, что Ааа и Аьь симметричны, а
Л~ь = Аьа (ot. упраж11е11ие 2.22). На этом этапе следует подчеркнуть, что,
например, матрица Ааа не просто задается обратной к матрице I:aa· Вкратце рас­
смотрим связь между матрицей, обратной к блочной матрице, и матрицами, об­

ратными к ее блокам.
Начнем с нахождения выражения для условного распределения р(хаlхь). Из
правила умножения вероятностей следует, что это условное распределение

можно вычислить с помощью совместного распределения р(х) = р(ха, хь), про­


сто фиксируя наблюдаемое значение хь и нормируя полученное выражение для
определения корректного распределения вероятностей по Ха. Вместо того чтобы
явно выполнять эту нормировку, мы можем получить решение более эффектив­
но, рассмотрев квадратичную форму в экспоненте нормального распределения,
заданную формулой (2.44), а затем восстановив коэффициент нормировки в
конце вычисления. Если мы воспользуемся разбиением (2.65), (2.66) и (2.69), то

получим:
134 ГЛАВА 2. РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ

_!(х-µ)т Г 1 (х-µ) =
2
=-~(ха -µа)т Ааа(ха -µа)-~(ха -µа)т Ааь(хь-µь)- (2.70)

_!(хь -µь)т Аьа (ха -µа )-!(хь -µь)т Аьь (хь -µь)·
2 2
Как видим, это выражение, рассматриваемое как функция от Ха снова пред­
ставляет собой квадратичную форму, и, следовательно, соответствующее услов­
ное распределение р(хаlхь) будет нормальным. Поскольку это распределение
полностью характеризуется его математическим ожиданием и ковариацией,
наша цель будет заключаться в определении выражений для математического
ожидания и ковариациир(хаlхь) путем проверки условия (2.70).
Это пример довольно распространенной операции, связанной с нормальными

распределениями, иногда называемой "выделением полного квадрата", в кото­


рой дается квадратичная форма, определяющая члены экспоненты в нормальном
распределении, и нам нужно определить соответствующее математическое ожи­

дание и ковариацию. Такие задачи можно решать прямо, заметив, что показатель
в общем нормальном распределении N(xlµ, I:) можно записать в виде

-21 ( х-µ )т I: -1 ( х-µ ) =- 21 х т I: -1 х+х тI: -1 µ+const, (2.71)

где выражение const обозначает члены, не зависящие от х, и учтена симметрич­


ность матрицы I:. Таким образом, если мы возьмем нашу общую квадратичную
форму и выразим ее в форме, заданной правой частью (2.71), то можем сразу же
приравнять матрицу коэффициентов, входящих в член второго порядка по х, к
обратной ковариационной матрице Г 1 , а коэффициент линейного члена от х -
к I:- 1µ, откуда можем получитьµ.
Теперь применим эту процедуру к условному нормальному распределению

р(хаlхь), для которого квадратичная форма в экспоненте задается форму­


лой (2. 70). Обозначим математическое ожидание и ковариацию этого распреде­
ления через µа 1 ь и I:а 1 ь соответственно. Рассмотрим функциональную зависи­
мость (2. 70) от Ха, в которой хь рассматривается как константа. Если мы выбе­
рем все члены второго порядка по ха, получим выражение

1 т
-lxaAaaxa, (2.72)

из которого можно сразу же заключить, что ковариация (обратная точность)


р(хаlхь) задается формулой
2.3. Нормальное распределение 135

Ialь = Л~~. (2.73)

Теперь рассмотрим все члены в (2.70), линейные относительно ха:

Х~ {Аааµа -Ааа(хь-µь)}, (2.74)

где мы использовали равенство Л~а = Ааь . Из нашего обсуждения общей формы


(2.71) следует, что коэффициент при Ха в этом выражении должен быть равен
~-1
"'аlЬµаlЬ и, следовательно,

µalb =Ialb {Аааµа -Ааь (хь - µь )} =


(2.75)
=µ 0 -А~~Ааь(хь -µь),
где мы использовали (2.73).
Результаты (2.73) и (2.75) выражаются через блочную матрицу точности исход­
ного совместного распределения р(ха, хь). Эrn результаты мы также можем выра­
зить в терминах соответствующей блочной ковариационной матрицы. Для этого
используем следующее тождество для обратной к блочной матрице (см. упраж­
нение 2.24):

( Ас в)- 1 ( м -мвn- 1 )
(2.76)
D = -n- 1 см n- 1 + n- 1 смвn- 1 '

где мы ввели обозначение


(2.77)
Величина м- 1 известна как дополнение Шура (Schur complement) матрицы в
левой части (2.76) относительно подматрицы D. Используя это определение, по­
лучаем:

(2.78)

И, используя (2.76), имеем

(2.79)

(2.80)

Из них мы получаем следующие выражения для математического ожидания и


ковариации условного распределения р(хаlхь):

µаlЬ =µа+ Iaьiьi (хь - µь ), (2.81)

Ialb = Iaa - Iaьiьiiьa · (2.82)


136 ГЛАВА 2. РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ

Сравнивая (2.73) и (2.82), мы видим, что условное распределение р(хаlхь)


принимает более простой вид, когда выражается через блочную матрицу точно­
сти, чем когда она выражается через блочную ковариационную матрицу. Заме­
тим, что математическое ожидание условного распределения р(хаlхь), заданное
формулой (2.81), является линейной функцией от хь и что ковариация, заданная
формулой (2.82), не зависит от хь. Это представляет собой пример линейной
гауссовской модели (см. раздел 8.1.4).

2.3.2. Маргинальные нормальные распределения

Мы видели, что если совместное распределение р(ха, хь) является нормаль­


ным, то условное распределение р(хаlхь) также будет нормальным. Перейдем
теперь к обсуждению маргинального распределения:

(2.83)

которое, как мы увидим, также является нормальным. Наша стратегия вычисле­

ния этого распределения снова будет заключаться в том, чтобы сосредоточиться


на квадратичной форме в экспоненте совместного распределения и тем самым
определить математическое ожидание и ковариацию маргинального распределе­

ния р( ха).
Квадратичная форма совместного распределения может быть выражена с ис­
пользованием блочной матрицы точности в виде (2.70). Поскольку наша цель
состоит в том, чтобы интегрировать по хь, этого легче всего достичь, сначала
рассмотрев члены, связанные с хь, а затем выделить полный квадрат, чтобы об­
легчить интегрирование. Выбрав только те члены, которые содержат хь, имеем:

1 т т 1( )т ( 1 т -1
-1 -1
-2хьАььХь+хьm=-2 хь-Аььm Аьь Хь-Аььm
)
+2m Аььm, (2.84)

где используется обозначение

m= Аььµь-Аьа(Ха-µа). (2.85)
Таким образом, мы получили сумму стандартной квадратичной формы нор­
мального распределения, соответствующей первому члену в правой части (2.84)
и зависящей от хь, и слагаемого, не зависящего от хь, но зависящего от Ха. Та­
ким образом, вычисляя экспоненту этой квадратичной формы, мы видим, что
интегрирование по хь в (2.83) принимает вид

fехр{-~( хь -Лf;~m) т Льь ( хь -Лf;~m) }dхь. (2.86)


2.3. Нормальное распределение 137

Эго mпегрирование легко вьпюШiить, заметив, что интеграл берется от ненор­


мированного нормального распределения, и поэтому он будет обраПIЫМ коэффи­
циенту нормировки. Из вида нормированного нормального распределения (2.43)
известно, что этот коэффициент зависит не от математического ожидания, а только
от определителя ковариационной матрицы. Таким образом, вьщеляя полный квад­
рат по хь, мы можем интегрировать по хь, и единственный член, оставшийся от
вкладов в левой части (2.84), который зависит от Ха, является последним членом в

правой части (2.84), в котором величина m задается формулой (2.85). Объединяя


этот член с остальными членами из (2.70), которые зависят от Ха, получаем.

(2.87)

= -±х~ ( Ааа -АаьАь~Аьа )ха+


+х~ ( Ааа - АаьАь~Аьа) µа + const,
где выражение const обозначает величины, не зависящие от Ха. И снова, сравни­
вая (2.87) с (2.71), мы видим, что ковариация маргинального распределенияр(ха)
определяется формулой

(2.88)

Аналогично математическое ожидание определяется уравнением

:Еа(Ааа -АаьАь~Аьа)µа =µа, (2.89)

в котором мы использовали формулу (2.88). Ковариация в (2.88) выражается че­


рез блочную матрицу точности, заданную формулой (2.69). Мы можем перепи­
сать ее в терминах соответствующего разбиения ковариационной матрицы, за­
данной формулой (2.67), как это было сделано для условного распределения.
Эги блочные матрицы связаны соотношением

(2.90)

Используя (2.76), получаем:

(2.91)
138 ГЛАВА 2. РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ

Таким образом, мы получаем интуитивно удовлетворительный результат, со­


гласно которому маргинальное распределение р(ха) имеет математическое ожи­
дание и ковариацию, заданные формулами

Е[ха] =µа, (2.92)


COV[ Ха) = I-aa· (2.93)
Мы видим, что для маргинального распределения математическое ожидание
и ковариация наиболее просто выражаются через блочную ковариационную
матрицу, в отличие от условного распределения, для которого более простые
выражения порождает блочная матрица точности.
Наши результаты для маргинальных и условных распределений разделенного

нормального распределения приведены ниже.

Блочное нормальное распределение

Пусть задано совместное нормальное распределение N<:xl,u, I.), где Л = ~-! и

х =(::} µ = (;:} (2.94)

(2.95)

Условное распределение имеет вид

р(хаlхь) =N( xalµalь•A~~ ), (2.96)

µalb =µа -А~~Ааь(хь -µь)· (2.97)


Маргинальное распределение имеет вид

(2.98)

Идея условных и маргинальных распределений, связанных с многомерным


нормальным распределением, проиллюстрирована на рис. 2.9 на примере с дву­

мя переменными.
2.3. Нормальное распределение 139

Хь = 0,7 р(х.lхь = 0,7)

0,5 5

Рис. 2.9. График слева показывает изолинии нормального распределения р(ха, xh) по

двум переменным, а график справа показывает маргинальное распределение р(ха) (синяя

кривая) и условное распределение р(х)х 1 ,) для xh = 0,7 (красная кривая)

2.3.3. Теорема Байеса для нормальных случайных величин

В разделах 2.3.1 и 2.3.2 мы рассмотрели нормальное распределение р(х),


в котором разделили вектор хна два подвектора х =(ха, хь), а затем нашли вы­
ражения для условного распределения р(хаlхь) и маргинального распределения
р(ха)· Мы отметили, что математическое ожидание условного распределения

р(хаlхь) является линейной функцией от Хь. Здесь мы будем предполагать, что


нам дано маргинальное нормальное распределение р(х) и условное нормальное
распределение p(yix), в котором p(ylx) имеет математическое ожидание, явля­
ющееся линейной функцией от х, и ковариацию, которая не зависит от х. Это
пример линейной гауссовской модели (Roweis and Ghahramani, 1999), которую
мы рассмотрим при более общих условиях в разделе 8. 1.4. Мы хотим найти мар­
гинальное распределение р(у) и условное распределение p(xiy). Эта задача бу­
дет часто возникать в последующих главах, а здесь нам удобно получить общие
результаты.

Мы возьмем маргинальные и условные распределения

р(х) = N(xlµ, л- 1 ), (2.99)

p(yix) = N(ylAx + Ь, L- 1), (2.100)


140 ГЛАВА 2. РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ

где µ, А и Ь - параметры, определяющие математическое ожидание, а Л и L-


матрицы точности. Если вектор х имеет размерность М, а у - размерность D, то
матрица А имеет размер D х М.

Сначала найдем выражение для совместного распределения по х и у. Для


этого определим

z=[;). (2.101)

а затем рассмотрим логарифм совместного распределения

lnp( z) = lnp( х) + lnp(ylx) =

=-_!_(х-µ)т Л(х-µ)- (2.102)


2

-~(у-Ах-Ь )т L(y-Ax-b )+const,


где выражение const обозначает члены, не зависящие от х и у. Как и раньше, мы
видим, что это квадратичная функция от компонентов вектора z, и, следователь­
но, р( z) является нормальным распределением.
Чтобы найти точность этого нормального распределения, рассмотрим члены
второго порядка в (2.102), которые можно записать в виде

1 т( Л+А т LA ) х--у
--х
1 т Ly+-y
1 т LAx+-x
1 т А т Ly=
2 2 2 2

=-н;пл~~:LА -:L)[;)=+TRz (2.103)

Следовательно, нормальное распределение по z имеет матрицу точности (об­


ратную ковариационную ), заданную формулой

R = [л + ArLA -ArL)· (2.104)


-LA L
Ковариационную матрицу можно найти, вычислив матрицу, обратную к мат­

рице точности. Это можно сделать с помощью формулы обращения матри­


цы (2.76) (см. упражиеиие 2.29):
л-1
cov[z]=R- =( АЛ_ 1
1 (2.105)
2.3. Нормальное распределение 141

Аналогично мы можем найти математическое ожидание нормального распре­

деления по z, отождествляя линейные члены в (2.102), которые определяются


формулой

(2.106)

Используя наш предыдущий результат (2.71), полученный путем выделения


полного квадрата в квадратичной форме многомерного нормального распреде­
ления, находим, что математическое ожидание от z задается формулой

(2.107)

Воспользовавшись (2.105), получим (с.и. упраж11е11ие 2.30):

(2.108)

Затем найдем выражение для маргинального распределения р(у), в котором


мы игнорируем переменную х. Напомним, что маргинальное распределение по

подмножеству компонентов нормального случайного вектора принимает осо­


бенно простой вид, если выразить его в терминах блочной ковариационной мат­
рицы. В частности, его математическое ожидание и ковариация (см. раздел 2.3)
задаются формулами (2.92) и (2.93) соответственно. Используя (2.105) и (2.108),
мы видим, что математическое ожидание и ковариация маргинального распре­

деления р(у) задаются формулами

JE[y] =Аµ+ Ь, (2.109)


cov[y] = L- +
1 АЛ- 1 Ат. (2.110)

Частным случаем этого результата является А= 1, и в этом случае оно сводится


к свертке двух нормальных распределений, для которых мы видим, что математи­

ческое ожидание свертки является суммой математических ожиданий двух нор­


мальных распределений, а ковариация свертки - это сумма их ковариаций.

Наконец, найдем выражение для условного распределения p(xly). Напомним,


что условное распределение наиболее легко выражается через блочную матрицу
точности с помощью формул (2.73) и (2.75). Применяя эти результаты к (2.105)
и (2.108), мы видим, что условное распределение p(xly) имеет математическое
ожидание и ковариацию, заданные формулами (с)и. раздел 2.3)
142 ГЛАВА 2. РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ

JE[xly] = (Л +А тLА)- 1 {А тL(у-Ь) + Лµ}, (2.111)


cov[xly] = (Л + АтLА)- 1 • (2.112)
Вычисление этого условного распределения можно рассматривать как при­

мер теоремы Байеса. Мы можем интерпретировать распределение р(х) как апри­


орное распределение по х. Если наблюдается переменная у, то условное распре­
деление p(xly) представляет собой соответствующее апостериорное распределе­
ние по х. Найдя маргинальное и условное распределения, мы по существу

выразили совместное распределение p(z) = p(x)p(ylx) в виде p(xly)p(y). Эти ре­


зультаты обобщены ниже.

Маргинальные и условные нормальные распределения

Пусть маргинальное нормальное распределение для х и условное нор­


мальное распределение для у при условии х заданы в виде

р(х) = N( хjµ,л- 1 ), (2.113)

p(yjx) =N(yjAx+ b,L- 1 ). (2.114)


Тогда маргинальное распределение у и условное распределение х при
условии у задаются формулами

p(y)=N(yjAµ+b,L- 1 +АЛ- 1 Ат), (2.115)

p(xly) = N( xjI:{AтL(y-b) + Лµ},I: ), (2.116)


где

(2.117)

2.3.4. Максимальное правдоподобие для нормального


распределения

Имея набор данных Х = (х 1 , ... , хN)т, относительно которого предполагается,


что наблюдения {хп} независимо друг от друга извлечены из генеральной сово­
купности с многомерным нормальным распределением, мы можем вычислить

параметры распределения с помощью метода максимального правдоподобия.


Логарифмическая функция правдоподобия определяется формулой
2.3. Нормальное распределение 143

Выполняя простую перестановку, мы видим, что функция правдоподобия за­


висит от набора данных только через две величины

N N
LXn
n=I
и LXnX~.
n=I
(2.119)

Они называются достаточными статистиками для нормального распреде­


ления. Используя (В.19), можно показать, что производная логарифмической
функции правдоподобия по µопределяется по формуле (см. 11риложе11ие В)

д N
-lnp(XJµ,I.:) =LI.:- 1 (хп -µ). (2.120)
дµ n=I

Приравняв эту производную нулю, получим решение для оценки максимального

правдоподобия математического ожидания, заданное формулой

1 N
µМL =-Iхп. (2.121)
N n=I

Эта величина представляет собой среднее значение наблюдаемого набора дан­


ных. Максимизация (2.118) по отношению к I: является более сложной. Самый
простой подход - игнорировать ограничение симметрии и показать, что полу­

ченное решение и так является симметричным (с.и. ynpaJ1cue11ue 2.34). Альтер­


нативные выводы этого результата, которые явно налагают ограничения сим­

метрии и положительной неопределенности, можно найти в Magnus and


Neudecker (1999). Результат, как и ожидалось, принимает форму

1 N Т
I:МL = N~(хп -}lмL)(xn -µМL) , (2.122)

которая содержит величину JJмL, потому что это результат совместной максимиза­
~щи поµ и I:. Заметим, что решение (2.121) относительно JJмL не зависит от I:мL,
поэтому мы можем сначала вычислить величину µML• а затем использовать ее

для вычисления I:МL· Если мы оценим математические ожидания решений, полу­


ченных по методу максимального правдоподобия при истинном распределении,
то получим следующие результаты (с.и. упраж11е11ие 2.ЗS):

(2.123)
144 ГЛАВА 2. РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ

(2.124)

Мы видим, что оценка максимального правдоподобия для математического


ожидания равна истинному математическому ожиданию. Однако оценка макси­
мального правдоподобия для ковариации имеет математическое ожидание, ко­
торое меньше истинного значения, и, следовательно, оно смещено. Мы можем

исправить это смещение, определив другую оценку f. , заданную формулой

f.мL =-1 -f(хп -µML)(xn -µМL)т · (2.125)


N-1 n=1

Из (2.122) и (2.124) следует, что математическое ожидание f. равно~.

2.3.5. Последовательное оценивание

Наше обсуждение оценок максимального правдоподобия для параметров


нормального распределения дает удобную возможность обсудить более общую
тему последовательной оценки максимального правдоподобия. Последователь­
ные методы позволяют обрабатывать данные по очереди, а затем отбрасывать
их. Это важно для онлайн-приложений, а также там, где задействованы большие
наборы данных, для которых пакетная обработка всех данных сразу невозможна.
Рассмотрим результат (2.121) для оценки максимального правдоподобия ма­
тематического ожидания µML• которую мы будем обозначать как µ~ , если она
основана на N наблюдениях. Если мы отбросим вклад конечной точки хм то по­
лучим:

(N) _
µ ML ~х
_!_ L., -
- п -
N n=1
1 1 N-1
=-xN+-Lx =
N N n=1 п (2.126)
- 1 N -1 (N-1) -
--XN +--µML -
N N
_ (N-1) 1( (N-1))
- µМL +N х N - µМL .

Этот результат имеет точную интерпретацию. После наблюдения N - 1 точек мы


получили оценку µ~~-!) . Теперь мы наблюдаем точку xN и получаем пересмот­
ренную оценку µ~,смещая старую оценку на небольшую величину, пропор-
2.3. Нормальное распределение 145

циональную 1/N, в направлении "ошибочного сигнала" xN -µ~-!).Заметим, что


по мере увеличения N вклад от последовательных точек увеличивается.

Результат (2.126) явно дает тот же ответ, что и результат (2.121), полученный
пакетной обработкой, потому что эти две формулы эквивалентны. Однако мы не
всегда можем вывести последовательный алгоритм таким способом и поэтому
ищем более общую формулировку последовательного обучения, что приводит нас
к алгоритму Роббинса-Монро. Рассмотрим пару случайных величин 8 и z, опре­
деляемых совместным распределением p(z, 8). Условное математическое ожида­
ние z при заданном В представляет собой детерминированную функцию f( В), за­
данную формулой

(2.127)

и схематически показанную на рис. 2.10. Функции, определенные таким обра­


зом, называются функциями регрессии.

Рис. 2.1 О. Схематическая иллюстрация r1вух коррелированных случайных

величин z и {)вместе с функцией регрессии Л 0), заданной условным математическим

ожиданием IE[zi О]. Алгоритм Роббинса--Монро обеспечивает общую последовательную

процедуру поиска корня О* таких функций

Наша цель - найти корень В*, при котором f(В*) =О. Если бы мы имели
большой набор данных наблюдений z и В, то могли бы непосредственно модели­
ровать функцию регрессии, а затем получить оценку ее корня. Предположим,
однако, что мы наблюдаем значения z по одному и хотим найти соответствую­
щую последовательную схему оценки для параметра В*. Следующая общая про­
цедура для решения таких задач была предложена Роббинсом и Монро (Robbins
and Monro (1951 )). Будем считать, что условная дисперсия z конечна, так что
IE[(z - Л 2 1 В] < оо. (2.128)
146 ГЛАВА 2. РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ

Кроме того, не ограничивая общности, рассмотрим случай, когда f( 8) > О при


8> 8* и/(8) <О при 8< 8* (рис. 2.10). Процедура Роббинса-Монро определяет
последовательность оценок корня 8*, заданную формулой
8 (N) -_ 8 (N-1) -aN_\Z
( 8 (N-I)) , (2.129)
где z( 8<NJ) является наблюдаемым значением z, когда 8 принимает значение 8<NJ.
Коэффициенты {aN} представляют собой последовательность положительных чи­
сел, удовлетворяющих условиям

lim aN =0, (2.130)


N~"'

(2.131)

(2.132)

Затем можно показать (Robblns and Monro, 1951; Fukunaga, 1990), что последо­
вательность оценок, заданных (2.129), действительно сходится к корню с веро­
ятностью, равной единице. Заметим, что первое условие (2.130) гарантирует, что
последовательные поправки уменьшаются по модулю, чтобы процесс мог схо­
диться к предельному значению. Второе условие (2.131) необходимо для обес­
печения сходимости алгоритма, а третье условие (2.132) необходимо для обес­
печения того, чтобы накопленный шум имел конечную дисперсию и, следова­
тельно, не портил сходимость.

Теперь рассмотрим, как можно решить общую задачу максимального правдо­


подобия, используя алгоритм Роббинса-Монро. По определению решение макси­
мального правдоподобия 8мL является стационарной точкой отрицательной лога­
рифмической функции правдоподобия и, следовательно, удовлетворяет условию

д { -1 ~)np(xnl8)
-- N }
=0. (2.133)
88 N n=I L}

"ML

Изменяя порядок взятия производной и суммирования и переходя к пределу

при N ~ оо, имеем:

- lim
N~(X)
_!_
N
f ~1np(xnl8)
88
n=I
= l&x [-~lnp(xl8)].
88
(2.134)

Как видим, поиск оценки максимального правдоподобия соответствует нахож­


дению корня функции регрессии. Следовательно, мы можем применить проце­
дуру Роббинса-Монро, которая теперь принимает форму
2.3. Нормальное распределение 147

В качестве конкретного примера снова рассмотрим последовательную оценку


математического ожидания нормального распределения. В этом случае параметр
(J(N) является оценкой µ~J математического ожидания нормального распреде­
ления, а случайная величина z задается формулой

д _ln р ( µML' и 2 ) = -~( х - µML).


z = __ xl (2.136)
дµМL U

Таким образом, распределение случайной величины z является нормальным


распределением с математическим ожиданием -(µ- µМL)/ и2 (рис. 2.11 ). Под­
ставляя (2.136) в (2.135), получим одномерный вид (2.126), если выберем коэф­
фициенты aN так, чтобы они имели вид aN = u 2/N. Заметим, что хотя мы и сосре­
доточились на случае одной переменной, тот же метод вместе с теми же ограни­
чениями (2.130}-(2.132) относительно коэффициентов aN в равной степени
применим к многомерному случаю (Blum, 1965).
z

Рис. 2.11. В случае нормального распределения, в котором В соответствует

математическому ожиданиюµ м 1 ., функция регрессии, изображенная на рис. 2.1 О, имеет

вид прямой линии, пока3анной красным цветом. В этом случае случайная величина z
соответствует проюводной логарифмической функции правдоподобия и 3адастся

формулой -(х - µмL)lci, а се математическое ожидание, определяющее функцию


регрессии, является прямой линией, 3аданной параметром -(р- µмL)/ ci. Корень
функции регрессии соответствует оценке максимального правдоподобия µ
148 ГЛАВА 2. РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ

2.3.6. Байесовский вывод для нормального распределения

Принцип максимального правдоподобия дает точечные оценки параметров µ


и 1:. Теперь мы изложим байесовский подход, введя априорные распределения
по этим параметрам. Начнем с простого примера, в котором рассмотрим одну
нормально распределенную случайную величину х. Будем предполагать, что
дисперсия (i известна и рассмотрим задачу вывода математического ожидания µ,
заданного набором из N наблюдений х = {х 1 , ••• , xN}· Функция правдоподобия,
т.е. вероятность наблюдаемых данных при заданном µ, рассматриваемая как
функция от µ, определяется формулой

(2.137)

Снова мы подчеркиваем, что функция правдоподобия p(XIµ) не является рас­


пределением вероятности по µ и не нормирована.
Мы видим, что функция правдоподобия имеет вид экспоненты от квадра­
тичной формы по µ. Таким образом, если мы выберем априорное распределение
р(µ) в виде нормального распределения, то оно будет сопряженным распределе­
нием для данной функции правдоподобия, потому что соответствующее апосте­
риорное распределение будет произведением двух экспонент от квадратичных
функций, зависящих от µ, и, следовательно, также будет нормальным. Итак,
принимаем наше априорное распределение в виде

р(µ) = N(µl/JQ, ао) (2.138)

и апостериорное распределение определяется выражением

p(µIX) ос p(Xiµ)p(µ) . (2.139)


Простые преобразования, включающие выделение полного квадрата в экспо­
ненте, показывают, что апостериорное распределение определяется выражением

(см. упражнение 2.38)


p(µlx) = N(µlµм а~), (2.140)
где

(2.141)

(2.142)
2.3. Нормальное распределение 149

в котором JJМL - оценка максимального правдоподобия для µпри заданном вы­


борочном среднем значении:
1 N
µмL =-Iхп. (2.143)
N n=I

Стоит потратить время на изучение формы апостериорного математического


ожидания и дисперсии. Прежде всего отметим, что математическое ожидание

апостериорного распределения, заданное формулой (2.141 ), является компро­


миссом между априорным математическим ожиданием µ0 и оценкой максималь­

ного правдоподобия µML· Если количество наблюдаемых точек N = О, то выра­


жение (2.141) сводится к априорному математическому ожиданию. При N ~ оо
апостериорное математическое ожидание совпадает с оценкой максимального
правдоподобия. Аналогично рассмотрим результат (2.142) для дисперсии апо­
стериорного распределения. Мы видим, что она наиболее естественно выража­
ется в терминах обратной дисперсии, которая называется точностью. Кроме то­
го, точность является аддитивной, так что точность апостериорной оценки опре­
деляется априорной точностью, а также вкладом точности от каждой из

наблюдаемых точек. По мере увеличения количества наблюдаемых точек точ-


ностъ неуклонно возрастает, что соответствует апостериорному распределению

с монотонно уменьшающейся дисперсией. При отсутствии наблюдаемых точек


мы имеем априорную дисперсию, а если количество данных N стремится к бес­
конечности, то дисперсия ст~ обращается в нуль, а апостериорное распределе­
ние в окрестности оценки максимального правдоподобия становится бесконеч­
ным. Следовательно, точечная оценка максимального правдоподобия для µ, за­
данная формулой (2.143), следует из байесовского формализма при бесконечном
количестве наблюдений. Заметим также, что для конечного N, если мы примем
условие ст~ ~ оо , при котором априорное распределение имеет бесконечную
дисперсию, апостериорное математическое ожидание (2.141) сведется к оценке
максимального правдоподобия, а из (2.142) следует, что апостериорная диспер­
сия задается выражением cr~ = cr 2 / N.
Проиллюстрируем байесовский подход к оценке математического ожидания
на примере нормального распределения, показанного на рис. 2.12. Обобщение
этого результата на случай D-мерной нормально распределенной случайной ве­
личины х с известной ковариацией и неизвестным математическим ожиданием

не составляет труда (см. упражнение 2.40).


150 ГЛАВА 2. РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ

0'--"""""=:...~~~~ ............-<::.-~..:._--===~~
-1 о

Рис. 2.12. Байссовский вывод для математического ожидания µ нормального

распределения при заданной дисперсии. Кривые демонстрируют априорное распределение

поµ (кривая, обозначенная N =О), которое в этом случае само по себе является

нормальным, а также апостериорные распределения, определяемые по формуле (2.140)


при увеличении количества точек N. Точки генерируются из генеральной совокупности

с нормальным распределением, имеющим математическое ожидани е, равное 0,8,


и дисперсию, равную О, 1, а априорное распределение выбирается таким , чтобы его

математическое ожидание было равным нулю. Как в априорном распределении, так и

в функции правдоподобия дисперсия устанавливается равной своему истинному значению

Мы уже видели, что оценка максимального правдоподобия для математиче­


ского ожидания нормального распределения может быть представлена в виде

формулы последовательных приближений, в которой математическое ожидание


после наблюдения N точек выражалось через математическое ожидание после
наблюдения N- 1 точек вместе с вкладом точки xN (см. раздел 2.3.5). На самом
деле байесовская парадигма очень естественно приводит к последовательному
подходу к проблеме вывода. Чтобы увидеть это в контексте вывода математиче­
ского ожидания нормального распределения, запишем апостериорное распреде­

ление с вкладом от конечной точки хм выделенной так, чтобы

(2.144)

Член в квадратных скобках (с точностью до коэффициента нормиров­


ки) представляет собой апостериорное распределение после наблюдения N-1
точек. Его можно рассматривать как априорное распределение, которое в соче­
тании с теоремой Байеса и функцией правдоподобия, связанной с точкой хн.
приводит нас к апостериорному распределению после наблюдения N точек. Этот
2.3. Нормальное распределение 151

последовательный подход к байесовскому выводу носит очень общий характер и


применяется к любой проблеме, в которой наблюдаемые данные считаются не­
зависимыми и одинаково распределенными.

До сих пор мы предполагали, что дисперсия нормального распределения по


данным известна, и наша цель - вывести математическое ожидание. Предполо­

жим теперь, что математическое ожидание известно и мы хотим вывести диспер­

сию. И снова, наши вычисления значительно упростятся, если мы выберем сопря­


женную форму для априорного распределения. Оказывается, наиболее удобно ра­
ботать с точностью А. =1/ (i. Функция правдоподобия для А. принимает вид
(2.145)

Следовательно, соответствующее сопряженное априорное распределение

должно быть пропорциональным произведению степени А. и экспоненты от ли­


нейной функции по А.. Этими свойствами обладает гамма-распределение, кото­
рое определяется формулой

Gam(A.ja,b) = г!а) Ь 0 л. 0 - 1 ехр(-Ы). (2.146)

где Г(а)- гамма-функция, определяемая формулой (1.141) и обеспечивающая


корректную нормировку выражения (2.146). У гамма-распределения есть конеч­
ный интеграл, если а> О (см. ynpaJ1c11e11ue 2.41), и само распределение конечно,
если а ~ 1. Оно приведено на рис. 2.13 для различных значений а и Ь. Матема­
тическое ожидание и дисперсия гамма-распределения определяются по форму­
лам (см. упражне11ие 2.42)
Е(Л.)=~. (2.147)
ь

var(A.] =.;.. (2.148)


ь

2 2 2
а= 0,1 а=1 а=4
Ь= 0,1 Ь= 1 Ь=б

l 1 2 l 1 2 2

Рис. 2.13. График гамма-распределения Gam(Л l a, Ь), определяемый

по формуле (2.146) при различных :~начениях параметров а и Ь


152 ГЛАВА 2. РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ

Рассмотрим априорное распределение Gam(Лla 0 , Ь 0 ). Если умножить его на


функцию правдоподобия (2.145), то получим апостериорное распределение

р( Лlх) ос А ао-lл_ N/2 ехр{-ЬоЛ- А f (хп - µ )2}• (2.149)


2 n=I

которое мы рассматриваем как гамма-распределение Gam(Лlaм bN), где

(2.150)

(2.151)

где а~ является оценкой максимального правдоподобия дисперсии. Заметим,


что в (2.149) нет необходимости отслеживать константы нормализации в апри­
орном распределении и функции правдоподобия, потому что, если потребуется,
правильный коэффициент можно найти в конце, используя нормированную
форму (2.146) для гамма-распределения.
Из формулы (2.150) видно, что эффект наблюдения N точек заключается в
увеличении значения коэффициента а на N/2. Таким образом, мы можем интер­
претировать параметр а 0 в априорном распределении как влияние 2а 0 эффектив­
ных априорных наблюдений. Аналогично из (2.151) видно, что N точек вносят
значение N а~ /2 в параметр Ь, где а~ - дисперсия, и поэтому мы можем
интерпретировать параметр Ь 0 в априорном распределении как вклад 2а 0 эффек­
тивных априорных наблюдений, имеющих дисперсию 2Ь 0 /(2а 0 ) = bofa0 • Напом­
ним, что мы приводили аналогичную интерпретацию для априорного распреде­

ления Дирихле. Эти распределения (см. раздел 2.2) являются примерами экспо­
ненциального семейства, и мы увидим, что интерпретация сопряженного
априорного распределения с точки зрения фиктивных эффективных наблюдений
является общей для экспоненциального семейства распределений.
Вместо того чтобы работать с точностью, мы можем рассмотреть дисперсию.
Сопряженное априорное распределение в этом случае называется обратным
гамма-распределением, хотя мы не будем обсуждать его дальше, потому что нам
удобнее работать с точностью.
Теперь предположим, что и математическое ожидание, и точность неизвест­
ны. Чтобы найти сопряженное априорное распределение, рассмотрим зависи­
мость функции правдоподобия от µ и Л:
2.3. Нормальное распределение 153

р(хlµ,Л.)= П
N ( А -µ)
-2trА )1/2 ехр {--(хп 2} ос
n=I 2

ос[л. 11 2 ехр[- A.µ 2J]N ехр{л.µfхп - Лfх;}.


(2.152)

2 n=I 2 n=I

Теперь мы хотим определить априорное распределение р(µ, А.), которое имеет


ту же функциональную зависимость от µ и А., что и функция правдоподобия, и
поэтому должно иметь вид

р (µ"!) •{<Ч' ехр[- Л~' J]' ехр {с.<µ- dЛ) =


=ехр(-~"(µ-;)}11 ехр{+-;~ Н
(2.153)

где с, d и /3- констангы. Так как мы всегда можем записать р(µ, А.)= р(µIЛ.)р(Л.), то
можем найти p(µl...t) и р(А,) путем проверки. В частности, мы видим, что распре­
деление р(µIЛ.) является нормальным распределением, точность которого явля­
ется линейной функцией от А., и что р(Л.) является гамма-распределением, так что
нормированное априорное распределение принимает вид

р(µIЛ) = N(µl.uo, (/ЗA.)-')Gam(A.la, Ь), (2.154)

где мы ввели новые константь1 µ 0 = с/f3, а = (1 + /3)12, Ь = d - с212/3. Распределе­


ние (2.154) называется гамма-нормальным или нормальным гамма-распределением
и показано на рис. 2.14. Заметим, что это не просто произведение независимого
априорного нормального распределения по µ и априорного гамма-распределения

по А., так как точность распределения по µявляется линейной функцией от А.. Даже
если бы мы выбрали априорное распределение, в котором µ и А. были бы независи­
мыми, апостериорное распределение будет иметь связь между точностью распре­
деления µи значением А..
В случае многомерного нормального распределения N(xlµ, л-') для D-мерной
случайной величины х сопряженное априорное распределение для математиче­
ского ожидания µ при известной точности также является нормальным. При из­
вестном математическом ожидании и неизвестной матрице точности А сопря­
женное априорное распределение является распределением Уишарта, которое
задается формулой (см. упраж11е11ие 2.45)

(2.155)
154 ГЛАВА 2. РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ

л 1

о~------~-------~
-2 о 2
µ

Рис. 2.14. Изолинии нормального гамма-распределения (2.154)


для значений параметров f.i1J = О, fJ = 2, а = 5 и Ь = 6

где параметр v называется числом степеней свободы распределения, W- мат­


рица D х D, а Tr(·) обозначает след матрицы. Константа нормировки В задается
формулой

(2.156)

Аналогично предыдущим случаям, мы можем определить сопряженное апри­


орное распределение по самой ковариационной матрице, а не по матрице точно­

сти, что приводит к обратному распределению Уишарта, хотя мы не будем об­


суждать его дальше. Если и математическое ожидание, и точность неизвестны,

то, следуя аналогичной линии рассуждений в одномерном случае, приходим к


выводу, что сопряженное априорное распределение задается формулой

(2.157)

Это распределение называется нормальным распределением Уишарта, или рас­


пределением Гаусса-Уишарта.

2.3.7. Распределение Стьюдента

Мы видели, что сопряженное априорное распределение точности нормально­

го распределения задается гамма-распределением (см. раздел 2.3.6). Если задано


одномерное нормальное распределение N(xjµ, т- 1 ) и априорное гамма-распре­
деление Gam( тjа, Ь ), то, проинтегрировав по точности, получим маргинальное
распределение по х в виде (с.м. упра;ншение 2.46)
2.3. Нормальное распределение 155

00

p(xlµ,a,b) f
= N(xlµ,r- 1 )Gam( •la,b )dr =
о

=fоо Ьа еГ((-Ьт)а)r а-1 ( _!__


2п
)1/2 { }
exp-_:_(x-µ) dr=
2
2
(2.158)
0

= г~:)(2~ У'[ь+ (х-:)' Г'i' г(а+l/2),


где мы провели замену переменной z = r[b + (х - µ) 212]. По соглашению мы опре­
деляем новые параметры, заданные как v= 2а и /!, = а/Ь, в терминах которых рас­
пределение р (xlµ, а, Ь) принимает вид

_ Г(v/2+1/2)( Л )1/2[ 1+ Л(х-µ)2]-v/2-1/2 ,


St ( х 1µ,Л,v ) - ( ) - (2.159)
Г v/2 7rV V

которое называется t-распределением Стьюдента. Параметр Л иногда называют


точностью t-распределения, хотя он, в общем случае, не равен обратной диспер­
сm1. Параметр v называется количеством степеней свободы, и его влияние пока­
зано на рис. 2.15. Для частного случая v= 1 t-распределение сводится к распреде­
лению Коши, а в пределе при v~ оо t-распределение St(xlµ, Л, v) становится нор­
мальным N(x 1µ, Л- 1 ) с математическим ожиданиемµ и точностью Л (см. упражие­
ние 2.47).
0,5 ~------~------~

0,4 v = 1,0
v = 0,1
0,3

0,2

0,1

о~------~------~
-5 о 5
Рис. 2.15. График t-распределения Стыодснта (2. 159) приµ= О и Л = 1
при различных значениях v. Предел 11 ---). оо соответствует нормальному

распределению со математическим ожи;щнием µи точностью Л

Из формулы (2.158) видно, что t-распределение Стъюдента получается путем


сложения бесконечного количества нормальных распределений, имеющих одина-
156 ГЛАВА 2. РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ

ковые математические ожидания, но разную точность. Его можно интерпретиро­

вать как бесконечную смесь нормальных распределений (смеси нормальных рас­


пределений будут подробно обсуждаться в разделе 2.3. 9). Результатом является
распределение, которое, как правило, имеет более длинные "хвосты", чем нормаль­
ные, как показано на рис. 2.15. Это обеспечивает важное свойство t-распределения,
называемое робастностью, что означает, что по сравнению с нормальным распре­
делением t-распределение Стьюдента гораздо менее чувствительно к наличию не­
скольких точек данных, которые являются выбросами. Робастность t-распределения
проиллюстрирована на рис. 2.16, на котором сравниваются оценки максимального
правдоподобия для нормального и t-распределения. Заметим, что оценку макси­
мального правдоподобия для t-распределения можно найти с помощью ЕМ­
алгоритма (см. упражиеиие 12.24). Здесь мы видим, что эффект небольшого коли­
чества выбросов для t-распределения гораздо менее значителен, чем для нормаль­
ного. Выбросы могут возникать в практических приложениях либо потому, что
процесс, который генерирует данные, соответствует распределению, имеющему
тяжелый хвост, либо в результате ошибок. Робастность также является важным
свойством регрессионных задач. Неудивительно, что метод наименьших квадратов
для решения задач регрессии не демонстрирует робастности, поскольку он соответ­
ствует максимальному правдоподобию при (условном) нормальном распределении.
Основьmая модели регрессии на распределениях с тяжелым хвостом, таких как
t-распределение, мы получаем более робастную модель.
Если мы вернемся к (2.158) и заменим альтернативные параметры v= 2а, А.= а/Ь
и 11= тЬ/а, то увидим, что t-распределение можно записать в виде
00

f
St(xlµ,A.,v)= N{xlµ,(17A.)- 1 )Gam(111v/2,v/2)d17. (2.160)
о

Это можно обобщить на случай многомерного нормального распределения


N(x 1 µ, Л), чтобы получить соответствующее многомерное t-распределение
Стьюдента в виде
00

f
St( xlµ,A, v) = N{ хlµ,(17Л)- 1 )Gam(11lv/2, v/2 )d17. (2.161)
о

Используя тот же метод, что и для одномерного случая, мы можем вычислить


этот интеграл (см. упражиение 2.48):

_Г(D/2+v/2) 1л1'/2 [ Л2]-D/2-v/2


St(xlµ,Л,v)- ( ) п; 2 1+ , (2.162)
Г v/2 (1rv) v
2.3. Нормальное распределение 157

0,5 0,5

0,4 \ 0,4

0,3 0,3

~ ~
0,2 0,2

0,1 0,1

о
-5
)
о
\ 5 10 о 5 10
а) б)

Рис. 2.16. Иллюстрация робастности t-распределения Стьюдента по сравнению с

нормальным: а) гистограмма распредел ения , построенная по 30 точкам, полученным из

генеральной совокупности с нормальным распределением, вместе с оценкой

максимального правдоподобия, полученной по t-распределению (красная кривая) и

нормальному распределению (зеленая кривая, в основном скрытая красной кривой).

Поскольку t-распределение содержит норм<шьное распределение как частный случай,

оно дает почти такое же решение, как и нормальное; б) тот же набор данных , но с тремя

дополнительными точками выбросов, показывающими , что нормальное распределение

(зелен ая кривая) сильно искажается выбросами , тогда как t-распределение (красная

кривая) изменяется относительно слабо

где D - размерность вектора х, а Л2 - квадрат расстояния Махаланобиса,


определяемый формулой
Л2 = (х-µ)тЛ(х- µ). (2.163)
Это многомерная форма t-распределения Стьюдента, которая обладает следую­
щими свойствами (см. упражнение 2.49):

Е[х] =µ, если v > 1, (2.164)

cov[x]=-v-л- 1 , если v> 2, (2.165)


v- 2
mode[x] =µ (2.166)
с соответствующими формулами для одномерного случая.
158 ГЛАВА 2. РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ

2.3.8. Периодические случайные величины

Хотя нормальные распределения имеют большое практическое значение, как


сами по себе, так и в качестве элементов более сложных вероятностных моде­
лей, бывают ситуации, когда они неприемлемы для моделирования плотности
вероятности непрерывных случайных величин. Одним из важных случаев, воз­
никающих в практических приложениях, является вопрос о периодических слу­

чайных величинах.
Примером периодической случайной величины является направление ветра в

определенной географической точке. Например, мы можем измерить направле­


ние ветра в течение нескольких дней и попытаться обобщить его, используя па­
раметрическое распределение. Другим примером является календарное время,
когда мы можем быть заинтересованы в моделировании величин, которые явля­
ются периодическими в течение суток или года. Такие величины удобно пред­
ставить с помощью угловой (полярной) координаты О~()< 2tr. Может возник­
нуть соблазн рассматривать периодические случайные величины, выбирая ка­
кое-то направление в качестве отправного, а затем применять обычное

распределение, например нормальное. Однако такой подход даст результаты,


которые сильно зависят от произвольного выбора отправного направления.
Предположим, например, что мы имеем два наблюдения при () 1 = 1° и В2 = 359°
и моделируем их, используя стандартное одномерное нормальное распределе­

ние. Если выберем начало координат в 0°, тогда среднее выборочное значение
этого набора данных будет равно 180° со стандартным отклонением 179°, если
же мы выберем начало в 180°, то среднее выборочное значение будет равно 0° и
стандартное отклонение будет равно 1°. Нам явно необходимо разработать осо­
бый подход для обработки периодических случайных величин.
Рассмотрим задачу оценки математического ожидания периодической слу­

чайной величины по набору наблюдений D = {В 1 , ". , BN}. Отныне будем счи­


тать, что () измеряется в радианах. Мы уже видели, что простое среднее выбо­
рочное значение ( В 1 + ". + BN)/N будет сильно зависеть от координат. Чтобы
найти инвариантную оценку математического ожидания, отметим, что наблюде­
ния можно рассматривать как точки на единичной окружности, и поэтому они

могут быть описаны двумерными единичными векторами х 1 , ". , хм где llxпll = 1


при п = 1, "., N(рис. 2.27). Мы можем усреднить векторы {хп}:
1 N
Х=-Iхп, (2.167)
N п=l
2.3. Нормальное распределение 159

а затем найти соответствующий угол В для этого среднего вектора. Ясно, что
это определение гарантирует, что местоположение среднего не зависит от нача­

ла угловой координаты. Обратите внимание, что вектор х обычно лежит внутри


единичного круга. Декартовы координаты наблюдений определяются выраже­
нием Xn = (cosBn, sinBn), а декартовы координаты выборочного среднего можно
записать в виде x=(rcosB,YsinB). Подставляя их в (2.167) и приравнивая
компоненты х 1 и х 2 , получаем:

-х1 = -r cosuп = 1~ л - -·п l~ · л


- L..cosun, х2 = r Slnu = - L,,Slnun. (2.168)
N n;I N п;\
Вычислив их отношение и используя тождество tg В= sin В/соs В, мы можем
решить это уравнение относительно В :

(2.169)

Вскоре мы увидим, как этот результат естественно возникает в виде оценки

максимального правдоподобия для надлежащим образом определенного распре­


деления периодической случайной величины.

х
Х2

Х1

х1

Рис. 2.17. Представление з начений периодической случайной

величины 011 в виде двухмерных векторов х 11 , л ежащих на единичной окружности .


Также 1юказ ано среднее ~шачс11ие х этих векторов

Рассмотрим теперь периодическое обобщение нормального распределения,


называемое распределением фон Мизеса. Здесь мы ограничимся рассмотрением
одномерных распределений, хотя периодические распределения можно опреде-
160 ГЛАВА 2. РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ

лить и на гиперсферах произвольной размерности. Подробное обсуждение пери­


одических распределений см. в Mardia and Jupp (2000).
Не ограничивая общности, рассмотрим распределения р( 8), имеющие период
2tr. Любая плотность вероятности р(и), определенная над 8, должна быть неот­
рицательной, ее интеграл должен быть равным единице, и к тому же она должна
быть периодической. Таким образом, плотность вероятности р( 8) должна удо­
влетворять трем условиям:

р(О)~О, (2.170)
21r
f p(8)d8=1, (2.171)
о

p(8+2;r) =р(О). (2.172)


Из (2.172) следует, что р( ()+ М2;r) = р( 8) для любого целого числа М.
Мы можем легко получить нормальное распределение, которое удовлетворя­

ет этим трем свойствам. Для этого рассмотрим нормальное распределение по


двум переменным х = (х 1 , х2 ) с математическим ожиданиемµ= (µ 1, JJ?.) и ковари­
ационной матрицей I: = о-2 1, где 1 - единичная матрица 2 · 2, так что

( -
)- 1 { ( Х1 - µ1 )
2
+ ( Х2 - µ2 )
2
}
р Х1,Х2 - - 2 ехр 2 . (2.173)
2;ro- 2о-

Изолинии р(х) являются окружностями, как показано на рис. 2.18. Теперь


предположим, что мы рассматриваем значение этого распределения на круге

фиксированного радиуса. Тогда по построению это распределение будет перио­


дическим, хотя и не нормализованным. Мы можем определить форму этого рас­
пределения, перейдя из декартовых координат (х 1 , х2 ) в полярные (r, 8), так что

х1 = r cos 8, х2 = r sin (). (2.174)

Рис. 2.18. Распределение фон Мизеса можно получить, рассмотрев

двухмерное нормальное распределение вида (2.173), изолинии плотности

которого показаны синим и обусловлены на единичном круге, показанном красным


2.3. Нормальное распределение 161

Кроме того, отобразим математическое ожидание µ в полярные координаты,


записав

(2.175)

Затем подставляем эти преобразования в двухмерное нормальное распреде­


ление (2.173) и условие на единичной окружности r = 1, отмечая, что нас инте­

ресует только зависимость от В. Фокусируясь на экспоненте в нормальном рас­


пределении, имеем:

- 2 ~ 2 {(rcosB-r cosB0 0)
2
+(rsinB-r0 sinB0 ) 2 } =

(2.176)

r.
=.-.Тсоs( В-В0 ) + const,
а

где выражение const обозначает члены, не зависящие от В, и использованы сле­


дующие тригонометрические тождества (с.11. у11ражие11ие 2.51):

cos2 А+ sin2 А= 1, (2.177)


cosA cosB + sinA sinB = cos(A - В). (2.178)
Если теперь ввести обозначение т rof а2 , то получим окончательный вид
=
распределения р( В) вдоль единичной окружности r = 1 в виде

(2.179)

которое называется распределением фон Мизеса или круговым нормШlьным рас­


пределением. Здесь параметр В 0 соответствует математическому ожиданию рас­
пределения, а параметр т, который известен как параметр концентрации, анало­

гичен обратной дисперсии (точности) для нормального распределения. Коэффи­


циент нормировки в (2.179) выражается через функцию !0 (т ), которая является
модифицированной функцией Бесселя первого рода нулевого порядка (Abramo-
witz and Stegun, 1965) и определяется формулой

1 2tr
10 (m)=-J exp{mcosB}dB. (2.180)
2tr о

При больших т распределение становится приближенно нормальным. Распреде­


ление фон Мизеса изображено на рис. 2.19 (с.'Н. у11раж11еиие 2.52), а график
функции /0 (т) - на рис. 2.20.
162 ГЛАВА 2. РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ

ir/ 4

- - т = 5, В0 = n/ 4 Зir/4

--т = 1, В0 = 3 ir/ 4

-- т =5, В0 = ir/ 4
- - т = 1, В0 = 3 ir/4

Рис. 2.19. Распределение фон Мизеса, построенное для двух разных

значений параметров, показанное слева в виде графика

в декартовой системе координат, а справа --- в полярной

2000
l 0 (m) А(т) 0,5

1000

OL...------==----___J
о 5 10
о~----~-----~
о 5 10
т т

Рис. 2.20. График функции Бесселя /0 (т), определяемой формулой (2.180),


вместе с функцией А(т), определяемой формулой (2.186)

Теперь рассмотрим оценки максимального правдоподобия для параметров В 0


и т распределения фон Мизеса. Логарифмическая функция правдоподобия
определяется формулой

N
lnp( DIB0 ,m) =-Nln(2tr)-Nln/0 (т) + т:Lcos( Вп - 80 ). (2.181)
n=I

Приравнивая производную по В0 нулю, получаем:

N
L sin ( Вп - В0 ) =О . (2.182)
n=I
2.3. Нормальное распределение 163

Для решения этого уравнения относительно 00 используется тригонометри­


ческое тождество

sin(A - В)= cosB sinA - cosA sinВ, (2.183)


из которого получаем (сон. упражнение 2.53):

(2.184)

Это решение совпадает с результатом (2.169), полученным как априорная оценка


математического ожидания наблюдений, рассматриваемых в двухмерной декар­
товой системе координат.

Аналогично, максимизируя (2.181) по т и используя свойство /~ ( т) = 11 ( т)


(Abramowitz and Stegun, 1965), имеем:

А(тмL)=_!_ fcos(on -06'1L), (2.185)


N n=I

где мы подставили решение максимального правдоподобия О~ (напоминаем,


что мы выполняем совместную оптимизацию по О и т) и получили, что

( ) 11 ( т)
А т = Io(m)' (2.186)

График функции А(т) построен на рис. 2.20. Используя тригонометрическое


тождество (2.178), мы можем переписать (2.185) в виде

А ( тмJ = (__!__
N
± Оп
n=I
cos ) cos Oci'1L + (_!_
N
± Оп
n=I
sin ) sin 0~. (2.187)

Правая часть (2.187) вычисляется легко, а функцию, обратную кА(т), можно


вычислить численно.

Для полноты кратко остановимся на некоторых альтернативных методах по­


строения периодических распределений. Самый простой подход - использовать
гистограмму наблюдений, в которой угловая координата делится на фиксиро­
ванные ячейки. Это простой и гибкий подход, но он имеет значительные огра­
ничения, как мы увидим, когда более подробно обсудим методы гистограмм
в разделе 2.5. Другой подход опирается, как и распределение фон Мизеса, на
нормальное распределение над евклидовым пространством, но потом вычисля-
164 ГЛАВА 2. РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ

ется маргинальное, а не условное распределение на единичном круге (Mardia and


Jupp, 2000). Однако это приводит к более сложным формам распределения и не
будет обсуждаться далее. Наконец, любое допустимое распределение по дей­
ствительной оси (например, нормальное) можно превратить в периодическое
распределение путем отображения последовательных интервалов ширины 2п на
периодическую переменную (О, 2п), что соответствует "наматыванию" действи­
тельной оси на единичный круг. И снова, работать с результирующим распреде­
лением сложнее, чем с распределением фон Мизеса.
Одно из свойств распределения фон Мизеса состоит в том, что оно является
одномодальным. Формируя смеси распределений фон Мизеса, мы получаем гиб­
кую структуру для моделирования периодических переменных, которые могут

отражать многомодальность. В качестве примера приложения для машинного

обучения, использующего распределения фон Мизеса, см. Lawrence et al. (2002),


а обобщение моделирования условных плотностей на регрессионные задачи
описано в Bishop and Nabney (1996).

2.3.9. Смеси нормальных распределений

Хотя нормальное распределение обладает некоторыми важными аналитиче­


скими свойствами, оно имеет значительные ограничения, когда дело касается мо­
делирования реальных наборов данных. Рассмотрим пример, показанный на
рис. 2.21. Он известен как набор данных "Старый служака" и содержит 272 изме­
рения параметров извержения гейзера Старый Служака в Йеллоустоунском наци­
ональном парке (США). Каждое измерение (см. приложеиие А) содержит про­
должительность извержения в минутах (горизонтальная ось) и время в минутах до
следующего извержения (вертикальная ось). Мы видим, что набор данных образу­
ет два доминирующих скопления и что простое нормальное распределение неспо­

собно отобразить эту структуру, тогда как линейная суперпозиция двух нормаль­
ных распределений дает более точную характеристику этого набора данных.
Такие суперпозиции, образованные линейными комбинациями базовых рас­
пределений, таких как нормальные, могут быть представлены как вероятностные
модели, которые называются смесями распределений (McLachlan and Basford,
1988; McLachlan and Peel, 2000). На рис. 2.22 видно, что линейная комбинация
нормальных распределений может приближать очень сложные плотности. Ис­
пользуя достаточное количество нормальных распределений и подбирая их ма­
тематические ожидания и ковариации, а также коэффициенты в линейной ком­
бинации, почти любую непрерывную плотность можно аппроксимировать с
произвольной точностью.
2.3. Нормальное распределение 165

80 80 @
60 60

40'--~~~~~~~~~ 40~~~~~~~~---'

1 2 3 4 5 6 1 2 3 4 5 6
Рис. 2.21. Графики данных о гейзере Старый Служака, в которых синие кривые

показывают изолинии плотности вероятности . Слева - одно нормальное распределение,

которое аппроксимирует данные с помощью метода максимального правдоподобия .

Обратите внимание, что это распределение не может отобразить два скопления данных

и размещает большую часть своей массы вероятности в центральной области между

скоплениями, где данные относительно разрежены. Распределение, показанное справа,

определяется линейной комбинацией двух нормальных распределений, которая

аппроксимирует данные с помощью метода максимального правдоподобия и методов,

рассматриваемых в главе 9, и дает лучшее представление данных

р(х)

Рис. 2.22. Пример распределения смеси трех одномерных

нормальных распределений (каждое из которых имеет свой коэффициент);

каждое распределение показано синим цветом, а их сумма - красным

Таким образом, мы будем рассматривать суперпозицию К плотностей нор­


мальных распределений вида

р(х)= Lll"kN(xlµk,I:k), (2.188)


k=\
которая называется смесью нормальных распределений. Каждая плотность нор­
мального распределения N(xlµk, Ik) называется компонентом смеси и имеет
166 ГЛАВА 2. РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ

собственное математическое ожидание µk и ковариацию :Ek. Изолинии и поверх­


ности смеси нормальных распределений, содержащей три компонента, показаны
на рис. 2.23.

а) б)

0,5
@/~.~ 0,2
0,5

0,5
о о

о 0,5 о 0,5

Рис. 2.23. Смесь трех нормальных распределений в двухмерном пространстве:

а) изолинии постоянной плотности для каждой из компонентов смеси , в которых три

компонента обозначены красным, синим и зеленым , а значения коJффициентов

смешивания показаны под каждым компонентом ; б) изолинии маргинальной плотности

вероятности р(х) распределения смеси; в) график поверхности распределения р(х)

В этом разделе мы рассмотрим нормальные компоненты, чтобы проиллю­


стрировать структуру моделей смеси. В более общем случае модели смеси могут
содержать линейные комбинации других распределений. Например, в разде­
ле 9.3.3 мы рассмотрим смеси бернуллиевских распределений в качестве приме­
ра смеси для дискретных случайных величин.
Параметры Як в (2.188) называются коэффициентами смешивания. Если мы
проинтегрируем обе части (2.188) по х и заметим, что и р(х), и отдельные нор­
мальные компоненты нормированы, то получим

L,яk = 1. (2.189)
k=I

Кроме того, при условии, что N(xlµk, :Ek) ~О, требования р(х) ~О достаточно,
чтобы выполнялись неравенства яk ~О для всех k. Объединяя это требование с
условием (2.189), получим

(2.190)
Как видим, коэффициенты смешивания удовлетворяют требованиям, предъ­
являемым к вероятности.
2.3. Нормальное распределение 167

Из правил сложения и умножения вероятностей следует, что маргинальная

плотность определяется выражением

р ( х) = L р (k) р ( xl k ), (2.191)
k=l

что эквивалентно формуле (2.188), в которой мы можем рассматривать яk = p(k)


как априорную вероятность выбора k-й компоненты, а плотность Мхlµъ :I:k) =
= p(xlk) - как вероятность х, обусловленную выбором k-й компоненты. Как мы
увидим в последующих главах, важную роль играют апостериорные вероятно­

сти p(klx), которые также называются весами. Из теоремы Байеса следует, что
они задаются формулой

Yk(x)=p(klx)=
p(k )p(xlk)
=
----'--с--'"- (2.192)
LP(l)p( xll)
1

_ яkN(xlµk,:Ek)
- L"zN( xlµz,:I:z).
1

Более подробно вероятностную интерпретацию смеси распределений мы об­


судим в главе 9.
Форма смеси нормальных распределений определяется параметрами п, µ и :Е,

где мы использовали обозначение я= (tr1, ••• , trк}, µ= {µ 1, .•• , µк} и :I: = {1: 1, ••• , :Ек}.
Одним из способов задания значений этих параметров является использование
принципа максимального правдоподобия. Из (2.188) следует, что логарифмическая
функция правдоподобия задается формулой

lnp(Xln,µ,I:) = ~ln{~?l"kN(x"lµk,I:k )} , (2.193)

где Х = {х 1, ... , xN}. Очевидно, что работать с таким распределением намного


сложнее, чем с одним нормальным распределением, из-за наличия суммирова­

ния по k внутри логарифма. В результате оценка максимального правдоподобия


для параметров больше не имеет аналитического решения в замкнутой форме.
Один из подходов к максимизации функции правдоподобия - использовать
итерационные численные методы оптимизации (Fletcher, 1987; Nocedal and
Wright, 1999; Bishop and Nabney, 2008). В качестве альтернативы мы можем ис-
168 ГЛАВА 2. РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ

пользовать мощный метод, называемый ЕМ-шzгоритмом (expectation maximiza-


tion), который будет подробно рассмотрен в главе 9.

2.4. Экспоненциальное семейство распределений

Распределения вероятности, которые мы изучали до сих пор в этой главе (за


исключением смеси нормальных распределений), являются конкретными при­
мерами широкого класса распределений, называемых экспоненцишzьным семей­
ством (Duda and Hart, 1973; Bemardo and Smith, 1994). Члены экспоненциально­
го семейства имеют много важных общих свойств, поэтому необходимо обсу­
дить эти свойства в целом.

Экспоненциальное семейство распределений по х, заданное параметрами ТJ,


определяется как множество распределений вида

p(xl'I'/) = h(x)g(Т/) ехр{ТJтu(х)}, (2.194)


где случайная величина х может быть скаляром или вектором, дискретным или
непрерывным. Здесь параметры Т/ называются естественными параметрами
распределения, а u(x)- некоторая функция от х. Функцию g(ТJ) можно интер­
претировать как коэффициент, который обеспечивает нормирование распреде­
ления и, следовательно, удовлетворяет условию

g(ТJ) Jh( х )ехр{ТJт u( x)}dx =1, (2.195)

где интегрирование заменяется суммированием, если х - дискретная случайная


величина.

Начнем с некоторых примеров распределений, введенных ранее в этой главе, и


покажем, что они действительно являются членами экспоненциального семейства.
Рассмотрим сначала распределение Бернулли:

p(xlµ) = Bem(xlµ) = µx(l -µ) 1-x. (2.196)


Выражая правую часть как экспоненту логарифма, имеем

p(xlµ) = exp{xlnµ + (1-х )ln(l- µ )} =

= (1-µ)expHI~µ Н
(2.197)

Сравнение с (2.194) позволяет нам вывести уравнение


2.4. Экспоненциальное семейство распределений 169

17=ln(1 ~µ} (2.198)

которое мы можем решить относительно µ, получив µ= о-( 17 ), где функция

1
0-(17)---- (2.199)
- 1+ ехр ( -17)

называется логистической сигмоидой. Таким образом, мы можем записать распре­


деление Бернулли с использованием стандартного представления (2.194) в виде
p(xl17) = о-(-17)ехр(17х), (2.200)

где мы использовали свойство 1 - 0-(17) = 0-(-17), что легко доказать с помощью


(2.199). Сравнение с (2.194) показывает, что

и(х) = х, (2.201)
h(x) = 1, (2.202)
g(17) = 0-(-17). (2.203)
Далее рассмотрим мультиномиальное распределение, которое при одном

наблюдении х принимает вид

(2.204)

где х = (х 1 , "., хм)т. И снова, мы можем записать это в стандартном виде (2.194),
так что
т
р(х177) = ехр(71 х), (2.205)

где 1Jk = In(µk) и Т/ = (17 1, "., 1Jм)т. И снова, сравнивая с (2.194), имеем
u(x) = х, (2.206)
h(x) = 1, (2.207)
g(ТJ) = 1. (2.208)
Заметим, что параметры 17 k не являются независимыми, поскольку параметры

µk подчиняются ограничению

(2.209)

так что при любых М- 1 параметрах µk значение оставшегося параметра фикси­


ровано. В некоторых случаях бывает удобно удалить это ограничение, выразив
распределение в терминах только М - 1 параметров. Этого можно добиться, ис-
170 ГЛАВА 2. РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ

пользуя соотношение (2.209), чтобы исключить µм, выразив его через параметры
{µk}, где k= 1, ... , М-1, тем самым оставляя М-1 параметр. Обратите внима­
ние, что эти оставшиеся параметры по-прежнему зависят от ограничений

М-1

Iµk ~1. (2.210)


k=I

Используя ограничение (2.209), приходим к выводу, что мультиномиальное


распределение в этом представлении принимает вид

exp{~xk mµk} =
=ехр{~х. hlµ, +(1- ~х}(1- ~µ, )}= (2.211)

М-1

=ехр Ixkm
k=I

Теперь мы получим уравнение

(2.212)

которое можем решить относительно µk, сначала суммируя обе части по k, а за­
тем переставляя и выполняя обратную подстановку, чтобы получить

(2.213)

Эта функция называется функцией softmax, или нормированной экспонентой.


В этом представлении мулътиномиальное распределение принимает вид

(2.214)

Это стандартная форма экспоненциального семейства с вектором параметров


т
7/= (771, ... , 77м-1. О), в котором
2.4. Экспоненциальное семейство распределений 171

u(x) =х, (2.215)


h(x) = 1, (2.216)

м 1
g(17)= ( 1+ ~exp(17k)
)-1 (2.217)

Наконец, рассмотрим нормальное распределение. Для одномерного нормаль­


ного распределения имеем:

(2.218)

(2.219)

После простой перегруппировки это распределение можно представить в стан­

дартном экспоненциальном виде (2.194) (см. упраж11е11ие 2.57):

[ µ/ J (72
(2.220)
1]= -1/(2а 2 )'

u(x)=[;,} (2.221)

h ( х) = (2лJ 112 , (2.222)

g(1]) = (-2172 )112 ехр [!J]_). (2.223)


4112

2.4.1. Максимальное правдоподобие и достаточные статистики


Рассмотрим теперь задачу оценки вектора параметра 17 в общем экспоненци­
альном семействе распределений (2.194) с использованием метода максимально­

го правдоподобия. Вычисляя градиент обеих частей (2.195) по 17, получаем:

J
Vg ( 17) h ( х) ехр {17 т u(х)} d х +
(2.224)
J
+ g (17) h ( х) ехр {17 т u(х)} u(х) dх = О

Переупорядочивая и снова применяя (2.195), имеем:

- gt1]) Vg(17)=g(11)Jh(x)exp{17 1 u(x)}u(x)dx=E[ u(x)]. (2.225)


172 ГЛАВА 2. РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ

где мы использовали (2.194). В итоге получаем результат:

-Vln g(Т/) = E[u(x)]. (2.226)

Заметим, что ковариация u(x) и моменты более высокого порядка можно выра­
зить через вторые производные от g( 1/ ). Таким образом, при условии, что мы мо­
жем нормировать распределение из экспоненциального семейства (см. упраж"е­
" "е 2.58), мы всегда можем найти его моменты простым дифференцированием.
Теперь рассмотрим набор независимых одинаково распределенных данных,
обозначаемых Х = {х 1 , "., xN}, для которых функция правдоподобия задается
формулой

(2.227)

Приравнивая к нулю градиент 1n p(XI 1/) по 1/, получаем следующее уравнение,


которое должно удовлетворяться оценкой максимального правдоподобия 1/мr.:

1 N
-Vlng(Т/мr.)=-L:u(xп), (2.228)
N n=I

Мы видим, что оценка максимального правдоподобия зависит от данных только


через L u( хп) и поэтому называется достаточ"ой статистикой распределения
п

(2.194). Нам не нужно хранить весь набор данных - необходимо знать только
значения достаточных статистик. Для распределения Бернулли, например, функ­
ция u(x) зависит только от переменной х, поэтому нам нужно сохранить только
сумму точек {хп}, тогда как для нормального распределения u(x) = (х, х2 )т, и по­
этому мы должны сохранить как сумму {хп}, так и сумму {х;} .
Если мы рассмотрим предел при N ~ оо , то правая часть (2.228) примет вид
E[u(x)], и поэтому, сравнивая с (2.226), мы видим, что в этом пределе 1/мr. будет
равно истинному значению 1/·
На самом деле это свойство достаточности справедливо и для байесовского
вывода, хотя мы отложим обсуждение этого факта до главы 8, когда освоим
графовые модели и сможем глубже понять эти важные концепции.

2.2.2. Сопряженные априорные распределения


Мы уже несколько раз сталкивались с концепцией сопряженного априорного
распределения, например, в контексте распределения Бернушш (для которого со-
2.4. Экспоненциа.аьное семейство распределений 173

пряженным априорным распределением является бета-распределение) или нор­


мального распределения (для которого сопряженным априорным распределением
математического ожидания является нормальное распределение, а сопряженным

априорным распределением точности - распределение Уишарта). В общем слу­


чае для данного распределения вероятностей p(xl77) мы можем искать априорное
распределение р( 77), которое сопряжено с функцией правдоподобия так, что апо­
стериорное распределение имеет ту же функциональную форму, что и априорное.
Для тобого члена экспоненциального семейства (2.194) существует сопряженное
априорное распределение, которое может быть записано в виде

(2.229)
rдe/(z, v)- нормировочный коэффициент, а g(77)- та же функция, что и в
(2.194). Чтобы убедиться, что это действительно сопряженное априорное рас­
пределение, умножим априорное распределение (2.229) на функцию правдопо­
добия (2.227), чтобы получить апостериорное распределение с точностью до ко­

эффициента нормировки в виде

(2.230)

Эrо распределение принимает ту же функциональную форму, что и априорное


распределение (2.229), что подтверждает его сопряженность. Кроме того, мы ви­
дим, что параметр v можно интерпретировать как эффективное количество
псевдонаблюдений в априорном распределении, каждое из которых имеет зна­
чение для достаточной статистики u(x), определяемое вектором z.
2.4.3. Неинформативные априорные распределения
В некоторых применениях вероятностного вывода мы можем иметь априор­

ные знания, которые можно удобно выразить через априорное распределение.


Например, если априорное распределение присваивает нулевую вероятность не­
которому значению случайной величины, то апостериорное обязательно также
назначит нулевую вероятность этому значению, независимо от каких-либо по­
следующих наблюдений за данными. Однако во многих случаях мы можем не
иметь представления о том, какую форму должно принять распределение. Сле­
довательно, мы можем искать такую форму априорного распределения, называ­
емую неинформативным априорным распределением, которая оказывает как
можно меньшее влияние на апостериорное распределение (Jeffreys, 1946; Вох
174 ГЛАВА 2. РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ

and Тiао, 1973; Bernardo and Smith, 1994). Иногда этот принцип формулируют
так: "Позвольте данным самим говорить за себя".
Если мы имеем распределение р(х!Л), определяемое параметром Л, может
возникнуть соблазн предложить априорное распределение р(Л) = const как под­
ходящее априорное распределение. Если Л - дискретная переменная с К значе­
ниями, то задача сводится к установлению априорной вероятности каждого зна­
чения, равной 1/К. Однако в случае непрерывных параметров существуют две
потенциальные трудности, связанные с этим подходом. Во-первых, если область
изменения Л не ограничена, это априорное распределение не может быть кор­
ректно нормировано, так как интеграл по Л расходится. Такие априорные рас­
пределения называются несобственными. На практике несобственные априор­
ные распределения часто используются при условии, что соответствующее апо­

стериорное распределение является собственным, т.е. может быть корректно


нормировано. Например, если мы зададим равномерное априорное распределе­
ние математического ожидания нормального распределения, то апостериорное

распределение математического ожидания станет собственным, как только мы


получим хотя бы одну точку наблюдения.
Вторая трудность возникает из-за преобразования плотности вероятности при
нелинейной замене переменных, заданной формулой (1.27). Если функция h(Л) по­
стоянна и мы производим замену переменных Л= 77 то функция h(77)=h(11 2 )
2,

также будет постоянной. Однако, если мы выберем постоянную плотность Р..~(Л),


то из (1.27) следует, что плотность по 17 будет задана формулой

р 1/ ( 17) = рл ( л) 1~~1 = рл ( 77 2
) 277 ос 17 ' (2.231)

и поэтому плотность по 17 не будет постоянной. Эта проблема не возникает, ко­


гда мы используем принцип максимального правдоподобия, потому что функ­

ция правдоподобия р(х!Л) является простой функцией от Л, и поэтому мы можем


свободно использовать любую удобную параметризацию. Если, однако, мы
должны выбрать априорное распределение, которое является постоянным, то
обязаны позаботиться о том, чтобы использовать соответствующее представле­
ние для параметров.

Здесь мы рассмотрим два простых примера неинформативных априорных


распределений (Berger, 1985). Прежде всего, если плотность имеет вид

p(xlµ) = f(x - µ), (2.232)


2.4. Экспоненциальное семейство распределений 175

то параметр µ называется параметром положения. Это семейство плотностей

обладает свойством инвариантности к сдвигу, потому что если мы сдвигаем хна


константу, чтобы получить х = х + с , то
р(хlд) = f(x- ,и), (2.233)

где ,U =µ+с . Таким образом, плотность принимает ту же форму относительно


новой переменной, что и относительно исходной, поэтому плотность не зависит от
выбора начала координат. Мы хотели бы выбрать априорное распределение, кото­
рое отражает это свойство инвариантности к сдвигу, поэтому выбираем априорное
распределение, которое присваивает одну и ту же массу вероятности интервалам

А ~µ~В и сдвинутому интервалу А - с ~ µ~В - с. Из этого следует, что

В В-с В

Jp(µ)dµ= J p(µ)dµ=J p(µ-c)dµ, А


(2.234)
А А-с

и поскольку это свойство должно выполняться для всех вариантов А и В, имеем:

р(µ- с)= р(µ), (2.235)


что означает, что р(µ)- постоянная функция. Примером параметра положения
является математическое ожидание нормального распределения. Как мы видели,
сопряженное априорное распределение для µ в этом случае является нормаль­

ным р ( µI µ 0 , ag )= N (µI µ 0 , ag ), и мы получаем неинформативное априорное


распределение, перейдя к пределу при ag ~ оо. Действительно, из (2.141) и
(2.142) следует, что это дает апостериорное распределение над µ, в котором
вклады от априорного распределения обращаются в нуль.
В качестве второго примера рассмотрим плотность вида

(2.236)

где а> О. Заметим, что эта плотность является нормированной, если f(x) кор­

ректно нормирована. Параметр а называется параметром масштаба, а плот­


ность имеет свойство масштабной инвариантности (с.и. ynpaJ1c11e11ue 2.59), по­

тому что если мы масштабируем хна константу, чтобы получить х = сх, то

(2.237)

где О- = са. Это преобразование соответствует изменению масштаба, например,


от метров до километров, если х - длина, и мы хотели бы выбрать априорное
176 ГЛАВА 2. РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ

распределение, которое отражает эту масштабную инвариантность. Если мы


рассмотрим интервал А~ G'~ В и масштабированный интервал А/с~ G'~ В/с, то
априорное распределение должно присваивать этим двум интервалам одну и ту

же массу вероятности. Таким образом, имеем:

В В/с В ( 1 )1
Jp(u)du= J p(u)du= Jр -u -du (2.238)
А А/с А С С

и, поскольку это свойство должно выполняться для любых А и В, имеем:

(2.239)

и, следовательно, р( u) ос 1/ и. Заметим, что опять это несобственное распределе­


ние, потому что интеграл от распределения по интервалу О ~ u ~ оо расходится.
Кроме того, иногда удобно думать об априорном распределении для параметра
масштаба в терминах плотности логарифма параметра. Используя правило пре­
образования (1.27) для плотностей, видим, что
p(ln о)= const. Таким образом, у
этого априорного распределения в диапазоне 1 ~ u ~ 1О та же масса вероятности,
что и в диапазоне 10 ~ u~ 100 и 100 ~ u~ 1000.
Примером параметра масштаба является стандартное отклонение u нормаль­
ного распределения после того, как мы учтем параметр положения µ, потому что

(2.240)

где х = х - µ. Как обсуждалось ранее, часто более удобно работать с точностью


А. = 1/ u 2 , а не с самим параметром и. Используя правило преобразования плот­
ностей, мы видим, что распределение p(u) ос 1/u соответствует распределению
по А. вида р(А.) ос 1/А.. Мы видели, что сопряженным априорным распределением
для А бьшо гамма-распределение Gam(A.ja0 , Ь 0 ), заданное формулой (2.146). Не­
информативное априорное распределение получается как частный случай
а0 = Ь 0 =О (см. раздел 2.3). И снова, если мы рассмотрим результаты (2.150) и
(2.151) для апостериорного распределения по А., то увидим, что при а 0 = Ь 0 =О
апостериорное распределение зависит только от членов, возникающих из дан­

ных, а не из априорного распределения (с.~1. раздел 2.3).

2.5. Непараметрические методы

В этой главе мы сосредоточились на использовании распределений вероятно­


стей, имеющих конкретные функциональные формы, определяемые небольшим
2.5. Непараметрические методы 177

числом параметров, значения которых должны определяться по набору данных.


Это называется параметрическим подходом к моделированию плотности. Важ­
ным ограничением этого подхода является то, что выбранная плотность может
быть плохой моделью распределения, которая генерирует данные, что может
привести к низкой прогностической эффективности. Например, если процесс,
который генерирует данные, является многомодальным, то этот аспект распре­
деления никогда не может быть отображен нормальным распределением, кото­
рое обязательно является одномодальным.
В этом заключительном разделе мы рассмотрим некоторые непараметриче­

ские подходы к оценке плотности, которые основаны на нескольких предполо­


жениях о форме распределения. Здесь мы сосредоточимся главным образом на
простых частотных методах. Однако читатель должен знать, что непараметриче­

ские байесовские методы привлекают все больший интерес (Walker et al., 1999;
Neal, 2000; Miiller and Quintana, 2004; Teh et al., 2006).
Начнем с обсуждения методов оценки плотности с помощью гистограмм, ко­
торые уже встречались в контексте маргинальных и условных распределений на

рис. 1.11 и в контексте центральной предельной теоремы на рис. 2.6. Здесь мы


более подробно исследуем свойства моделей плотности в виде гистограмм, фо­
кусируясь на случае одной непрерывной переменной х. Стандартные гистограм­
мы просто разбивают область изменения х на отдельные ячейки ширины Л;, а за­
тем подсчитывают количество п; наблюдений х, попадающих в i-ю ячейку. Что­
бы превратить эту частоту в нормированную плотность вероятности, мы просто
делим ее на общее количество наблюдений N и на ширину ячейки Л;, чтобы по­
лучить значения вероятности для каждой ячейки по формуле

(2.241)

из которой легко видеть, что Jр ( х) dx =1. В результате получаем модель для


плотности р(х), которая является постоянной в каждой ячейке, причем часто
ячейки выбираются так, чтобы они имели одну и ту же длину Л;=Л.
На рис. 2.24 показан пример оценки плотности гистограммы. Здесь данные
взяты из распределения, соответствующего зеленой кривой, которая образована
из смеси двух нормальных распределений. Также показаны три примера оценок

плотности гистограммы, соответствующих трем вариантам ширины ячейки. Мы


видим, что когда величина Л очень мала (верхний рисунок), результирующая
модель плотности имеет много пиков и демонстрирует моды, которых нет в ба­
зовом распределении, породившем набор данных. И наоборот, если величина Л
178 ГЛАВА 2. РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ

слишком большая (нижний рисунок), результатом является слишком гладкая


модель, которая не может отобразить двух.модальность зеленой кривой.

Наилучшие результаты получены для некоторого промежуточного значения Л

(средний рисунок). В принципе, модель плотности гистограммы также зависит


от выбора места расположения границ ячеек, хотя этот фактор, как правило, го­
раздо менее значим, чем величина Л.

50~0,25 ~ 1
L -~4=~
о 0,5
Рис. 2.24. Гистограммный подход к оценке плотности,

в котором набор данных из 50 точек генерируется из распределения,

показанного зеленой кривой . Показаны оценки плотности с помощью гистограммы ,

основанные на формуле (2.241) с общей шириной ячейки Л , при различных значениях Л

Обратите внимание на то, что метод гистограмм имеет одну особенность (в от­
личие от методов, которые будут обсуждаться в ближайшее время): после вычис­
ления гистограммы сам набор данных может бьrrь отброшен, что может бьrrь вы­
годно, если набор данных является большим. Кроме того, подход, основанный на
гистограммах, легко применяется, если точки поступают последовательно.

На практике метод гистограмм может быть полезен для быстрой визуализации


данных в одном или двух измерениях, но не подходит для большинства приложе­
ний оценки плотности. Одна очевидная проблема заключается в том, что расчет­
ная плотность имеет разрывы, связанные с границами ячеек, а не с каким-либо
свойством базового распределения, которое генерирует данные. Другим суще­
ственным ограничением метода гистограмм является его масштабирование по
размерности . Если мы разделим каждую переменную в D-мерном пространстве на

М ячеек, то общее число ячеек будет равно Mv. Эта степенная зависимость от D
является примером проклятия размерности. В пространстве высокой размерности
2.5. Непараметрические методы 179

количество данных, необходимых для обеспечения значимых оценок локальной


плотности вероятности, бьmо бы непомерно высоким (см. ра3де.;1 1.4).
Однако гистограммный подход к оценке плотности учит нас двум важным
вещам. Во-первых, чтобы оценить плотность вероятности в определенном месте,
мы должны рассмотреть точки, которые лежат в некоторой локальной окрестно­

сти этого места. Заметим, что понятие локальности требует, чтобы мы приняли
какую-то меру расстояния, в данном случае мы использовали евклидово рассто­

яние. Для гистограмм это свойство окрестности было определено ячейками, и


существует естественный параметр сглаживания, описывающий пространствен­
ную протяженность локальной области, в данном случае - ширину ячейки. Во­

вторых, чтобы получить хорошие результаты, значение параметра сглаживания


не должно быть ни слишком большим, ни слишком маленьким. Это напоминает
выбор сложности модели для приближения полиномиальной кривой, обсуждае­
мой в главе 1, где степень М многочлена или, альтернативно, значение а пара­

метра регуляризации была оптимальной при некотором промежуточном значе­


нии, ни слишком большом, ни слишком малом. Вооружившись этими соображе­
ниями, обсудим теперь два широко используемых непараметрических метода
оценки плотности: ядерные оценки и метод ближайших соседей, которые имеют
лучшее масштабирование по размерности, чем простая гистограммная модель.

2.5.1. Ядерные оценки плотности

Предположим, что наблюдения имеют некоторую неизвестную плотность ве­


роятности р(х) в D-мерном пространстве, которое мы будем считать евклидо­
вым, и мы хотим оценить значение р(х). Помня наше предыдущее обсуждение
локальности, рассмотрим некоторую небольшую область n, содержащую точ­
ку х. Масса вероятности, связанная с этой областью, определяется формулой

f
Р= p(x)dx. (2.242)
R

Предположим теперь, что мы собрали набор данных, содержащий N наблю­


дений, взятых из генеральной совокупности с плотностью вероятности р(х). По­
скольку каждая точка имеет вероятность попадания в 'R, равную Р, общее коли­
чество К точек, лежащих внутри 'R, будет распределено в соответствии с бино­

миальным распределением (см. раздел 2.1):

Bin(KIN Р)= N! Рк(l-Р)N-к. (2.243)


' K!(N-K)!
180 ГЛАВА 2. РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ

Используя (2.11 ), мы видим, что средняя доля точек, попадающих в данную


область, равна Е[К/N] = Р, и, аналогично, используя (2.12), получаем, что дис­
персия вокруг этого среднего равна var[К/N] = P(l - P)IN. При больших N это
распределение будет иметь пик в окрестности среднего значения, так что

К=МР. (2.244)
Если область R достаточно мала, чтобы внутри нее плотность вероятности р(х)
бьmа приблизительно постоянной, то

Р =p(x)V, (2.245)
где V- объем области R. Комбинируя (2.244) и (2.245), получим нашу оценку
плотности в виде

к
р(х)=-. (2.246)
NV

Заметим, что справедливость (2.246) зависит от двух противоречивых пред­


положений, а именно, что область R достаточно мала, чтобы в ней плотность
бьmа приблизительно постоянной, но все же достаточно большой (по отноше­
нию к значению этой плотности), чтобы количество К точек, попадающих в об­
ласть, было достаточным для того, чтобы биномиальное распределение имело
высокий пик.
Мы можем использовать результат (2.246) двумя способами. Или можем за­
фиксировать К и определить значение V по данным, что непосредственно при­
водит к обсуждению метода К ближайших соседей, или же зафиксировать V и
определить К по данным, что приводит к ядерному подходу. Можно показать,
что как оценка плотности на основе метода К ближайших соседей, так и ядерная
оценка плотности сходятся к истинной плотности вероятности в пределе при
N ~ оо при условии, что V соответствующим образом уменьшается, а К растет

(Duda and Hart, 1973).


Начнем с детального обсуждения ядерного метода и для начала выберем об­
ласть R в виде маленького гиперкуба с центром в точке х, в котором мы хотим
определить плотность вероятности. Чтобы подсчитать число К - количество
точек, попадающих в эту область, удобно определить следующую функцию

k( u) ={1, lи;I ~ 1/2, i =1,2, ... ,D, (2.247)


О в противном случае,
2.5. Непараметрические методы 181

которая представляет единичный куб с центром в начале координат. Функция


k(u) является примером функции ядра, а в данном контексте также называется
окном Парзена. Из (2.247) следует, что величина k((x - x")/h) равна единице, ес­

ли точка х" лежит внутри куба со стороной h и центром в точке х, а в против­


ном случае она равна нулю. Таким образом, общее количество точек, лежащих
внутри этого куба, равно

(2.248)

Подставляя это выражение в (2.246), получим следующий результат для


оценки плотности в точке х:

( х)=~ ~-1 k(х-хп) (2.249)


р N~hD h '

где использовали V = hD - объем гиперкуба со стороной h в пространстве раз­


мерности D. Используя симметрию функции k(u), теперь мы можем интерпре­
тировать это уравнение не как отдельный куб с центром в точке х, а как сумму
по N кубам с центрами в N точках х".
В сущности, ядерная оценка плотности (2.249) имеет тот же недостаток, что и
гистограммный метод, а именно: наличие искусственных разрывов, в данном

случае - на границах кубов. Мы можем получить более гладкую модель плот­


ности, если выберем более гладкую функцию ядра. Как правило, выбирают нор­
мальное распределение, что приводит к следующей ядерной модели плотности:

р(х)= NL(
1 N 1
z)D/2 ехр
{
-
llx-x"ll
2h2
2
}
, (2.250)
n=l 2тrh

где h представляет собой стандартное отклонение нормально распределенных


компонентов. Таким образом, наша модель плотности получается путем постро­
ения нормального распределения вокрут каждой точки, а затем суммирования их

вкладов по всему набору данных и деления на N, чтобы плотность была кор­


ректно нормирована. На рис. 2.25 мы применяем модель (2.250) к набору дан­

ных, использованному ранее, чтобы продемонстрировать гистограммный метод.


Мы видим, что, как и ожидалось, параметр h играет роль параметра сглажива­
ния, и существует компромисс между чувствительностью к шуму при малых h и

слишком сильным сглаживанием при больших h. И снова, оптимизация h явля­

ется проблемой сложности модели, аналогичной выбору ширины ячейки в ги-


182 ГЛАВА 2. РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ

стограммной оценке плотности или степени полинома, используемого для при­

ближения кривой.

л~I
h= 0,005

:1 л f\ Ьгн
о 0,5 1

~
h= 0,07

:1
о

:
0,5
h = 0,2

:1о 0,5

Рис. 2.25. Модель плотности ядра (2.250), приме11енная к тому же набору данных,

который использовался для демонстрации гистоrраммного метода , показанного

на рис. 2.24. Мы видим , что h действует как параметр сглаживания


и что если он слишком мал (верхняя панель), то результатом является очень

зашумленная модель плотности, тогда как если он слишком велик (нижняя панель),

то двухмодальная природа базового распределения, из которого генерируются данные

(показано зеленой кривой) , размывается . Наилучшая модель плотности п олучается

для некоторого промежуточного значения /1 (средняя панель)

Мы можем выбрать любую другую функцию ядра k(u) в (2.249) при условиях
k(u) ~О, (2.251)
J
k(u)du=1, (2.252)

которые гарантируют, что полученное распределение вероятности всюду неот­

рицательно, а его интеграл равен единице. Класс моделей плотности, заданный


формулой (2.249), называется ядерной оценкой плотности, или оценкой Парзена.
Большое преимущество этого метода заключается в том, что на этапе обучения
нет никаких вычислений, потому что достаточно хранить только обучающее
множество . Однако это же является одним из его больших недостатков, по­
скольку вычислительная стоимость оценки плотности с ростом размера набора
данных увеличивается линейно.
2.5. Непараметрические методы 183

2.5.2. Методы ближайших соседей

Одной из трудностей, связанных с ядерным подходом к оценке плотности,


является то, что параметр h, определяющий ширину ядра, фиксирован для всех

ядер. В областях с высокой плотностью данных большое значение h может при­

вести к чрезмерному сглаживанию и размыванию структуры, которые в против­

ном случае можно было бы извлечь из данных. Однако уменьшение h может

привести к зашумленным оценкам в тех местах пространства данных, где плот­

ность меньше. Таким образом, оптимальный выбор h может зависеть от место­

положения в пространстве данных. Эта проблема решается методом ближайших


соседей для оценки плотности.

Вернемся к результату (2.246) для оценки локальной плотности и вместо

фиксации V и определения значения К по данным рассмотрим фиксированное


значение К, воспользовавшись данными для нахождения подходящего значения
V. Для этого рассмотрим малую сферу с центром в точке х, в которой хотим
оценить плотность р(х), и позволим радиусу сферы увеличиваться, пока сфера
не будет содержать точно К точек из набора данных. Тогда оценка плотности
р(х) вычисляется по формуле (2.246), где V- объем получающейся сферы. Этот
метод известен как метод К ближайших соседей и показан на рис. 2.26 для раз­

личных вариантов параметра К при том же наборе данных, что и на рис. 2.24-
2.25. Мы видим, что значение К теперь регулирует степень сглаживания и что
снова существует оптимальный выбор для числа К, которое не слишком велико
и не слишком мало. Заметим, что модель, созданная К ближайшими соседями,
не является настоящей моделью плотности, поскольку интеграл по всему про­

странству расходится (см. упражиеиие 2.61).


В завершение главы покажем, как метод К ближайших соседей для оценки
плотности можно применить для классификации. Для этого применим его к
каждому классу отдельно, а затем используем теорему Байеса. Предположим, у
нас есть набор данных, содержащий Nk точек в классе Ck с N точками в целом,

так что L Nk = N. Если мы хотим классифицировать новую точку х, нарисуем


k

сферу с центром в точке х, содержащую ровно К точек независимо от их класса.

Предположим, эта сфера имеет объем V и содержит Kk тоЧек из класса Ck. Тогда
(2.246) дает оценку плотности, связанной с каждым классом

(2.253)
184 ГЛАВА 2. РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ

Рис. 2.26. Оценка плотности по методу К ближайших соседей с испол иованием

тех же данных, что и на рис. 2.24--2.25. Мы видим, что параметр К определяет степень

сглаживания, так что небольшое значение К приводит к очень зашумленной модели


плотности (верхняя панель), тогда как большое значение (нижняя панел ь) сглаживает

двухмодальную природу истинного распределения (показано зеленой кривой),

из которой был создан набор данных

Аналогично безусловная плотность определяется выражением

(2.254)

а априорные вероятности классов вычисляются как

(2.255)

Теперь мы можем комбинировать (2.253)-(2.255) с помощью теоремы Байеса,


чтобы получить апостериорную вероятность членства в классе:

р
(сkx
1 )
= p(xlCk)p(C~:) = Kk
(} . (2.256)
рх К

Если мы хотим минимизировать вероятность ошибочной классификации, то


должны присвоить тестовую точку х классу, имеющему наибольшую апостери­
орную вероятность, что соответствует наибольшему значению К,/К. Таким обра­
зом, чтобы классифицировать новую точку, мы идентифицируем К ближайших
точек из обучающего набора данных, а затем присваиваем новую точку классу,
имеющему наибольшее количество представителей среди этого множества. При
одинаковом количестве представителей выбор можно делать случайным обра-
2.S. Непараметрические методы 185

зом. В частном случае К = 1 этот метод называется правwюм ближайшего сосе­


да, потому что тестовая точка просто назначается тому же классу, что и бли­
жайшая точка из обучающего набора данных (рис. 2.27) .

• •

• •
а) б)

Рис. 2.27. При классификации по метоi\У К ближайших соседей новая точка,


показанная в виде черного ромба, приписывается классу, который имеет большинство

среди К ближайших точек и:з обучающего набора данных, в данном случае К= 3 (а).

В методе ближайшего соседа (К= 1) результирующая граница решения состоит из

гиперплоскостей, которые равноудалены от пар точек ю разных классов (6)

На рис. 2.28 показаны результаты применения алгоритма К ближайших сосе­


дей к данным о потоке нефти, представленным в главе 1, при разных значе­
ниях К. Как и ожидалось, мы видим, что параметр К влияет на степень сглажи­

вания, так что малые значения К приводят к появлению многочисленных малых

областей, соответствующих каждому классу, а большие значения К приводят к


меньшему количеству более крупных областей.
Интересным свойством классификатора по методу ближайшего соседа (К= 1)
является то, что в пределе при N ~ ос уровень ошибок не более чем вдвое пре­
вышает минимально допустимый уровень ошибок для оптимального классифи­
катора, т.е. классификатора, использующего истинные распределения классов
(Cover and Hart, 1967).
Как обсуждалось ранее, как метод К ближайших соседей, так и ядерная оцен­
ка плотности требуют, чтобы в памяти хранился весь обучающий набор данных,
что может привести к дорогостоящим вычислениям, если набор данных является
большим. Этот эффект можно компенсировать за счет некоторых дополнитель­
ных одноразовых вычислений путем построения структур поиска на основе де­

рева, позволяющих эффективно находить (приближать) соседние точки, не вы-


186 ГЛАВА 2. РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ

полняя исчерпывающий поиск набора данных. Тем не менее эти непараметриче­


ские методы все еще сильно ограничены. С другой стороны, мы видели, что

простые параметрические модели очень ограничены в выборе форм распределе­


ния, которые они могут представлять. Следовательно, необходимо найти модели
плотности, которые являются очень гибкими и в то же время сложность которых
не зависит от размера обучающего множества (в последующих главах мы пока-
жем, как этого достичь).

К= К=3
.
..," ..
1
. ." ..," ..К=Зl

."..," .• •.
2 2 2
t • •' • . # • • • t • •1 • •
"
Х7 Х7 Х7

. ••• . . •• ••
...... ..

. .....
'••
. ... . ..-. . .' ....- ... .. .
00 2 00 2 00 2
хб хб хб

Рис. 2.28. График для 200 точек из набора данных о потоке нефти,

на котором показаны значения х 6 , построенные по отношению к значениям х 7 ,

а красные, зеленые и синие точки соответствуют ламинарным, кольцевым

и однородным классам. Также показаны классификации входного пространства,

заданного алгоритмом К ближайших соседей для различных значений К

Упражнения

2.1. (*) WWW Проверьте, что распределение Бернулли (2.2) обладает следую­
щими свойствами:
1
LP(xlµ) =1, (2.257)
х=О

Е[х] =µ, (2.258)


var[x] = µ(1 - µ). (2.259)

Покажите, что энтропия Н[ х] случайной бинарной переменной х, имею­


щей распределение Бернулли, задается формулой

Н[х] = -µ ln µ- (1 - µ) ln (l - µ). (2.260)


2.2. (**) Форма распределения Бернулли, заданная формулой (2.2), не является
симметричной относительно двух значений х. В некоторых ситуациях удоб-
Упражнения 187

нее использовать эквивалентную формулировку, для которой ХЕ {-1, 1}, и в

этом случае распределение может быть записано.

+
p(xlµ)= ( :
l-
-f-
J(t-x)/2 ( l J(t+x)/2
, (2.261)

гдеµ Е[-1, 1]. Покажите, что распределение (2.261) нормировано, и вычис­

лите его математическое ожидание, дисперсию и энтропию.

2.3. (**) WWW Докажите, что биномиальное распределение (2.9) нормировано.

Сначала используйте определение (2.1 О) количества комбинаций выбора т


из N одинаковых объектов, чтобы показать, что

ст
N + ст-1
N = стN+t· (2.262)
Используя этот результат, докажите по индукции, что

N N
(1+х) = 2,С~хт. (2.263)
т=О

Этот результат называется биномиш~ьной теоремой. Она справедлива для


всех действительных значений х. Наконец, покажите, что биномиальное
распределение нормировано, так, что

N
2,С~µт(1-µ(-т =1. (2.264)
т=О
N
Для этого сначала вынесите из-под знака суммирования множитель (1-µ) ,
а затем примените биномиальную теорему.

2.4. (***)Покажите, что математическое ожидание биномиального распреде­


ления задается формулой (2.11 ). Для этого продифференцируйте обе части
условия нормировки (2.264) по µ, а затем перегруппируйте результат, по­
лучив выражение для математического ожидания т. Аналогично, диффе­
ренцируя (2.264) дважды поµ и используя результат (2.11) для математи­
ческого ожидания биномиального распределения, докажите результат
(2.12) для дисперсии биномиального распределения.

2.5. (***) WWW Докажите, что бета-распределение, заданное формулой (2.13),


нормировано корректно, так что выполняется (2.14). Это эквивалентно то­

му, что

Jµa-t(l- µ )ь-tdµ =Г(а)Г(Ь)


1

0
Г(а+Ь) ·
(2.265)

Из определения (1.141) гамма-функции имеем


188 ГЛАВА 2. РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ

00 00

J
Г(а )Г(Ь) = ехр(-х )x 0- 1dx Jехр(-у )/- dy.
1 (2.266)
о о

Используйте это выражение для доказательства (2.265) следующим обра­

зом. Сначала возьмите интеграл по у внутри интеграла по х, затем произ­


ведите замену переменной t =у + х, где х фиксировано, поменяйте порядок
интегрирования по х и t и, наконец, сделайте замену переменной х = tµ, где

t фиксировано.

2.6. (*) Используя результат (2.265), покажите, что математическое ожидание,


дисперсия и мода бета-распределения (2.13) равны

Е[µ]=~ь' (2.267)
а+

var[µ]= 2аЬ , (2.268)


(а+Ь) (а+Ь+1)
а-1
mode(µ)= . (2.269)
а+Ь-2
2.7. (**)Рассмотрим биномиальную случайную величину х, заданную форму­
лой (2.9), с априорным распределением для µ, заданным бета-распределе­
нием (2.13), и предположим, что мы наблюдаем т значений х= 1 и одно
значение х = О. Покажите, что апостериорное математическое ожидание па­
раметра µлежит между априорным математическим ожиданием и оценкой

максимального правдоподобия для µ. Для этого покажите, что апостериор­


ное математическое ожидание можно записать как 4, умноженное на апри­
орное математическое ожидание, плюс (1 - Л), умноженное на оценку мак­
симального правдоподобия, где О ~ Л ~ 1. Этот факт иллюстрирует концеп­
цию апостериорного распределения, являющегося компромиссом между

априорным распределением и оценкой максимального правдоподобия.

2.8. (*) Рассмотрим две переменные, х и у, с совместным распределением р(х, у).


Докажите следующие два результата:

Е[х] = Еу[Ех[х[у]], (2.270)

var[x] = Ey[varx[x[y] + vary[Ex[x[y]], (2.271)

где Ех[х[у] обозначает математическое ожидание х при условном распреде­


лении р(х[у) с аналогичными обозначениями для условной дисперсии.
Упражнения 189

2.9. (***) WWW Докажите, используя индукцию, что распределение Дирихле

(2.38) является нормированным. В упр. 2.5 мы уже показали, что бета­


распределение, являющееся частным случаем Дирихле для М = 2, является
нормированным. Предположите теперь, что распределение Дирихле нор­
мировано для переменных М - 1, и докажите, что оно нормировано для М

переменных. Для этого рассмотрите распределение Дирихле для М пере-


м

менных и учтите ограничение L µk =1 , исключив µ м, так что распреде-


ление Дирихле принимает вид k=l

P(l'1>···>l'м-1) ~См п µ:•-' [1- ~1 1'; г-• (2.272)

Наша цель - найти выражение для См. Для этого проинтегрируйте по µм_ 1 ,
соблюдая пределы интегрирования, а затем сделайте замену переменной,
чтобы этот интеграл имел пределы О и 1. Предполагая правильность ре­

зультата для См_ 1 и используя (2.265), выведите выражение для См.

2.10. (**)Используя свойство гамма-функции Г(х + 1) = хГ(х), выведите следу­

ющие результаты для математического ожидания, дисперсии и ковариации

распределения Дирихле, заданного формулой (2.38):

(2.273)

- а1 ( а 0 - а 1 )
var [ µ 1 ] - 2( ) , (2.274)
а0 а0 +1
а1 а1
cov [ µ J µ 1 ] =- 2( ) , j i:- l, (2.275)
а 0 а0 +1

где а 0 определяется формулой (2.39).


2.11. (*) WWW Выражая математическое ожидание ln µ 1 распределения Дирихле
(2.38) как производную по а1 , покажите, что
Е [ln µ 1] = lf/( а1) - lf/( а 0 ), (2.276)
где а 0 задается формулами (2.39), а функция

lf/(a)=~lnГ(a) (2.277)
da
является дигамма-функцией.

2.12. (*) Равномерное распределение непрерывной переменной х определяется


формулой
190 ГЛАВА 2. РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ

1
U(xla,b) = - , а'$ х '$Ь. (2.278)
Ь-а

Убедитесь, что это распределение является нормированным, и найдите

выражения для его математического ожидания и дисперсии.

2.13. (**)Вычислите дивергенцию Кульбака-Лейблера (1.113) между двумя


нормальными распределениями р(х) = N(xlµ, I) и q(x) = N (xlm, L).
2.14. (**)WWW Это упражнение демонстрирует, что многомерное распределение

с максимальной энтропией при заданной ковариации является нормаль­


ным. Энтропия распределения р(х) задается формулой

H[x]=-J p(x)lnp(x)dx. (2.279)


Мы хотим максимизировать Н[х] по всем распределениям р(х) при усло­
вии, что р(х) нормировано и что у него есть конкретные математическое
ожидание и ковариация, так что

J p(x)dx=l, (2.280)

J p(x)xdx=µ, (2.281)

J р(х)(х-µ)(х-µ)т dx=I. (2.282)

Применяя вариационный подход к максимизации (2.279) и используя ме­


тод множителей Лагранжа для обеспечения ограничений (2.280}--(2.282),
покажите, что распределение максимального правдоподобия является
нормальным распределением (2.43).
2.15. (**)Докажите, что энтропия многомерного нормального N(xlµ, I) задает­
ся формулой

1 D
н[ х] =-InlII
2
+-(1+1n(21r)),
2
(2.283)

где D- размерность вектора х.

2.16. (***) WWW Рассмотрим две случайные величины, х 1 и х 2 , имеющие нор­


мальные распределения с математическими ожиданиями µ1 и µ2 и точно­

стью r 1 и r 2 соответственно. Выведите выражение для дифференциальной


энтропии переменной х = х 1 + х2 • Для этого сначала найдите распределе­
ние х, используя соотношение

00

J
р ( х) = р ( xl х2 ) р ( х2 ) dx2 (2.284)
Упражнения 191

и выделите полный квадрат в экспоненте. Обратите внимание на то, что


это выражение представляет собой свертку двух нормальных распределе­
ний, которая сама будет нормальным распределением, и, наконец, вос­
пользуйтесь результатом ( 1.11 О) для энтропии одномерного нормального
распределения.

2.17. (j WWW Рассмотрите многомерное нормальное распределение, заданное


формулой (2.43). Написав матрицу точности (обратную ковариационную

матрицу) I:- 1 как сумму симметричной и антисимметричной матрицы, по­


кажите, что антисимметричный член не фигурирует в экспоненте нор­
мального распределения и, следовательно, матрицу точности можно счи­

тать симметричной без потери общности. Поскольку матрица, обратная к


симметричной, также является симметричной (см. упражнение 2.22), ко­
вариационную матрицу также можно выбрать симметричной без потери
общности.

2.18. (***)Рассмотрим действительную симметричную матрицу I:, уравнение


для собственных значений которой задается формулой (2.45). Выполняя
комплексное сопряжение этого уравнения и вычитая исходное, а затем об­
разуя скалярное произведение с собственным вектором u;, покажите, что
собственные значения А; являются действительными. Аналогично, исполь­
зуя свойство симметрии матрицы I:, покажите, что два собственных векто­
ра, u; и u1, будут ортогональными при условии А:; '# А;. Наконец, покажите,
что без ограничения общности множество собственных векторов можно
выбрать ортонормированным, так что они удовлетворяют (2.46), даже если
некоторые из собственных значений равны нулю.

2.19. (**)Покажите, что действительная симметричная матрица I:, имеющая


уравнение для собственных векторов (2.45), может быть выражена как
разложение по собственным векторам с коэффициентами, заданными соб­
ственными значениями, вида (2.48). Аналогично покажите, что обратная
матрица I:- 1 имеет представление вида (2.49).
2.20. (**) WWW Положительно определенную матрицу I: можно определить как
такую, для которой квадратичная форма
атI:а (2.285)
положительна для любого действительного значения вектора а. Покажите,
что необходимым и достаточным условием положительной определенно-
192 ГЛАВА 2. РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ

сти матрицы 1: является то, что все ее собственные значения Л;, опреде­
ленные формулой (2.45), являются положительными.

2.21. (*)Покажите, что действительная симметричная матрица размера D·D


имеет D(D + 1)/2 независимых параметра.
2.22. (*) WWW Покажите, что инверсия симметричной матрицы сама симметрична.

2.23. (**). Диагонализируя систему координат и используя разложение по


собственным векторам (2.48), покажите, что объем, содержащийся в ги­
перэллипсоиде, соответствующем постоянному расстоянию Махала­
нобиса Л, равен

(2.286)

где VD - объем единичной сферы в пространстве размерности D, а рас­


стояние Махаланобиса определяется формулой (2.44).
2.24. (**) WWW Докажите тождество (2.76), умножив обе стороны на матрицу

( Ас во) (2.287)

и используя определение (2. 77).


2.25. (**)В разделах 2.3.1 и 2.3.2 мы рассмотрели условное и маргинальное
распределения для многомерного нормального распределения. В более

общем случае мы можем рассмотреть разбиение компонентов х на три


группы, Ха, хь и хе, с соответствующим разбиением вектора математиче­
ских ожиданий и ковариационной матрицы 1: в виде

(2.288)

Воспользовавшись результатами раздела 2.3, найдите выражение для


условного распределения р(хаlхь), в котором хе было бы исключено путем
маргинализации.

2.26. (**) Очень полезный результат из линейной алгебры - это формула Вуд­
бери для обращения матрицы:

(2.289)
Докажите правильность этого результата, умножив обе стороны тождества
на (А+ BCD).
Упражнения 193

2.27. (*)Пусть х и z- два независимых случайных вектора, так что

р(х, z) = p(x)p(z). Покажите, что математическое ожидание их суммы


у= х + z равно сумме математических ожиданий каждой из переменных.

Аналогично покажите, что ковариационная матрица вектора у задается


суммой ковариационных матриц векторов х и z. Проверьте, что этот ре­

зультат совпадает с результатом упражнения 1.1 О.


2.28. (***) WWW Рассмотрим совместное распределение по переменной

z=(;). (2.290)

математическое ожидание и ковариация которой даются формулами

(2.108) и (2.105) соответственно. Используя результаты (2.92) (2.93), по­


и

кажите, что маргинальное распределение р(х) задается формулой (2.99).

Аналогично, используя результаты (2.81) и (2.82), покажите, что условное


распределение p(ylx) задается формулой (2.100).

2.29. (**)Используя формулу преобразования блочной матрицы (2.76), покажи­

те, что обратная матрица точности (2.104) равна ковариационной матрице


(2.105).
2.30. (*)Исходя из (2.107) и используя результат (2.105), докажите результат

(2.108).
2.31. (**)Рассмотрите два многомерных случайных вектора, х и z, имеющих
нормальные распределения р(х) = N(xlµx, Ix) и p(z) = N(xlµz, Iz) соответ­
ственно вместе с их суммой у= х + z. Используя результаты (2.109) и
(2.11 О), найдите выражение для маргинального распределения р(у ), рас­

сматривая линейно-нормальную модель, содержащую произведение мар­


гинального распределения р(х) и условного распределения p(ylx).

2.32. (***) WWW Это и следующее упражнение предназначены для выработки


навыков манипулирования квадратичными формами, возникающими в ли­
нейно-нормальных моделях, а также обеспечивают независимую проверку
результатов, полученных в основном тексте. Рассмотрим совместное рас­

пределение р(х, у), определяемое маргинальным и условным распределе­


ниями, заданными формулами (2.99) и (2.100). Изучив квадратичную фор­

му в экспоненте совместного распределения и используя метод выделения

полного квадрата, рассмотренный в разделе 2.3, найдите выражения для

математического ожидания и ковариации маргинального распределения

р(у), в котором было выполнение интегрирование по переменной х. Для


194 ГЛАВА 2. РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ

этого воспользуйтесь формулой Вудбери для обращения матрицы (2.289).


Докажите, что эти результаты согласуются с (2.109) и (2.11 О), полученны­
ми с использованием результатов главы 2.
2.33. (***) Рассмотрим те же совместные распределения, что и в упражнении
2.32, но теперь используем метод выделения полного квадрата, чтобы
найти выражения для математического ожидания и ковариации условного
распределения
p(xjy). Докажите, что они согласуются с соответствующи­
ми выражениями (2.111) и (2.112).

2.34. (**) WWW Чтобы найти оценку максимального правдоподобия для ковариа­
ционной матрицы многомерного нормального распределения, необходимо
максимизировать логарифмическую функцию правдоподобия (2.118) по 1:,
учитывая, что ковариационная матрица должна быть симметричной и поло­
жительно определенной. Здесь мы переходим к игнорированию этих огра­
ничений и безусловной максимизации. Используя результаты (В.21 ), (В.26)
и (В.28) из приложения В, покажите, что ковариационная матрица 1:, мак­
симизирующая логарифмическую функцию правдоподобия (2.118), задается
выборочной ковариационной матрицей (2.122). Обратите внимание на то,
что конечный результат обязательно является симметричным и положи­
тельно определенным (при условии, что выборочная ковариационная мат­
рица не вырождена).

2.35. (**)Используйте результат (2.59) для доказательства (2.62). Теперь, ис­


пользуя результаты (2.59) и (2.62), покажите, что

Е[ хпх~ J= µµт + lnm'E., (2.291)

где Хп обозначает точку, отобранную из генеральной совокупности с нор­


мальным распределением, имеющим математическое ожидание µ и кова­

риационную матрицу 1:, а Inm обозначает (п, т)-й элемент единичной мат­
рицы. Отсюда следует результат (2.124).
2.36. (**) WWW Используя процедуру, аналогичную используемой для получения
формулы (2.126), выведите выражение для последовательной оценки дис­
персии одномерного нормального распределения, начиная с выражения

максимального правдоподобия:

2 1 N 2
О'мL =-I(x-µ). (2.292)
N n=I
Упражнения 195

Покажите, что подстановка этого выражения для нормального распреде­


ления в формулу последовательной оценки Роббинса-Монро (2.135) дает
результат в том же виде, и получите выражение для соответствующих ко­

эффициентов aN.

2.37. (**) Используя процедуру, аналогичную используемой для получения


формулы (2.126), выведите выражение для последовательной оценки кова­
риации многомерного нормального распределения, начиная с выражения

максимального правдоподобия (2.122). Убедитесь, что подстановка выра­

жения для нормального распределения в формулу последовательной оцен­


ки Роббинса-Монро (2.135) дает результат в том же виде, и получите вы­

ражение для соответствующих коэффициентов aN.

2.38. (**)Используйте метод выделения полного квадрата квадратичной формы


в экспоненте для вывода результатов (2.141) и (2.142).
2.39. (**) WWW Исходя из результатов (2.141) и (2.142) для апостериорного рас­

пределения математического ожидания нормальной случайной величины,


вычтите вклады отN - 1 первых точек и получите выражения для последо­
вательного обновления µN и а~. Теперь получите те же результаты, начи­
ная с апостериорного распределения p(µlx1 ,.",xN_ 1 )=N(µlµN_ 1 ,a~_ 1 ) и
умножая его на функцию правдоподобия p(xNIµ) = N(xNIµ, а\ а затем,
выделяя полный квадрат и нормируя, получите апостериорное распреде­

ление после N наблюдений.

2.40. (**) WWW Рассмотрим D-мерную нормальную случайную величину х с рас­


пределением N(xlµ, :Е), для которой известна ковариация :Е. Определите ма­
тем~тическое ожидание этой случайной величины по набору наблюдений
Х = {х 1 , "., xN}. Учитывая априорное распределение р(µ) = N(µlµ 0 , 1:0),
найдите соответствующее апостериорное распределение p(µIX).

2.41. (*)Используя определение гамма-функции (1.141), покажите, что гамма­

распределение (2.146) нормировано.

2.42. (**)Вычислите математическое ожидание, дисперсию и моду гамма­


распределения (2.146).
2.43. (*) Распределение

(2.293)
196 ГЛАВА 2. РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ

является обобщением одномерного нормального распределения. Покажи­


те, что это распределение нормировано так, что

(2.294)

и что оно сводится к нормальному при q = 2. Рассмотрим регрессионную


t = у(х, w) + &,
модель, в которой целевая переменная задается формулой
где & - случайная шумовая переменная, имеющая распределение (2.293).
Покажите, что логарифмическая функция правдоподобия от w и а2 для
наблюдаемого набора входных векторов Х = {х 1 , "., xN} и соответствую­
щих целевых переменных t = (t 1, "., tN)т задается формулой

lnp(tlX,w,a 2 ) =-~ Ily(xп,w)-tпlq - N ln(2a 2 ) + const, (2.295)


2а n=I q
где выражение const обозначает члены, не зависящие от w и а2 • Заметим,
что как функция от w она представляет собой функцию ошибки Lq, рас­
смотренную в разделе 1.5.5.
2.44. (**)Рассмотрим одномерное нормальное распределение N(xlµ, r- 1), име-
ющее сопряженное гамма-нормальное априорное распределение, заданное

формулой (2.154), и набор независимых одинаково распределенных


наблюдений х = {х 1 , "., xN}· Покажите, что апостериорное распределение
также является гамма-нормальным распределением той же функциональ­
ной формы, что и априорное, и найдите выражения для параметров этого
апостериорного распределения.

2.45. (*) Докажите, что распределение Уишарта, определенное (2.155), действи­


тельно является сопряженным априорным распределением для матрицы

точности многомерного нормального распределения.

2.46. (*) WWW Докажите, что вычисление интеграла в (2.158) приводит к резуль­
тату (2.159).

2.47. (*) WWW Докажите, что в пределе при v~ оо t-распределение (2.159) стано­
вится нормальным. Подсказка: игнорируйте коэффициент нормировки и
просто посмотрите на зависимость от х.

2.48. (*) Выполняя шаги, аналогичные применяемым для получения одномерно­


го t-распределения Стьюдента (2.159), проверьте результат (2.162) для
многомерной формы t-распределения Стьюдента, маргинализируя пере-
Упражнения 197

менную 17 в (2.161). Используя определение (2.161), покажите, заменив пе­


ременные интегрирования, что многомерное t-распределение нормировано

корректно.

2.49. (**) Используя определение (2.161) многомерного t-распределения Стью­


дента как свертку нормального с гамма-распределением, проверьте свой­

ства(2.164)-(2.166) для многомерного t-распределения, определенного

формулой (2.162).

2.50. (*) Покажите, что в пределе при v ~ оо многомерное t-распределение Стью­


дента (2.162) сводится к нормальному с математическим ожиданием µ и
точностью л.

2.51. (*) WWW Различные тригонометрические тождества, используемые при об­


суждении периодических переменных в этой главе, легко выводятся из со­

отношения

exp(iA) = cos А+ i sin А, (2.296)


в котором i- это квадратный корень из минус единицы. Рассматривая
тождество

exp(iA)exp(-iA) = 1, (2.297)
докажите результат (2.177). Аналогично, используя тождество

cos(A -В)= ~exp{i(A -В)}, (2.298)

где символ ~ обозначает действительную часть, докажите (2.178). Нако­


нец, используя тождество sin(A - В)=
Jexp{i(A - В)}, где символ J обо­
значает мнимую часть, докажите результат (2.183).

2.52. (**)При больших т распределение фон Мизеса (2.179) имеет высокий пик
в окрестности моды В 0 • Определяя q = т 112 (В- В0 ) и выполняя разложение
Тейлора для косинуса по формуле

а2
cosa=l- 2 +o(a 4 ), (2.299)

покажите, что при т~оо распределение фон Мизеса стремится к нор­


мальному.

2.53. (*)Используя тригонометрическое тождество (2.183), покажите, что ре­


шение (2.182) для В 0 определяется формулой (2.184).
2.54. (*) Вычисляя первую и вторую производные распределения фон Мизеса
(2.179) и используя формулу 10 (т) > О при т > О, покажите, что макси-
198 ГЛАВА 2. РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ

мум распределения имеет место при () = ()0 и минимум достигается, когда


()= ()0 + JТ(mod 2JТ).

2.55. (*)Используя результат (2.168), вместе с (2.184) и тригонометрическим


тождеством (2.178), покажите, что решение максимального правдоподобия
тМL для концентрации распределения фон Мизеса удовлетворяет равен­
ству А(тмL) = r, где r - математическое ожидание радиуса наблюдений,
рассматриваемых как единичные векторы в двухмерной евклидовой плос­

кости (рис. 2.27).


2.56. (*) WWW Выразите бета-распределение (2.13), гамма-распределение (2.146)
и распределение фон Мизеса (2.179) в виде членов экспоненциального се­
мейства (2.194) и тем самым определите их естественные параметры.

2.57. (*)Докажите, что многомерное нормальное распределение может быть


приведено в виде члена экспоненциального семейства (2.194) и выведите
выражения для ТJ, u(x), h(x) и g(ТJ), аналогичные (2.220)-(2.223).
2.58. (*)Результат (2.226) показал, что отрицательный градиент ln g(ТJ) для экс­
поненциального семейства определяется математическим ожиданием u(x).
Взяв вторые производные от (2.195), покажите, что

-V'V'ln g(ТJ) = E[u(x)u(x)т] - E[u(x)]E[u(x)т] = cov[u(x)]. (2.300)

2.59. (*) Проведя замену переменных у= х/а, покажите, что плотность (2.236)
будет нормирована корректно, если.f(х) нормирована корректно.

2.60. (**) WWW Рассмотрим гистограммную модель плотности, в которой простран­


ство переменной х делится на фиксированные области, для которых плот­
ность р(х) принимает постоянное значение h; в i-й области, а объем i-й обла­
сти обозначается как Л;. Предположим, что мы имеем множество N наблюде­
ний х, таких, что n; этих наблюдений находится в i-й области. Используя
метод множителей Лагранжа для обеспечения нормировки плоnюсти, выве­
дите выражение для оценки максимального правдоподобия для {h;}.
2.61. (*) Покажите, что модель плотности по методу К ближайших соседей
определяет некорректное распределение, интеграл по всему пространству

которого расходится.
3

До сих пор в этой книге основное внимание уделялось обучению без учителя,
в частности, оценке плотности и кластеризации данных. Теперь мы переходим

к обучению с учителем и начнем с регрессии. Целью регрессии является пред­


сказание значения одной или нескольких непрерывных целевых переменных t
с учетом значения D-мерного вектора х, содержащего входные переменные. Мы
уже сталкивались с примером регрессии, когда рассматривали аппроксимацию

полиномиальной кривой в главе 1. Полином является конкретным примером

широкого класса функций, называемых линейными регрессионными моделями,


которые являются линейными функциями регулируемых параметров и будут
находиться в центре внимания этой главы. Простейшей формой линейных ре­
грессионных моделей являются линейные функции входных переменных. Одна­
ко мы можем получить гораздо более полезный класс функций, рассматривая
линейные комбинации фиксированного множества нелинейных функций вход­
ных переменных, которые называются базисными функциями. Такие модели яв-
200 ГЛАВА 3. МОДЕЛИ ЛИНЕЙНОЙ РЕГРЕССИИ

ляются линейными функциями по отношению к параметрам, благодаря чему они


обладают простыми аналитическими свойствами и в то же время остаются нели­
нейными по отношению к входным переменным.

Наша цель - предсказать значение t для нового значения х по заданному

обучающему набору данных, содержащему N наблюдений {хп} и соответству­


ющих целевым значениям {tп}, где п = 1, ... , N. В рамках простейшего подхода
это можно сделать путем прямого построения соответствующей функции у(х),
значения которой для новых входных данных х представляют собой предсказа­
ния для соответствующих значений t. В более общем плане, с вероятностной
точки зрения мы стремимся моделировать прогностическое распределение p(tlx),
поскольку оно выражает нашу неопределенность в отношении значения t для

каждого значения х. С помощью этого условного распределения мы можем де­


лать предсказания t для любого нового значения х так, чтобы минимизировать
ожидаемое значение соответствующей функции потерь. Как обсуждалось в раз­
l)еле 1.5.5, обычным выбором функции потерь для действительных переменных
является квадратичная функция, для которой оптимальное решение задается
условным математическим ожиданием переменной t.
Хотя линейные модели имеют существенные ограничения с точки зрения
практических методов распознавания образов, особенно в задачах с простран­
ствами входных данных большой размерности, они обладают хорошими анали­
тическими свойствами и образуют основу для более сложных моделей, которые
будут обсуждаться в следующих главах.

3.1. Модели с линейными базисными функциями

Простейшей моделью линейной регрессии является линейная комбинация


входных переменных

(3.1)
где х = (х 1 , "., хv)т. Часто ее просто называют линейной регрессией. Ключевым
свойством этой модели является то, что она является линейной функцией от па­
раметров w0, .", wv. Однако в то же время она является линейной функцией
входных переменных xi, что накладывает значительные ограничения на модель.

Поэтому мы расширяем класс моделей, рассматривая линейные комбинации


фиксированных нелинейных функций входных переменных вида

М-1

y(x,w) = w0 + L wiфJ (х), (3.2)


}=\
3.1. Модели с линейными базисными функциями 201

где фj(х)- базисные функции. Если обозначить максимальное значение индекса


j через М-1, то общее количество параметров в этой модели будет равно М.
Параметр w0 допускает любое фиксированное смещение в данных и иногда
называется параметром смещения (не путайте его со смещением (Ьias) в стати­
стическом смысле). Часто бывает удобно определить дополнительную фиктив­
ную базисную функцию ф 0 (х) = 1, так что
М-1

y(x,w)= L w1 ф1 (х)=wтф(х), (3.3)


}=0

где w = (w0, "., wм_ 1 )т и ф= (ф 0 , "" Фм-~)т. Во многих практических приложениях


распознавания образов мы будем применять особую форму предварительной
обработки входных переменных, которая называется выделением признаков. Ес­
ли исходные переменные образуют вектор х, то признаки можно выразить через
базисные функции {ф1 (х)}.
Используя нелинейные базисные функции, мы позволяем функции у(х, w)
бьпь нелинейной функцией входного вектора х. Однако функции вида (3.2)
называются линейными моделями, потому что эта функция является линейной
по w. Именно эта линейность в параметрах значительно упрощает анализ этого
класса моделей. Однако это также приводит к некоторым существенным огра­

ничениям, о чем мы поговорим в разделе 3. 6.


Пример полиномиальной регрессии, рассмотренный в главе 1, является част­
ным примером этой модели, в которой имеется единственная входная перемен­

ная х, а базисные функции принимают вид степеней х, так что ф1 (х) = х1. Недо­
статок полиномиальных базисных функций состоит в том, что они являются
глобальными функциями входной переменной, так что изменения в одной обла­
сти входного пространства влияют на все остальные области. Этот недостаток

можно устранить, разделяя пространство входной переменной на области и при­


ближая в каждой области отдельный полином, что приводит к сплайн-функциям
(Нastie et а/" 2001 ).
Существует множество других возможных вариантов базисных функций,
например

(3.4)

где параметр )J; определяет расположение базисных функций в пространстве


входных переменных, а параметр s определяет их пространственный масштаб.
202 ГЛАВА 3. МОДЕЛИ ЛИНЕЙНОЙ РЕГРЕССИИ

Обычно они называются гауссовскими базисными функциями, хотя следует от­


метить, что они не обязательно имеют вероятностную интерпретацию, и, в част­
ности, коэффициент нормировки не имеет значения, поскольку эти базисные
функции будут умножаться на регулируемые параметры w1.
Другой возможностью является сигмоидальная базисная функция вида

(3.5)

где а(а)- логистическая сигмоидальная функция, определяемая формулой

1
и(а)---­ (3.6)
-1 + ехр(-а)

Эквивалентно мы можем использовать гиперболический тангенс th, потому


что он связан с логистической сигмоидальной функцией соотношением th(a) =
= 2 а(2а) - 1, так что общая линейная комбинация логистических сигмоидальных
функций эквивалентна общей линейной комбинации гиперболических танген­
сов. Эти различные варианты базисных функций приведены на рис. 3.1.

0,5 0,75

о 0,5

- 0,5 0,25

-1
-1 о

Рис. 3.1. Примеры базисных функций: полиномы (слева), гаусс овски е функции

вида (3.4) (в центре) и сигмоидальные функции вида (3 .5) (справа)

Еще одним возможным выбором базисных функций является базис Фурье,


что приводит к разложению по синусоидальным функциям. Каждая базисная
функция представляет определенную частоту и имеет бесконечную простран­

ственную протяженность. Напротив, базисные функции, локализованные в ко­


нечных областях пространства входных переменных, обязательно образуют
спектр различных пространственных частот. Во многих приложениях, связан­
ных с обработкой сигналов, представляет интерес рассмотрение базисных функ­
ций, локализованных как в пространстве, так и по частоте, что приводит к клас-
3.1. Модели с линейными базисными функциями 203

су функций, известных как вейвлеты (wavelet). Они также определяются как


взаимно ортогональные, чтобы упростить их применение. Вейвлеты наиболее
удобны, когда входные значения задаются на регулярной решетке, например,
как последовательные временные точки во временной последовательности или

пиксели изображения. О вейвлетах написано несколько полезных книг, в част­


ности Ogden (1997), Mallat (1999) и Vidakovic (1999).
Однако большая часть обсуждения в этой главе не зависит от конкретного
выбора набора базисных функций, поэтому, как правило, мы не будем указывать
конкретную форму базисных функций, за исключением вычислительных иллю­
страций. Действительно, большая часть нашего обсуждения будет в равной сте­
пени применима к ситуации, когда вектор базисных функций ф(х) является про­
сто тождеством ф(х) = х. Кроме того, для того чтобы не усложнять обозначения,
мы сосредоточимся на случае одной целевой переменной t. Однако в разде­
ле 3.1.5 мы кратко рассмотрим модификации, необходимые для решения задач
с несколькими целевыми переменными.

3.1.1. Методы максимального правдоподобия


и наименьших квадратов

В главе 1 мы применили полиномиальные функции к наборам данных, мини­


мизируя сумму квадратов ошибок. Мы также показали, что эта функция ошибок
может быть обоснована как решение задачи о максимальном правдоподобии при
предполагаемой нормальной модели шума. Вернемся к этому обсуждению и бо­
лее подробно рассмотрим метод наименьших квадратов и его связь с макси­
мальным правдоподобием.
Как и ранее, мы предполагаем, что целевая переменная t задается детермини­
рованной функциейу(х, w) с аддитивным гауссовским шумом, так что

t = у(х, w) + е, (3.7)

где в- нормально распределенная случайная величина с нулевым математиче­


ским ожиданием и точностью (обратной дисперсией) р. Таким образом, мы мо­
жем записать:

p(tlx, w, /J) = N(t[y(x, w), /Т 1 ). (3.8)

Напомним, что если мы используем квадратичную функцию потерь, то опти­

мальное предсказание для нового значения будет определяться условным мате­


матическим ожиданием целевой переменной (c.w. раздел 1.5.5). В случае нор-
204 ГЛАВА 3. МОДЕЛИ ЛИНЕЙНОЙ РЕГРЕССИИ

мального условного распределения вида (3.8) условное математическое ожида­


ние будет задаваться формулой

f
E[tlx ]= tp(tlx)dt=y(x,w). (3.9)

Заметим, что предположение о нормальном распределении шума предполага­


ет, что условное распределение t при заданном х является одномодальным, что

может быть неприемлемым для некоторых приложений. Расширение на смесь


условных нормальных распределений, которые допускают многомодальные
условные распределения, будет обсуждаться в разделе 14. 5. 1.
Теперь рассмотрим набор входных данных Х = {х 1 , "., xN} с соответствую­
щими целевыми значениями t1, "., tN. Сгруппируем целевые переменные {tп} в

вектор-столбец, обозначаемый символом t, где шрифт выбран так, чтобы отли­


чить этот столбец от одного наблюдения многомерной целевой переменной, ко­
торое обозначается как t. Сделав предположение, что эти точки независимо
друг от друга извлечены из генеральной совокупности данных, имеющих рас­
пределение (3.8), получим следующее выражение для функции правдоподобия,
которая является функцией регулируемых параметров wи рв виде

N
p(tlX,w,P)= ПN(tпlwтф(хп),р- 1 ), (3.1 О)
n=I

где мы использовали формулу (3.3). Обратите внимание, что в задачах обучения с


учителем, таких как регрессия и классификация, мы не пьпаемся моделировать
распределение входных переменных. Таким образом, вектор х всегда будет пред­
ставлен как совокупность условных переменных, и поэтому в дальнейшем мы не

будем указывать х в таких выражениях, как p(tlx, w, р), чтобы не загромождать


обозначения. Используя логарифмическую функцию правдоподобия и стандарт­
ную форму (1.46) для одномерного нормального распределения, получаем:

N
lnp(tlw,p) = ~)nN(tпlwтф(xп ),р- 1 ) =
n=I
(3 .11)
N N
=-1nP--ln(2:r)-PED (w),
2 2

где сумма квадратов ошибок определяется формулой

1 N Т 2
ED(w)=-I{tn-w Ф(хп)}. (3.12)
2 n=I
3.1. Модели с линейными базисными функциями 205

Записав функцию правдоподобия, мы можем использовать принцип макси­

мального правдоподобия для определения w и f3. Сначала рассмотрим максими­


зацию по w. Как уже отмечалось в разделе 1.2.5, мы видим, что максимизация

функции правдоподобия при условном нормальном распределении шума для


линейной модели эквивалентна минимизации суммы квадратов ошибок Ev(w).
Градиент функции логарифмического правдоподобия (3 .11) принимает вид
N
Vln(tlw,/J)= PL{tn -wтф(хп)}Ф(хп)т. (3.13)
n=I

Приравнивая этот градиент к нулю, получаем:

(3.14)

Решая это уравнение относительно w, получаем систему уравнений


WмL = (ФтФ)- 1 Фтt, (3.15)

которая называется системой нормальных уравнений для метода наименьших


квадратов. Здесь Ф - матрица N х М, называемая матрицей плана, элементы ко­
торой заданы как ФпJ = фJ(хп), так что
Фо (Х1) Ф~ (Х1) Фм-1 (х1)
Фо (Х2) Ф~ (Х2) Фм-1 (х2)
Ф= (3.16)

Фо (xN) Фi(xN) Фм-1 (xN)


Матрица
фt =(ФтФ)-1Фт (3.17)

называется псевдообращением Мур~Пенроуза матрицы Ф (Рао и Митра, 1971; Го­

луб и Ван Лоан, 1996). Ее можно рассматривать как обобщение понятия матрицы,
обратной к неквадратным матрицам. Действительно, если Ф -квадратная и обра­
тимая матрица, то, используя свойство (АВ)- 1 = В- 1 А- 1 , получаем, что Фt ф- 1 . =
На этом этапе мы можем получить некоторое представление о роли парамет­

ра смещения w0• Если мы сделаем параметр смещения явным, то функция оши­


бок (3.12) примет вид
1 М-1 }
2
~ w1 ф1 ( хп)
N {
Ev ( w) =2 ~ tn - w0 - (3.18)
206 ГЛАВА 3. МОДЕЛИ ЛИНЕЙНОЙ РЕГРЕССИИ

Приравнивая производную по w0 к нулю и решая уравнение относительно w0,


получаем:

М-1

w0 =t - L wj~'
}=\
(3.19)

где

(3.20)

Таким образом, смещение w 0 компенсирует разницу между средними значе­


ниями целевой переменной (по обучающему множеству) и взвешенной суммой
средних значений базисных функций.
Мы также можем максимизировать логарифмическую функцию правдоподо­
бия (3 .11) по параметру точности шума f3, что приводит к формуле
1 1 N Т 2
-=- L{tn -wМLф(хп)} . (3.21)
РмL N n=I

Как видим, обратная точность шума задается остаточной дисперсией целевых


значений вокруг функции регрессии.

3.1.2. Геометрия наименьших квадратов

На этом этапе поучительно рассмотреть геометрическую интерпретацию ме­


тода наименьших квадратов. Для этого рассмотрим N-мерное пространство, оси
которого заданы переменными t"' так что t = (t1, ..• , tN)т - вектор в этом про­
странстве. Каждая базисная функция ~(хп), вычисленная в N точках, также мо­
жет быть представлена как вектор в том же пространстве, обозначенный как (/Jj
(рис. 3.2). Заметим, что (/); соответствует j-му столбцу матрицы Ф, а ф(хп) - ее
п-й строке. Если количество базисных функций М меньше количества точек N,
то М векторов (/J;(Хп) будут образовывать линейное подпространство S размер­
ности М. Определим у как N-мерный вектор, п-й элемент которого задан функ­
цией у(х"' w), где п =
1, ... , N. Поскольку вектор у является произвольной линей­
ной комбинацией векторов (/);, он может находиться в любом месте М-мерного
подпространства. Тогда суммарная ошибка (3.12) равна (с точностью до множи­
теля 1/2) квадрату евклидова расстояния между у и t. Таким образом, решение
наименьших квадратов для w соответствует выбору у, лежащему в подпростран­
стве S и наиболее близкому к t. Интуитивно, как показано на рис. 3 .2, мы ожи­
даем, что это решение соответствует ортогональной проекции t на подпростран-
3.1. Модели с линейными базисными функциями 207

ство S. Это действительно так, что легко проверить, заметив, что решение для у
задается вектором ФwмL• а затем убеждаясь, что этот вектор является ортого­
нальной проекцией (см. упраж11е11ие 3.2).

Рис. 3.2. Геометрическая интерпретация решения метода наименьших

квадратов в N-мсрном пространстве, оси которого заданы переменными t 1, . •. , tн.

Функция регрессии, построенная методом наименьших квадратов, получается путем

нахождения ортогональной проекции вектора t на подпространство , натянутое

на базисные функr1ии ~(х), в которых каждая бюисная функция рассматривается

как вектор rp1 ;щины N с элементами ~(хп)

На практике непосредственное решение системы нормальных уравнений мо-


т
жет привести к вычислительным трудностям, когда матрица Ф Ф близка к вы-
рожденной. В частности, если два или более базисных вектора (/Jj являются кол­
mmеарными или почти коллинеарными, то результирующие значения парамет­

ров могут оказаться большими. Матрицы, близкие к вырожденным, нередко


встречаются при работе с реальными наборами данных. Возникающие при этом
вычислительные трудности можно решить с помощью сингулярного разложе­

ния, или метода SVD (Press et а/" 1992; Bishop and Nabney, 2008). Заметим, что
добавление регуляризирующего члена гарантирует, что матрица не является вы­
рожденной, даже если вектры коллинеарные.

3.1.3. Последовательное обучение


Пакетные методы, такие как метод максимального правдоподобия (3.15), ко­

торые включают в себя обработку всего обучающего множества за один раз, при
большом объеме данных могут оказаться дорогостоящими с вычислительной
точки зрения. Как мы обсуждали в главе 1, если набор данных достаточно велик,
может оказаться целесообразным использовать последовательные алгоритмы,
также известные как алгоритмы реального времени, в которых точки рассматри­

ваются по очереди, а параметры модели обновляются после каждого такого ана-


208 ГЛАВА 3. МОДЕЛИ ЛИНЕЙНОЙ РЕГРЕССИИ

лиза. Последовательное обучение также подходит для приложений реального


времени, в которых данные наблюдений поступают непрерывным потоком, а
предсказания должны быть сделаны до того, как будут получены все точки.
Мы можем построить алгоритм последовательного обучения, применяя метод
стохастического градиентного спуска, также известный как последовательный
градиентный спуск. Если функция ошибок содержит сумму по точкам
Е= LEn, то после примера п алгоритм стохастического градиентного спуска
п

обновляет вектор параметров w, используя формулу

W(r+I) = ,,,<т) _ пVЕ


., n> (3.22)

где r- обозначает номер итерации, а 1'/ - параметр скорости обучения. Мы вско­


ре обсудим выбор значений для параметра 1'/· Значение w инициализируется не­
которым стартовым вектором w< 0). Для суммы квадратов ошибок (3.12) это дает
w(r+I) = ,,,<т) + rtUn - ,,,<т)Т Фп )фп, (3.23)

где Фп = ф(хп). Этот метод называется методом наименьших квадратов, или Шl­
горит.мом LMS (least-mean-squares). Значение rt должно быть выбрано с осто­
рожностью, чтобы алгоритм сходился (Bishop and Nabney, 2008).

3.1.4. Регуляризованный метод наименьших квадратов

В разделе 1.1 мы предложили добавлять к функции ошибок регуляризирую­


щий член, чтобы контролировать переобучение и минимизировать общую функ­
цию ошибок, которая имеет вид

(3.24)

где А. - коэффициент регуляризации, который контролирует относительную


важность ошибки Ev(w), зависящей от данных, и регуляризирующего члена
Ew(w). Одна из простейших форм регуляризатора задается суммой квадратов ве­
совых векторных элементов:

(3.25)

Если мы также рассмотрим функцию ошибки суммы квадратов, заданную


формулой

(3.26)

то общая функция ошибок принимает вид


3.1. Модели с линейными базисными функциями 209

Этот конкретный выбор регуляризатора известен в литературе машинного


обучения как редукция весов (weight decay), потому что в алгоритмах последова­
тельного обучения он стимулирует снижение весов до нуля, если они не под­
крепляются данными. В статистике этому методу соответствует метод редукции
параметров, уменьшающий значения параметров до нуля. Этот метод имеет
то преимущество, что функция ошибок остается квадратичной функцией от w,
и поэтому ее точную точку минимума можно найти в замкнутом виде. В частно­

сти, приравнивая градиент (3.27) по w к нулю и решая это уравнение относи­


тельно w, получим:

(3.28)
Это выражение представляет собой простое обобщение решения, полученного с
помощью метода наименьших квадратов (3.15).
Иногда используется более общий регуляризатор, для которого регуляризо­
ванная ошибка принимает вид

(3.29)

где q= 2 соответствует квадратичному реrуляризатору (3.27). На рис. 3.3 пока­


заны контуры функции регуляризации при разных значениях q.

Рис.
+ 3.3.
1
q = 0,5 q= l
1

Контуры члена регуляризации в (3.29) при


1
q=2
1
q=4
различных значениях параметра q

Метод, получающийся при q = 1, известен в статистической литературе как


метод LASSO (Tibshirani, 1996). Он обладает тем свойством, что если Л доста­
точно велико, то некоторые из коэффициентов w1 оказываются равными нулю,
что приводит к разреженной модели, в которой соответствующие базисные
функции не играют никакой роли. Чтобы убедиться в этом, сначала отметим, что
210 ГЛАВА 3. МОДЕЛИ ЛИНЕЙНОЙ РЕГРЕССИИ

минимизация (3.29) эквивалентна минимизации нерегуляризованной суммы

квадратов ошибок (3.12) при ограничении (см. упражнеиие 3.5)

(3.30)

для соответствующего значения параметра rJ, где два подхода можно связать

с методом множителей Лагранжа (см. прило.же11ие Д). Причины разреженности


можно увидеть на рис. 3.4, на котором показано, что минимум функции ошибок

зависит от ограничений (3 .30). При увеличении А. все больше параметров стре­


мится к нулю.

Регуляризация позволяет обучать сложные модели на обучающих множе­


ствах данных ограниченного размера без серьезного переобучения, в основном
путем ограничения эффективной сложности модели . Однако при этом проблема
определения оптимальной сложности модели переносится с нахождения подхо­

дящего числа базисных функций на определение подходящего значения коэф­


фициента регуляризации А.. В этой главе мы еще вернемся к проблеме выбора
сложности модели.

Рис. 3.4. График контуров функции нерегуляризованной ошибки (синяя кривая)

вместе с областью ограничения (3.30) для квадратичного регуляризатора (q = 2)


слева и регуляризатора LASSO (q = 1) справа , в котором оптимальное значение

для вектора параметров w обозначается как w· . Метод LASSO дает разреженное


решение , в котором w; = О
3.1. Модели с линейными базисными функциями 211

В оставшейся части этой главы мы сосредоточимся на квадратичном регуля­


ризаторе (3.27) как в силу его практической важности, так и его аналитической
приемлемости.

3.1.5. Несколько целевых переменных

До сих пор мы рассматривали случай одной целевой переменной t. В некото­


рых приложениях необходимо предсказать К > 1 целевых переменных, которые
будем обозначать в совокупности целевым вектором t. Это можно сделать, введя
другой набор базисных функций для каждого компонента вектора t, создавая
множество независимых задач регрессии. Однако более интересным и популяр­
ным подходом является использование одного и того же набора базисных функ­
ций для моделирования всех компонентов целевого вектора, так что

у(х, w) = wт ф(х), (3.31)

где у - К-мерный вектор-столбец; W- матрица параметров М х К; ф(х) -


М-мерный вектор-столбец с элементами ф1 (х), где ф 0 (х) = 1, как и ранее. Пред­
положим, что условное распределение целевого вектора является изотропным

нормальным распределением вида

(3.32)

Если у нас есть набор наблюдений t 1, "., tм мы можем объединить их в матрицу


Т размера N х К, для которой п-я строка задается вектором t~ . Аналогично мы
можем объединить входные векторы х 1 , "" xN в матрице Х. Тогда логарифмиче­
ская функция правдоподобия задается формулой

(3.33)

Как и раньше, мы можем максимизировать эту функцию по W, получая

(3.34)

Если мы рассмотрим этот результат для каждой целевой переменной tk, то


получим:

(3.35)
212 ГЛАВА 3. МОДЕЛИ ЛИНЕЙНОЙ РЕГРЕССИИ

где tk - N-мерный вектор-столбец с компонентами tnk для п = 1, "., N. Таким


образом, решение задачи регрессии распадается на разные целевые переменные,
и нам нужно вычислить только одну псевдообратную матрицу Ф t, которая при­
меняется ко всем векторам wk.
Обобщение на общие нормальные распределения шума с произвольными кова­
риационными матрицами не составляет труда. Это снова приводит к решению К
независимых регрессионных задач. Это не удивительно, поскольку параметры W
определяют только математическое ожидание нормального распределения шума, а

из раздела 2.3.4 известно, что оценка максимального правдоподобия для матема­


тического ожидания многомерного нормального распределения не зависит от ко­

вариации. По этой причине отныне для простоты будем рассматривать одну целе­
вую переменную t (ем. упражнеиие 3.6).

3.2. Декомпозиция на смещение и дисперсию

До сих пор в обсуждении линейных регрессионных моделей мы предполагали,


что форма и количество базисных функций являются фиксированными. Как мы
видели в главе 1, использование принципа максимального правдоподобия, или,
что то же самое, метода наименьших квадратов, может привести к серьезному пе­

реобучению, если сложные модели обучаются на основе множества данных огра­


ниченного размера. Однако ограничение количества базисных функций во избе­
жание переобучения имеет побочный эффект - ограничение гибкости модели для
отображения интересных и важных тенденций, существующих в данных. Хотя
введение регуляризирующих членов может контролировать переобучение моделей
со многими параметрами, возникает вопрос о том, как определить подходящее

значение для коэффициента регуляризации Л. Поиск решения, минимизирующего


регуляризованную функцию ошибки как по весовому вектору w, так и по коэффи­
циенту регуляризации Л, очевидно, не является правильным подходом, так как это
приводит к нерегуляризированному решению с А.= О.
Как мы видели в предыдущих главах, явление переобучения действительно
является недостатком метода максимального правдоподобия, но оно не возника­

ет, если мы выполняем маргинализацию по параметрам в рамках байесовского


подхода. В этой главе мы довольно глубоко рассмотрим байесовский взгляд на
сложность модели. Однако перед этим следует рассмотреть частотную точку
зрения на проблему выбора сложности модели, известную как компромисс
между смещением и дисперсией. Хотя мы представим это понятие в контексте
линейных базисных функций, в котором легко проиллюстрировать идеи на про­
стых примерах, это обсуждение имеет более общую область применения.
3.2. Декомпозиция на смещение и дисперсию 213

При обсуждении решения задач регрессии в разделе 1.5.5 мы рассматривали

различные функции потерь, каждая из которых приводит к соответствующему


оптимальному прогнозу при заданном условном распределении p(tlx). Очень ча­
сто в качестве функции выбирается квадратичная функция, для которой опти­
мальное предсказание задается условным математическим ожиданием, которое

мы обозначим через h(x) и которое задается формулой

J
h(x) =E[tlx] = tp(tlx)dt. (3.36)

На этом этапе стоит различать квадратичную функцию потерь, возникающую

из теории решений, и сумму квадратов ошибок, которая возникает при оценке


максимального правдоподобия параметров модели. Мы могли бы использовать
более сложные методы, чем наименьшие квадраты, например, регуляризацию
или полностью байесовский подход, чтобы определить условное распределение
p(tlx). Для прогнозирования все эти методы можно объединить с квадратичной
функцией потерь.
В разделе 1.5.5 мы показали, что математическое ожидание квадратичных

потерь можно записать в виде

E[L]= f{y(x)-h(x)} 2 p(x)dx+ fJ{h(x)-t} 2 p(x,t)dxdt. (3.37)

Напомним, что второй член, не зависящий от у(х), возникает из-за собствен­


ного шума, содержащегося в данных, и представляет собой минимальное дости­
жимое значение ожидаемой потери. Первое слагаемое зависит от нашего выбора
функции у(х), и мы будем искать такое решение у(х), которое делает этот член
минимальным. Поскольку эта функция неотрицательная, наименьшее значение,
которое может принимать этот член, равно нулю. В принципе, если бы у нас был
неограниченный запас данных (и неограниченные вычислительные ресурсы), мы
могли бы найти функцию регрессии h(x) с любой желаемой степенью точности,
и это соответствовало бы оптимальному выбору функции у(х). Однако на прак­
тике у нас есть множество данных V, содержащее только конечное количество N
точек, и, следовательно, мы не знаем регрессионную функцию h(x) точно.
Если мы моделируем h(x) с помощью параметрической функции у(х, w), опре­
деляемой параметрическим вектором w, то с байесовской точки зрения неопреде­
ленность в нашей модели выражается через апостериорное распределение по w.
Тем не менее в рамках частотного подхода требуется точечная оценка w на основе
набора данных V и необходимо интерпретировать неопределенность этой оценки
с помощью следующего мысленного эксперимента. Предположим, у нас есть
большой ансамбль множеств данных, каждое из которых содержит по N точек и
214 ГЛАВА 3. МОДЕЛИ ЛИНЕЙНОЙ РЕГРЕССИИ

извлечено независимо от других множеств из генеральной совокупности с распре­


делением p(t, х). Для mобого заданного набора данных V мы можем выполнить
наш алгоритм обучения и получить функцию предсказания у(х; V). Разные наборы
данных из ансамбля будут давать разные функции и, следовательно, разные значе­
ния квадратичной функции потерь. Точность конкретного алгоритма обучения
оценивается путем усреднения по этому ансамблю наборов данных.
Рассмотрим подынтегральное выражение первого слагаемого в (3.37), кото­
рое для конкретного набора данных V принимает вид

{у(х; V)-h(x)} 2 . (3.38)


Поскольку эта величина зависит от конкретного набора данных V, возьмем ее
математическое ожидание по совокупности наборов данных. Если мы добавим и
вычтем величину Ev [у(х; V)] в фигурных скобках, а затем разложим, получим:

{у (х; V) - Ev[y (х; V)] + Ev[y (х; V)] - h(x)} 2 =

={у(х; V)-Ev[y(x; V)]} 2 + {Ev[y(x; V)] -h(x)} 2 + (3.39)

+2{у(х; V)- Ev[y(x; V)] {Ev[y(x; V)] -h(x)}.


Теперь вычислим математическое ожидание этого выражения по V и заме­
тим, что последний член будет равен нулю. В итоге мы получим

Ev [ {у (х; V )- h ( х)} 2 J=
(3.40)
= {Ev [y(x;V)]-h(x)} 2 +Ev [{y(x;V)-Ev [y(x;V)J} 2 ].
(смещение )2 дисперсия

Мы видим, что математическое ожидание квадрата разности между у(х; V)


и функцией регрессии h(x) можно выразить в виде суммы двух слагаемых. Пер­
вый термин, называемый квадратом смещения, представляет собой степень,
в которой среднее предсказание по всем наборам данных отличается от желае­
мой функции регрессии. Второй термин, называемый дисперсией, измеряет сте­
пень, в которой решения для отдельных наборов данных варьируются вокруг их
среднего значения, и, следовательно, измеряет степень чувствительности функ­
ции у(х; V) к конкретному выбору набора данных. Вскоре мы дадим интуитив­
ное обоснование этих определений и рассмотрим простой пример.
До сих пор мы рассматривали одно входное значение х. Если подставить это

разложение обратно в (3.37), мы получим следующее разложение математиче­


ского ожидания квадрата потерь:
3.2. Декомпозиция на смещение и дисперсию 215

математическое ожидание потерь= (смещение) 2 +дисперсия+ шум, (3.41)


где

(смещение )2 = f{ Ev [у( х; V)]-h( х )} 2р( х )dx, (3.42)

дисперсия= JEv [{у( x;V)-Ev [у( x;V)J} 2 ]р( х )dx, (3.43)

шум= fJ {h( х )-t} 2р( x,t)dxdt, (3.44)


и теперь члены смещения и дисперсии относятся к интегрированным величинам.

Наша цель - минимизировать математическое ожидание потерь, которое мы

представили в виде суммы квадрата смещения, дисперсии и постоянного шума.

Как мы увидим, существует компромисс между смещением и дисперсией, очень

гибкие модели, имеющие малое смещение и большую дисперсию, и относитель­


но жесткие модели с большим смещением и малой дисперсией. Модель с опти­
мальной прогностической способностью - это та модель, которая обеспечивает
наилучший баланс между смещением и дисперсией. Для иллюстрации рассмот­

рим синусоидальный набор данных из главы 1 (cJ11. прило:ж·еиие А). Здесь мы


генерируем 100 наборов данных, каждый из которых содержит N = 25 независи­

мых точек, распределенных вокруг синусоидальной кривой h(x) = sin(2яx).


Наборы данных нумеруются с помощью индекса / = 1, ... , L, где L = 100, и для
каждого набора данных v(I) мы строим модель с 24-мя гауссовскими базисными
функциями, минимизируя регуляризованную функцию ошибок (3.27), чтобы по­
лучить функцию предсказания /l)(x), как показано на рис. 3.5. Верхний ряд со­
ответствует большому значению коэффициента регуляризации Л, который дает
малую дисперсию (поскольку красные кривые в левом графике выглядят схо­
жими), но большое смещение (потому что две кривые на правом графике сильно
различаются). Напротив, в нижнем ряду, для которого Л мало, существует боль­
шая дисперсия (показана высокая изменчивость между красными кривыми в ле­

вом графике), но малое смещение (которое проявляется в небольшом расстоянии


между средним модельным приближением и исходной синусоидальной функ­
цией). Обратите внимание на то, что результат усреднения многих решений для
сложной модели с М = 25 очень хорошо приближает функцию регрессии,
т.е. можно предположить, что усреднение является полезной процедурой. Дей­

ствительно, в основе байесовского подхода лежит взвешенное усреднение мно­


жества решений, хотя усреднение относится к апостериорному распределению

параметров, а не к множеству наборов данных.


216 ГЛАВА 3. МОДЕЛИ ЛИНЕЙНОЙ РЕГРЕССИИ

ln J. = 2,6

о ~~ _
~· е~
о
-1 -1

о о
х х

ln J. = - 0,31

-1 -1

о о
х х

ln J. = -2,4

-1 -1

о о
х х

Рис. 3.5. Зависимость смещения и дисперсии от сложности модели, определяемой

регуляризирующим параметром },, с использованием набора синусоидальных данных из

главы 1. Существуют .L = 100 наборов данных, каждый из которых содержит N = 25


точек данных, а также 24 гауссовские базисные ф ункции, так что общее число

параметров равно М = 25, включая параметр смещения . В левом столбце показан


результат подгонки модели к наборам данных для различных значений ln Л. (для ясности
показаны только 20 из 100 вариантов) . В правом столбце показано соответствующее

среднее значение 100 приближений (красная кривая) вместе с синусоидал ьной

функцией, по которой генерируются наборы данных (зеленая кривая)


3.2. Декомпозиция на смещение и дисперсию 217

В этом примере мы также можем количественно проанализировать компро­

мисс между смещением и дисперсией . Среднее предсказание вычисляется по


формуле

(3.45)

а интегрированный квадрат смещения и интегрированная дисперсия определя­

ются по формулам

N
f
(смещение) 2 =_!_ {у(хп)-h(хп)} 2 ,
n=I
(3.46)

дисперсия =-
1
L -1 L
N L {
у 1 ( хп )- у (хп) ,
( ) }2 (3.47)
N п=l L 1=1

где интеграл по х, взвешенный распределением р(х), аппроксимируется конеч­

ной суммой по точкам, полученным из генеральной совокупности с этим рас­


пределением. Эти величины вместе с их суммой построены как функция ln А, на

рис. 3.6. Мы видим, что небольшие значения А, позволяют модели тонко настра­
иваться на шум на каждом отдельном наборе данных, что приводит к большой
дисперсии . И наоборот, большое значение А, тянет весовые параметры к нулю,
что приводит к большому смещению .

0,15 ~--~--~--~-----~

-- (смещение) 2
0,12 -- дисперсия
- - - (смещение )2 + дисперсия
0,09 - - - тестовая ошибка

0,06

lnЛ

Рис. 3.6. График квадрата смещения и дисперсии вместе с их суммой, соответствующий

результатам , показанным на рис. 3.5. Также показана средняя ошибка тестирования

для множества тестовых данных , состоящего из 1000 точек. Минимальное значение

суммы ( смещение) 2 +дисперс и я достигается в окрестности значения ln А. = 0,31,


которое близко к з начению, дающему минимальную ошибку на тестовых данных
218 ГЛАВА 3. МОДЕЛИ ЛИНЕЙНОЙ РЕГРЕССИИ

Несмотря на то что декомпозиция на смещение и дисперсию может дать не­


которое интересное представление о сложности модели с точки зрения частот­

ного подхода, она имеет ограниченную практическую ценность, поскольку де­

композиция на смещение и дисперсию основана на средних значениях для ан­

самблей наборов данных, тогда как на практике мы имеем только один


наблюдаемый набор данных. Если бы у нас бьmо большое количество независи­
мых обучающих наборов заданного размера, бьmо бы лучше объединить их в
один большой обучающий набор, что, конечно же, уменьшило бы уровень пере­
обучения при заданной сложности модели. Учитывая эти ограничения, мы пере­
ходим к следующему разделу байесовской трактовки моделей линейных базис­
ных функций, которая не только дает ценную информацию о проблемах пере­
обучения, но и приводит к практическим методам решения сложного вопроса,
связанного со сложностью моделей.

3.3. Байесовская линейная реrрессия


Обсуждая метод максимального правдоподобия для оценки параметров ли­
нейной регрессионной модели, мы видели, что эффективной сложностью моде­
ли, определяемой количеством базисных функций, необходимо управлять с уче­
том размера множества данных. Добавление регуляризирующего члена к лога­
рифмической функции правдоподобия позволяет влиять на эффективную
сложность модели с помощью коэффициента регуляризации, хотя выбор коли­
чества и формы базисных функций, конечно, остаются важными факторами,
определяющими поведение модели в целом.

Остается открьпым вопрос о выборе соответствующей сложности модели для


конкретной задачи, который невозможно репшть путем максимизации функции
правдоподобия, поскольку это всегда приводит к чрезмерно сложным моделям и
переобучению. Для определения сложности модели можно использовать независи­
мые отложенные данные (см. раздел 1.3), но этот подход может оказаться затрат­
ным с вычислительной точки зрения и слишком требовательным к объемам ценных
данных. По этой причине мы обратимся к байесовскому методу линейной регрес­
сии, который позволит избежать сложной проблемы переобучения, характерной
для метода максимального правдоподобия, а также создать автоматические методы
определения сложности модели с использованием только данных обучения.
Для простоты снова сосредоточимся на случае одной целевой переменной t.
Обобщение до нескольких целевых переменных является простым и проводится
аналогично разделу 3.1.5.
3.3. Байесовская линейная регрессия 219

3.3.1. Распределение параметров

Начнем обсуждение байесовского метода линейной регрессии, введя априорное


распределение вероятности по параметрам модели w. На данный момею будем

рассматривать параметр точности шума /3 как известную константу. Прежде всего


заметим, что функция правдоподобия p(tjw), определенная формулой (3.10), явля­
ется экспонеюой от квадратичной функции w. Следовательно, сопряженное апри­
орное распределение является нормальным распределением вида

p(w) = N(wlmo, So) (3.48)

с математическим ожиданием mo и ковариационной матрицей S0 •


Затем мы вычисляем апостериорное распределение, которое пропорционально
произведению функции правдоподобия и априорного распределения. Поскольку
сопряженное априорное распределение является нормальным, апостериорное рас­

пределение также будет нормальным. Мы можем оценить это распределение


обычной процедурой выделения полного квадрата в экспонеюе, а затем найти ко­
эффициент нормировки, используя стандартный результат для нормированного
нормального распределения (с.м. упра.нте11ие 3. 7). Впрочем, мы уже проделали
необходимую работу для получения общего результата (2.116), что позволяет за­
Шfсатъ апостериорное распределение непосредственно в виде

p(wlt) = N(wlmм SN), (3.49)


где

тN = SN ( S01m0 + /ЗФтt ), (3.50)

s-;.) =S 01 +/ЗФтФ. (3.51)

Заметим, что, поскольку апостериорное распределение является нормальным,


его мода совпадает с математическим ожиданием. Таким образом, максималь­

ный апостериорный вектор весов просто задается формулой wМАР = тN. Если
рассматривать априорное распределение с бесконечной дисперсией S0 = а- 1 1 при
а--+ О, то математическое ожидание тN апостериорного распределения сводится
к значению максимального правдоподобия wМL, заданному формулой (3.15).
Аналогично, если N = О, то апостериорное распределение совпадает с априор­
ным. Кроме того, если данные поступают последовательно, то апостериорное
распределение на любом этапе играет роль априорного распределения по отно­
шению к следующим данным, так что новое апостериорное распределение снова

задается формулой (3.49) (c,w. упраж11е11ие 3.8).


В оставшейся части этой главы мы рассмотрим конкретный вид нормального
априорного распределения, чтобы упростить изложение. В частности, рассмот-
220 ГЛАВА 3. МОДЕЛИ ЛИНЕЙНОЙ РЕГРЕССИИ

рим изотропное нормальное распределение с нулевым математическим ожида­

нием, определяемое одним параметром точности а, так что

p(wla) = N(wlO, а- 1 1), (3.52)

а соответствующее апостериорное распределение весов w дается тогда форму­


лой (3.49) с параметрами
тN=ДS,vФтt, (3.53)
S~ =аl+ДФтФ. (3.54)

Логарифм апостериорного распределения задается суммой логарифмической


функции правдоподобия и логарифмом априорного распределения и, как функ­
ция, зависящая от w, принимает вид

(3.55)

Таким образом, максимизация этого апостериорного распределения по w экви­


валентна минимизации функции суммы квадратов ошибок с добавлением квад­
ратичного члена регуляризации, соответствующего (3.27) с Л, = а/р.
Мы можем проиллюстрировать байесовское обучение в модели линейных ба­
зисных функций, а также последовательное обновление апостериорного распреде­
ления, используя простой пример приближения прямой линии. Рассмотрим одну
входную переменную х, одну целевую переменную t и линейную модель вида

у(х, w) = w0 + w 1x. Поскольку эта модель имеет только два регулируемых парамет­
ра, мы можем построить априорное и апостериорное распределения непосред­

ственно в пространстве параметров. Генерируем искусственные данные с помо­

щью функцииf(х, а)= а 0 + а 1 х с параметрами а 0 = -0,3 и а 1 = 0,5, сначала выбирая


значения Хп из равномерного распределения U(xl-1, 1), затем вычисляяf(хт а) и,
наконец, добавляя нормально распределенный шум со стандартным отклонением
0,2 для получения целевых значений tn. Наша цель - восстановить значения а 0 и
а 1 по этим данным и рассмотреть их зависимость от размера набора данных. Мы
предполагаем здесь, что дисперсия шума известна и, следовательно, мы можем

установить параметр точности равным его истинному значению Р= (1/0,2) 2 = 25.


Аналогично фиксируем параметр а равным 2,0. Вскоре мы обсудим стратегии
определения параметров а и Дпо данным обучения. На рис. 3.7 показаны резуль­
таты байесовского обучения этой модели по мере увеличения размера набора дан­
ных. Этот рисунок демонстрирует последовательный характер байесовского обу­
чения, при котором текущее апостериорное распределение превращается в апри-
3.3. Байесовская линейная регрессия 221

орное, когда поступают новые данные. Имеет смысл подробно изучить этот рису­
нок, поскольку он иллюстрирует несколько важных аспектов байесовского выво­
да. Первый ряд этого рисунка соответствует ситуации до того, как будут наблю­
даться какие-либо точки данных. Он демонстрирует график априорного распреде­
ления в пространстве w вместе с шестью примерами функции у(х, w), в которых
значения w определены с помощью априорного распределения. Во втором ряду мы

видим ситуацию после наблюдения одной точки. Координаты (х, t) этой точки по­
казаны синим кружком в правом столбце. В левом столбце изображен график
функции правдоподобия p(tl.x, w), соответствующий этой точке как функция от w.
Обратите внимание на то, что функция правдоподобия задает мягкое ограничение
того, что линия должна проходить близко к точке, причем близость определяется
точностью шума fЗ. Истинные значения параметров а 0 = -0,3 и а1 = 0,5, использо­

ванные для создания набора данных, указаны для сравнения белым крестиком на
графиках в левом столбце рис. 3.7. Умножая эту функцию правдоподобия на
априорное распределение из верхней строки и нормируя результат, получаем апо­
стериорное распределение, показанное на среднем графике во втором ряду. При­
меры функции регрессии у(х, w), полученные путем извлечения выборок w из ге­
неральной совокупности с этим апостериорным распределением, показаны на пра­
вом графике. Обратите внимание, что эти выборочные линии проходят близко к
точке данных. Третий ряд этого рисунка демонстрирует эффект наблюдения вто­
рой точки, снова показанной синим кружком на графике в правом столбце. На ле­
вом графике показана соответствующая функция правдоподобия для этой второй
точки. Умножая эту функцию правдоподобия на апостериорное распределение из
второго ряда, получаем апостериорное распределение, показанное на среднем

графике третьего ряда. Обратите внимание на то, что это точно такое же апостери­
орное распределение, которое бьmо бы получено сочетанием априорного распре­
деления с функцией правдоподобия для двух точек наблюдения. На это апостери­
орное распределение влияют две точки, и поскольку для определения линии до­

статочно двух точек, то это уже дает относительно компактное апостериорное

распределение. Выборки из генеральной совокупности с этим апостериорным рас­


пределением приводят к функциям, показанным красным цветом в третьем столб­
це, и мы видим, что эти функции проходят близко к обеим точкам наблюдения.
Четвертая строка показывает эффект наблюдения в общей сложности 20 точек. На
левом графике показана функция правдоподобия только для 20-й точки данных, а
на среднем графике показано полученное апостериорное распределение, которое
теперь учитывает информацию обо всех 20 наблюдениях. Обратите внимание на

то, что апостериорное распределение имеет намного более узкий пик, чем в треть-
222 ГЛАВА 3. МОДЕЛИ ЛИНЕЙНОЙ РЕГРЕССИИ

ем ряду. В пределе, при бесконечном количестве точек набmодения, апостериор­


ное распределение превратится в дельта-функцию с центром в истинных значени­
ях параметров, отмеченных белым крестиком.

Правдоподобие Априорное/апостериорное Пространство данных

1 1 ~-----~

о о

-1 - 1 ~----~~
-1 0 Wo -1 о х

о о о

-1 -1 - 1 ~~----~
-1 0 Wo -1 0 Wo -1 о х

о о о

-1 -1 - 1 ------~
-1 0 Wo -1 0 Wo -1 о х

о о о

-1 -1 -1 ~r:.__ _ _ ____,

х
-1 0 Wo -1 0 Wo -1 о

Рис. 3.7. Последовательное байесовское обучение для простой линейной модели

вида у(х, w) = и.· 0 + w 1x. Подробное описание этого рисунка приведено в тексте
3.3. Байесовская линейная регрессия 223

Можно рассмотреть и другие виды априорных распределений параметров.

Например, мы можем обобщить нормальное распределение следующим образом:

p{wia)~ ~(~) Г(l/q) ] м ех+ ~ ~Н' J'


l/q 1 М-1

[ (3.56)

в которой q =2 соответствует нормальному распределению, и только в этом


случае оно является сопряженным априорным распределением по отношению к

функции правдоподобия (3 .1 О). Вычисление максимума апостериорного рас­

пределения параметров w соответствует минимизации регуляризованной функ­


ции ошибок (3.29). В случае нормального априорного распределения мода апо­
стериорного распределения бьmа равна математическому ожиданию, хотя это
условие больше не будет выполняться, если q ~ 2.

3.3.2. Прогностическое распределение

На практике нас обычно интересует не значение вектора w, а предсказание t

для новых значений х. Это требует вычисления прогностического распределе­


ния, определяемого по формуле

f
p(t!t,a,/J) = p(tlw,/J)p( wlt,a,/J)dw, (3.57)

в которой t- вектор целевых значений из обучающего множества данных, и мы


опустили соответствующие входные векторы из правой части условных утвер­

ждений, чтобы упростить обозначения. У славное распределение p(t lx, w, /J) це­
левой переменной вычисляется по формуле (3.8), а апостериорное распределе­
ние весов- по формуле (3.49). Мы видим, что формула (3.57) включает свертку
двух нормальных распределений, и, поэтому, используя результат (2.115) из
раздела 2.3.3, приходим к выводу, что прогностическое распределение имеет

вид (см. упра.жиеиие 3.10)

p(tlx, t,a,/J) = N(tlm1Ф( х ),а~ (х) ), (3.58)

где дисперсия а~ ( х) прогностического распределения вычисляется по формуле

(3.59)
224 ГЛАВА 3. МОДЕЛИ ЛИНЕЙНОЙ РЕГРЕССИИ

Первый член в (3.59) представляет шум в данных, тогда как второй отража­
ет неопределенность, связанную с параметрами w. Поскольку шум и парамет­

ры w имеют независимые нормальные распределения, их дисперсии являются

аддитивными. Заметим, что, когда наблюдаются дополнительные точки, апо­


стериорное распределение становится уже. Как следствие, можно показать

(Qazaz et а/" 1997), что о-~+ 1 (х)~о-~(х) (см. упражнеиие 3.11). В пределе
при N ~ оо второй член в (3.59) обращается в нуль, а дисперсия прогностиче­
ского распределения возникает исключительно из-за аддитивного шума, опре­

деляемого параметром р.

В качестве иллюстрации прогностического распределения для байесовских


моделей линейной регрессии вернемся к искусственному синусоидальному

набору данных из раздела 1.1. На рис. 3.8 мы сначала обучаем модель, состо­
ящую из линейной комбинации гауссовских базисных функций на множествах
данных разных размеров, а затем смотрим на соответствующие апостериорные

распределения. Здесь зеленые кривые соответствуют функции sin(2лx), по ко­


торой генерируются точки с добавлением нормально распределенного шума.
На четырех графиках синими кружками показаны наборы данных размеров
N= 1, N= 2, N= 4 и N= 25. Для каждого графика красная кривая показывает
математическое ожидание соответствующего нормального прогностического

распределения, а красная заштрихованная область охватывает одно стандарт­


ное отклонение от математического ожидания в каждую сторону. Обратите
внимание, что прогнозная неопределенность зависит от х и является наимень­

шей в окрестности точек наблюдения. Также обратите внимание, что уровень


неопределенности уменьшается по мере увеличения количества точек наблю­
дения.

Графики на рис. 3.8 показывают только точечную оценку прогнозной диспер­


сии как функции от х. Чтобы получить представление о ковариации между пред­
сказаниями при разных значениях х, мы можем извлечь выборки из генеральных
совокупностей с апостериорным распределением весов w, а затем построить со­

ответствующие функцииу(х, w), как показано на рис. 3.9.


3.3. Байесовская линейная регрессия 225

о о

-1 -1

о о
х х

о о

о OQ

-1 -1
00
о
х
о х

Рис. 3.8. Примеры прогностического распределения (3.58) для модели, состоящей из

девяти гауссовских базисных функций вида (3 .4) с использованием набора искусственных

синусоидальных данных из ра.1l)ела 1.1. Подробное обсуждение см. в тексте

При использовании локализованных базисных функций, таких как гауссовские,


в областях, удаленных от центров базисных функций, вклад второго члена в про­
mозную дисперсию (3.59) стремится к нулю, оставляя только вклад шума /Г 1 • Та­
ким образом, модель становится очень уверенной в своих прогнозах при экстра­
поляции за пределами области определения базисных функций, что обычно яв­
ляется нежелательным поведением. Эту проблему можно решить, приняв
альтернативный байесовский подход к регрессии, который известен как гауссов­
ский процесс (см. раздел 6.4).
Заметим, что если параметры w и /3 считаются неизвестными, то мы можем
ввести сопряженное априорное распределение p(w, /J), которое вследствие рас­
суждений, приведенных в разделе 2.3.6, является гамма-нормальным (Denison et
а/., 2002) (см. упражнение 3.12). В этом случае прогнозное распределение явля­
ется t-распределением Стьюдента (см. упраJ1сиение 3.13).
226 ГЛАВА 3. МОДЕЛИ ЛИНЕЙНОЙ РЕГРЕССИИ

о о
х х

о о

-1 -1

о о
х х

Рис. 3.9. Графики функции у(х, w) с использованием выборок

из генеральных совокупностей с апостериорными распределениями по w,


соответствующих графикам, представленным на рис. 3.8

3.3.3. Эквивалентное ядро


Апостериорное математическое ожидание (3.53) для модели линейных базис­
ных функций имеет интересную интерпретацию, которая образует основу для
ядерных методов, включая гауссовские процессы (см. главу 6). Если подставить
(3.53) в выражение (3.3), то мы видим, что прогнозное математическое ожидание
может быть записано в виде

(3 .60)

где SN определяется формулой (3.51). Таким образом, математическое ожидание


прогностического распределения в точке х задается линейной комбинацией це­
левых переменных tn из обучающего множества, так что мы можем записать:
3.3. Байесовская линейная регрессия 227

N
y(x,mN)= ~)(х,хп)tп, (3.61)
n=I

где функция
(3.62)
называется матрицей сглаживания, или эквивШ1ентным ядром. Регрессионные
функции, такие как эта, которые делают предсказания, получая линейные ком­
бинации целевых значений из обучающего набора, называются линейными
сглаживателями. Обратите внимание, что эквивалентное ядро зависит от вход­
ных значений хп из набора данных, поскольку оно появляется в определении SN.
Эквивалентное ядро проиллюстрировано для случая гауссовских базисных
функций на рис. 3.10, в которых функции ядра k(_x, х') были построены как
функция от х' для трех разных значений х. Мы видим, что они локализованы во­
круг х, поэтому математическое ожидание прогностического распределения по

х, заданное функцией у(х, mN), получается путем формирования взвешенной


комбинации целевых значений, в которых точки, близкие к х, имеют больший
вес, чем точки , далекие от х. Интуитивно кажется разумным, что мы должны
приписывать локальным экспериментальным данным больший вес, чем отда­
ленным. Заметим, что это свойство локализации выполняется не только для ло­
кализованных гауссовских базисных функций, но и для нелокальных полиноми­
альных и сигмоидальных базисных функций, как показано на рис. 3.11.

Рис. 3.10. Эквивалентное ядро k(x, х') для гауссовских базисных функций (см . рис . 3.1 ),
представленное в виде графика зависимости х от х', вместе с тремя срезами через
эту матрицу , соответствующими трем различным значениям х .

Набор данных, используемый для генерации Jтого ядра, состоял из 200 значений х,

равномерно распределенных на интервале (- 1, 1).


228 ГЛАВА 3. МОДЕЛИ ЛИНЕЙНОЙ РЕГРЕССИИ

0,04

0,02

о о

-1 о -1 о

Рис. 3.11. Примеры эквивалентных ядер k(x, х') для х =О, построенных как функция

от х', соответствующие полиномиальным базисным функциям (слева) и сиrмоидальным

базисным функциям (справа), пока3анным на рис. 3.1. Заметим, что это локали3ованные

функции от х', хотя соответствующие базисные функции являются нелокальными

Более глубокое понимание роли эквивалентного ядра можно получить, рас­


сматривая ковариацию между у(х) иу(х'), которая задается формулой

cov[y(x), у(х')] = cov[ф(x/w, wт ф(х')] =


= ф(х)тSNф(х') = /Г 1 k(х, х'), (3.63)

где мы использовали формулы (3.49) и (3.62). Из формы эквивалентного ядра мы


видим, что прогнозное математическое ожидание в близлежащих точках будет
сильно коррелировано, тогда как для более отдаленных пар точек корреляция
будет меньше.
Прогностическое распределение, показанное на рис. 3.8, позволяет визуали­
зировать поточечную неопределенность в предсказаниях, определяемую (3.59).
Однако, извлекая выборки из генеральной совокупности с апостериорным рас­

пределением параметров w и рисуя соответствующие модельные функции


у(х, w), как показано на рис. 3.9, мы визуализируем совместную неопределен­
ность в апостериорном распределении между значениями у при двух (или более)
значениях х, определяемую эквивалентным ядром.

Формулировка линейной регрессии в терминах функции ядра предлагает аль­


тернативный подход к регрессии. Вместо того чтобы вводить набор базисных
функций, которые неявно определяют эквивалентное ядро, мы можем напрямую
определить локализованное ядро и использовать его для прогнозирования новых

входных векторов х, учитывая наблюдаемый набор обучающих данных. Это


приводит к практическим методами регрессии и классификации, которые назы­
ваются гауссовскими процессами и будут подробно обсуждаться в разделе 6.4.
Мы видели, что эквивалентное ядро определяет весы, с помощью которых

объединяются целевые значения из обучающего множества, чтобы вычислить


3.4. Сравнение байесовских моделей 229

предсказание для нового значения х, и можно показать, что сумма этих весов

равна единице, иначе говоря,

N
L,k(x,xп)=l (3.64)
n=I

для всех значений х (см. упражпеиие 3.14). Этот интуитивно приятный резуль­
тат можно легко доказать неформально, отметив, что суммирование эквивалент­
(
но рассмотрению прогнозного среднего у х) для набора целевых данных, в ко­
торых tn = 1 для всех п. Если базисные функции линейно независимы, т.е. точек
наблюдения больше, чем базисных функций, и если одна из базисных функций
является постоянной (соответствующей параметру смещения), тогда ясно, что
мы можем точно подогнать данные обучения и, следовательно, прогнозное
среднее будет равно .У( х) =1, из которого мы получим (3.64). Обратите внима­
ние, что функция ядра может быть как отрицательной, так и положительной, по­
этому, хотя она удовлетворяет суммарному ограничению, соответствующие

предсказания не обязательно являются выпуклыми комбинациями целевых пе­


ременных из обучающего множества.
Наконец, отметим, что эквивалентное ядро (3.62) имеет важное свойство
(см. главу 6), которым обладают все функции ядра, а именно: оно может быть
выражено в виде скалярного произведения относительно вектора нелинейных
функций V'(х ), так что

k(x, z) = V'(х)т V'(z), (3.65)

3.4. Сравнение байесовских моделей


В главе 1 мы подчеркнули проблему переобучения, а также использование
перекрестной проверки как метода для задания значений параметров регуляри­
зации или для выбора между альтернативными моделями. Здесь мы рассмотрим
проблему выбора модели с байесовской точки зрения. В этом разделе наше об­
суждение будет очень общим, а в разделе 3.5 мы увидим, как эти идеи можно
применить к определению параметров регуляризации в линейной регрессии.
Как мы увидим, чрезмерного переобучения, связанного с принципом макси­
мального правдоподобия, можно избежать путем маргинализации (суммирова­
ния или интегрирования) по параметрам модели, вместо того, чтобы делать то­
чечные оценки их значений. Затем модели можно сравнивать непосредственно
230 ГЛАВА 3. МОДЕЛИ ЛИНЕЙНОЙ РЕГРЕССИИ

с данными обучения, без необходимости в контрольном множестве. Это позво­


ляет использовать для обучения все доступные данные и избегать нескольких
тестовых прогонов для каждой модели, связанных с перекрестной проверкой.
Это также позволяет одновременно определять несколько параметров сложности
в рамках процесса обучения. Например, в главе 7 мы представим машину реле­
вантных векторов, которая представляет собой байесовскую модель, имеющую
один параметр сложности для каждой точки обучающих данных.
Байесовская точка зрения на сравнение моделей предполагает использование ве­
роятностей для представления неопределенности в выборе модели наряду
с последовательным применением правил сложения и умножения вероятностей.

Предположим, мы хотим сравIШТЬ множество, состоящее из L моделей {М;}, где


i = 1, ". , L. Здесь модель задается распределением вероятности по наблюдаемым
данным 'D. В случае задачи о приближении полиномиальной кривой распределение
определяется по множеству целевых значений t, тогда как набор входных значений
Х предполагается известным. Другие типы моделей определяются совместными
распределениями по Х и t (см. раздел 1.5.4). Предположим, данные генерируются
по одной из этих моделей, но мы не знаем, по какой из них. Эта неопределенность
выражается через априорное распределение вероятностей р(М;). Учитывая обуча­
ющее множество 'D, мы хотим вычислить апостериорное распределение

p(M;l'D) ос p(M;)p('DIM;). (3.66)


Априорное распределение позволяет нам выразить предпочтение разным моделям.

Допустим, все модели имеют равную априорную вероятность. Интересным мо­


ментом является обоснованность модели p('DIM;), которая выражает предпочте­
ние, отдаваемое данными разным моделям, и мы вскоре рассмотрим эту концеп­

цию более подробно. Обоснованность модели (model evidence) иногда также назы­
вают маргинш~ьным правдоподобием, поскольку его можно рассматривать как
функцию правдоподобия над пространством моделей, в которых параметры были
маргинализированы. 1 Отношение между уровнями обоснованности двух моделей
p('DIM;)lp(DIM1) называется коэффициентом Байеса (Кass and Raftery, 1995).
Определив апостериорное распределение по моделям, прогнозное распреде­
ление можно получить, просто применив правила сложения и умножения веро­

ятностей:
L
p(tjx,D) = LP(tlx,M;, D)p(M;jv). (3.67)
i=l

1
Используется также термин "свидетельство в пользу модели". - Примеч. ред.
3.4. Сравнение байесовских моделей 231

Эrо пример смеси распределений, в котором общее прогностическое распределе­


ние получается путем усреднения прогностических распределений p(tlx, М;, 1J)
отдельных моделей, взвешенных по апостериорным вероятностям p(M;IV) этих
моделей. Например, если у нас есть две модели, которые являются апостериорно
одинаково вероятными, и одна из них предсказывает узкое распределение во­

круг t= а, а другая - узкое распределение вокруг t= Ь, то общее прогностиче­

ское распределение будет двухмодальным распределением с модами при t = а и


t= Ь, а не одномодальным с модой при t =(а+ Ь)/2.
Простым приближением к усреднению модели является использование един­
ственной наиболее вероятной модели для прогнозирования. Это называется вы­
бором модели.
Для модели, определяемой набором параметров w, модельные данные даются

исходя из правил сложения и умножения вероятностей:

(3.68)

С точки зрения выборочного метода маргинальное правдоподобие можно


рассматривать как вероятность создания множества данных 1J по модели, пара­

метры которой произвольно отбираются из генеральной совокупности с задан­


ным априорным распределением (см. глаt1у 1 /).Интересно также отметить, что

обоснованность модели- это тот самый нормирующий член, который появля­


ется в знаменателе теоремы Байеса при вычислении апостериорного распределе­

ния по параметрам, поскольку

- p(Vlw,M,)p(wlM,)
р w1 ТJ,М, - I ) (3.69)
( )
(VM, р

Мы можем получить некоторое представление об обоснованности модели, сде­


лав простое приближение к интегралу по параметрам. Рассмотрим сначала случай
модели с единственным параметром w. Апостериорное распределение по парамет­

рам пропорционально p('Dlw)p(w), где мы опускаем зависимость от модели М;,


чтобы сохранить обозначения относительно простыми. Если предположить, что
апостериорное распределение резко достигло максимума в окрестности наиболее

вероятного значения wМАР с шириной Лwposterio" то мы можем аппроксимировать


интеграл произведением максимального значения подынтегрального выражения

на ширину пика. Если мы далее предположим, что априорное распределение явля­

ется плоским с шириной Лwprior• так что p(w) = 1/Лwprioп то


232 ГЛАВА 3. МОДЕЛИ ЛИНЕЙНОЙ РЕГРЕССИИ

p(V)= Jp(Vlw)p(w)dw= p(VlwМAP) Лwposterior. (3.70)


Лwprior
Таким образом, беря логарифмы, получаем:

ln р( V) =ln Р( v1 WМАР) + ln [ Лwpostenor. ) . (3. 71)


Лwprior

Это приближение показано на рис. 3.12. Первый член оценивает соответствие


данным при заданных наиболее вероятных значениях параметров. Для плоского
априорного распределения он соответствует логарифмической функции правдо­
подобия. Второй член штрафует модель в зависимости от ее сложности. По­
скольку Лwposterior < Лwprior• этот член является отрицательным и увеличивается
при уменьшении отношения Лwposteriorl Лwprior· Таким образом, если параметры
точно настроены на данные в апостериорном распределении, то штраф является
большим.

- л wposterior

Рис. 3.12. Мы можем получить грубое приближение к обоснованности модели,

если предположим, что апостериорное распределение по параметрам

резко достигает максимума в окрестности своей моды Wмлr

Для модели, имеющей набор из М параметров, мы можем сделать аналогич­


ное приближение для каждого параметра по очереди. Предполагая, что все па­

раметры имеют одинаковое отношение Лwposteriorl Лwprioп получим:

lnp(V) = ln р( VlwМAP) + Mln[Лwposterior J· (3.72)


Лwprior

Таким образом, в этом очень простом приближении величина штрафа за


сложность линейно возрастает в зависимости от количества М регулируемых
параметров в модели. По мере увеличения сложности модели первый член, как
правило, будет увеличиваться, поскольку более сложная модель лучше подходит
3.4. Сравнение байесовских моделей 233

для данных, тогда как второй член будет уменьшаться вследствие зависимости
от М. Оптимальная сложность, определяемая максимальной обоснованностью
модели, является результатом компромисса между этими двумя конкурирую­

щими членами. В дальнейшем мы разработаем более совершенный вариант это­


го приближения, основанный на гауссовском приближении к апостериорному
распределению (см. раздел 4.4.1).
Мы сможем глубже понимать байесовское сравнение моделей, а также то, как
маргинальное правдоподобие может стимулировать выбор моделей средней
сложности, изучив рис. 3.13. Здесь горизонтальная ось представляет собой од­
номерное представление пространства возможных наборов данных, так что каж­
дая точка на этой оси соответствует определенному набору данных. Рассмотрим
теперь три модели, М 1 , М 2 и М 3 , последовательно возрастающей сложности.
Представьте, что мы генерируем наборы данных по этим моделям, а затем смот­
рим на их распределение. Любая заданная модель может генерировать множе­
ство различных наборов данных, так как параметры определяются априорным
распределением вероятности, и для любого выбора параметров может существо­
вать случайный шум в целевых переменных. Чтобы создать конкретный набор
данных по конкретной модели, сначала выбираем значения параметров из гене­
ральной совокупности с априорным распределением p(w), а затем выбираем для
этих значений параметров данные из генеральной совокупности с распределени­
ем p(Vlw). Простая модель (например, на основе полинома первого порядка)
имеет малую вариабельность и поэтому будет генерировать очень схожие набо­
ры данных. Поэтому ее распределение p(V) ограничено относительно неболь­
шой областью горизонтальной оси. Напротив, сложная модель (например, поли­
ном девятого порядка) может генерировать множество различных наборов дан­
ных, и поэтому ее распределение p(V) распространяется на большую область
пространства наборов данных. Поскольку распределения p(VIM;) нормированы,
мы видим, что конкретный набор данных V 0 может обладать наивысшим значе­
нием обоснованности модели для модели промежуточной сложности. По сути,
более простая модель не может хорошо соответствовать данным, тогда как более
сложная распространяет свою прогнозируемую вероятность на слишком широ­

кий диапазон наборов данных и поэтому присваивает относительно небольшую


вероятность любому из них.
234 ГЛАВА 3. МОДЕЛИ ЛИНЕЙНОЙ РЕГРЕССИИ

p(D)

Рис. 3.13. Схематическое распределение наборов данных для трех моделей различной

сложности, среди которых М 1 является простейшей , а М 3 - наиболее сложной .

Заметим , что распределения нормированы. В этом примере для конкретного

наблюдаемого набора данных V 0 модель М 2 с промежуточной сложностью


имеет наибольшую обоснованность

В байесовской модели сравнения моделей принято неявное предположение,


что истинное распределение, с помощью которого генерируются данные, содер­

жится в рамках рассматриваемого набора моделей. Если это так, мы можем по­
казать, что сравнение байесовских моделей в среднем будет благоприятствовать
правильной модели. Чтобы убедиться в этом, рассмотрим две модели, М 1 и М 2 ,
в которых истинной является М 1• Для данного конечного набора данных воз­
можно, что коэффициент Байеса будет больше для неправильной модели. Одна­
ко, если мы усредним коэффициент Байеса по распределению наборов данных,
то получим его ожидаемое значение в виде

(3.73)

где усреднение выполнено в отношении истинного распределения данных. Эта


величина является примером дивергенции Кульбака-Лейблера и всегда является
положительной, если оба распределения не равны, и равна нулю в противном
случае. Таким образом, в среднем коэффициент Байеса всегда будет благоприят­
ствовать правильной модели (см. раздел 1. 6.1).
Мы видели, что байесовская структура избегает проблемы переобучения
и позволяет сравнивать модели только на основе данных обучения. Однако бай­
есовский подход, как и любой подход к распознаванию образов, должен делать
предположения о форме модели, а если они не выполняются, то результаты мо­
гут вводить в заблуждение. В частности, на рис. 3 .12 видно, что модельные дан-
3.5. Аппроксимация обоснованности 235

ные могут быть чувствительными ко многим аспектам априорного распределе­


ния, например, к поведению его хвостов. Действительно, обоснованность моде­
ли не определена, если априорное распределение является несобственным.
В этом можно убедиться, заметив, что несобственное априорное распределение
имеет произвольный масштабный коэффициент (иначе говоря, коэффициент
нормировки не определен, потому что распределение не может быть нормиро­
вано). Если мы рассмотрим собственное априорное распределение, а затем возь­
мем подходящий предел, чтобы получить несобственное априорное распределе­
ние (например, нормальное распределение с бесконечной дисперсией), то обос­
нованность модели будет стремиться к нулю, как видно из (3.70) и рис. 3.12.
Однако можно рассмотреть отношение между уровнями обоснованности двух
моделей, а затем перейти к пределу для получения значимого ответа.
Поэтому в практическом применении будет разумным оставить в стороне не­
зависимый тестовый набор данных для оценки общей эффективности конечной
системы.

3.5. Аппроксимация обоснованности


В чисто байесовской трактовке модели линейных базисных функций мы
должны бьши бы ввести априорные распределения по гиперпараметрам а и р
и сделать предсказания с помощью маргинализации по этим гиперпараметрам,

а также по параметрам w. Однако, хотя мы можем аналитически интегрировать


по w или по гиперпараметрам, полная маргинализация по всем этим переменным

является аналитически неразрешимой задачей. Здесь мы обсудим приближение,


в котором устанавливаем гиперпараметры равными конкретным значениям,

определяемым путем максимизации функции маргинального правдоподобия, по­


лученной путем предварительного интегрирования по параметрам w. Этот под­
ход известен в статистической литературе как эмпирический байесовский подход
(Bemardo and Srnith, 1994; Gelman et al., 2004), или максимальное правдоподобие
2-го типа (Berger, 1985), или обобщенное максимальное правдоподобие (Wahba,
1975), а в учебной литературе по машинному обучению - как аппроксимация
обоснованности модели (Gull, 1989; МасКау, 1992а).
Если мы введем априорное распределение гиперпараметров по а и Р, то прог­
нозное распределение получится путем маргинализации по w, а и Р, так что

Р (tl t) = fJf р (tlw,p) р( wl t, а,р )р (а, PI t) dw da d/J, (3.74)


236 ГЛАВА 3. МОДЕЛИ ЛИНЕЙНОЙ РЕГРЕССИИ

где p(tlw, fJ) задается формулой (3.8), а p(wlt, а, fJ) - формулой (3.49) с mN и Sм
определяемыми соответственно по формулам (3.53) и (3.54). Здесь мы опустили
зависимость от входной переменной х, чтобы сохранить обозначения относи­
тельно простыми. Если апостериорное распределение р( а,/Jlt) резко достигает
'
максимума в окрестности значений а и fз то прогностическое распределение
получается простой маргинализацией по w, в которой параметры а и fJ полага­
ются равными а и fз ' так что
(3.75)

Из теоремы Байеса следует, что апостериорное распределение по а и fJ опре­


деляется формулой

р( а, fJ 1 t) ос p(t 1 а, {J)p( а, fJ). (3.76)


Если априорное распределение является относительно плоским, то в рамках

оценки обоснованности модели значения а и jз получаются путем максимиза­


ции функции маргинального правдоподобия p(tl а, fJ). Мы будем оценивать мар­
гинальное правдоподобие модели линейных базисных функций, а затем искать
ее максимумы. Это позволит определять значения данных гиперпараметров

только по обучающим данным, не прибегая к перекрестной проверке. Напом­


ним, что отношение а//Jаналогично регуляризирующему параметру.
Кстати, следует отметить, что если мы определим сопряженные (гамма)
априорные распределения по а и fJ, то маргинализацию по этим гиперпарамет­
рам в (3.74) можно провести аналитически, что приведет нас к t-распределению
Стьюдента по w (см. раздел 2.3. 7). Хотя результирующий интеграл по w уже не
является аналитическим выражением, можно полагать, что аппроксимация этого

интеграла, например, с использованием аппроксимации Лапласа (см. раздел 4.4),


которое основано на локальной гауссовской аппроксимации, сосредоточенной в

окрестности моды апостериорного распределения, может обеспечить практиче­


скую альтернативу обоснованности моделей (Buntine and Weigend, 1991). Одна­
ко подынтегральное выражение как функция от w обычно имеет сильно смещен­
ную моду, так что аппроксимация Лапласа не может охватить основную массу
вероятности, что приводит к худшим результатам, чем результаты, полученные

с помощью максимизации обоснованности моделей (МасКау, 1999).


Возвращаясь к подходу, использующему обоснованность моделей, отметим,
что существуют два подхода к максимизации логарифма обоснованности. Мы
можем аналитически вычислить обоснованность модели, а затем приравнять ее
производную к нулю, чтобы получить формулы для уточнения гиперпараметров
3.5. Аппроксимация обоснованности 237

для а и р (см. раздел 3.5.2). В качестве альтернативы можно использовать метод,

называемый ЕМ-алгоритмом (expectation maximization- ЕМ), который будет


обсуждаться в разделе 9.3.4, где мы также покажем, что эти два подхода сводят­

ся к одному и тому же решению.

3.5.1. Оценка обоснованности


Функция маргинального правдоподобия p(t fa, р) получается путем интегри­
рования по весовым параметрам w, так что

p(tla,p) = Jp(tlw,p)p(wla)dw. (3.77)

Для вычисления этого интеграла можно воспользоваться результатом (2.115) для


условного распределения в линейно-гауссовской модели (см. упра.ж11е11ие 3.16).

Здесь мы вычислим интеграл, выделим полный квадрат в экспоненте и используем


стандартную форму для коэффициента нормировки нормального распределения.
Исходя из (3.11), (3.12) и (3.52), мы можем записать функцию обоснованно­
сти модели в виде (см. ynpa.J1c11e11ue 3.17)

N/2 ( )М/2
p(tla,p) = ( ~ ) 2: Jexp{-E(w)}dw, (3.78)

где М - размерность вектора w и

E(w) = PEv(w) + aEw(w) =


= pllt-Фwll2 +а wтw.
(3.79)
2 2
Выражение (3.79) с точностью до коэффициента пропорциональности равно
регуляризованной сумме квадратов ошибок (3.27). Теперь выделим полный
квадрат по w (см. упражиение 3.18):

(3.80)

где

(3.81)
и

(3.82)

Заметим, что матрица А соответствует матрице вторых производных функции


ошибок
238 ГЛАВА 3. МОДЕЛИ ЛИНЕЙНОЙ РЕГРЕССИИ

А= V'V'E(w) (3.83)

и называется матрицей Гессе, или гессианом. Здесь мы также определили вели­


чину mм заданную формулой
(3.84)

Используя (3.54), мы видим, что А= S~, и, следовательно, величина (3.84) эк­


вивалентна предыдущему определению (3.53) и поэтому представляет собой ма­
тематическое ожидание апостериорного распределения.

Интеграл по w теперь можно вычислить, просто обратившись к стандартному


результату для коэффициента нормировки многомерного нормального распре­
деления (см. упра.11е11е11ие 3. 19):

Jexp{-E(w)}dw=
= exp{-E(mN )}f exp{-~(w-mN )т A(w-mN)}dw = (3.85)

= ехр{-Е( тN) }{ 21l"}м/2 [АГ1/2.

Используя (3.78), мы можем записать логарифм маргинального правдоподо­


бия в виде

М N 1 N
ln(t la,p) =-lna +-lnР-Е(тн )--ln[A[--In(21Z"), (3.86)
2 2 2 2
который является искомым выражением для функции обоснованности модели.
Возвращаясь к задаче полиномиальной регрессии, мы можем вычислить

обоснованность модели при заданном порядке полинома, как показано на


рис. 3.14. Здесь мы предположили, что априорное распределение имеет вид
(1.65) с параметром а, равным 5 · 10-3 • Этот график очень поучителен. Обраща­
ясь к рис. 3.4, мы видим, что многочлен степени М =О очень плохо приближает
данные и, следовательно, дает относительно низкое значение для обоснован­
ность модели. Переход к полиному степени М = 1 значительно улучшает соот­

ветствие данным, и, как следствие, обоснованность этой модели значительно


выше. Однако при переходе к М = 2 соответствие данных улучшается очень не­

значительно из-за того, что лежащая в основе синусоидальная функция, с помо­


щью которой генерируются данные, является нечетной и поэтому не имеет чет­
ных членов в степенном разложении. Действительно, на рис. 3.5 показано, что
невязка при переходе от М = 1 к М= 2 уменьшается незначительно. Поскольку
на эту более содержательную модель накладывается более крупный штраф за
3.5. Аппроксимация обоснованности 239

сложность, обоснованность модели падает при переходе от М = 1 к М = 2. Когда

мы переходим к М = 3, мы получаем значительное улучшение приближения


данных (см. рис. 1.4), и поэтому обоснованность модели снова увеличивается,
давая самое высокое значение среди всех полиномов. Дальнейшее увеличение
значения М приводит лишь к небольшим улучшениям в приближении данных,
но одновременно повышается сложность модели, приводя в целом к снижению

обоснованности модели. Возвращаясь к рис. 1.5, мы видим, что ошибка обобще­


ния остается примерно постоянной в интервале между М = 3 и М = 8, и было бы
трудно сделать выбор между этими моделями только на основании этого графи­
ка. Однако обоснованность модели отдает явное предпочтение варианту М = 3,
так как это простейшая модель, которая дает хорошее объяснение наблюдаемым
данным.

о 2 4 6 8
м

Рис. 3. 14. График логарифма обоснованноии модели в зависимости от степени

полинома М для модели полиномиальной регрессии, пока:зывающий, что

обоснованность модели отдает пре;щочтение модели со степенью М=3

3.5.2. Максимизация функции обоснованности модели


Рассмотрим сначала максимизацию p(tl а, /3) относительно а. Это можно сде­
лать, определив сначала следующее уравнение для собственного вектора:

(3.87)

Из (3.81) следует, что матрица А имеет собственные значения а+ А,. Теперь


рассмотрим производную по а от выражения, содержащего ln IAI в (3.86):
(3.88)
240 ГЛАВА 3. МОДЕЛИ ЛИНЕЙНОЙ РЕГРЕССИИ

Таким образом, стационарные точки (3.86) по а удовлетворяют условию

м 1 т 1" 1
0=---тNтN -- L.--. (3.89)
2а 2 2 i Лi +а
Умножая на 2аи переставляя члены, получим

т
атNтN " 1
=M-aL.--=y. (3.90)
i Л;+а

Так как в сумме по i содержится М слагаемых, то величину у можно записать как

А,. -.
r= "L.--' (3.91)
i а+Лi

Интерпретация величины убудет рассмотрена в ближайшее время. Из (3.90) мы


видим (см. упраж:иеиие 3.20), что значение а, максимизирующее маргинальное
правдоподобие, удовлетворяет условию

(3.92)

Заметим, что это неявное уравнение относительно а не только потому, что у за­
висит от а, но и потому, что сама мода тN апостериорного распределения зависит

от выбора а. Для его решения мы построим итерационную процедуру, в которой


сделаем первоначальный выбор для а и с ее помощью найдем mм которое дается
формулой (3.53), а также вычислим значение у, которое задается формулой (3.91).
Эти значения затем используются для переоценки а с использованием (3.92),
и процесс повторяется до выполнения критерия сходимости. Заметим, что по­

скольку матрица ФтФ фиксирована, мы можем в начале один раз вычислить ее


собственные значения, а затем умножать их на fJ, чтобы получить А;.
Следует подчеркнуть, что значение а определяется исключительно путем ис­
следования обучающих данных. В отличие от методов максимального правдопо­
добия, для оптимизации сложности модели здесь не нужен независимый набор
данных.

Аналогичным образом мы можем максимизировать логарифмическое марги­


нальное правдоподобие (3.86) пор Для этого заметим, что собственные значе­
ния А;, определенные в (3.87), пропорциональны fJ, и, следовательно, dЛ;!dД= Л;!/З,
так что

-dl n 11 d"
А =-L..ln(Лi 1"Лi
+а)=- у
L.--=-. (3.93)
dp dp ; Р i ,\ +а Р
3.5. Аппроксимация обоснованности 241

Таким образом, стационарная точка маргинального правдоподобия удовле­


творяет условию

(3.94)

Меняя порядок слагаемых, получаем (cJ11. упражнение 3.22):


} } N Т 2
-=-:L{tп -mNф(хп)} · (3.95)
/З N-r n=I

Это также неявное уравнение относительно /З, и его можно решить, выбирая
начальное значение для /З, а затем используя его для вычисления mN и у, а затем
заново вычисляя /З, используя (3.95) и повторяя процесс до сходимости. Если оба
значения, а и /З, должны определяться по данным, их значения можно пересчи­
тывать вместе после каждого обновления у.

3.5.3. Эффективное количество параметров


Результат (3.92) имеет изящную интерпретацию (МасКау, 1992а), которая да­
ет представление о байесовском решении для а. Чтобы увидеть это, рассмотрим
контуры функции правдоподобия и априорного распределения (рис. 3.15). Здесь
мы неявно перешли в повернутую систему координат в пространстве парамет­

ров, согласованном с собственными векторами U;, определенными в (3.87). Кон­


туры функции правдоподобия являются эллипсами, ориентированными вдоль
осей. Собственные значения Л; измеряют кривизну функции правдоподобия, по­
этому на рис. 3.15 собственное значение Л 1 мало по сравнению с~ (поскольку
меньшая кривизна соответствует большему удлинению контуров функции прав­
доподобия). Поскольку матрица /JФтФ является положительно определенной,
она имеет положительные собственные значения, и поэтому отношение ЛJ(~ +а)
будет находиться между нулем и единицей. Следовательно, величина у, опреде­
ленная в (3.91), будет лежать в диапазоне О~ r~ М. Для направлений, в которых
Л; » а, соответствующий параметр w; будет близок к его значению максималь­
ного правдоподобия, а отношение Л;I(~ + а) будет близко к единице. Такие па­
раметры называются точно определенными, поскольку их значения жестко
ограничены данными. Напротив, для направлений, в которых ~ « а, соответ­
ствующие параметры w; будут близки к нулю, так же как и отношения ~/(Л; +а
). Это направления, в которых функция правдоподобия относительно нечувстви­
тельна к значению параметра, и поэтому он априори устанавливается равным

небольшому значению. Таким образом, величина у, определяемая (3.91), измеря­


ет эффективное общее количество хорошо определенных параметров.
242 ГЛАВА 3. МОДЕЛИ ЛИНЕЙНОЙ РЕГРЕССИИ

Wz

Uz

Рис. 3.15.
-+-- 1

Коюуры функции правдоподобия (красный) и априорного распределения


W1

(зеленый), в котором оси в пространстве параметров были повернуrы для согласования

с собственными векторами гессиана U;. При а = О мода апостериорного распределения

определяется оценкой максимального правдоподобия wмL, тогда как при ненулевом а мода

наход ится в точке wмАР = m.v. В направлении w 1 собстпенное значение Л. 1 , определенное

(3.87), мало по сравнению с а, и поэтому величина Л. /(Л. 1 + а) близка к нулю,

а соответствующее МАР-значение и' 1 также близко к нул ю . Напротив. в направлении w2


собственное значение Л. 2 велико по сравнению с а, и полому величина Л. 2 /(Л. 2 + а) близка
к единице , а МАР-значение w2 близко к его значению максимального правдоподобия

Мы можем получить некоторое представление о результатах (3 .95) ДJIЯ пере­


оценки fЗ, сравнив их с соответствующей оценкой максимального правдоподобия
(3.21). Обе эти формулы выражают дисперсию (обратную точность) как среднее
значение квадратов разностей между целевыми переменными и предсказаниями
модели. Однако они отличаются тем, что количество точек N в знаменателе оцен­
ки максимального правдоподобия заменяется на N- 1 в байесовском результате.
Из (1.56) следует, что оценка максимального правдоподобия дисперсии ДJIЯ нор­
мального распределения по одной переменной х дается формулой

2 1 N 2
(ТML = N ~ ( хп - µМL ) (3.96)

и что эта оценка является смещенной, поскольку оценка максимального правдо­

подобия µМL ДJIЯ математического ожидания вносит в данные некоторый шум.


Фактически эта оценка использует одну степень свободы в модели. Соответ­

ствующая несмещенная оценка дается формулой (1 .59) и принимает вид

2 1 N 2
О"мАР =--~)хп - µмL) · (3.97)
N-1 п;t
3.5. Аппроксимация обоснованности 243

Коэффициеm N - 1в знаменателе байесовского результата учитъшает тот факт, что


одна степень свободы бьmа использована Д11Я оценки математического ожидания и
устраняет смещение оценки максимального правдоподобия. Теперь рассмотрим со­
ответствующие результаты Д11Я модели линейной регрессии. Математическое ожи­
дание целевого распределения теперь задается функцией wт ф(х), которая содержит
М параметров. Однако не все эти параметры согласованы с данными. Эффективное
количество параметров, определяемых данными, равно у, при этом остальные па­

раметры м - r априори устанавливаются маль1ми. Это отражено в байесовском ре­

зультате Д11Я оценки дисперсии с помощью коэффициеmа N - 1в знаменателе, тем

самым исправляя смещение оценки максимального правдоподобия.


Мы можем проиллюстрировать подход, использующий обоснованность мо­
делей, Д11Я установки гиперпараметров с использованием синусоидальных ис­
кусственных данных, приведенных в разделе 1.1, вместе с моделью гауссовских

базисных функций, содержащей девять базисных функций, так что общее число
параметров в модели задается равным М = 1О, включая смещение. Здесь для

простоты иллюстрации мы установили р равным его истинному значению 11, 1,


а затем применили подход, использующий обоснованность моделей, для опреде­
ления а, как показано на рис. 3.16.

-5 о 5 -5 о 5
lna lna

Рис. 3.16. На левой диаграмме показан график у (красная кривая) и 2;rE w(тN) (синяя

кривая) в зависимости от ln а для синусоидального набора искусственных данных.

Пересечение этих двух кривых определяет оптимальное значение для а, определяемое

процедурой оценки обоснованности моделей. На правой диаграмме показан

соответствующий график логарифма lnp(tla, /З) в зависимости от ln а(красная кривая),

показывающий, что пик совпадает с точкой псресеченv.я кривых на левом графике.

Также показана ошибка тестового набора (синяя кривая), свидетельствующая о том, что

максимум обоснованности близок к точке наилучшего обобщения


244 ГЛАВА 3. МОДЕЛИ ЛИНЕЙНОЙ РЕГРЕССИИ

Мы также можем видеть, как параметр а управляет величиной параметров


{w;}, построив графики отдельных параметров в зависимости от эффективного
количества параметров у(рис. 3.17).

о
2 8
W;

о 6
3
-1
7
-2
о 2 4 6 8 10
у

Рис. 3.17. Графики 10 параметров w1, построенные по модели

гауссовских базисных функций, в зависимости от эффективного

количества параметров у, в котором гиперпараметр а изменяется

в диапазоне о ~ а~ оо, заставляя уменяться в диапа_зоне о ~ r~ м

Если мы рассмотрим предел при N » М, при котором количество точек данных

велико по сравнению с количеством параметров, то из


(3.87) следует, что все па­
раметры будут хорошо согласованы с данными, поскольку матрица ФтФ подра­
зумевает неявное суммирование по точкам, и поэтому собственные значения ~
увеличиваются с увеличением размера множества данных. в этом случае r= м,
а уравнения для переоценки аи Дпринимают вид

(3.98)

(3.99)

где Ew и Еп определяются формулами (3.25) и (3.26) соответственно. Эти ре­


зультаты можно использовать для несложного вычисления приближений к пол­
ным формулам уточнения обоснованности моделей, поскольку они не требуют
оценки спектра собственных значений гессиана.
3.6. Оrраничения фиксированных базисных функций 245

3.6. Оrраничения фиксированных базисных функций


Всюду в этой rлаве мы рассматривали модели, содержащие линейную ком­

бинацию фиксированных нелинейных базисных функций. Мы видели, что пред­


положение о линейности параметров приводило к целому ряду полезных
свойств, включая решения задачи о наименьших квадратах, имеющие замкнутый
вид, а также к понятной интерпретации байесовскоrо вывода. Кроме того, при
подходящем выборе базисных функций мы можем моделировать произвольные
нелинейности при отображении входных переменных в целевые. В следующей
главе мы изучим аналогичный класс моделей классификации. Таким образом,
может показаться, что такие линейные модели являются универсальной основой
для решения задач распознавания образов. К сожалению, есть некоторые суще­
ственные недостатки линейных моделей, которые заставят нас перейти в более
поздних главах к более сложным моделям, таким как метод опорных векторов и
нейронные сети.
Трудности проистекают из предположения, что базисные функции ~(х) фик­
сируются до того, как будет получен набор данных, а также из проклятия раз­
мерности, обсуждаемого в разделе 1.4. Как следствие, с ростом размерности D
пространства входных данных количество базисных функций должно расти
быстро, часто экспоненциально.
К счастью, есть два свойства реальных наборов данных, которые мы можем
использовать для смягчения этой проблемы. Прежде всего, в результате сильной
корреляции между входными переменными векторы данных {хп} обычно лежат
близко к нелинейному многообразию, размерность которого меньше размерно­
сти пространства входных данных. Мы увидим пример этого, когда рассмотрим
образы рукописных цифр в главе 12. Если мы используем локализованные ба­
зисные функции, то можем распределить их в пространстве входных данных

только в областях, содержащих данные. Этот подход используется в сетях ради­


ально-базисных функций, а также в методах опорных и релевантных векторов.
Модели нейронных сетей, которые используют адаптивные базисные функции,
имеющие сигмоидальные нелинейности, могут настраивать параметры так, что­

бы области пространства входных переменных, по которым изменяются базис­


ные функции, соответствовали многообразию данных. Второе свойство состоит
в том, что целевые переменные могут иметь существенную зависимость лишь от

небольшого числа возможных направлений в многообразии данных. Нейронные


сети могут использовать это свойство, выбирая направления в пространстве
входных переменных, на которые реагируют базисные функции.
246 ГЛАВА 3. МОДЕЛИ ЛИНЕЙНОЙ РЕГРЕССИИ

Упражнения

3.1. (**) WWW Покажите, что гиперболический тангенс th и логистическая сиг­


моидальная функция (3.6) связаны соотношением

th(a) = 2ст(2а)-1. (3.100)


Покажите, что общая линейная комбинация логистических сигмоидальных
функций вида

(3.101)

эквивалентна линейной комбинации гиперболических тангенсов вида

м th (х-µ
y(x,u)=u 0 +~) 1 - -1
) (3.102)
J=l 2s
и найдите выражения, связывающие новые параметры {и 0 , ".,им} с исход­
ными параметрами {w0, "" wм}.

3.2. (**)Покажите, что матрица

Ф(ФТФ)-IФТ (3.103)
проектирует любой вектор v на пространство, натянутое на столбцы матри­
цы Ф. Используя этот результат, покажите, что оценка по методу наимень­
ших квадратов (3.15) соответствует ортогональной проекции вектора t на
многообразие S, как показано на рис. 3.2.
3.3. (*)Рассмотрим набор данных, в котором каждая точка данных tn связана с
весовым коэффициентом rn > О, так что сумма квадратов ошибок прини­
мает вид

1 N Т 2
ED(w)=- ~>п{tп -W ф(хп)} · (3.104)
2 n=I
Найдите выражение для решения w•, которое минимизирует эту функцию
ошибок. Дайте две альтернативные интерпретации взвешенной функции
суммы квадратов ошибок в терминах 1) данных, зависящих от дисперсии
шума и 2) реплицированных точек.

3.4. (*) WWW Рассмотрим линейную модель вида

D
y(x,w)=w0 + Iwixi (3.105)
i=l
Упражнения 247

вместе с суммой квадратов ошибок вида

(3.106)

Предположим теперь, что к каждой из входных переменных Х; независи­

мо добавляется нормально распределенный шум &; с нулевым математи­


ческим ожиданием и дисперсией (i. Используя соотношения JE[ &;] = О и
JE[t;c0 ] = дijd, покажите, что минимизация ED, усредненная по распределе­
нию шума, эквивалентна минимизации суммы квадратов ошибок для вход­
ных переменных без шума с добавлением регуляризирующего члена с ре­
дукцией весов, в котором параметр смещения w0 из регуляризатора опущен.
3.5. (*) WWW Используя метод множителей Лагранжа, рассмотренный в прило­
жении Д, покажите, что минимизация регуляризованной функции ошибок
(3.29) эквивалентна минимизации нерегуляризованной суммы квадратов
ошибок (3.12) с учетом ограничения (3.30). Обсудите взаимосвязь между
параметрами 'f/ и А.
3.6. (*) WWW Рассмотрим регрессионную модель линейных базисных функций
для многомерной целевой переменной t, имеющей нормальное распреде­

ление вида

p(tlW, I) =N(tly(x, W), I), (3.107)


где

у(х, W) = Wт ф(х), (3.108)


вместе с набором обучающих данных, содержащих входные базисные век­
торы ф(хп) и соответствующие целевые векторы tm где п = 1, "., N. Пока­
жите, что оценка максимального правдоподобия W МL для матрицы пара­

метров W обладает тем свойством, что каждый столбец задается выраже­


нием вида (3 .15), которое является решением для распределения
изотропного шума. Заметим, что оно не зависит от ковариационной мат­

рицы I. Покажите, что оценка максимального правдоподобия для I зада­


ется формулой

(3.109)

3.7. (*)Используя метод выделения полного квадрата, проверьте результат


(3.49) для апостериорного распределения параметров w в модели линей-
248 ГЛАВА 3. МОДЕЛИ ЛИНЕЙНОЙ РЕГРЕССИИ

пых базисных функций, в которой mN и SN определяются соответственно


по формулам (3.50) и (3.51).
3.8. (**) WWW Рассмотрим модель линейных базисных функций в разделе 3.1 и
предположим, что мы уже наблюдали N точек, так что апостериорное рас­
пределение по w дается формулой (3.49). Это апостериорное распределение
можно рассматривать как априорное для следующего наблюдения. Рассмат­
ривая дополнительную точку данных (xN+I• tN+i) и выделяя полный квадрат
в экспоненте, покажите, что полученное апостериорное распределение снова

определяется формулой (3.49), но с заменой SN на SN+ 1 и mN на mN+i·


3.9. (**)Повторите предыдущее упражнение, но, вместо того, чтобы выделять
полный квадрат, используйте общий результат для линейно-гауссовских
моделей, заданный формулой (2.116).
3.10. (**) WWW Используя результат (2.115) для вычисления интеграла в (3.57),
убедитесь, что прогностическое распределение для байесовской линейной
регрессионной модели задается формулой (3.58), в которой дисперсия, за­
висящая от входных данных, задается выражением (3.59).
3.11. (**)Мы видели, что по мере увеличения размера набора данных неопреде­
ленность, связанная с апостериорным распределением по параметрам моде­

ли, уменьшается. Используя матричное тождество (см. приложение В)

(М + vvт )_ 1_ _1 _ (м- 1 v )( vтм- 1 )


- М т 1 , (3 .11 О)
l+v м- v
покажите, что неопределенность ст~ ( х) , связанная с функцией линейной
регрессии, заданной формулой (3.59), удовлетворяет неравенству

ст~+~ ( х) ~ ст~ ( х). (3.111)


3.12. (**)В разделе 2.3.6 мы видели, что сопряженное априорное нормальное
распределение с неизвестным математическим ожиданием и неизвестной
точностью (обратной дисперсией) является гамма-нормальным распреде­
лением. Это свойство справедливо и для случая условного нормального
распределения p(tlx, w, /З) в модели линейной регрессии. Если мы рас­
смотрим функцию правдоподобия (3.10), то сопряженное априорное рас­
пределение для w и fЗ определяется формулой

p(w, /З) = N(wlmo, /З- 1 So)Gam(/Зlao, Ьо). (3.112)

Покажите, что соответствующее апостериорное распределение имеет ту


же функциональную форму, т.е.
Упражнения 249

и найдите выражения для апостериорных параметров mм Sм aN и bN.

3.13. (**)Покажите, что прогностическое распределение p(tlx, t) для модели,


обсуждаемой в упражнении 3.12, задается t-распределением Стьюдента
вида

p(tlx, t) = St(tlµ, А, v), (3.114)


и получите выражения для µ, Аи v.
3.14. (**)В этом упражнении мы более подробно исследуем свойства эквива­
лентного ядра, определенные в (3.62), где SN определяется формулой
(3.54). Предположим, базисные функции ~(х) линейно независимы и ко­
личество точек наблюдения N больше количества базисных функций М.
Кроме того, пусть одна из базисных функций является постоянной, ска­
жем, Фо(х) = 1. Выбирая подходящие линейные комбинации этих базисных
функций, мы можем построить новое базисное множество 111Сх), охваты­
вающее одно и то же пространство, но которое является ортонормирован­

ным, так что

N
L f//
n=l
j ( хп) f// k ( хп) = Ijk' (3.115)

где ~k равно единице, еслиj = k, и нулю в противном случае, кроме того, по­
ложим f//o(x) = 1. Покажите, что для а= О эквивалентное ядро можно запи­
сать в виде k(x, х') = f//(х)т 'l'(x'), где 1f1 = ( f//o, .", f//м-~)т. Используя этот ре­
зультат, покажите, что ядро удовлетворяет суммарному ограничению

N
Lk(x,xп) = 1. (3.116)
n=I

3.15. (*) WWW Рассмотрите регрессионную модель линейных базисных функций,


в которой параметры а и р задаются в рамках подхода, использующего
обоснованность моделей. Покажите, что функция E(mN), определенная
формулой (3.82), удовлетворяет соотношению 2E(mN) = N.
3.16. (**)Выведите результат (3.86) для логарифма обоснованности модели
p(tl а, /З) в модели линейной регрессии, используя (2.115) для непосред­
ственного вычисления интеграла (3.77).
3.17. (*)Докажите, что функцию обоснованности модели для байесовской ли­
нейной регрессионной модели можно записать в виде (3.78), в которой
E(w) определяется формулой (3.79).
250 ГЛАВА 3. МОДЕЛИ ЛИНЕЙНОЙ РЕГРЕССИИ

3.18. (**) WWW Выделяя полный квадрат по w, покажите, что функцию оши­
бок (3.79) в байесовской модели линейной регрессии можно записать в
виде (3.80).

3.19. (**)Покажите, что интегрирование по wв байесовской линейной регрес­


сионной модели дает результат, заданный формулой (3.85). Отсюда следу­
ет, что логарифмическое маргинальное правдоподобие определяется фор­
мулой (3.86).
3.20. (**) WWW Проверьте все шаги, необходимые для доказательства того, что
максимизация логарифмической функции правдоподобия (3.86) по а при­
водит к новой оценке (3.92).
3.21. (**)Альтернативный способ получения результата (3.92) для оптимально­

го значения а в рамках подхода, использующего обоснованность моделей,


состоит в том, чтобы использовать тождество

(3.117)

Докажите это тождество, рассмотрев разложение по собственным значе­


ниям действительной симметричной матрицы А и используя стандартные

результаты для определителя и следа матрицы А, выраженные через ее


собственные значения (см. прило.жеиие В). Затем воспользуйтесь (3.117)
для вывода (3.92), начиная с (3.86).
3.22. (**) Проверьте все шаги, необходимые для доказательства того, что мак­
симизация логарифмической функции правдоподобия (3.86) по к Р приво­
дит к новой оценке (3.95).
3.23. (**) WWW Покажите, что маргинальная вероятность данных, т.е. обосно­
ванность модели, описанной в упражнении 3.12, задается формулой

() 1 ь;0 Г(aN)lsA12
р t = (2я(/2 b~N г(ао) ISoll/2 '
(3.118)

полученной после маргинализации по w, а затем по р.

3.24. (**)Повторите предыдущее упражнение, используя теорему Байеса в виде

p(t) = p(tlw,JJ)p(w,JJ)' (3.119)


p(w,JJlt)
а затем по очереди заменяя априорное и апостериорное распределения

и функцию правдоподобия для получения результата (3.118).


4

В предыдущей главе мы исследовали класс регрессионных моделей, имею­


щих простые аналитические и вычислительные свойства. Обсудим теперь анало­
гичный класс моделей для решения задач классификации. Цель классифика­
ции - присвоить вектор исходных данных х одному из К разных классов Ck, где
k = 1, ... , К. В наиболее распространенном сценарии классы считаются непересе­
кающимися, поэтому каждому вектору исходных переменных присваивается

один и только один класс. Таким образом, исходное пространство разделяется на


области принятия решения, разделенные границами, или поверхностями реше­
ния. В этой главе мы рассматриваем линейные модели классификации, предпо­
лагая, что поверхности решения являются линейными функциями относительно
вектора исходных данных х и, следовательно, определяются (D-1)-мерными
гиперплоскостями в D-мерном пространстве исходных данных. Множества дан­

ных, классы которых могут быть точно разделены линейной поверхностью ре­
шения, называются линейно разделимыми.
252 ГЛАВА 4. ЛИНЕЙНЫЕ МОДЕЛИ КЛАССИФИКАЦИИ

В регрессионных задачах целевая переменная t - это вектор действительных


чисел, значения которых мы хотим предсказать. В задачах классификации суще­
ствуют разные способы использования целевых значений для представления меток
классов. Для вероятностных моделей в случае задач бинарной классификации
наиболее удобным является двоичное представление, в котором используется
единственная целевая переменная t Е {О, 1}, такая, что значение t = 1 представляет
класс С1 , а t =О - класс ~. Мы можем интерпретировать значение t как вероят­
ность того, что вектор исходных данных х принадлежит классу С 1 , причем вероят­
ность принимает только предельные значения О и 1. Если К> 2, то удобно исполь­
зовать схему кодирования 1 из К, основой которой является вектор t длины К, та­
кой, что если вектор принадлежит классу ~, то все элементы tk из t равны нулю,
кроме элемента ~. который принимает значение 1. Например, для случая К= 5
классов пример из класса 2 будет задан целевым вектором:
t =(О, 1, О, О, О{ (4.1)
Здесь значение tk также можно интерпретировать как вероятность того, что вектор
принадлежит классу Ck. Такой выбор представления целевой переменной иногда
оказывается удобным и для моделей, которые не являются вероятностными.
В главе 1 мы определили три разных подхода к проблеме классификации.
Самый простой из них состоит в построении дискриминантной функции, кото­
рая непосредственно присваивает каждый вектор исходных данных х опреде­
ленному классу. Однако более мощный подход моделирует распределение
условной вероятности p(Cklx) на этапе вывода, а затем использует это распреде­
ление для принятия оптимальных решений. Разделяя выводы и решения, мы по­
лучаем множество преимуществ, описанных в разделе 1.5.4. Существуют два
способа определения условных вероятностей p(Cklx). Один из них заключается в
том, чтобы моделировать их напрямую, например, представляя в качестве пара­
метрических моделей, а затем оптимизировать параметры с помощью обучаю­
щих множеств. В качестве альтернативы можно принять порождающий подход,
в котором мы моделируем функции правдоподобия классов p(xlCk) вместе с
априорными вероятностями классов р( Ck), а затем вычисляем требуемые апосте­
риорные вероятности с помощью теоремы Байеса:

р
(сk 1х ) = Р ( xlр(х)
ck) Р ( ck)
. (4.2)

В этой главе мы обсудим примеры всех трех подходов.

В моделях линейной регрессии, рассмотренных в главе 3, модельное предска­


зание у(х, w) бьmо задано линейной функцией параметров w. В простейшем слу-
4.1. Дискриминантные функции 253

чае модель также линейна по исходным переменным и поэтому принимает вид

у(х) = wтх + w0 , так что у является действительным числом. Однако в задачах


классификации мы хотим предсказать дискретные метки классов или, в более
общем плане, апостериорные вероятности, лежащие в диапазоне (О, 1). Для этого
рассмотрим обобщение этой модели, в которой преобразуем линейную функцию
w, используя нелинейную функцию/(·), так, что

у(х) = f(wтx + w0 ). (4.3)

В литературе по машинному обучению функция/(·) называется функцией ак­


тивации, тогда как ее обратная функция в статистической литературе называется
функцией связи. Поверхности решений соответствуют уравнению у(х) = const, так
т
что w х
+ w0 = const и, следовательно, поверхности решения являются линеины-
~

ми функциями от х, даже если функция/(·) является нелинейной. По этой при­


чине класс моделей, описанных формулой (4.3), называется обобщенными ли­
нейными моделями (McCullagh and Nelder, 1989). Обратите внимание, однако,
что, в отличие от моделей, используемых для регрессии, они больше не являют­
ся линейными по параметрам из-за наличия нелинейной функции/(·). Это при­
ведет к более сложным аналитическим и вычислительным свойствам по сравне­
нию с линейными регрессионными моделями. Тем не менее эти модели по­

прежнему относительно просты по сравнению с более общими нелинейными


моделями, которые будут изучаться в последующих главах.
Алгоритмы, обсуждаемые в этой главе, будут в равной мере применимы, если
мы сначала выполним фиксированное нелинейное преобразование исходных
данных с использованием вектора базисных функций ф(х), как зто было сделано
для регрессионных моделей в главе 3. Начнем с рассмотрения задач классифи­
кации непосредственно в исходном пространстве х, а в разделе 4.3 нам будет

удобно переключиться на обозначения, включающие базисные функции для со­


гласованности с последующими главами.

4.1. Дискриминантные функции


Дискриминантная функция - зто функция, которая принимает вектор ис­
ходных данных х и присваивает его одному из классов К, обозначаемому как Ck.
В этой главе мы ограничимся рассмотрением линейных дискриминантных
функций, а именно тех, для которых поверхности решений являются гиперплос­
костями. Чтобы упростить обсуждение, рассмотрим сначала случай двух клас­
сов, а затем исследуем обобщение на К> 2 классов.
254 ГЛАВА 4. ЛИНЕЙНЫЕ МОДЕЛИ КЛАССИФИКАЦИИ

4.1.1. Два класса

Простейшее представление линейной дискриминантной функции получается


путем линейной функции исходного вектора, так что
т
у(х) =w х + Wo, (4.4)
где w называется вектором весов, а w0 - смещением (не путайте со смещением в
статистическом смысле). Отрицательное смещение иногда называют порогом.
Вектор исходных данных х присваивается классу С 1 , если у(х) ~О, и классу~
в противном случае. Следовательно, соответствующая граница решения определя­
ется соотношением у(х) =О, что соответствует (D-1)-мерной гиперплоскости в
D-мерном исходном пространстве. Рассмотрим две точки, хА и х 8 , которые лежат
т
на поверхности решения. Поскольку у(хА) = у(х8 ) =О, то w (хА -х8 ) =О и, следо-
вательно, вектор w ортогонален каждому вектору, лежащему на поверхности ре­

шения, а значит, определяет ориентацию поверхности решения. Аналогично, если


х- точка на поверхности решения, то у(х) = О, и поэтому ортогональное расстоя­
ние от начала координат до поверхности решения определяется формулой

(4.5)

Итак, мы видим, что параметр смещения w 0 определяет местоположение по­


верхности решения. Эти свойства проиллюстрированы для случая D = 2 на рис. 4.1.
Кроме того, отметим, что значение у(х) представляет собой ортогональное
расстояние r точки х от поверхности решения со знаком. Чтобы убедиться
в этом, рассмотрим произвольную точку х и ее ортогональную проекцию х.l на

поверхность решения, так что

(4.6)

Умножая обе части этого результата на wт, добавляя w0 и используя формулы


т т
у(х) = w х + w0 иу(х.l) = w x.l + w0 =О, имеем:

у(х)
(4.7)
r=м

Этот результат показан на рис. 4.1.


4.1. Дискриминантные функции 255

у > О Х2

у= О
у< О

Рис. 4.1. Геометрические свойства л1шсй1юi1 нискримитшпюй функнии

в двух измерениях . Поверхность решения, показанная красным цветом,

перпс1щикулярна вектору w, а ее смсщс11ис от начала координат задается

параметром смещения и,· 0 . Кроме того, орто1 · 011алыюс расстояние со знаком от

произвольной точки х ло поверхности рсшс11ия задано формулой у ( х )/llwll


Как и в моделях линейной регрессии (см . главу 3), иногда удобно использо­

вать более компактные обозначения, в которых мы вводим дополнительное фик­


тивное значение х0 = 1, а затем определяем w= ( w0 , w) и х = (х0 , х) , так что

(4.8)

В этом случае поверхности решений являются D-мерными гиперплоскостя­


ми, проходящими через начало координат (D + 1)-мерного расширенного исход­
ного пространства.

4.1.2. Несколько классов


Теперь рассмотрим обобщение линейных дискриминантных функций на слу­
чай К> 2 классов. Может возникнуть соблазн построить дискриминантную функ­
цшо для К классов, объединив несколько дискриминантных функций, разделяю­
щих два класса. Однако, как мы сейчас покажем, это приводит к серьезным труд­
ностям (Duda and Hart, 1973).
Рассмотрим использование К - 1 классификаторов, каждый из которых реша­
ет бинарную задачу отделения точек определенного класса Ck от точек, не вхо­
дящих в этот класс. Эта схема называется классификацией один против всех. На
256 ГЛАВА 4. ЛИНЕЙНЫЕ МОДЕЛИ КЛАССИФИКАЦИИ

рис. 4.2, слева, приведен пример с тремя классами, в котором этот подход при­
водит к неоднозначности классификации областей исходного пространства.

Рис. 4.2. Попытка построить дискриминантную функцию для К классов из набора

бинарных дискриминантных функций приводит к неоднозначным областям, показанным

зеленым цветом. Слева приведен пример использования двух дискриминантных

функций, предназначенных для отделения точек из класса Ck от точек,

не принадлежащих классу Ck. Справа приведен пример трех дискриминантных функций,

каждая из которых используется для разделения пары классов Ck и С1

Альтернативой является введение К(К - 1)/2 бинарных дискриминантных


функций, по одной для каждой возможной пары классов. Эта схема называется
попарной классификацией. Каждая точка затем классифицируется в соответствии с
большинством голосов среди дискриминантных функций. Однако это также по­
рождает проблему неоднозначных областей, как показано на рис. 4.2, справа.
Мы можем избежать этих трудностей, рассмотрев одну дискриминантную

функцию для К классов, состоящую из К линейных функций вида

(4.9)
а затем присвоив точку х классу Сь еслиу~х) > у1 (х) для всех}*- k. Следовательно,
граница решения между классами Ck и (j задается выражением Yk(x) = у1 (х) и соот­
ветствует (D - 1)-мерной гиперплоскости, определяемой формулой
т
(wk -wj) х + (wю - w10 ) =О. (4.10)
4.1. Дискриминантные функции 257

Это уравнение имеет ту же форму, что и граница решения для случая двух
классов, рассмотренного в разделе 4.1.1, и поэтому оно обладает аналогичными
геометрическими свойствами.

Области решения такой дискриминантной функции всегда односвязные и


выпуклые. Чтобы убедиться в этом, рассмотрим две точки, хл и Хв, лежащие в
области решения nk, как показано на рис. 4.3. Любая точка х, лежащая на ли­
нии, соединяющей точки Хл и Хв, может быть выражена в виде

(4.11)

где О ~ Л ~ 1. Из линейности дискриминантных функций следует, что

(4.12)

----::------хв
Рис. 4.3. Области принятия решений для многоклассовой линейной дискриминантной

функции с границами решения, указанными красным цветом. Если две точки, хл и Хв,

лежат в одной и той же области решений Rk, то любая точка .Х , которая лежит на линии,
соединяющей эти две точки, также должна лежать в Rk, и, следовательно, область

решения должна быть односвязной и выпуклой

Поскольку точки Хд и Хв лежат в области nk, то Уk(хл) > уj(хл) и Уk(хв) > уj(хв)
для всех j ::1- k, и, следовательно, Yk( х) > у1 ( х ), то х также лежит внутри nk. Та­
ким образом, область nk является односвязной и выпуклой.
Заметим, что для двух классов мы можем либо использовать обсуждаемый
здесь формализм, основываясь на двух дискриминантных функцияху 1 (х) иу 2 (х),
либо использовать более простую, но эквивалентную формулировку, описанную
в разделе 4.1.1, на основе одной дискриминантной функцииу(х).
Теперь рассмотрим три подхода к изучению параметров линейных дискри­
минантных функций: метод наименьших квадратов, линейный дискриминант
Фишера и алгоритм персептрона.
258 ГЛАВА 4. ЛИНЕЙНЫЕ МОДЕЛИ КЛАССИФИКАЦИИ

4.1.3. Метод наименьших квадратов для классификации


В главе 3 мы рассмотрели модели, которые были линейными функциями па­
раметров, и увидели, что минимизация суммы квадратов ошибок привела к за­
мкнутому решению для значений параметров. Возникает соблазн проверить,
можем ли мы применить тот же формализм к задачам классификации. Рассмот­
рим общую задачу классификации с К классами на основе двоичной схемы 1 из
К для целевого вектора t. Одно из обоснований использования метода наимень­
ших квадратов в таком контексте состоит в том, что он аппроксимирует услов­

ное математическое ожидание JE[tlx] целевых значений при заданном векторе


исходных данных. Для схемы двоичного кодирования это условное ожидание

задается вектором апостериорных вероятностей. Однако, к сожалению, эти ве­


роятности, как правило, приближены довольно неточно. На самом деле, как мы
вскоре увидим, приближения могут иметь значения вне диапазона (О, 1) из-за
ограниченной гибкости линейной модели.
Каждый класс Ck описывается собственной линейной моделью, так что

(4.13)

где k = 1, ... , К. Мы можем удобно группировать их, используя векторную за­


пись, так что

(4.14)

гдеW - матрица, k-й столбец которой представляет собой D + 1-мерный вектор


W= (Wko, W k) , а Х - СООТВеТСТВУЮЩИЙ раСШИреННЫЙ вектор ИСХОДНЫХ даННЫХ
( 1, хт) т с фиктивным значением х0 = 1. Это представление подробно обсужда­
лось в разделе 3.1. Затем новый вектор исходных данных х присваивается клас-

су, для которого результат Yk =wrx является наибольшим.


Теперь мы определяем матрицу параметров W путем минимизации суммы
квадратов ошибок, как это было сделано для регрессии в главе 3. Рассмотрим
обучающее множество данных {х", где п =
1, ... , N и определим матрицу Т,
t"},
п-я строка которой является вектором t~ вместе с матрицей Х, п-я строка ко­
торой равна х~ . Затем сумму квадратов ошибок можно записать в виде

Ev (w) =~ тr{(хw-т)т (хw-т)}. (4.15)


4.1. Дискриминантные функции 259

Приравнивая производную по W к нулю и выполняя перегруппировку, мы


получим решение для Wв виде

w=(хтх( хтт=хtт, (4.16)

где xt - матрица, псевдообратная к матрице Х (с.м. раздел 3.1.1). Тогда мы


получим дискриминантную функцию в виде

(4.17)

Интересным свойством метода наименьших квадратов с несколькими целе­


выми переменными является то, что если каждый целевой вектор в обучающем
множестве удовлетворяет некоторым линейным ограничениям

атtп+Ь=О, (4.18)

для некоторых констант а и Ь, то предсказание модели для любого значения х


будет удовлетворять одному и тому же ограничению, так что (см. упраJ1сие­
ние 4.2)
(4.19)

Таким образом, если мы используем схему кодирования 1 из К для К классов,


то предсказания, сделанные моделью, обладают тем свойством, что сумма всех
элементов у(х) равна единице при любом значении х. Однако этого ограничения
недостаточно, чтобы интерпретировать выводы модели как вероятности, потому
что они не ограничены в пределах интервала (О, 1).
Метод наименьших квадратов дает точное решение для параметров дискрими­
нантной функции в замкнутой форме. Однако даже в качестве дискриминантной
функции (где мы используем ее для непосредственного принятия решений и не
используем вероятностную интерпретацию) решение связано с некоторыми серь­
езными проблемами (см. раздел 2.3. 7). Мы уже видели, что решения, полученные
с помощью метода наименьших квадратов, не обладают устойчивостью к выбро­
сам, и это в равной степени относится к задачам классификации (рис. 4.4). Здесь

мы видим, что дополнительные точки в правой части рисунка приводят к суще­


ственному изменению местоположения границы решения, хотя эти точки будут
правильно классифицированы по исходной границе решения в левой части рисун­
ка. Сумма квадратов ошибок штрафует прогнозы, которые являются правильны­
ми в том смысле, что они лежат на правильной стороне границы решения. В раз­
деле 7.1.2 мы рассмотрим несколько альтернативных функций ошибок в задачах
классификации и увидим, что они не имеют этого недостатка.
260 ГЛАВА 4. ЛИНЕЙНЫЕ МОДЕЛИ КЛАССИФИКАЦИИ

Рис. 4.4. Слева показаны данные из двух классов, обозначенных красными крестиками

и синими кружочками, граница решения, найденная по методу наименьших квадратов

(пурпурная кривая), а также по модел и логистической регрессии (зеленая кривая) ,

которая обсуждается в разделе 4.3.2. Справа приведены соответствующие результаты,


полученные при добавлении дополнительных точек в правом нижнем углу,

пока"3Ьrвающих , что метод наименьших квадратов очень чувствителен к выбросам,

в отличие от логистической регрессии

Однако, как показано на рис. 4.5, проблемы метода наименьших квадратов


могут быть более серьезными, чем просто отсутствие устойчивости. На рис. 4.5
показан искусственный набор данных, взятый из трех классов в двухмерном
пространстве (х 1 , х2 ), обладающий тем свойством, что границы линейного реше­
ния могут обеспечить отличное разделение между классами. В самом деле, ме­
тод логистической регрессии, описанный далее в этой главе, дает удовлетвори­
тельное решение (см. рис. 4.5, справа). Однако решение, полученное с помощью
метода наименьших квадратов, дает плохие результаты, и только небольшая об­
ласть исходного пространства назначается классу "зеленый".
Неудача метода наименьших квадратов не должна нас удивлять, если вспом­

нить, что он соответствует максимальному правдоподобию в предположении


о нормальном условном распределении, тогда как двоичные целевые векторы

явно имеют распределение, которое далеко от нормального. Приняв более под­


ходящие вероятностные модели, мы получим методы классификации с гораздо
лучшими свойствами, чем метод наименьших квадратов. Однако на данный мо­
мент мы продолжаем изучать альтернативные детерминированные методы зада­

ния параметров в моделях линейной классификации.


4.1. Дискриминантные функции 261

6 6
х х

4 4
xx~'fc/: xXX.'fc/:
2 хХ( ~ 2 хХ ( ЗЬ/<
хх:.; х хх:.;х

о х •*• ~о о х •*lf
~tto
х
х х

/,
1· / )(
х х

-2

-4
/
о о
0;1 -2

-4 о о
о
о

-6 -6
-6 -4 -2 о 2 4 6 --6 -4 -2 о 2 4 6
Рис. 4.5. Пример искусственного набора данных , состоящий из трех классов,

с обучающими точками, обо:шаченными красным (х), зеленым(+) и синим (0 ) цветами .

Линии обозначают rранины принятия решений, а цвета фона -- соответствующие


области принятия решений. Слева показан резул ьтат использования дискриминанпюй

функции по методу наименьших квадратов. Мы видим, что область исходного

пространства, присвоенная зеленом у классу, слишком мала, и поэтому большинство

точек этого класса классифициру ются ошибочно. Справа приведен результат

использования ло гистических регрессий, как описано в разделе 4.3.2, где показана

правильная классификация обучающих данных

4.1.4. Линейный дискриминант Фишера


Один из способов изучения линейной модели классификации состоит в ис­
следовании проблемы снижения размерности пространства. Рассмотрим сначала
случай двух классов и предположим, что мы получаем (D- 1)-мерный вектор
исходных данных х и проецируем его на одно измерение, используя формулу

(4.20)
Если мы установим порог для значения у и классифицируем точки, удовле­
творяющие условию у ~ -w0 как точки класса С1 , а в противном случае отнесем
их к классу С2 , то получим стандартный линейный классификатор, рассмотрен­
ный в предыдущем разделе. В общем случае проекция на одно измерение при­
водит к значительной потере информации, а классы, хорошо разделенные в ис­
ходном D-мерном пространстве, могут сильно перекрываться в одном измере­

нии. Однако, регулируя компоненты весового вектора w, мы можем выбрать


проекцию, которая максимизирует разделение классов. Для начала рассмотрим
262 ГЛАВА 4. ЛИНЕЙНЫЕ МОДЕЛИ КЛАССИФИКАЦИИ

проблему двух классов, в которой есть N 1 точек класса С 1 и N2 точек класса ~.


так что средние векторы этих двух классов задаются формулой

(4.21)

Простейшей мерой разделения классов при проецировании на w является раз­

деление их средних векторов. Это значит, что мы можем выбрать w, чтобы мак­

симизировать величину

(4.22)
где
т
mk = w mk (4.23)
является средним значением проецируемых данных из класса Ck. Однако это вы­
ражение можно сделать сколь угодно большим, просто увеличивая длину векто­
ра w. Чтобы решить эту проблему, можно ограничить вектор w единичной дли­
ной, так что L w; =1. Используя метод множителей Лагранжа (см. прило.же-
;
11ие Д) для осуществления максимизации с ограничениями, мы найдем, что
w ос (m2 - m1) (с.м. упраж:11еиие 4.4). Но у этого подхода по-прежнему существу­

ет недостаток, продемонстрированный на рис. 4.6. На этом рисунке показаны

два класса, которые хорошо разделены в исходном двухмерном пространстве

(х 1 , х 2 ), но имеют значительное перекрытие при проецировании на линию, со­


единяющую их средние векторы. Эта трудность возникает из-за больших внеди­
агональных значений ковариации между распределениями классов. Идея, пред­

ложенная Фишером, заключается в том, чтобы максимизировать функцию, ко­


торая даст большое разделение между проецируемыми средними векторами
классов и при этом дает небольшую дисперсию в каждом классе, тем самым ми­
нимизируя перекрытие классов.

Формула проекции (4.20) преобразует множество размеченных точек данных


в пространстве векторов х в размеченное множество в одномерном пространстве

чисел у. Таким образом, дисперсия в классе преобразованных данных из класса


ck задается формулой
(4.24)
4.1. Дискримииаитиые функции 263

4 .• .. 4
·:. '·.: .
: "·:.'.-i;'"
. .:·. :./.•':·;•. . ..• . .
·-:..: ....
2
·....... 2

-2 -2

-2 2 6 -2 2 6

Рис. 4.6. Слева показаны выборки из двух классов (изображены красным и синим

цветами) вместе с гистограммами, полученными в результате проецирования на линию,

соединяющую средние векторы классов. Обратите внимание, что в проецируемом

пространстве имеется значительное перекрытие классов. Справа показана

соответствующая nроекция на основе линейной дискриминантной функции Фишера,

обеспечивающая значительно улучшенное разделение классов

где Уп = wтх". Мы можем определить общую дисперсию в классе для всего мно­
жества данных просто как s~ + si .
Критерий Фишера определяется как отноше­
ние дисперсии между классами к дисперсии в классе и задается формулой

(4.25)

Используя формулы (4.20), (4.23) и (4.24), мы можем сделать зависимость от

w явной и переписать критерий Фишера в виде (см. упраж11е11 ие 4. 5)

(4.26)

где Sв - матрица межклассовой ковариации, и которая задается формулой

(4.27)
а Sw - объединенная матрица внутриклассовой ковариации, заданная формулой

Sw = L (хп - m1 )( хп - m1) т + L (хп


пе~
- m2 )( хп - m2 { (4.28)
пеС1

Дифференцируя (4.26) по w, получаем, что функция J(w) достигает максиму­


ма, когда
264 ГЛАВА 4. ЛИНЕЙНЫЕ МОДЕЛИ КЛАССИФИКАЦИИ

(4.29)
Из формулы (4.27) видно, что вектор
S8 w всегда направлен параллельно векто­
ру m2 - m1. Кроме того, длина вектора w не имеет значения, важно ШШIЬ его
направление, поэтому мы можем отбросить скалярные множители wтSвw и wтSww.
Умножая обе части (4.29) на sy), получим:

(4.30)

Заметим, что если внутриклассовая ковариация изотропна, так что матрица

Sw пропорциональна единичной матрице, то вектор w пропорционален разности


между средними векторами классов, как обсуждалось выше.

Результат (4.30) называется линейным дискриминантом Фишера, хотя, строго


говоря, он является не дискриминантной функцией, а скорее выбором направления
для проекции данных на одно измерение. Однако проецируемые данные впослед­
ствии могут быть использованы для построения дискриминантной функции путем
выбора порога у0 , так что мы классифицируем новую точку как принадлежащую
С 1 , если у(х) ~у0 , и классифицируем ее как принадлежащую~ в противном слу­
чае. Например, мы можем моделировать функции правдоподобия классов p(ylCJ
с помощью нормальных распределений, а затем использовать методы из разде­
ла 1.2.4, чтобы найти параметры нормальных распределений по методу макси­
мального правдоподобия. Найдя нормальные приближения к проектируемым
классам и используя формализм из раздела /. 5.1, мы получим выражение для оп-
тимального порога.
3аметив, что у
т
=w х - ~
это сумма нескольких случаиных ве-

личин, мы можем получить некоторое обоснование предположения о нормальном


распределении, проистекающее из центральной предельной теоремы.

4.1.5. Связь с методом наименьших квадратов

Подход к определению линейной дискриминантной функции, основанный на


методе наименьших квадратов, нацелен на максимальное приближение модель­
ных предсказаний к набору целевых значений. Напротив, критерий Фишера бьm
получен на основе требования максимального разделения классов в результиру­
ющем пространстве. Интересно рассмотреть взаимосвязь между этими двумя

подходами. В частности, мы покажем, что для задачи двух классов критерий

Фишера может быть получен как частный случай метода наименьших квадратов.
До сих пор мы рассматривали схему кодирования 1 из К для целевых значений.
Если же принять несколько иную схему кодирования, то решение, полученное с

помощью метода наименьших квадратов, становится эквивалентным решению


4.1. Дискриминантные функции 265

Фишера (Duda and Hart, 1973). В частности, возьмем в качестве целевого значения
для класса С 1 величину NIN1, где N1 - количество примеров в классе С1 , а N-
общее количество примеров. Это целевое значение аппроксимирует обратную
оценку априорной вероятности для класса С 1 • Для класса ~ мы положим целевое
значение равным -NIN2, где N2 - количество примеров в классе ~.
Сумму квадратов ошибок можно записать в следующем виде:

1 N Т 2
E=-L,(w xn+w0 -tn). (4.31)
2 n=I

Приравнивая производные от Е по w0 и w к нулю, получим соответственно

N
L,(wтxn +w0 -tп)=О, (4.32)
n=l

N
L,(wтxn +w0 -tп)хп =0. (4.33)
n=l

Используя выбранную схему кодирования целевых значений tn и уравнение

(4.32), получим выражение для смещения в виде


т
w0 =-w m, (4.34)

где мы использовали соотношение

(4.35)

где m- среднее значение объединенного множества данных, которое задается


формулой

(4.36)

После простых алгебраических преобразований второе уравнение (4.33) при­


нимает вид (см. упраJкнеиие 4. 6):

(sw + Ni;2 Sв )w=N(m1 -m2), (4.37)

где матрица Sw (4.28), матрица Sв - формулой (4.27),


определяется формулой
а смещение - формулой (4.34). Используя (4.27), заметим, что направление век­
тора S8 w всегда совпадает с направлением вектора m2 - m1• Таким образом, мы
можем записать:
266 ГЛАВА 4. ЛИНЕЙНЫЕ МОДЕЛИ КЛАССИФИКАЦИИ

(4.38)

где мы проигнорировали масштабные коэффициенты, которые не имеют значе­


ния. Таким образом, вектор весов совпадает с вектором, найденным по крите­
рию Фишера. Кроме того, мы также нашли выражение для смещения w0 , задан­
ного формулой (4.34). Это говорит о том, что новый вектор х следует классифи­
цировать как принадлежащий классу С 1 , если у(х) = wт(х - m) >О, и классу ~
в противном случае.

4.1.6. Дискриминант Фишера для нескольких классов

Рассмотрим теперь обобщение дискриминантной функции Фишера на случай


К> 2 классов и будем предполагать, что размерность D исходного пространства
больше, чем количество классов К. Затем введем D' > 1 линейных признаков
Yk = wi х, где k = 1, ... , D'. Эти значения признаков удобно группировать вместе,
формируя вектор у. Аналогично весовые векторы {wk} можно рассматривать как
столбцы матрицы W, так что

(4.39)

Заметим, что мы снова не включаем никаких параметров смещения в опреде­


ление у. Обобщение матрицы внутриклассовой ковариации на случай К классов
следует из (4.28):

(4.40)

где

sk = I (хп -тп)(хп -тk)т. (4.41)


пеСk

(4.42)

и Nk - количество примеров в классе Ck. Чтобы найти обобщение матрицы меж­


классовой ковариации, следуя Duda and Hart (1973), сначала рассмотрим полную
ковариационную матрицу

(4.43)

где m- среднее значение объединенного множества данных


4.1. Дискриминантные функции 267

1 N 1 К
m=- Iхп =-INkmk (4.44)
N n=I N k=I

и N=L N1c - общее количество точек данных. Полная ковариационная матри-



ца может быть разложена на сумму матрицы внутриклассовой ковариации, за-
данной формулами (4.40) и (4.41 ), и матрицы Sв, которую мы идентифицируем
как матрицу межклассовой ковариации

Sт = Sw + Sв, (4.45)
где

(4.46)

Эти ковариационные матрицы определены в исходном пространстве пере­


менных х. Теперь мы можем определить аналогичные матрицы в проецируемом
D'-мерном пространстве переменных у:

Sw = L L (уп -µ1с)(Уп -µ1с)т (4.47)


k=I neCk

и
к

Sв = LN1c(µ1c-µ)(µk -µ)т, (4.48)


k=I

где

(4.49)

Мы снова хотим найти скалярное значение, которое становится большим, ко­


гда межклассовая ковариация велика, а внутриклассовая ковариация мала.

В настоящее время существует множество возможных вариантов этого критерия

(Fukunaga, 1990). Один из примеров имеет следующий вид:

(4.50)

Этот критерий можно переписать как явную функцию матрицы проекции:

J(W) = Tr{(WтSwW)- 1 (WS 8 Wт)}. (4.51)

Максимизация таких критериев не составляет труда, хотя и несколько запутана.


Она подробно обсуждается в Fukunaga (1990). Значения весов определяются те-
268 ГЛАВА 4. ЛИНЕЙНЫЕ МОДЕЛИ КЛАССИФИКАЦИИ

ми собственными векторами S~Sв , которые соответствуют D' наибольшим соб­


ственным значениям.

Существует один важный результат, который является общим для всех таких

критериев и заслуживает особого внимания. Прежде всего заметим из (4.46), что


матрица Sв состоит из суммы К матриц, каждая из которых является векторным
произведением двух векторов и, следовательно, имеет единичный ранг. Кроме

того, в результате ограничения (4.44) только К - 1 из этих матриц являются не­


зависимыми. Таким образом, матрица Sв имеет ранг, не превышающий К -1,
и поэтому имеет не более чем К - 1 собственных значений, отличных от нуля.
Это показывает, что проекция на (К - 1)-мерное подпространство, натянутое на
собственные векторы матрицы Sв, не изменяет значения J(W), поэтому мы не
можем найти больше К-1 линейных признаков (Fukunaga, 1990).

4.1.7. Алгоритм персептрона

Другим примером линейной дискриминантной модели является персептрон


Розенблатта (1962), который занимает важное место в истории алгоритмов рас­
познавания образов. Он соответствует модели с двумя классами, в которой ис­
ходный вектор х сначала преобразуется с использованием фиксированного не­
линейного преобразования, чтобы получить вектор-функцию ф(х), а затем ис­
пользуется для построения обобщенной линейной модели вида

у(х) =/('wт ф(х)), (4.52)

где нелинейная функция активации/(·) задается ступенчатой функцией вида

{+
f (а) = 1, а ~ О,
-1,а<О.
(4.53)

Вектор ф(х), как правило, включает в себя компонент смещения ф 0 (х) = 1. В бо­
лее ранних обсуждениях задач бинарной классификации мы сосредоточились на
схеме кодирования целевых переменных, в которой t Е {О, 1}, что является под­
ходящим в контексте вероятностных моделей. Однако для персептрона более
удобно использовать целевые значения t = +1 для класса С 1 и t = -1 для класса ~'
который соответствует выбору функции активации.
Алгоритм, используемый для определения параметров персептрона w, наиболее

легко обосновывается минимизацией функции ошибок. Естественным выбором


функции ошибок бьmо бы общее количество неправильно классифицированных
примеров. Однако это не приводит к простому алгоритму обучения, поскольку
ошибка является кусочно-постоянной функцией w, причем разрывы происходят
4.1. Дискриминантные функции 269

везде, где изменение w заставляет граmщу решения проходить через одну из точек.

В этом случае методы, основанные на изменении w с использованием градиента


функции ошибок, не могут применяться, так как градиент равен нуmо почти всюду.
Поэтому мы рассматриваем альтернативную функцию ошибки, известную как
критерий персептрона. Чтобы получить ее, отметим, что мы ищем вектор весов w,
такой, что примеры Хп в классе С 1 будут удовлетворять условию wтф(хп) >О, тогда
как примеры Хп в классе Cz удовлетворяют условию "т ф(хп) < О. Использование
схемы кодирования tE{-1,+1} означает, что мы хотели бы, чтобы все примеры
удовлетворяли условию "т ф(хп)tп > О. Критерий персептрона связывает нулевую
ошибку с любым примером, который классифицирован правильно, тогда как для
ошибочно классифицированного примера Хп он пьпается минимизировать вели­
чину _"т ф(хп)tп. Следовательно, критерий персептрона определяется формулой
Ep(w)=- L "т~,tп, (4.54)
пеМ

где Фп=ф(хп) и М обозначает набор всех неправильно классифицированных


примеров. Вклад в ошибку, связанный с конкретным неправильно классифици­
рованным примером, является линейной функцией w в тех областях простран­
ства w, где пример классифицирован ошибочно и равен нулю в областях, где он
классифицирован правильно. Таким образом, полная функция ошибок является
кусочно-линейной.

Теперь применим алгоритм стохастического градиентного спуска к этой


функции ошибок (см. раздел 3.1.3). В этом случае изменение весового вектора w
определяется формулой

(4.55)

где 11- параметр скорости обучения; r- целое число, которое нумерует этапы

алгоритма. Поскольку функция персептрона у(х, w) не изменяется, если умно­


жить w на константу, мы можем установить параметр скорости обучения 17 рав­
ным единице без потери общности. Обратите внимание на то, что при измене­
нии вектора весов в ходе обучения набор неправильно классифицированных
примеров изменится.

Алгоритм обучения персептрона имеет простую интерпретацию. Мы цикличе­


ски перебираем обучающие примеры и для каждого примера Хп вычисляем функ­
цшо персептрона (4.52). Если пример классифицирован правильно, то вектор весов
остается неизменным, если же он классифицирован неправильно, то для класса С 1
добавляем вектор ф(хп) к текущей оценке весового вектора w, а для класса Cz вычи­
таем вектор ф(хп) из w. Алгоритм обучения персептрона показан на рис. 4.7.
270 ГЛАВА 4. ЛИНЕЙНЫЕ МОДЕЛИ КЛАССИФИКАЦИИ

• •
0,5

--0,5 о 0,5 --0,5 о 0,5

• •
0,5 0,5
• •

о о

- 0,5

-1~~~~~~~~~~~~~~~

-1 --0,5 о 0,5

Рис. 4.7. Сходимость алгоритма обучения персептрона, на которой показаны точки из

двух классов {красного и синего) в двухмерном пространстве признаков (ф 1 , ф 2 ). Слева

вверху показан начальный вектор параметров w, представленный в виде черной стрелки

вместе с соответствующей границей решения (черная линия), где стрелка указывает на

область принятия решения, которая классифицируется как принадлежащая к красному

классу. Точка, обведенная зеленым кружком, классифицирована ошибочно , поэтому ее

вектор-функция добавляется к текущему вектору весов, что дает новую границу

решения, показанную справа вверху. Слева внизу показана следующая ошибочная

точка, обозначенная зеленым кружком, которую следует учесть, а ее вектор-функция

снова добавляется к весовому вектору , давая границу решения, показанную справа

внизу, где все точки классифицированы правильно


4.1. Дискриминантные функции 271

Фрэнк Роэенблап
1928-1971
Персеmрон Розенблапа сыграл важную роль в исто­
рии машинного обучения. Первоначально Розенблап
моделировал персептрон на компьютере IВМ 704 в
Корнуэлле в 1957 году, но к началу 1960-х годов он

создал специальное аппаратное обеспечение, которое


обеспечивало прямую параллельную реализацию обу­
чения персептрона. Многие его идеи были изложены в
работе"Principles of Neurodynamics Perceptrons and the Theory of Brain
Mechanisms", опубликованной в 1962 году. Работа Розенблапа была под­
вергнута критике Марвином Мински, чьи возражения были опубликованы
в книге Perceptrons, написанной в соавторстве с Сеймуром Папертом. В то
время многие читатели неверно истолковали эту книгу, полагая, что

нейронные сети оказались совершенно ошибочными и могли изучать


только решения линейно разделимых задач. Фактически эта книга всего

лишь доказала такие ограничения в случае однослойных сетей, таких как


персеmрон, и ее авторы просто предположили (неправильно), что это от­
носится и к более общим сетевым моделям. К сожалению, эта книга спо­
собствовала значительному сокращению финансирования исследований
по нейронным сетям, пока в середине 1980-х годов ситуация не измени­
лась. В настоящее время в широком использовании находятся сотни, если

не тысячи, приложений нейронных сетей, причем в таких областях, как


распознавание рукописного ввода и поиск информации, они привычно ис­

пользуются миллионами людей.

Если мы рассмотрим влияние одного обновления в алгоритме обучения пер­


септрона, то увидим, что вклад в ошибку ошибочно классифицированного при­
мера будет уменьшен, r + 1 так как из (4.55) имеем:
_
W
(r+l)T..i.t =- (т)T..i.t -(""t)T..l.t
'f'n п W 'f'n п 'f'n п 'f'п п
<-W(r)T..i.t
'f'n "' (4.56)
где мы задали '1 = 1 и использовали условие 1 1 Фпtп11 2 >О. Конечно, это не означает,
что вклад в функцию ошибок от других ошибочно классифицированных приме­
ров будет уменьшен. Кроме того, изменение весового вектора могло привести к
тому, что некоторые ранее правильно классифицированные примеры стали оши-
272 ГЛАВА 4. ЛИНЕЙНЫЕ МОДЕЛИ КЛАССИФИКАЦИИ

бочно классифицированными. Таким образом, правило обучения персептрона не


гарантирует снижения общей функции ошибок на каждом этапе.
Однако теорема о сходимости персептрона утверждает, что если существу­
ет точное решение (иначе говоря, если множество обучающих данных является
линейно разделимым), то алгоритм обучения персептрона гарантированно
найдет точное решение за конечное количество шагов. Доказательства этой тео­
ремы можно найти, например, в RosenЫatt (1962), Block (1962), Nillson (1965),
Minsky and Pappert (1969), Hertz et al. (1991) и Bishop (1995а). Обратите внима­
ние, однако, что количество шагов, необходимых для достижения сходимости,
по-прежнему может быть значительным, и на практике, до тех пор, пока не бу­
дет достигнута сходимость, мы не сможем провести различие между нераздели­

мой задачей и задачей, у которой процесс обучения просто медленно сходится.


Даже если набор данных является линейно разделимым, может существовать
много решений, каждое из которых будет зависеть от инициализации парамет­
ров и порядка представления точек. Кроме того, для множеств данных, которые
не являются линейно разделимыми, алгоритм обучения персептрона никогда не
сходится.

Помимо трудностей с алгоритмом обучения, персептрон не дает вероятност­


ных выходов и не легко обобщается на К > 2 классов. Наиболее важное ограни­
чение, однако, связано с тем, что (как и все модели, рассмотренные в этой
и предыдущей главе) он основан на линейных комбинациях фиксированных ба­
зиснь~х функций. Более подробные обсуждения ограничений персептронов
можно найти в работах Minsky and Papert (1969) и Bishop (1995а).
Аналоговые аппаратные реализации персептрона бьmи построены Розенблат­
том на основе моторизованных переменных резисторов для реализации адаптив­

ных параметров w1 (рис. 4.8). Исходные данные были получены с помощью про­
стой системы камер, основанной на массиве фотодатчиков, тогда как базисные
функции ф можно бьmо выбирать различными способами, например, в виде про­
стых фиксированных функций от случайно выбранных подмножеств пикселей
исходного изображения. Типичные приложения включали обучение распознава­
нию простых фигур или символов.
Одновременно с развитием персептрона Уидроу и его коллеги изучали тесно
связанную с ним систему - адалайн (adaline) (сокращение от "адаптивный ли­
нейный элемент"). Функциональная форма модели была такой же, как и для пер­
септрона, но для нее был принят другой подход к обучению (Widrow and Hoff,
1960; Widrow and Lehr, 1990).
4.2. Вероятностные порождающие модели 273

Рис. 4.8. Аппаратура персептрона Mark 1. На фотографии слева показано , как были

получены входные данные с использованием простой камеры, в которой исходная

сцена, в данном случае печатный символ, освещалась мощными источниками света,

а изображение фокусировалось на 20-миллиметровом массиве фотоэлементов из

сульфида кадмия, давая примитивное 400-пикселыюе изображение. Персептрон также

имел коммутационную панель, показанную на средней фотографии, которая позволяла

проверять различные конфигурации исходных признаков. Часто они были собраны

случайным образом, чтобы продемонстрировать способность персептрона у читься без

необходимости точной наладки, в отличие от современного цифрового компьютера. На

фотографии справа показана одна из стоек адаптивных весов. Каждый вес был

реализован с использованием вращающегося переменного резистора, также называемого

потенциометром, приводимым в движение электродвигателем, что позволяет

автоматически регулировать значение веса с помощью алгоритма обучения

4.2. Вероятностные порождающие модели


Перейдем к вероятностному взгляду на классификацюо и покажем, как модели
с линейными границами решений возникают из простых предположений о распре­
делении данных. В разделе 1.5.4 мы обсудили различие между дискриминанrnым
и порождающим подходами к классификации. Здесь мы примем порождающий
подход, в котором моделируем условную по классу плоrnость вероятности p(x!Ck),
а также априорные вероятности классов р(Ck), а затем используем их для вычисле­
ния апостериорных вероятностейр(Сk lх) с помощью теоремы Байеса.
Рассмотрим прежде всего случай двух классов. Апостериорная верояrnость
для класса С 1 может быть записана как

Р (с; х) -
1 р ( xl с; )р (с; ) =
- p(xlc;)p(c;)+ p(xlc;)p(C2 )
(4.57)
1
=1+ ехр (-а) =О" (а)'
274 ГЛАВА 4. ЛИНЕЙНЫЕ МОДЕЛИ КЛАССИФИКАЦИИ

где мы определили

а = ln Р ( xJ Ci) Р ( Ci) (4.58)


p(xJ~)p(~)
и ст(а) - логистическая сигмоида, определяемая формулой

1
ст(а)= l+exp(-a) (4.59)

и изображенная на рис. 4.9. Термин "сигмоида" означает S-образную форму.


Этот тип функции иногда также называют функцией сжатия (squashing
function), потому что он отображает всю действительную ось в конечный интер­
вал. Логистическая сигмоида уже встречалась в предыдущих главах. Она играет

важную роль во многих алгоритмах классификации и, как легко проверить, удо­


влетворяет следующему свойству симметрии:

ст(-а) =1- ст( а). (4.60)

Обратная логистическая сигмоида определяется выражением

а= ln(_!!._)
1-ст
(4.61)

и называется логит-функцией. Она представляет собой логарифм отношения ве­


роятностей ln[p(C1 1 х)/р(С2 1 х)] для двух классов, также известный как логарифм
отношения шансов (log odds).

Рис. 4.9. График л огистич ес кой сигмоиды ст(а), определяемой (4.59), показ анный
красным цветом, вместе с масштабированной обратной пробит-функцией Ф(м),
для Л 2 = л/8, показанной пунктирной синей линией, где Ф(а) определяется
формул ой (4.114). М асштабный множител ь л/8 выбирается так ,

что бы производны е двух кривых был и равны при а = О


4.2. Вероятностные порождающие модели 275

Заметим, что в (4.57) мы просто переписали апостериорные вероятности в эк­


вивалентной форме, и поэтому появление логистической сигмоиды может пока­
заться довольно незначительным фактом.
Однако это будет иметь значение, если а(х) принимает простую функцио­
нальную форму. Вкратце рассмотрим ситуации, когда а(х) является линейной
функцией от х, и в этом случае апостериорная вероятность определяется обоб­
щенной линейной моделью. Для случая К> 2 классов имеем функцию

р ( ck 1х) = р ( xl ck )р ( ck ) =
LP( xjC; )Р( с})
j
(4.62)

которая называется нормированной экспонентой и может рассматриваться как


многоклассовое обобщение логистической сигмоиды. Здесь величины ak опреде­
ляются формулой
(4.63)

Нормализованная экспонента также известна как функция softmax, так как она
представляет собой сглаженную версию функции max, поскольку, если ak » а1
для всех} '1= k, то p(Cklx):::: 1 и р(С1 1х):::: О.
Теперь мы исследуем последствия выбора конкретных форм для функций
правдоподобия классов, рассмотрев сначала непрерывные исходные перемен­
ные х, а затем кратко обсудив случай дискретных исходных данных.

4.2.1. Непрерывные исходные данные

Предположим, что условная плотность вероятности при фиксированном классе


является ruютностью нормального распределения, а затем исследуем полученную

форму для апостериорных вероятностей. Для начала предположим, что все классы
имеют одну и ту же ковариационную матрицу. Таким образом, условная плот­
ность вероятности при фиксированном классе ck задается формулой
(4.64)

Рассмотрим сначала случай двух классов. Из (4.57) и (4.58) имеем:

т
р(С 1 1х) = a(w х + w0), (4.65)
276 ГЛАВА 4. ЛИНЕЙНЫЕ МОДЕЛИ КЛАССИФИКАЦИИ

где мы определили

w = I:-1(µ1 - µ,_), (4.66)

w = _]._ Jltт"E.-tJJi + ]._ µJ"I:.-1 µ,_ + ln Р { Ci). (4.67)


о 2 2 р(с;)

Мы видим, что квадратичные члены по х из показателей нормальных плотно­

стей исчезли (из-за предположения об общих ковариационных матрицах), что


привело к линейной функции по х в аргументе логистической сигмоидальной

функции. Этот результат проиллюстрирован для случая двухмерного пространства


исходных данных х на рис. 4.1 О. Результирующие границы решений соответству­
ют поверхностям, вдоль которых апостериорные вероятности p(Ckix) постоянны и
потому будут задаваться линейными функциями от х, поэтому границы решения
являются линейными в исходном пространстве. Априорные вероятности р( Ck) вво­
дятся только через параметр смещения w0 , так что изменения априорных вероят­

ностей влияют на параллельные переносы границы решения и, в более общем


плане, на параллельные контуры постоянной апостериорной вероятности .

.....
.....·
0,4

0,3 0,8

0,2 0,6

.... .
0,4
0,1 ~.

0,2
о
-] о
о -1
1-1

Рис. 4.10. Слева показаны графики функций правдоподобия двух классов,

обозначенные красным и синим цветом. Справа показана соответствующая

апостериорная вероятность р(С 1 lx), которая задается логистической сигмоидой


линейной функции от х. Поверхность на рисунке справа окрашена с использованием

доли красных чернил, определяемой вероятностью р(С 1 lx), и доли синих чернил,
определяемой вероятностью p(C2 ix) = 1 - р(С 1 lx)

Для общего случая К классов из (4.62) и (4.63) следует:

(4.68)
4.2. Вероятностные порождающие модели 277

где мы определили

(4.69)

(4.70)

Мы видим, что функции ak(x) являются линейными относительно х в резуль­


тате аннулирования квадратичных слагаемых из-за общих ковариаций. Резуль­

тирующие границы решений, соответствующие минимальной частоте непра­


вильной классификации, будут иметь место, когда две из апостериорных веро­
ятностей (две наибольшие) будут равны и потому будут определены линейными
функциями от х, поэтому мы снова имеем обобщенную линейную модель.
Если мы ослабим предположение об общей ковариационной матрице и раз­
решим каждой условной по классу плотности p(xjCk) иметь свою собственную
ковариационную матрицу :I:k, то сокращения больше не будут выполняться и мы
получим квадратичные функции от х, что приведет к квадратичному дискрими­
нанту. Границы линейных и квадратичных решений показаны на рис. 4.11.

2,5 2,5
2 2
1,5 1,5

@
0,5 0,5
о о

©
-0,5 -0,5
-1 -1
-1,5 -1,5
-2 -2
-2,5 -2,5
-2 -1 о 2 -2 -1 о 2

Рис. 4.11. Слева показаны функции правдоподобия трех классов, каждый из которых

имеет нормальное распределение, - красный, зеленый и синий, причем красный

и зеленый классы имеют одну и ту же ковариационную матрицу. Справа показаны

соответствующие апостериорные вероятности, в которых вектор цвета RGB


представляет апостериорные вероятности для соответствующих трех классов.

Кроме того, на рисунке показаны границы принятия решений. Обратите внимание,

что граница между красными и зелеными классами, которые имеют одну

и ту же ковариационную матрицу, является линейной, тогда как границы

между другими парами классов являются квадратичными


278 ГЛАВА 4. ЛИНЕЙНЫЕ МОДЕЛИ КЛАССИФИКАЦИИ

4.2.2. Решение по методу максимального правдоподобия


Указав параметрическую функциональную форму для условной по классу
плотности вероятности p(xlCk), мы можем определить значения параметров вместе
с априорными вероятностями класса р( Ck) с помощью принципа максимального
правдоподобия. Для этого требуется набор данных, содержащий наблюдения за
переменной х вместе с соответствующими метками классов.

Рассмотрим сначала случай двух классов, каждый из которых имеет нор­


мальную условную по классу плотность вероятности с одной и той же ковариа­

ционной матрицей, и предположим, что мы имеем набор данных {хт tп}, где
п = 1, ... , N. Здесь tn = 1 обозначает класс С 1 , а tn =О - класс С2 • Обозначим апри­
орную вероятность класса р(С 1 ) = 1i, так что р(~) = 1-tт. Для точки Хп из класса
С 1 имеем tn = 1 и, следовательно,

Аналогично для класса С2 имеем tn = О и, следовательно,

Таким образом, функция правдоподобия определяется формулой

N
Р( t,Xl1i,Jli,µ2,I:) =П[ 1iN( xnlJli,I:)J" [ (1-tт )N( xпl~,I:)J- 1", (4.71)
n=I

где t = (t1, ••• , tN)т. Как обычно, удобно максимизировать логарифм функции
правдоподобия. Рассмотрим сначала максимизацию по tт. Слагаемые функции
логарифмического правдоподобия, зависящие от 1Т, имеют вид

N
L {tn ln1i + (1-tn )ln(l-tт)}. (4.72)
n=I

Приравнивая производную по 1iK нулю и переставляя слагаемые, получим:


tт=_!_ ft = N1 = N1 (4.73)
N n=I п N N1 + N2 '

где N1 - общее количество точек в классе С 1 , а N2 - общее количество точек в


классе ~- Таким образом, оценка максимального правдоподобия для 1i - это
просто доля точек в классе С 1 , как и ожидалось. Этот результат легко обобщает­
ся на многоклассовый случай, где снова оценка максимального правдоподобия
4.2. Вероятностные порождающие модели 279

априорной вероятности, связанная с классом Ck, определяется долей обучающих


точек, присвоенных этому классу (см. ynpaJ1c11eu11e 4.9).
Теперь рассмотрим максимизацию по µ 1• Снова мы можем выбрать из функ-
ции логарифмического правдоподобия те члены, которые зависят от µ 1:
N 1 N Т -1
~)п lnN(xпlµ.,!:) =- .~)п (хп -µ.) !: (хп -µ.) + const. (4.74)
п~ 2п~

Приравнивая производную по µ1 к нулю и переставляя слагаемые, получим


значение

(4.75)

которое является средним для всех исходных векторов х"' назначенных клас­

су С 1 . Рассуждая аналогично, можно получить соответствующий результат для


значения

(4.76)

которое снова является средним для всех исходных векторов х"' назначенных

классу С2 • Наконец, рассмотрим решение максимального правдоподобия для


общей ковариационной матрицы I:. Выбирая члены функции логарифмического
правдоподобия, зависящие от I:, имеем:
1 N 1 N Т
-- ~)п lnl!:I-- ~)п (Хп - Jli) !:-I (Хп - µ. )-
2 n=I 2 n=I

-~ ~(1-tn )lnl!:I-~ ~(1-tn )( Хп - µ2 )Т !:-! (Хп - µ1) = (4.77)

=- ~ lnl!:I- ~ тr{I:- 1 s},


где мы определили

S= NI
N
s t
+ N2
N
s2• (4.78)

sl =-1 I(хп -µ.)(хп -µ.)т, (4.79)


NI пеС1

S2 =1- L(хп -µ2)(хп - ~)т · (4.80)


N2 пе~
280 ГЛАВА 4. ЛИНЕЙНЫЕ МОДЕЛИ КЛАССИФИКАЦИИ

Используя стандартную оценку максимального правдоподобия для нормаль­


ного распределения, мы видим, что I: = S и представляет собой средневзвешен­
ное количество ковариационных матриц, связанных с каждым из двух классов

отдельно.

Этот результат легко распространяется на задачу с К классами для получения

соответствующих оценок максимального правдоподобия для параметров, в ко­


торых каждая условная по классу плотность вероятности является плотностью

нормального распределения с одной и той же ковариационной матрицей

(см. упра;нс11е11ие 4.10). Заметим, что подход, основанный на приближении нор­


мальных распределений для классов, неустойчив к выбросам, поскольку оценка
максимального правдоподобия для нормального распределения не является ро­
бастной (с.JН. раздел 2.3. 7).

4.2.3. Дискретные признаки

Рассмотрим теперь случай дискретных признаков Х;. Для простоты начнем с


бинарных значений функций Х; Е {О, 1}, а затем кратко обсудим более общий

случай. Если дано D исходных точек, то общее распределение будет соответ­


ствовать таблице из 2D чисел для каждого класса, содержащей 2D-1 независимых
переменных (из-за ограничения, что сумма вероятностей должна равняться еди­
нице). Поскольку эта величина экспоненциально растет с увеличением количе­

ства функций, мы можем искать более ограниченное представление (см. раз­


дел 8.2.2). Здесь мы сделаем наивное предположение Байеса, в котором значения
признаков рассматриваются как независимые при условии класса Ck. Таким об­
разом, имеем функции правдоподобия классов:

D
Р( x!Ck) =Пµ~ (1- µю )1-х;' (4.81)
i=l

которые содержат D независимых параметров для каждого класса. Подставляя


(4.81) в (4.63), получим
D
ak ( х) = L {Х; ln µld + (1- Х;) ln (1- µld)} + ln р ( ck ), (4.82)
i=l

которые снова являются линейными функциями от исходных значений Х;. Для


случая К= 2 классов мы можем альтернативно рассмотреть логичестическую

сигмоиду, заданную формулой (4.57). Аналогичные результаты можно получить

для дискретных переменных, каждый из которых может принимать М > 2 значе­

ний (('М. упраж11е11ие 4.11).


4.3. Вероятностные дискриминантные модели 281

4.2.4. Экспоненциальное семейство

Как мы видели, как для нормально распределенных, так и для дискретных ис­

ходных данных вероятности апостериорных классов задаются обобщенными


линейными моделями с логистическими сигмоидами (К= 2) или функциями ак­

тивации softmax (К~ 2). Это частные случаи более общего результата, получен­
ного при условии, что условные по классу плотности вероятности p(xlCk) при­
надлежат экспоненциальному семейству распределений. Используя форму
(2.194) для членов экспоненциального семейства, видим, что распределение х
можно записать в виде

р (xl Лk ) = h ( х) g (Лk ) ехр {ЛJ u ( х)}. (4.83)

Теперь мы ограничимся подклассом таких распределений, для которых

u(x) = х. Затем воспользуемся формулой (2.236), чтобы ввести параметр мас­


штабирования s, так что получим ограниченный набор экспоненциальных функ­

ций правдоподобия классов:

p(xlЛk,s) =~h(~x )g(Лk )ехр{~лJх }· (4.84)

Обратите внимание на то, что мы разрешаем каждому классу иметь соб­


ственный вектор параметров Л k• но предполагаем, что классы имеют один и тот
же параметр масштаба s.
В задаче бинарной классификации мы подставляем это выражение для услов­
ной по классу плотности вероятности в уравнение (4.58) и видим, что апостери­

орная вероятность класса снова задается логистической сигмоидой, действую­


щей на линейную функцию

(4.85)

Аналогично для задачи с К классами подставим условную плотность вероят­


ности при фиксированном классе в (4.63) и получим функцию

ak (х) =~ЛJх + lng(Лk) + lnp( Ck), (4.86)

которая снова является линейной функцией от х.

4.3. Вероятностные дискриминантные модели


Мы видели, что апостериорная вероятность класса С 1 в задаче классификации
с двумя классами может быть записана как логистическая сигмоида, действую-
282 ГЛАВА 4. ЛИНЕЙНЫЕ МОДЕЛИ КЛАССИФИКАЦИИ

щая на линейную функцию х при широком выборе условной плотности вероят­


ности при фиксированном классе p(xlCk). Аналогично для случая многих классов
апостериорная вероятность класса Ck задается преобразованием softmax линей­
ной функции от х. Делая конкретный выбор условной по классу плотности ве­
роятности p(xlCk), мы применяли принцип максимального правдоподобия для
определения их параметров, а также параметров априорных вероятностей клас­
сов p(Ck), а затем использовали теорему Байеса для определения апостериорных
вероятностей классов.
Альтернативный подход заключается в явном использовании функциональ­
ной формы обобщенной линейной модели и непосредственном определении ее
параметров с использованием принципа максимального правдоподобия. Как мы
увидим, для поиска таких решений существует эффективный алгоритм, который
называется методом наименьших квадратов с итеративным пересчетом весов
(lterative Reweighted Least Squares - IRLS).
Косвенный подход к нахождению параметров обобщенной линейной модели
путем приближения условной по классу плотности вероятности и априорных ве­
роятностей классов по отдельности с последующим применением теоремы Байе­
са представляет собой пример порождающего моделирования, поскольку мы
могли бы взять такую модель и сгенерировать искусственные данные, извлекая
значения х из генеральной совокупности с маргинальным распределением р(х).
В рамках прямого подхода мы максимизируем функцию правдоподобия, опре­
деленную условным распределением p(Cklx). Этот метод представляет собой
форму дискриминантного обучения. Одним из преимуществ дискриминантноrо
подхода является то, что, как мы вскоре увидим, он позволяет использовать

меньше регулируемых параметров. Это может также привести к повышению

прогностической ценности модели, особенно когда предположения об условной


по классу плотности вероятности дают плохое приближение к истинным рас­

пределениям.

4.3.1. Фиксированные базисные функции


До сих пор в этой главе мы рассматривали модели классификации, которые
работают непосредственно с исходным вектором х. Однако все эти алгоритмы
одинаково применимы, если мы сначала выполним фиксированное нелинейное
преобразование исходных данных с использованием вектора базисных функ­
ций ф(х). Результирующие границы решения будут линейными в пространстве
признаков ф. Они соответствуют границам нелинейного решения в исходном
пространстве х, как показано на рис. 4.12. Классы, линейно разделяемые в про-
4.3. Вероятностные дискрнминантные модели 283

странстве признаков ф(х), не обязательно должны быть линейно разделимыми


в исходном пространстве наблюдений х . Заметим, что, как и в нашем обсужде­
нии линейных регрессионных моделей, одна из базисных функций обычно зада­
ется константой, например ф 0 (х) = 1, так что соответствующий параметр w 0 иг­
рает роль смещения. В оставшейся части этой главы мы будем рассматривать
преобразование с фиксированной базисной функцией ф(х), так как это позволит
подчеркнуть некоторые полезные сходства с регрессионными моделями, рас­

смотренными в главе 3.

..
.,..-".. .

.. '1 ..,,
· ~"·
••

~~,
.••ta~:
" . .
...
Ф2 •
• •
Х2
• • •
. ~ · J, •
~"
о
• ...1..•"..1"'#-.""•
• 1.· ~": 0,5
1 '·
• 1\
• ••
" .., 1• . .,..1
-1 .........
• ~ .".to
~- .

"
\
о
• • •
-1 о
Х1
о 0,5 Ф1

Рис. 4.12. Роль нелинейных базисных функций в моделях линейной классификации.

Слева показано исходное пространство (х 1 , х 2 ) вместе с точками из двух классов,

обозначенных красным и синим цветом. В этом пространстве опред елены две

гауссовских базисных функции , ф 1 (х) и ф 2 (х), с центрами, обозначенными зелеными


крестиками, и контурами, обозначенными зелеными кружочками. Справа показано

соответствующее пространство признаков ( ф 1, ф 2 ) вместе с границей линейного


решения, полученной с помощью модели логистической регрессии в форме ,

обсуждаемой в разделе 4.3.2. Она соответствует границе нелинейного решения

в исходном пространстве , показанной 1 1срной кривой на рисунке слева

Во многих задачах, представляющих практический интерес, между условны­

ми по классу плотностями вероятности p(xlCk) существует значительное пере­


крытие . Это соответствует апостериорным вероятностям p(Cklx), которые, по
крайней мере, для некоторых значений х, не равны О или 1. В таких случаях оп­
тимальное решение получается путем точного моделирования апостериорных

вероятностей с последующим применением стандартной теории решений, рас-


284 ГЛАВА 4. ЛИНЕЙНЫЕ МОДЕЛИ КЛАССИФИКАЦИИ

смотренной в главе 1. Заметим, что нелинейные преобразования ф(х) не могут


ликвидировать такое перекрытие классов. На самом деле они могут еще больше
увеличить степень перекрытия или даже создать перекрытие, которого в исход­

ном пространстве наблюдений не бьшо. Однако подходящий выбор нелинейных


функций может облегчить процесс моделирования апостериорных вероятностей.
Такие модели с фиксированной базисной функцией имеют важные ограниче­
ния. В последующих главах они будут сняты, что позволит адаптировать базис­
ные функции к данным (см. раздел 3.6). Несмотря на эти ограничения, модели с
фиксированными нелинейными базисными функциями играют важную роль в
приложениях, и обсуждение таких моделей приведет к появлению многих клю­
чевых понятий, необходимых для понимания их более сложных аналогов.

4.3.2. Логистическая регрессия

Начнем рассмотрение обобщенных линейных моделей с задачи бинарной


классификации. Обсуждая порождающие подходы в ра1деле 4.2, мы видели, что
при довольно общих предположениях апостериорная вероятность класса С 1 мо­
жет быть записана как логистическая сигмоида, действующая на линейную
функцию, зависящую от вектора признаков ф, так что

(4.87)

и р(~lф) = 1- р(С 1 1ф). Здесь аО - логистическая сигмоида, определяемая фор­


мулой (4.59). В статистической литературе эта модель называется логистической
регрессией, хотя следует подчеркнуть, что это модель классификации, а не ре­

грессии.

В М-мерном пространстве признаков ф эта модель имеет М настраиваемых


параметров. Напротив, если бы мы приближали нормальные условные по классу
плотности вероятности с помощью принципа максимального правдоподобия, то

использовали бы 2М параметров для математических ожиданий и М(М + 1)/2 па­


раметров для (общей) ковариационной матрицы. Вместе с априорной вероятно­
стью класса р(С 1 ) это дает общее количество параметров, которое равно
М(М + 5)/2 + 1 и растет квадратично с увеличением М, в то время как в логисти­
ческой регрессии количество параметров линейно зависит от М. При больших
значениях М непосредственная работа с моделью логистической регрессии дает
явное преимущество.

Теперь мы используем принцип максимального правдоподобия для опреде­


ления параметров модели логистической регрессии. Для этого воспользуемся
4.3. Вероятностные днскримннантные модели 285

производной логистической сигмоиды, которую удобно выразить в терминах


самой сигмоиды (см. ynpaJtmeнue 4.12):

da
-=а(1-а). (4.88)
da

Для набора данных {ф",t"}, где tпЕ{О, 1}, фN=ф(хп) и п= 1, ... ,N, функция
правдоподобия может быть записана в виде

N
р ( tl w) = п у~· {1- у п} н. ' (4.89)
n=I

где t=(t 1, ••• , tN)т иуп=р(С 1 1фN). Как обычно, мы можем определить функцию
ошибок, взяв отрицательный логарифм вероятности и построив функцию пере­
крестной энтропии в виде

N
Е( W) = -lnp(tlw) = - L {tn lnyn + (1-tп )!n(l- Уп )}, (4.90)
n=I

где Уп = а(ап) и ап = wт Фп· Вычисляя градиент функции ошибок относительно w и


применяя формулу (4.88), получим (см. упражнение 4.13):

N
VE(w)= L(Уп -tп)9t. (4.91)
n=I

Как видим, множитель, связанный с производной логистической сигмоиды, ис­


чез, что приводит к упрощенной форме для градиента логарифмической функ­
ции правдоподобия. В частности, вклад в градиент от точки п задается "ошиб­
кой", т.е. разностью Уп-tп между целевым значением и прогнозом модели, умно­
женным на базисную вектор-функцию Фп· Кроме того, сравнение с (3.13) пока­
зывает, что это выражение имеет точно такой же вид, как и градиент суммы

квадратов ошибок (см. раздел 3.1.1) в модели линейной регрессии.


При желании мы могли бы использовать результат (4.91), чтобы построить
последовательный алгоритм, в котором примеры представляются по одному и

каждый из весовых векторов обновляется с использованием (3.22), где VЕп явля­


ется п-м членом в (4.91).
Стоит отметить, что применение принципа максимального правдоподобия
может привести к значительному переобучению на линейно разделимых набо­
рах данных. Это связано с тем, что оценка максимального правдоподобия дости­

гается, когда гиперплоскость, соответствующая а= 0,5, что эквивалентно усло­


вию wт ф = О, разделяет два класса, а величина w стремится к бесконечности. В
286 ГЛАВА 4. ЛИНЕЙНЫЕ МОДЕЛИ КЛАССИФИКАЦИИ

этом случае логистическая сигмоида в пространстве признаков становится бес­


конечно крутой и превращается в ступенчатую функцию Хевисайда, так что
каждой обучающей точке от каждого класса k назначается апостериорная веро­
ятность p(Cklx) = 1 (см. упраж11е11ие 4.14). Кроме того, существует, как правило,
континуум таких решений, потому что любая разделительная гиперплоскость
будет приводить к одним и тем же апостериорным вероятностям в обучающих
точках (рис. 10.13). Принцип максимального правдоподобия не дает возможно­
сти отдать предпочтение одному из таких решений, и какое именно решение бу­
дет найдено на практике, зависит от выбора алгоритма оптимизации и от иници­
ализации параметра. Обратите внимание, что эта проблема возникнет, даже при
условии что количество точек велико по сравнению с количеством параметров

в модели, если обучающее множество данных является линейно разделимым.


Сингулярности можно избежать, включив априорное распределение и найдя
МАР-решение для w или, эквивалентно, добавив к функции ошибок реrуляризи­
рующий член.

4.3.3. Метод наименьших квадратов


с итеративным пересчетом весов

В случае моделей линейной регрессии, рассмотренных в главе 3, оценка мак­


симального правдоподобия в предположении о гауссовской модели шума при­
водит к решению в замкнутой форме. Это является следствием квадратичной за­
висимости логарифмической функции правдоподобия от вектора параметров w.
Для логистической регрессии замкнутого решения больше не существует из-за
нелинейности логистической сигмоиды. Однако отклонение от квадратичной

формы не является существенным. Точнее говоря, как мы вскоре увидим, функ­


ция ошибок является выпуклой и, следовательно, имеет единственный минимум.
Кроме того, функцию ошибок можно минимизировать с помощью эффективного
итерационного метода, основанного на схеме итеративной оптимизации Ньюто­
на-Рафсона, которая использует локальную квадратичную аппроксимацию ло­
гарифмической функции правдоподобия. Итерация метода Ньютона-Рафсона
для минимизации функции E(w) имеет следующий вид (Fletcher, 1987; Bishop
and Nabney, 2008):
11(new) = 11(old) _ Н-IVE(w), (4.92)
где Н - матрица Гессе, элементы которой включают в себя вторую производ­
ную от E(w) по компонентам w.
4.3. Вероятностные дискриминантные модели 287

Прежде всего применим метод Ньютона-Рафсона к модели линейной регрес­


сии (3.3) с суммой квадратов ошибок (3.12). Градиент и гессиан этой функции
ошибок задаются формулой

N
VE{w) = L(wтфп -tп)Фп =ФТФw-Фтt, (4.93)
n=l

N
H=VVE{w)= LФпФ} =ФтФ, (4.94)
n=l
где Ф - матрица плана N х М, п-я строка которой задается вектором Ф:
(см. раздел 3.1.1). Итерация метода Ньютона-Рафсона принимает вид

w<пew) = w(old) _ (ФтФ)-1 {ФтФw(оld) _ Фтt} =


= (ФтФ)- 1 Ф\ (4.95)
в котором легко узнать стандартное решение по методу наименьших квадратов.

Заметим, что функция ошибок в этом случае является квадратичной и, следова­


тельно, формула Ньютона-Рафсона дает точное решение за один шаг.
Теперь применим итерацию Ньютона-Рафсона к функции перекрестной эн­
тропии (4.90) для модели логистической регрессии. Из (4.91) видно, что гради­
ент и гессиан этой функции ошибок задаются формулой

N
VE{w)= L(Уп -tп)t =ФТ(у-t), (4.96)
n=l
N
H=VVE{w)= LУп(1-уп)ttт =ФТRФ, (4.97)
n=I

где мы использовали формулу (4.88). Кроме того, мы ввели диагональную мат­


рицу R размерности N х N с элементами:
Rnn = Уп(l - Уп). (4.98)

Мы видим, что гессиан уже не является постоянной матрицей, а зависит от w че­


рез весовую матрицу R, что соответствует тому факту, что функция ошибок
больше не является квадратичной. Используя свойство О
< Уп < 1, которое следу­
ет из формы логистической сигмоиды, мы видим, что uтHu >О для произволь­
ного вектора u, поэтому матрица Гессе Н положительно определена. Отсюда
следует, что функция ошибок является выпуклой функцией от w и, следователь­
но, имеет единственный минимум (с.~. упра:жиеиие 4. 15).
288 ГЛАВА 4. ЛИНЕЙНЫЕ МОДЕЛИ КЛАССИФИКАЦИИ

Итак, итерация Ньютона-Рафсона для модели логистической регрессии при­


нимает следующий вид:

.,,<пеw) = .,,<old) -(ФтRФ)-1Фт(у-t) =


= (ФтRФ)- 1 {ФтRФw<old) -Фт(у-t)} = (4.99)
= (ФтRФ)- 1 ФтRz,

где z- N-мерный вектор с элементами

Z= Фw(old) - R- 1(y - t). (4.100)

Мы видим, что формула итерации (4.99) принимает вид системы нормальных


уравнений для задачи наименьших квадратов с весами. Поскольку матрица ве­
сов R не является постоянной, а зависит от вектора параметров w, мы должны

применять нормальные уравнения итеративно, каждый раз используя новый весо­

вой вектор w для вычисления уточненной матрицы весов R. По этой причине этот
алгоритм называется методом наименьших квадратов с итеративным пересче­
том весов, или IRLS (iterative reweighted least squares) (RuЬin, 1983). Как и в задаче
наименьших квадратов с весами, элементы диагональной весовой матрицы
R можно интерпретировать как дисперсии, поскольку математическое ожидание
и дисперсия переменной t в модели логистической регрессии задаются формулами

E[t] = ст(х) =у, (4.101)

2 2 ( 2
var[t] = 111'
.1Г..1[t ] - E[t] = ст х) - ст(х) = y(l - у), (4.102)

где мы использовали свойство t 2 = t для t Е {О, 1}. Фактически мы можем интер­


претировать метод IRLS как решение линеаризованной задачи в пространстве
переменной а = .,,т ф. Тогда величину Zn, соответствующую п-му элементу векто­
ра z, можно интерпретировать как эффективное целевое значение в этом про­
странстве, полученное путем локального линейного приближения к логистиче-
v
скои сигмоиде в окрестности текущего при
6лижения w~~ :

(4.103)
4.3. Вероятностные дискримннантные модели 289

4.3.4. Многоклассовая логистическая регрессия

В нашем обсуждении порождающих моделей для задач классификации с не­


сколькими классами мы видели, что для многих распределений апостериорные
вероятности задаются преобразованием softmax линейных функций, зависящих
от признаков, так что (см. раздел 4.2)

(4.104)

где функции активации задаются формулой

ak =wr;. (4.105)

Там мы использовали принцип максимального правдоподобия для определения


условных по классу плотностей вероятности и априорных вероятностей классов
по отдельности, а затем нашли соответствующие апостериорные вероятности с

помощью теоремы Байеса, тем самым неявно определив параметры {wk}· Здесь
мы рассмотрим использование принципа максимального правдоподобия для
непосредственного определения параметров {wk} этой модели. Для этого нам
понадобятся производные от Yk по всем а1 (c,w. упра:щнеиие 4.17). Они опреде­
ляются формулой

(4.106)

где IkJ - элементы единичной матрицы.


Далее запишем функцию правдоподобия. Это проще всего сделать с исполь­
зованием схемы кодирования 1 из К, в которой целевой вектор tn для вектора
признаков Фп, принадлежащего классу ck, представляет собой двоичный вектор,
в котором все элементы равны нулю за исключением элемента k, равного едини­
це. Тогда функция правдоподобия определяется формулой

(4.107)
n=I k=I n=I k=I

где Упk =у~ ф,,), а Т - матрица N х К целевых переменных с элементами tnk· Вы­
числяя отрицательный логарифм, получим функцию ошибок:

N К

Е{ w1" .. , Wк) = -ln p(Tlwl>"" Wк)= - L~)nk lnynk, (4.108)


n=I k=I
290 ГЛАВА 4. ЛИНЕЙНЫЕ МОДЕЛИ КЛАССИФИКАЦИИ

которая называется перекрестной энтропией для задачи многоклассовой клас­


сификации.
Теперь вычислим градиент функции ошибок по одному из векторов парамет­
ров w1. Используя результат (4.106) для производных функции softmax (см. упра­
:шпен ие 4. 18), получим:

N
У' " 1E(w1,···•WK) =L(YnJ -tnJ )Фп, (4.109)
n=I

где мы использовали условие ~)пk =1 . И снова мы видим ту же форму градиента,


k
что и для суммы квадратов ошибок в линейной модели и перекрестной энтропии
в модели логистической регрессии, а именно произведение ошибки (уп 1 -tп;) на
вектор признаков ф". Этот факт можно использовать, чтобы сформулировать по­
следовательный алгоритм, в котором примеры представляются по одному и каж­

дый из весовых векторов уточняется с использованием формулы (3.22).


Мы уже видели, что в модели линейной регрессии производная логарифми-
ческой функции правдоподобия по вектору параметров w в точке п представля­
ется в виде произведения "ошибки" Уп - tm умноженной на вектор признаков Фп·
Аналогично для сочетания логистической сигмоиды активации и функции пере­
крестной энтропии (4.90), а также для функции активации softmax с функцией
многоклассовой перекрестной энтропии (4.108) мы снова получаем эту же про­
стую форму. Как мы увидим в разделе 4.3.6, все это частные случаи более обще­
го результата.

Чтобы найти пакетный алгоритм, снова обратимся к итерациям Ньютона­


Рафсона и построим алгоритм IRLS для многоклассовой задачи. Это требует вы­
числения матрицы Гессе, которая состоит из блоков размера М х М, в которых
блок}, k задается формулой

У' "k У' " 1 Е( W1 , •.• , WК)= LYnk ( fkj - YnJ )ФпФпТ· (4.110)
n=I

Как и в случае задачи с двумя классами, матрица Гессе для многоклассовой

логистической регрессии является положительно определенной, и поэтому


функция ошибок снова имеет единственный минимум (см. упраJ1сне11ие 4.20).
Подробное описание метода IRLS для многоклассового случая можно найти
в книге Bishop and Nabney (2008).
4.3. Вероятностные дискриминантные модели 291

4.3.5. Пробит-регрессия
Мы видели, что для многих условных по классу плотностей вероятности,

принадлежащих экспоненциальному семейству, полученные апостериорные ве­

роятности классов определяются логистическим (или softmax) преобразованием,


действующим на линейную функцию признаков. Однако не все виды условной
по классу плотности вероятности приводят к такой простой форме для апосте­
риорных вероятностей (например, если условные по классу плотности вероятно­

сти моделируются с использованием смесей нормальных распределений). Это


говорит о том, что, возможно, стоит изучить другие типы дискриминантных ве­

роятностных моделей. Однако в этой главе мы вернемся к случаю бинарной


классификации, оставаясь в рамках обобщенных линейных моделей:

p(t = 1la) =f(a), (4.111)


где а= wт ф, а/О - функция активации.
Одним из способов обоснования альтернативного выбора для функции связи
является рассмотрение пороговой модели шума, показанной ниже. Для каждого

исхода Фп вычисляем ап = wт Фп~ а затем задаем целевое значение согласно фор-


муле

tn = 1, если ап ~ 8,
{ (4.112)
tn =О в противном случае.

Если значение () взято из генеральной совокупности с плотностью вероятно­


сти р( 8), то соответствующая функция активации будет задана кумулятивной
функцией распределения (рис. 4.13):
а

f(a)= f p(8)d0. (4.113)

В качестве конкретного примера предположим, что плотность р( 8) задается


нормальным распределением с нулевым математическим ожиданием и единич­

ной дисперсией. Соответствующая кумулятивная функция распределения зада­


ется формулой
а

Ф( а)= f N( 8I0,1)d0, (4.114)


292 ГЛАВА 4. ЛИНЕЙНЫЕ МОДЕЛИ КЛАССИФИКАЦИИ

0,8

0,6

0,4

0,2

о..._ .......
..:::..~--~~--~--:::::...

о 2 3 4
Рис. 4.13. Схематический пример плотности вероятности р( В), показанной синей
кривой и заданной в данном примере смесью двух нормальных распределений,

а также ее кумулятивной функции распределения.f(а), показанной красной кривой.

Обратите внимание на то, что значение синей кривой в любой точке, например,

обозначенной вертикальной зеленой линией, соответствует наклону красной кривой

в той же точке. И наоборот, значение красной кривой в этой точке соответствует

площади зеленой фигуры под синей кривой. В стохастической пороговой модели метка

класса принимает значение t = 1, если значение а = w т ф превышает пороговое значение,


в противном случае оно принимает значение t =О. Это эквивалентно функции

активации, заданной кумулятивной функцией распределения.f(а)

которая называется обратной пробит-функцией. Она имеет сигмоидальную


форму и сравнивается с логистической сигмоидальной функцией на рис. 4.9. За­
метим, что использование более общего нормального распределения не изменя­
ет модель, поскольку это эквивалентно повторному масштабированию линейных
коэффициентов w. Многие математические пакеты обеспечивают вычисление
тесно связанной функции, определяемой формулой

2 а
erf (а) = г Jехр ( -8 2 ) d В , (4.115)
"\/~о

которая называется функцией erf, или функцией ошибок (не следует путать ее с
функцией ошибок в модели машинного обучения). Она связана с обратной про·
бит-функцией формулой (см. упраж11ение 4.21)

(4.116)
4.3. Вероятностные дискриминантные модели 293

Обобщенная линейная модель, основанная на пробит-функции активации, назы­


вается пробит-регрессией.
Мы можем определить параметры этой модели с использованием принципа
максимального правдоподобия путем простого обобщения идей, обсуждавшихся
ранее. На практике результаты, полученные с использованием пробит-регрессии,
как правило, аналогичны результатам логистической регрессии. Однако мы
найдем другое применение для пробит-модели, когда будем обсуждать байесов­
ские методы логистической регрессии в разделе 4.5.
Одной из проблем, которые могут возникать в практических приложениях,
является проблема выбросов, которая может возникнуть, например, из-за оши­
бок в измерении исходного вектора х или неправильной маркировки целевого
значения t. Поскольку такие точки могут лежать далеко в неправильной стороне
от идеальной границы решения, они могут серьезно исказить классификатор.

Заметим, что модели логистической и пробит-регрессии в этом отношении ведут


себя по-разному, потому что хвосты логистической сигмоиды асимптотически
убывают аналогично функции ехр(-х) при х ~ оо, тогда как для пробит-функции
активации убывают подобно ехр(-х2 ), и поэтому пробит-модель может быть зна­
чительно более чувствительной к выбросам.
Тем не менее как логистическая, так и пробит-модель предполагает, что дан­
ные размечены правильно. Эффект неправильной маркировки легко учитывается
в вероятностной модели путем введения вероятности с того, что целевое значе­
ние t является неправильным (Opper andWinther, 2000а). Это приводит к распре­
делению целевого значения для точки х в виде

p(tlx) = (1 - с)о-(х) + c(l - о-(х)) =


=с+ (1 -2с)о-(х), (4.117)
где а(х) - функция активации с исходным вектором х. Здесь с может быть за­
дано заранее или может рассматриваться как гиперпараметр, значение которого

выводится из данных.

4.3.б. Канонические функции связей

В модели линейной регрессии с нормальным распределением шума функция


ошибок, соответствующая отрицательному логарифмическому правдоподобию,
задается формулой (3.12). Производная по вектору параметров w от вклада в
функцию ошибки точки п имеет вид произведения "ошибки" у" - t" на вектор при­
знаков ф", где у" = wт ф". Аналогично для комбинации логистической СШ'Моидалъ­
ной функции активации и функции перекрестной энтропии (4.90), а также для
294 ГЛАВА 4. ЛИНЕЙНЫЕ МОДЕЛИ КЛАССИФИКАЦИИ

функции активации softmax с функцией многоклассовой перекрестной энтропии


(4.108) мы снова получаем эту же простую форму. Покажем теперь, что это общий
результат, вьпекающий из предположения об условном распределении целевой
переменной из экспоненциального семейства наряду с соответствующим выбором
функции активации, известной как каноническая функция связи.
Мы снова используем ограниченную форму (4.84) экспоненциальных семей­
ных распределений. Заметим, что здесь мы применяем предположение об экспо­
ненциальном характере распределения целевой переменной t, в отличие от раз­
дела 4.2.4, где мы применяли его к исходному вектору х. По этой причине рас­
сматриваем условные распределения целевой переменной вида

(4.118)

Повторяя рассуждения, приведенные к результату (2.226), мы видим, что


условное математическое ожидание t, которое мы обозначаем через у, задается
формулой

(4.119)

Таким образом, у и 17 должны быть связаны друг с другом, и это мы обозначим

через 17 = lf/(y).
Следуя Nelder and Wedderburn (1972), определим обобщенную линейную мо­
дель как модель, в которой у является нелинейной функцией, зависящей от ли­
нейной комбинации исходных переменных (или признаков), так что

(4.120)

где/(-) в литературе по машинному обучению называется функцией активации,


а/- 1 0 в статистической литературе-функцией связи.
Теперь рассмотрим логарифмическую функцию правдоподобия для этой мо­

дели, которая, как функция от 17, задается формулой

1np(tl11,s)= ~1np(tnl'1,s)= ~{1ng(17п)+ 'l~п }+const, (4.121)

где предполагается, что все наблюдения имеют общий масштабный параметр


(который соответствует дисперсии шума для нормального распределения,

например), и поэтому s не зависит от п. Тогда производная логарифмической


функции правдоподобия по параметрам модели w задается формулой
4.4. Аппроксимация Лапласа 295

(4.122)

где ап = wт Фп• и мы использовали Уп =Лап) вместе с результатом (4.119) для вы­


числения E[tl 17]. Теперь мы видим, что произойдет значительное упрощение, ес­
ли выбрать конкретный вид функции связиГ\у), заданной формулой
(4.123)

что дает f( lfl(y)) =у и, следовательно, f'(y )V''(y) =1. Кроме того, поскольку
а= Г 1 (у), имеем а= lflИ, следовательно, /'(а )V''(y) = 1. В этом случае градиент
функции ошибок сводится к формуле

(4.124)

Для нормального распределения s = р- 1 , тогда как для логистической модели


s = 1.

4.4. Аппроксимация Лапласа


В разделе 4. 5 мы обсудим байесовскую трактовку логистической регрессии.
Как мы увидим, она сложнее, чем байесовская интерпретация моделей линейной
регрессии, обсуждаемая в разделах 3.3 и 3.5. В частности, мы не можем точно

интегрировать вектор параметров w, так как апостериорное распределение

больше не является нормальным. По этой причине необходимо ввести некото­


рую форму приближения. Позже мы рассмотрим ряд методов, основанных на
аналитических приближениях (см. главу 10) и численной выборке (см. главу 11).
Здесь мы вводим простой, но широко используемый метод, называемый ап­
проксимацией Лапласа, цель которой - гауссовская аппроксимация плотности

вероятности, заданной над множеством непрерывных переменных. Рассмотрим

сначала случай единственной непрерывной переменной z, и пусть распределение


p(z) определяется формулой

1
p(z)=-f(z), (4.125)
z
296 ГЛАВА 4. ЛИНЕЙНЫЕ МОДЕЛИ КЛАССИФИКАЦИИ

где Z = f(z)dz -J коэффициент нормировки. Предположим, что значение Z


неизвестно. Цель метода Лапласа - найти гауссовскую аппроксимацию q(z),
центр которой совпадает с модой распределения p(z). Первый шаг - найти моду
p(z), иначе говоря, точку z 0 , такую, что p'(z0 ) =О или, эквивалентно,

=0. (4.126)
dz z=zo

Поскольку логарифм нормального распределения является квадратичной

функцией от переменных, рассмотрим разложение Тейлора lnf(z) в окрестности


точки z0 , так что

lnf ( z) = lnf (z0 )-~A(z- z0 ) 2 , (4.127)

где

d2
A=--1nf(z) (4.128)
2 dz z=zo

Заметим, что член первого порядка в разложении Тейлора отсутствует, так как
z0 является локальным максимумом распределения. Взяв экспоненту, получим:

(4.129)

Теперь мы можем получить нормированное распределение q(z), используя

стандартный результат для нормировки нормального распределения:

А 2А (z-z0 )
12 2}
q(z)= ( 2" ) ! ехр { - • (4.130)

Аппроксимация Лапласа приведена на рис. 4.14. Заметим, что гауссовская

аппроксимация будет корректно определена, только если ее точность А > О, ина­


че говоря, стационарная точка z0 должна быть локальным максимумом, так что

вторая производнаяf(z) в точке z0 отрицательна.


Мы можем расширить метод Лапласа для аппроксимации распределения

p(z) =f(z)/Z, определенного в М-мерном пространстве z. В стационарной точке


z 0 градиент Vf(z) равен нулю. Выполняя разложение в окрестности стационар­
ной точки, получаем:

1n f (z) =1n f (Zo ) - _!_ ( z - Zo ) т А ( z - Zo ) ' (4.131)


2
4.4. Аппроксимация Лапласа 297

0,8 40

0,6 30

0,4 20

0,2 10

о
-2 -1 о 2 3 4 -1 о 2 3 4

Рис. 4.14. Аппроксимация Лапласа, примененная к распределению

p(z) ос exp(- z2/2)a(20z + 4), где a(z) - логистическая сигмоида, определяемая формулой
a(z) = ( 1 + е -z) 1• Слева желтым цветом показано нормализованное распределение p(z),
а красным - аппроксимация Лапласа, центрированная по моде z0 р аспределения p(z).

Справа показаны отрицательные ло1·арифмы соответствующих кривых

где матрица Гессе А размерности М х М определяется формулой

А =-VVln/(z)I z-a
_0 (4.132)

и V-оператор градиента. Взяв экспоненту обеих сторон, получим:

/(z) =/(z 0 )exp{-~(z-z 0 )т A(z-z 0 )}. (4.133)

Распределение q( z) пропорционально f( z ), и соответствующий коэффициент


нормировки можно найти путем сравнения, используя стандартный результат

(2.43) для нормированного многомерного нормального распределения:

112
q(z)= IAl м; 2 ехр { --(z-z
1 0 )т A(z-z 0 ) } =N(zlz 0 ,A- 1 ), (4.134)
(2tr) 2
где IAI обозначает определитель матрицы А. Это нормальное распределение бу­
дет определено корректно, если его матрица точности, соответствующая матри­

це А, является положительно определенной, т.е. стационарная точка z0 должна

быть локальным максимумом, а не минимальной или седловой точкой.


Чтобы применить аппроксимацию Лапласа, сначала нужно найти моду z 0, а за­
тем вычислить матрицу Гессе в этой моде . На практике моду, как правило, можно
найти, выполнив какой-то численный ашоритм оптимизации (Bishop and Nabney,
2008). Многие из распределений, встречающихся на практике, являются многомо­
далъными, и поэтому приходится строить разные аппроксимации Лапласа, соот­
ветствующие разным модам. Заметим, что для применения метода Лапласа не обя-
298 ГЛАВА 4. ЛИНЕЙНЫЕ МОДЕЛИ КЛАССИФИКАЦИИ

зателъно знать константу нормализации Z истинного распределения. Вследствие


центральной предельной теоремы по мере увеличения количества точек наблюде­
ния апостериорное распределение для модели стремится к нормальному распреде­

лению, поэтому аппроксимация Лапласа будет наиболее полезной в ситуациях, ко­


гда количество точек наблюдения относительно велико.
Одним из основных недостатков аппроксимации Лапласа является то, что, по­
скольку она основана на нормальном распределении, ее можно применять только

для действительных переменных. В других случаях можно применять аппрокси­


мацию Лапласа для преобразования переменной. Например, если О ~ т < оо, то мы
можем рассмотреть приближение Лапласа ln т. Однако самым серьезным ограни­
чением метода Лапласа является то, что он основан исключительно на аспектах
истинного распределения при определенном значении переменной и поэтому мо­
жет не учитывать важные глобальные свойства. В главе 10 будут рассмотрены
альтернативные подходы, учитывающие более глобальную перспективу.

4.4.1. Сравнение моделей и критерий BIC


Аппроксимируя распределение р( z), мы также можем получить приближение
к нормировочной константе Z. Используя приближение (4.133), имеем:

Z= J/(z)dz=
= f (z 0 ) Jехр {- ~ ( z - z т А ( z - z
0) 0 )} d z = (4.135)

( 2tr )М/2
=/(zo) IAl1/2 '
где мы отметили, что подынтегральное выражение является нормальным рас­

пределением, и использовали стандартный результат (2.43) для нормированного


нормального распределения. Мы можем использовать результат (4.135), чтобы
получить приближение к обоснованности модели, которое, как обсуждалось
в разделе 3.4, играет центральную роль в сравнении байесовских моделей.
Рассмотрим множество данных V и набор моделей {М;} с параметрами {О;}.
Для каждой модели определим функцию правдоподобия p('DI О;, М;). Если вве­
сти априорное распределение р( O;IM;) по параметрам, то можно вычислить
обоснованность p('DIM;) для различных моделей. В дальнейшем мы опускаем
условие по М;, чтобы сохранить обозначения относительно простыми. Из тео­
ремы Байеса следует, что обоснованность модели вычисляется по формуле

(4.136)
4.5. Байесовская логистическая регрессия 299

Учитывая, что f( 8) = p(VI fJ)p( 8) и Z = p(V) и применяя результат (4.135), полу­


чим (см. упражне11ие 4.22):
м 1
lnp{V) == lnp( Vl8мAP) + lnp{ (}МАР) +-ln{2;r )--lnlAI, (4.137)
2 2
фактор Оккама

где 8млР - значение (} в моде апостериорного распределения; А - матрица


Гессе, состоящая из вторых производных отрицательного логарифма

А= -V'V'lnp(Vl8млp)p(8мAP) = -V'V'lnp(fJмлpl'D). (4.138)

Первое слагаемое в правой части (4.137) представляет логарифмическую функ­


цию правдоподобия, вычисленную с использованием оптимизированных пара­

метров, а остальные три члена содержат фактор Оккама, который штрафует


сложность модели. Если предположить, что нормальное распределение по пара­
метрам является широким и гессиан имеет полный ранг, то можно очень грубо
приблизить (4.137) по формуле (с.и. упра.ишеиие 4.23):

lnp{V) == lnp( Vl8мAP )-.!.м lnN, (4.139)


2
где N- количество точек наблюдения, М - количество параметров в векторе 8,
и мы опустили аддитивные константы. Это выражение называется байесовским
информационным критерием (Bayesian lnformation Criterion - BIC), или крите­
рием Шварца (Schwarz, 1978). Заметим, что, по сравнению с критерием AIC, при­
веденным в (1.73), он более надежно оценивает сложность модели.
Меры сложности, такие как AIC и BIC, легко вычислить, но они могут давать
неверные результаты. В частности, предположение о том, что матрица Гессе имеет

полный ранг, часто не выполняется, так как многие из параметров не являются

"точно определенными" (см. раздел 3.5.3). Как будет показано в разделе 5. 7 в кон­
тексте нейронных сетей, результат (4.137) позволяет получить более точную оцен­
ку обоснованности модели, исходя из аппроксимации Лапласа.

4.5. &айесовская логистическая регрессия

Перейдем теперь к байесовской трактовке логистической регрессии. Точный

байесовский вывод для логистической регрессии невозможен. В частности, вы­


числение апостериорного распределения требует нормировки произведения
априорного распределения и функции правдоподобия, которая сама по себе со­
держит произведение логистических сигмоид, по одной для каждой точки
300 ГЛАВА 4. ЛИНЕЙНЫЕ МОДЕЛИ КЛАССИФИКАЦИИ

наблюдения. Вычисление прогностического распределения также невозможно.


Здесь мы рассмотрим применение аппроксимации Лапласа к проблеме байесов­
ской логистической регрессии (Spiegelhalter and Lauritzen, 1990; МасКау, 1992Ь).

4.5.1. Аппроксимация Лапласа


Напомним из раздела 4.4, что аппроксимация Лапласа получается путем

нахождения моды апостериорного распределения, а затем построения нормаль­

ного распределения с центром в этой моде. Это требует вычисления вторых


производных логарифма, что эквивалентно нахождению матрицы Гессе. По­
скольку мы ищем гауссовское представление для апостериорного распределе­

ния, естественно начать с нормального априорного распределения, которое мы

запишем в общем виде:


p(w) = N(wlmo,So), (4.140)

где mo и S0 - фиксированные гиперпараметры. Апостериорное распределение


над w задается формулой
p(wlt) ос p(w)p(tlw), (4.141)
т
где t = (t 1, "., tN) . Вычисляя логарифм от обеих сторон, подставляя вместо апри-
орного распределения формулу (4.140), а для функции правдоподобия формулу
(4.89), получаем:

lnp( wlt) = _..!_( w-m 0 )т S01 (w-m 0 ) +


2
N
(4.142)
+ L
n=I
{tn lnyn + (1-tn )ln(l- Уп )} + const,

где Уп = а(wт ф,,). Чтобы получить гауссовскую аппроксимацию к апостериорно­


му распределению, сначала максимизируем апостериорное распределение, что­

бы найти МАР-решение (максимальное апостериорное) wмАР, которое определя­


ет математическое ожидание нормального распределения. Ковариационная мат­

рица задается обратной к матрице вторых производных отрицательной

логарифмической функции правдоподобия:


N
s-;J = -V'V'ln Р( wl t) = So1+ LYn (1- Уп )ft..t.T. (4.143)
n=I

Следовательно, гауссовская аппроксимация апостериорного распределения


принимает вид

(4.144)
4.5. Байесовская логистическая регрессия 301

Получив гауссовскую аппроксимацию апостериорного распределения, мы

можем перейти к маргинализации по отношению к этому распределению с це­

лью прогнозирования.

4.5.2. Прогностическое распределение

Прогностическое распределение для класса С 1 с учетом нового вектора при­


знаков ф(х) получается в результате маргинализации по апостериорному рас­
пределению p(wlt), которое само аппроксимируется нормальным распределени­
ем q(w), так что

f f
P(CilФ,t)= P(CilФ,w)p(wlt)dw=:: a(wтф)q(w)dw (4.145)

с соответствующей вероятностью для класса~. заданной формулой р(~lф, t) =


= 1-р(С1 1ф,t). Для вычисления прогностического распределения заметим снача­
ла, что функция а(wт ;') зависит от w только через ее проекцию на ф. Обозначая
а= wт ф, имеем:
(4.146)

где бО - дельта-функция Дирака. Отсюда получаем:

fa(wтф)q(w)dw= fa(a)p(a)da, (4.147)

где

(4.148)

Мы можем вычислить р(а), заметив, что дельта-функция накладывает линей­


ное ограничение на w и поэтому образует маргинальное распределение от сов­
местного распределения q(w) путем интегрирования по всем направлениям, ор­

тогональным к ф. Поскольку распределение q(w) является нормальным, из раз­


дела 2.3.2 известно, что маргинальное распределение также будет нормальным.
Мы можем вычислить математическое ожидание и ковариацию этого распреде­

ления, используя моменты и меняя порядок интегрирования по а и w, так что

(4.149)

где мы использовали результат (4.144) для вариационного апостериорного рас­

пределения q(w). Аналогично

f
а; = var [а) = р (а) {а 2 - Е [а )2 } da =
(4.150)
= q(w){(wтф) 2
f -(m1Ф) 2 }dw=фтSNф.
302 ГЛАВА 4. ЛИНЕЙНЫЕ МОДЕЛИ КЛАССИФИКАЦИИ

Заметим, что распределение а принимает тот же вид, что и прогностическое


распределение (3.58) для модели линейной регрессии, при этом дисперсия шума
устанавливается равной нулю. Таким образом, наша вариационная аппроксима­
ция прогностического распределения становится равной

(4.151)

Этот результат можно также получить непосредственно, используя результа­


ты для маргинального нормального распределения, приведенные в разделе 2.3.2
(см. упражиение 4.24).
Интеграл по а представляет собой свертку нормального распределения с ло­
гистической сигмоидой и аналитически не вычисляется. Однако мы можем по­
лучить его хорошее приближение (Spiegelhalter and Lauritzen, 1990; МасКау,
1992Ь,Barber and Bishop, 1998а), используя тесное сходство между логистиче­
ской сигмоидой G'(а), определяемой формулой (4.59), и обратной пробит­
функцией Ф(а), определяем формулой (4.114). Чтобы получить наилучшее при­
ближение к логистической функции, нужно повторно масштабировать горизон­
тальную ось, так что мы приближаем G'(a) функцией Ф(м). Мы можем найти
подходящее значение 1!., требуя, чтобы обе функции имели одинаковый наклон в
2
начале координат, что дает А = л/8 (см. упраж:иеиие 4.25). Сходство логисти-
ческой сигмоидальной функции и обратной пробит-функции при таком выборе
11. показано на рис. 4.9.
Преимущество использования обратной пробит-функции состоит в том, что ее
свертку с нормальным распределением можно выразить аналитически в терминах

другой обратной пробит-функции. В частности, можно показать, что (см. упраж-


11е11ие 4.26)

JФ(ll.a)N(alµ,G'2 )da=Ф[ µ
( /1. -2 + (1'2 )
1; 2 J· (4.152)

Применим теперь аппроксимацию G'(a) ~ Ф(Ла) к обратным пробит-функциям


в обеих частях этого уравнения. Это приводит к следующему приближению для
свертки логистической сигмоидальной функции с нормальным распределением:

JG'( а) N (al µ, G' )da = G'{ к( G'


2 2) µ ), (4.153)

где мы определили

(4.154)
Упражнения 303

Применяя этот результат к (4.151 ), получаем приближенное прогностическое


распределение в виде

Р( CilФ.t) =а( к( ипµа ). (4.155)


где µа и и; определяются соответственно формулами (4.149) и (4.150), а к {и;)
определяется формулой (4.154).
Заметим, что граница решения, соответствующая р(С 1 1ф, t) = 0,5, задается зна­
чением µа = О, что совпадает с границей решения, полученной с использованием
значения МАР для w. Таким образом, если критерий решения основан на мини­
мизации уровня ошибочной классификации с равными априорными вероятно­
стями, то маргинализация по w не оказывает на него никакого влияния. Однако
для более сложных критериев принятия решений она играет важную роль. Мар­
гинализация логистической сигмоидальной модели в гауссовской аппроксима­
ции апостериорного распределения будет проиллюстрирована в контексте вари­
ационного вывода на рис. 10.13.

Упражнения

4.1. (**) Имея множество точек {хп}, можно определить выпуклую оболочку
как множество всех точек х, заданных формулой

(4.156)

где ап ~О и Lan =1. Рассмотрим второе множество точек {Уп} вместе с


п

их соответствующей выпуклой оболочкой. По определению два множе-


ства точек будут линейно разделимыми, если существует вектор w и ска-
А т А т

ляр Wo, такой, что "' Xn + Wo >О для всех Xn и "' Уп + Wo <О для всех Уп·
Покажите, что если их выпуклые оболочки пересекаются, то два множе­
ства точек не могут быть линейно разделимыми, и, наоборот, если они ли­

нейно разделимы, то их выпуклые оболочки не пересекаются.

4.2. (**) WWW Рассмотрим минимизацию функции суммы квадратов ошибок


(4.15) и предположим, что все целевые векторы в обучающем множестве
удовлетворяют линейному ограничению

(4.157)

где tn соответствует п-й строке матрицы Т в (4.15). Покажите, что в ре­

зультате этого ограничения элементы модельного предсказания у(х), за-


304 ГЛАВА 4. ЛИНЕЙНЫЕ МОДЕЛИ КЛАССИФИКАЦИИ

данные решением по методу наименьших квадратов (4.17), также удовле­


творяют этому ограничению, так что

(4.158)

Для этого предположите, что одна из базисных функций ф 0 (х) = 1, так что
соответствующий параметр w0 играет роль смещения.

4.3. (**) Обобщите результат упражнения 4.2, чтобы показать, что если сразу
несколько целевых векторов удовлетворяют одновременно нескольким

линейным ограничениям, то те же ограничения будут также выполняться


методом наименьших квадратов для линейной модели.

4.4. (*) WWW Покажите, что максимизация критерия разделения классов, задан­
ная формулой (4.22) относительно w с помощью множителей Лагранжа
т
для выполнения ограничения w w = 1, приводит к результату w ос (m 2 - m1).
4.5. (*)Используя (4.20), (4.23) и (4.24), покажите, что критерий Фишера (4.25)
можно записать в виде (4.26).
4.6. (*) Используя определения матриц межклассовой и внутриклассовой кова­
риации, заданных соответственно формулами (4.27) и (4.28), а также фор­
мулы (4.34) и (4.36) и целевые значения, описанные в разделе 4.1.5, пока­
жите, что выражение (4.33), которое минимизирует сумму квадратов оши­
бок, можно записать в виде (4.37).

4. 7. (*) WWW Покажите, что логистическая сигмоида (4.59) обладает свойством


а(-а) = 1-а(а) и что ее обратная функция задается формулой а- 1 (у) =
= ln{y /(1-у)}.
4.8. (*)Используя (4.57) и (4.58), получите результат (4.65) для апостериорной
вероятности класса в двухклассовой порождающей модели с гауссовскими
плотностями и проверьте результаты (4.66) и (4.67) для параметров w и w0•
4.9. (*) WWW Рассмотрите порождающую модель классификации для К классов,
определяемую априорными вероятностями класса р( Ck) = ;rk и общими
условными по классу плотностями р( ФICk), где ф - вектор исходных при­
знаков. Предположим, нам дано множество обучающих данных {фп, tп},
где п = 1, "., N и tn - двоичный целевой вектор длины К, который ис­
пользует схему кодирования 1 из К, так что он имеет компоненты tnj = ~ь
если пример п принадлежит классу Ck. Предполагая, что точки наблюде­
ний генерируются независимо от этой модели, покажите, что оценка мак­
симального правдоподобия для априорных вероятностей дается формулой
Упражнения 305

trk = ~' (4.159)

где Nk - количество точек, присвоенных классу Ck.


4.10. (**)Рассмотрим модель классификации из упражнения 4.9 и предполо­
жим, что условные по классу плотности вероятности являются плотностя­

ми нормальных распределений с общей ковариационной матрицей, так что

(4.160)

Покажите, что оценка максимального правдоподобия для математического


ожидания нормального распределения для класса ck дается формулой
1 N
µk = "'N ~)п*ft.
/с n=I
(4.161)

и представляет собой среднее значение векторов признаков, присвоенных


классу Ck. Аналогично покажите, что оценка максимального правдоподо­
бия для общей ковариационной матрицы задается формулой

(4.162)

где

(4.163)

Таким образом, матрица 1: задается средневзвешенной ковариацией дан­


ных, связанных с каждым классом, в которых весовые коэффициенты
определяются априорными вероятностями классов.

4.11. (**) Рассмотрим проблему классификации с К классами, для которой вектор


признаков ф имеет М компонентов, каждый из которых может принимать L
дискретных состояний. Пусть значения компонентов представлены схемой

двоичного кодирования 1 из L. Предположим далее, что М компонентов


вектора ф при условии класса С1с, являются независимыми, так что условная
по классу плотность вероятности факторизуется по компонентам вектора
признаков. Покажите, что величины аь заданные формулой (4.63), которые
фигурируют в аргументе функции softmax, описывающей апостериорные
вероятности классов, являются линейными функциями компонентов векто­
ра ф. Обратите внимание на то, что эта модель представляет собой пример
наивной модели Байеса, которая обсуждается в разделе 8.2.2.
306 ГЛАВА 4. ЛИНЕЙНЫЕ МОДЕЛИ КЛАССИФИКАЦИИ

4.12. (*) WWW Проверьте соотношение (4.88) для производной логистической


сигмоиды, определяемой (4.59).
4.13. (*) WWW Используя результат (4.88) для производной логистической сиг­
моиды, покажите, что производная функции ошибок (4.90) для модели ло­
гистической регрессии дается формулой (4.91).
4.14. (*) Покажите, что для линейно разделимого множества данных оценка
максимального правдоподобия для модели логистической регрессии полу­
чается путем нахождения вектора w, граница решения которого ,,,т ф(х) =О
разделяет классы, а затем перехода к пределу, когда норма w стремится к

бесконечности.

4.15. (**)Покажите, что матрица Гессе Н для модели логистической регрессии,


заданная формулой (4.97), является положительно определенной. Здесь
R- диагональная матрица с элементами Уп(l - Уп), а Уп - результат моде­
ли логистической регрессии для исходного вектора хп. Отсюда следует,
что функция ошибок является выпуклой функцией от w и имеет един­
ственный минимум.

4.16. (*) Рассмотрим задачу бинарной классификации, в которой каждое


наблюдение Хт как известно, принадлежит одному из двух классов, соот­
ветствующим значениям t=О и t = 1, и предположим, что процедура сбора
данных обучения несовершенна, так что обучающие точки иногда марки­
руются ошибочно. Для каждой точки Хп вместо значения tn для метки
класса имеем значение !Ст представляющее вероятность того, что tn = 1.
Используя вероятностную модель p(t = 1lф), запишите функцию логариф­
мического правдоподобия, соответствующую этому множеству данных.

4.17. (*) WWW Покажите, что производные функции активации softmax (4.104),
где ak определяются формулой (4.105), задаются формулой (4.106).
4.18. (*) Используя результат (4.106) для производных функции активации
softmax, покажите, что градиенты перекрестной энтропии (4.108) задаются
формулой (4.109).

4.19. (*) WWW Запишите выражения для градиента логарифмической функции


правдоподобия, а также соответствующую матрицу Гессе для пробит­
модели регрессии, определенной в разделе 4.3.5. Эти величины потребу­
ются для обучения такой модели с использованием метода IRLS.
4.20. (**) Покажите, что матрица Гессе для задачи многоклассовой логистиче­
ской регрессии, определяемая (4.110), является положительной полуопре-
Упражнения 307

деленной. Заметим, что полная матрица Гессе для этой задачи имеет раз­
мер МК х МК, где М - количество параметров, а К - количество клас­

сов. Для доказательства положительной полуопределенности рассмотрите


произведение uтHu, где u - произвольный вектор длины МК, а затем
примените неравенство Йенсена.
4.21. (*)Покажите, что обратная пробит-функция (4.114) и функция erf (4.115)
связаны соотношением (4.116).
4.22. (*)Используя результат (4.135), получите выражение (4.137) для обосно­

ванности логистической модели в аппроксимации Лапласа.

4.23. (**) WWW В этом упражнении мы выводим результат BIC (4.139) из ап­
проксимации Лапласа для вычисления обоснованности модели по форму­
ле (4.137). Покажите, что если априорные распределения являются нор­
мальными вида р(О) = N(OI т, V 0), то логарифмическая модель обоснован­
ности в аппроксимации Лапласа принимает вид

где Н - матрица вторых производных отрицательной логарифмической


функции правдоподобия ln p(VI 8), вычисленная в точке ОМАР. Предполо­
жим теперь, что априорное распределение является широким, так что V01
мала, а вторым слагаемым в правой части можно пренебречь. Кроме того,
рассмотрите случай независимых, одинаково распределенных данных, так
что Н представляет собой сумму членов, соответствующих каждой точке
данных. Покажите, что обоснованность логистической модели можно за­
писать в виде, похожем на критерий BIC (4.139).
4.24. (**)Используя результаты из раздела 2.3.2, получите (4.151) для маргина­
лизации модели логистической регрессии относительно нормального апо­

стериорного распределения по параметрам w.


4.25. (* *) Предположим, мы хотим аппроксимировать логистическую сигм о иду
о-(а), определенную формулой (4.59), масштабированной обратной про­
бит-функцией Ф(Ла), где функция Ф(а) определяется формулой (4.114).
Покажите, что если А. выбрано так, что производные от двух функций рав­
ны при а= О, то А.2 = тr/8.
4.26. (**)В этом упражнении необходимо доказать соотношение (4.152) для
свертки обратной пробит-функции с нормальным распределением. Для это-
308 ГЛАВА 4. ЛИНЕЙНЫЕ МОДЕЛИ КЛАССИФИКАЦИИ

го покажите, что производная левой части по µ равна производной правой


части, а затем проинтегрируйте обе части по µ и покажите, что констанга
интегрирования обращается в нуль. Заметим, что перед дифференцировани­
ем левой части удобно сначала ввести замену переменной а = µ + az, так что
интеграл по а заменяется интегралом по z. Дифференцируя левую часть со­

отношения (4.152), мы получим гауссовский интеграл по z, который можно

вычислить аналитически.
5

В главах 3-4 мы рассмотрели модели регрессии и классификации, которые


включали линейные комбинации фиксированных базисных функций. Мы виде­
ли, что такие модели обладают полезными аналитическими и вычислительными

свойствами, но их практическая применимость ограничена проклятием размер­


ности. Чтобы применить такие модели к крупномасштабным задачам, необхо­
димо адаптировать базисные функции к данным.
Для этого в методе опорных векторов (support vector machines - SVM), ко­
торый обсуждается в главе 7, сначала определяются базисные функции, которые
центрированы относительно точек обучающего множества, а затем, во время

обучения, выбираются его подмножества. Одно из преимуществ метода SVМ за­


ключается в том, что, хотя обучение связано с нелинейной оптимизацией, целе­
вая функция является выпуклой, поэтому решение задачи оптимизации не пред­
ставляет трудностей. Количество базисных функций в результирующих моде­
лях, как правило, намного меньше, чем обучающих точек, хотя часто оно все
310 ГЛАВА 5. НЕЙРОННЫЕ СЕТИ

еще относительно велико и обычно увеличивается с размером обучающего мно­


жества. Метод релевантных векторов, обсуждаемый в разделе 7.2, также выби­
рает подмножество из фиксированного множества базисных функций и, как пра­
вило, приводит к появлению гораздо более разреженных моделей. В отличие от
метода SVM, он также дает вероятностные результаты, хотя это происходит за
счет невыпуклой оптимизации во время обучения.
Альтернативный подход заключается в том, чтобы зафиксировать количество
базисных функций заранее, но позволить им бьпь адаптивными, иначе говоря,
использовать параметрические формы для базисных функций, в которых значе­
ния параметров подбираются во время обучения. Наиболее успешной моделью
этого типа в контексте распознавания образов является нейронная сеть с обрат­
ной связью, также известная как многослойный персептрон, рассматриваемый
в этой главе. На самом деле термин "многослойный персептрон" - неточный,
поскольку модель содержит несколько уровней моделей логистической регрес­

сии (с непрерывными нелинейностями), а не множество персептронов (с раз­


рывными нелинейностями). Для многих приложений результирующая модель
может быть значительно более компактной и, следовательно, работать быстрее,
чем метод опорных векторов, имеющий такое же качество обобщения. Цена, ко­

торую приходится заплатить за эту компактность, как и в случае метода реле­

вантных векторов, заключается в том, что функция правдоподобия, которая со­


ставляет основу сетевого обучения, больше не является выпуклой функцией от
параметров модели. На практике, однако, часто стоит вкладывать значительные
вычислительные ресурсы на этапе обучения, чтобы получить компактную мо­
дель, которая быстро обрабатывает новые данные.
Термин "нейронная сеть" берет свое начало в попьпках найти математические
представления обработки информации в биологических системах (McCulloch and
Pitts, 1943; Widrow and Hoff, 1960; RosenЫatt, 1962; Rumelhart et а/., 1986). Дей­
ствительно, нейронные сети использовались очень широко, чтобы охватить широ­
кий спектр различных моделей, многие из которых бьmи предметом преувеличен­
ных претензий в отношении их биологической правдоподобности. Однако с точки
зрения практического применения распознавания образов биологический реализм
наложил бы совершенно ненужные ограничения. поэтому в этой главе нейронные
сети интерпретируются как эффективные модели для распознавания статистиче­
ских шаблонов. В частности, мы ограничимся рассмотрением особого класса
нейронных сетей, которые оказались наиболее практичными, а именно много­
слойного персептрона.
5.1. Сети прямого распространения 311

Начнем с рассмотрения функциональной формы сетевой модели, включая


специфическую параметризацию базисных функций, а затем обсудим проблему
определения параметров сети в рамках принципа максимального правдоподобия,
который включает в себя решение задачи нелинейной оптимизации. Это требует
вычисления производных логарифмической функции правдоподобия по сетевым
параметрам, и мы увидим, как их можно эффективно получить с помощью ме­
тода обратного распространения ошибок. Мы также покажем, как можно упро­
стить структуру обратного распространения ошибок, чтобы можно было вычис­
лить другие производные, например матрицы Якоби и Гессе. Далее мы обсудим
различные подходы к регуляризации обучения нейронной сети и отношения
между ними. Мы также рассмотрим некоторые расширения модели нейронной

сети и, в частности, опишем общую структуру моделирования условных вероят­


ностных распределений, известных как сети со смешанной плотностью (mix-
ture density network). Наконец, мы обсудим использование байесовского подхо­
да к нейронным сетям. Дополнительную информацию о нейронных сетях можно
найти в Bishop (1995а).

5. 1. Сети прямоrо распространения

Линейные модели регрессии и классификации, рассмотренные в главах 3 и 4


соответственно, основаны на линейных комбинациях фиксированных нелиней­
ных базисных функций ф1 (х) и принимают вид

(5.1)

где f(-) - нелинейная активационная функция в случае классификации и тож­


дественная в случае регрессии. Наша цель состоит в том, чтобы обобщить эту
модель, предположив, что базисные функции ф1 (х) зависят от параметров, а за­
тем корректировать эти параметры вместе с коэффициентами {w1 } в ходе обуче­
ния. Конечно, существует множество способов построения параметрических не­
линейных базисных функций. Нейронные сети используют базисные функции,
которые имеют форму (5.1), так что каждая базисная функция сама по себе явля­
ется нелинейной функцией линейной комбинации входов, где коэффициенты
линейной комбинации являются адаптивными параметрами.
Это приводит к базовой модели нейронной сети, которая может быть описана
рядом функциональных преобразований. Сначала мы строим линейные комби­

нации входных переменных х 1 , "., xD в виде


312 ГЛАВА 5. НЕЙРОННЫЕ СЕТИ

(5.2)

где}= 1, "., М, а верхний индекс (1) указывает, что соответствующие параметры


находятся в первом слое сети. Следуя терминологии из главы 3, будем называть
параметры w~1 ) весами, а параметры w~1 ) - смещениями. Величины aj называ­
ются активациями. Каждая из них затем трансформируется с помощью диффе­
ренцируемой нелинейной функции активации h(·):
(5.3)
Эти величины соответствуют выходам базисных функций в (5.1), которые в
контексте нейронных сетей называются скрытыми элементами. Нелинейные

функции h(-) обычно выбираются в виде сигмоидальных функций, таких как ло­
гистическая сигмоидальная функция или гиперболический тангенс (см. упра,tе­
неиие 5.1). Следуя (5.1), эти значения снова линейно объединяются в выходные
элементы активации:

(5.4)

где k = 1, ".,К, а К - общее количество выходов. Это преобразование соответ­


ствует второму слою сети, и снова wi~ являются параметрами смещения. Нако­
нец, активация выходного элемента преобразуется с помощью соответствующей
функции активации, чтобы дать набор сетевых выходов Yk· Выбор функции ак­
тивации определяется характером данных и предполагаемым распределением

целевых переменных и подчиняется тем же соображениям, что и линейные мо­


дели, обсуждаемые в главах 3-4. Таким образом, для стандартных задач регрес­
сии функция активации является тождественной, так, что Yk = ak. Аналогично
для множественных задач бинарной классификаций каждая активация выходно­
го элемента преобразуется с помощью логистической сигмоиды, так что

(5.5)
где

1
а(а)=--- (5.6)
1+ ехр(-а)

Наконец, для многоклассовых задач используется функция активации softmax


в виде (4.62). Выбор функции активации выходного элемента подробно обсуж­
дается в разделе 5.2.
S.1. Сети прямого распространения 313

Мы можем объединить эти различные этапы, чтобы построить общую сете­


вую функцию, которая при сигмоидальной функции активации выходного эле­
мента принимает форму

Yk { х, w) =а ( LМ
J=I
(2)
wkJ h (DL w 1(!); Х; + w10(1) ) + wko2 J,
r=l
(5 .7)

где все веса и смещения сгруппированы в векторе w. Таким образом, модель

нейронной сети является просто нелинейной функцией, отображающей множе­


ство входных переменных {х;} в множество выходных переменных {yk}, управ­
ляемой вектором w регулируемых параметров.

Эта функция может быть представлена в виде сетевой диаграммы, как пока­
зано на рис. 5 .1 . Процесс вычисления ( 5. 7) можно интерпретировать как прямое

распространение информации через сеть. Следует подчеркнуть, что эти диа­


граммы не являются вероятностными графовыми моделями, которые будут рас­
смотрены в главе 8, поскольку внутренние узлы представляют собой детермини­
рованные переменные, а не стохастические. По этой причине мы применяем не­
много разные графовые обозначения для этих двух видов модели. Мы покажем
позже, как дать вероятностную интерпретацию нейронной сети.

скры т ые элементы

XD
Ук

ВХОДЫ выходы

У1
х,

Хо

Рис. 5.1. Диаграмма двухслойной нейронной сети, соответствующая (5.7).


Входные, скрытые и выходные переменные представлены рлами, а весовые параметры -
ссылками ~ежду ушами , в которых параметры смещения обозначены ссылками,

поступающими из дополнительных входных и скрытых переменных х 0 и z0 . Стрелки

обозначают направление потока информации черс3 сеть во время прямого распространения


314 ГЛАВА 5. НЕЙРОННЫЕ СЕТИ

Как обсуждалось в разделе 3.1, параметры смещения в (5.2) могут быть


включены в набор весовых параметров, определяя дополнительную входную пе­
ременную х 0 , значение которой фиксируется равным единице, так что (5.2) при­
нимает вид

(5.8)

Аналогичным образом мы можем учесть смещения второго слоя в весах вто­


рого слоя, так что общая сетевая функция примет вид

(5.9)

Как видно на рис. 5.1, модель нейронной сети состоит из двух этапов обра­
ботки, каждая из которых напоминает модель персептрона из раздела 4.1. 7, и по
этой причине нейронная сеть также называется многослойным персептроном,
или MLP (multilayer perceptron). Однако ключевое отличие от персептрона за­
ключается в том, что нейронная сеть использует непрерывные сигмоидальные

нелинейности в скрытых элементах, тогда как персептрон - нелинейности вида


ступенчатой функции. Это означает, что функция нейронной сети является диф­
ференцируемой по сетевым параметрам, и это свойство будет играть централь­
ную роль в обучении сети.
Если функции активации всех скрытых элементов в сети считаются линей­
ными, то для любой такой сети мы всегда можем найти эквивалентную сеть
без скрытых элементов. Это следует из того, что композиция последователь­
ных линейных преобразований сама по себе является линейным преобразова­
нием. Однако, если количество скрытых элементов меньше, чем количество

входных или выходных элементов, то преобразования, которые может генери­


ровать сеть, не являются наиболее общими возможными линейными преобра­
зованиями входных переменных в выходные, поскольку при уменьшении раз­

мерности за счет скрытых элементов информация теряется. В разделе 12.4.2


показано, что сети линейных элементов приводят к методу главных компонен­
тов. Однако в общем многослойные сети линейных элементов представляют
небольшой интерес.
5.1. Сети прямого распространения 315

На практике наиболее часто используется архитектура сети, показанная на

рис. 5.1. Однако она легко обобщается, например, путем включения дополни­
тельных слоев, каждый из которых состоит из взвешенной линейной комбина­
ции вида (5.4), за которой следует по элементное преобразование с помощью не­
линейной функции активации. Обратите внимание, что в литературе существует
некоторая путаница в отношении терминологии для подсчета количества слоев в

таких сетях. Сеть, показанная на рис. 5.1, может быть описана как трехслойная
(с учетом количества слоев элементов и интерпретации входов как элементов)
или как сеть с одним скрытым слоем (с учетом количества слоев скрытых эле­
ментов). Мы рекомендуем терминологию, в которой сеть на рис. 5.1 называется
двухслойной, потому что это название отражает количество слоев адаптивных

весов, которые важны для определения сетевых свойств.

Другим обобщением сетевой архитектуры является включение соединений с


пропуском слоев (skip-layer connections), каждое из которых связано с соответ­
ствующим адаптивным параметром. Например, в двухслойной сети входные
сигналы будут поступать непосредственно на выход. В принципе, сеть с сигмои­
дальными скрытыми элементами всегда может имитировать пропущенные слои

(при ограниченных входных значениях), используя достаточно малый вес перво­


го слоя, который по своему рабочему диапазону является фактически линейным,
а затем компенсируя это большим значением веса от скрытого элемента к выхо­
ду. На практике, однако, может быть выгодно включать соединения с пропуском
слоя явным образом.
Кроме того, сеть может быть разреженной, когда внутри слоя существуют не
все возможные соединения. Мы увидим пример разреженной сетевой архитек­
туры, когда будем рассматривать сверточные нейронные сети в разделе 5.5.6.
Поскольку между сетевой диаграммой и ее математической функцией суще­
ствует прямая связь, мы можем разработать более общие сетевые отображения,
рассматривая более сложные сетевые диаграммы. Однако они должны быть
ограничены архитектурой прямого распространения, иначе говоря, без замкну­
тых направленных циклов, чтобы гарантировать, что выходы являются детерми­
нированными функциями входов. Это проиллюстрировано простым примером
на рис. 5.2. Каждый (скрытый или выходной) элемент в такой сети вычисляет
функцию

(5.10)
316 ГЛАВА 5. НЕЙРОННЫЕ СЕТИ

где индекс суммирования пробегает все элементы, которые ссылаются на элемент


k (и параметр смещения включен в суммирование). Для заданного множества зна­
чений, применяемых к входам сети, последовательное применение (5.10) позволя­
ет вычислять активации всех элементов сети, включая выходные элементы.

Рис. 5.2. Пример нейронной сети, имеющей общую топологию

прямого распространения. Обратите внимание, что каждый скрытый

и выходной элемент имеет связанный

с ним параметр смещения (для ясности он опущен)

Свойства аппроксимации сетей прямого распространения изучены доста­


точно хорошо (Funahashi, 1989; Cybenko, 1989; Homik et al" 1989;
Stinchecombe and White, 1989; Cotter, 1990; Ito, 1991; Homik, 1991; Кreinovich,
1991; Ripley, 1996) и оказались весьма общими. По этой причине считается,
что нейронные сети являются универсальными аппроксимациями. Например,
двухслойная сеть с линейными выходами может с любой точностью равно­
мерно приближать любую непрерывную функцию на компактной области
входных переменных, если сеть имеет достаточно большое количество скры­
тых элементов. Этот результат справедлив для широкого спектра функций ак­
тивации скрытых элементов, исключая полиномы. Хотя такие теоремы явля­

ются обнадеживающими, ключевая проблема заключается в том, как найти


подходящие значения параметров с учетом обучающих данных, а в последу­
ющих разделах этой главы мы покажем, что существуют эффективные реше­
ния этой проблемы, основанные как на принципе максимального правдоподо­
бия, так и на байесовских подходах.
Возможность двухслойной сети моделировать широкий спектр функций пока­
зана на рис. 5.3. Этот рисунок также показывает, как отдельные скрытые части ра­
ботают совместно, чтобы приблизить конечную функцию. Роль скрытых элемен-
5.1. Сети прямоrо распространения 317

тов в простой проблеме классификации показана на рис. 5.4 с помощью множества


искусственных данных для классификации, описанного в 11риложе11ии А.

а) б)

/
/
1
1
1
/
/

в) г)

Рис. 5.3. Способность многослойного перссптрона аппроксимировать четыре

различные функции, в частности, a)j(x) = х 2 , б).f(х) = sin(x), в)j(х) = lxl, и r).f(x) = Н(х),
где Н(х) - ступенчатая функция Хевисайда . В каждом случае в интервале ( -1, 1)
на оси х случайным образом выбирались N = 50 точек, показанных синим цветом,

и вычислялись соответствующие значения/(х). Эти точки затем

использовались для обучения двухслойной сети, содержащей

три скрытых элемента с функциями активации th и линейными выходными

элементами. Результирующие сетевые функции показаны красными кривыми,

а выходы трех скрытых элементов -- тремя пунктирными кривыми


318 ГЛАВА 5. НЕЙРОННЫЕ СЕТИ

3 х
х
/
/
2 х хх /
о о<е
о х/
о
о
Q_ х
Q / )(ХСХ

о
oaъ - Qoxg )( 'Ь
о /
/о е
- -х - -2<
0
/ Q) 0 X(j>~x )( -
-1 / хХ

9' c:!J~ tf-)( r:9


/

~
/

-2 ~ )(

о Ох о

-2 -1 о 1 2
Рис. 5.4. Пример решения простой задачи бинарной классификации

с помощью искусственных данных и нейронной сети с двумя входными элементами,

двумя скрытыми элементами с функциями активации th и одним выходным

элементом, имеющим функцию активации в виде логистической сигмоиды.

Штриховые синие линии показывают контур z = 0,5 для каждого из скрытых элементов,

а красная линия показывает поверхность решения у = 0,5 для сети. Для сравнения

зеленая линия обозначает оптимальную границу решения, вычисленную по

распределениям, используемым для генерации данных

5.1.1. Симметрия весовых пространств

Одним из свойств сетей прямого распространения, которые будут играть


важную роль, когда мы будем рассматривать байесовское сравнение моделей,
является то, что множество различных вариантов для весового вектора w может
привести к одной и той же функции отображения входных данных в выходные
(Chen et а/., 1993). Рассмотрим двухслойную сеть, показанную на рис. 5.1, с М
скрытыми элементами, имеющими функции активации th и полную связность в
обоих слоях. Если мы изменим знак всех весов и смещения, подаваемых в кон­

кретный скрытый элемент, то для данного входного примера знак активации


скрытого элемента будет изменен на противоположный, поскольку гиперболи­
ческий тангенс является нечетной функцией, так что th(-a) = -th(a). Это преоб­
разование может быть точно компенсировано изменением знака всех весов со­
единений, исходящих из этого скрытого элемента. Таким образом, при измене­
нии знака определенной группы весов (и смещения) функция отображения
входных переменных в выходные, представленная сетью, не изменяется, и по­

этому мы получаем два разных вектора весов, которые приводят к одной и той

же функции отображения. Для М скрытых элементов существует М таких сим-


5.2. Обучение сетей 319

метрий, связанных с изменением знака, поэтому любой заданный вектор весов


будет одним из 2м эквивалентных весовых векторов.
Теперь представьте, что мы меняем местами значения всех весов (и смеще­
ний) соединений, ведущих как в конкретный скрытый элемент, так и из него, и
соответствующие значения весов (и смещений), связанных с другим скрытым
элементом. Очевидно, что при этом функция отображения входных данных в
выходные остается неизменной, но теперь она соответствует другому выбору
вектора весов. Для М скрытых элементов любой заданный вектор весов будет
принадлежать множеству М! эквивалентных весовых векторов, связанных с этой

симметрией обмена и соответствующих М! различным порядкам следования


скрытых элементов. Таким образом, сеть будет иметь общий коэффициент сим­
метрии по пространству весов, равный М!2м. Для сетей с более чем двумя слоя­
ми весов общий уровень симметрии будет определяться произведением таких
коэффициентов, по одному для каждого слоя скрытых элементов.
Оказывается, эти факторы учитывают все симметрии в весовом пространстве
(за исключением возможных случайных симметрий, обусловленных конкретным
выбором весовых значений). Кроме того, существование этих симметрий не яв­
ляется частным свойством функции th, а относится к широкому спектру функ­
ций активации (Ki.irkova and Kainen, 1994). Во многих случаях эти симметрии в
весовом пространстве мало практичны, хотя в разделе 5. 7 мы столкнемся с ситу­

ацией, в которой должны их учитывать.

5.2. Обучение сетей


До сих пор мы рассматривали нейронные сети как общий класс параметриче­
ских нелинейных функций, отображающих вектор входных переменных х в век­
тор выходных переменных у. Простой подход к проблеме определения парамет­
ров сети - провести аналогию с обсуждением аппроксимации полиномиальной
кривой из раздела 1.1 и, следовательно, минимизировать сумму квадратов оши­

бок. Имея обучающее множество, содержащее набор входных векторов {хп}, где
п= 1, ". , N, а также соответствующий набор целевых векторов {tп}, мы мини­
мизируем функцию ошибок:

(5.11)

Однако мы можем встать на гораздо более общую точку зрения на обучение


сетей, сначала предоставив вероятностную интерпретацию результатов работы
320 ГЛАВА 5. НЕЙРОННЫЕ СЕТИ

сети. Мы уже видели много преимуществ использования вероятностных прогно­

зов в разделе 1.5.4. Здесь оно также даст нам более ясную мотивацию как для
выбора нелинейности выходного элемента, так и для выбора функции ошибок.
Начнем с обсуждения задачи регрессии и на данный момент рассмотрим одну
целевую переменную t, которая может принимать любое действительное значе­
ние. Следуя обсуждениям, приведенным в разделах 1.2.5 и 3.1, предположим,
что случайная величина t имеет нормальное распределение с математическим

ожиданием, зависящим от х, которое задается выходом нейронной сети, так что

p(tlx,w) = N(tly(x,w),fГ 1 ), (5.12)

где /J- точность (обратная дисперсия) нормально распределенного шума. Ко­


нечно, это несколько ограничительное предположение, и в разделе 5. 6 мы уви­

дим, как расширить этот подход, чтобы обеспечить более общие условные рас­
пределения. Для условного распределения, заданного формулой (5.12), доста­
точно, чтобы функция активации выходного элемента была тождественной,
потому что такая сеть может аппроксимировать любую непрерывную функцию,
отображающую х в у. Имея набор данных из N независимых, одинаково распре­
деленных наблюдений Х = {х 1 , "., xN}, а также соответствующие целевые зна­
чения t = {t1, "., tN}, мы можем построить соответствующую функцию правдо­
подобия:
N
p(tlX,w,/J) = Пp(tnlxn,w,/J).
n=l

Взяв отрицательный логарифм, получаем функцию ошибок:

2/З ~{у(хп,w)-tп
N }2 -2ln/J+2ln(21Z'),
N N
(5.13)

которая может быть использована для определения параметров w и /J. В разде­


ле 5. 7 мы обсудим байесовский подход к нейронным сетям, а здесь рассмотрим
принцип максимального правдоподобия. Обратите внимание, что в литературе о
нейронных сетях обычно требуется минимизировать функцию ошибок, а не мак­
симизировать логарифмическую функцию правдоподобия, поэтому мы будем
следовать этому соглашению. Рассмотрим сначала определение w. Максимиза­
ция функции правдоподобия эквивалентна минимизации суммы квадратов оши­
бок, заданной формулой

(5.14)
5.2. Обучение сетей 321

где мы отбросили аддитивные и мультипликативные константы. Значение w,


найденное путем минимизации функции E(w), будет обозначаться как wМL, так
как оно соответствует оценке максимального правдоподобия. На практике нели­
нейность сетевой функции у(х"' w) делает функцию ошибок E(w) невыпуклой,
поэтому на практике могут быть найдены локальные максимумы правдоподо­
бия, соответствующие локальным минимумам функции ошибок, как обсужда­
лось в разделе 5.2. 1.
Зная wмL. значение fJ можно найти, минимизируя отрицательную логарифми­
ческую функцию правдоподобия:

1 1 N 2
- = - L{y(xп,wМL)-tп} · (5.15)
/JмL N n=I

Обратите внимание на то, что эту величину можно вычислить после заверше­
ния итеративной оптимизации, необходимой для поиска wмL· Если мы имеем не­
сколько целевых переменных и предположим, что они не зависят от х и wс об­

щей шумовой точностью Д то условное распределение целевых значений зада­


ется выражением

Р( tlx,w) = N( tly(x,w),p- 11). (5.16)

Следуя тем же аргументам, что и для одной целевой переменной, мы видим,


что максимальные значения правдоподобия определяются путем минимизации
суммы квадратов ошибок (5.11) (си. у11раж11е1111е 5.2). Таким образом, точность

шума определяется по формуле

1 1 N 2
/JМL = NK ~lly(xп,WмL)-tпll ' (5.17)

где К - количество целевых переменных. Предположение о независимости мо­


жет быть опущено за счет небольшого усложнения задачи оптимизации

(с.м. у11ражне11ие 5.3).


Напомним (см. раздел 4. 3. 6), что существует естественная ассоциация между
функцией ошибок (заданной отрицательной логарифмической функцией прав­
доподобия)° и функцией активации выходного элемента. В случае регрессии мы
можем рассматривать сеть, у которой функция активации выходного элемента
является тождественной, так что Yk = ak. Соответствующая сумма квадратов
ошибок обладает свойством

(5.18)
322 ГЛАВА 5. НЕЙРОННЫЕ СЕТИ

которое мы будем использовать при обсуждении задачи обратного распростра­


нения ошибок в разделе 5.3.
Теперь рассмотрим случай бинарной классификации, в которой есть одна це­
левая переменная t, такая, что t = 1 обозначает класс С 1 , а t=О - класс ~- Сле­
дуя обсуждению канонической функции связи, изложенному в разделе 4.3.6,
рассмотрим сеть, имеющую один выход, функция активации которого является
логистической сигмоидой:
1
у = а (а) =1+ ехр (-а) ' (5.19)

так что О ~ у(х, w) ~ 1. Мы можем интерпретировать у(х, w) как условную веро­


ятность р(С1 1х), так что р(С2 1х) равна 1- у(х, w). Тогда условное распределение
целевых переменных при заданных входных данных является распределением

Бернулли вида
p(tlx, w) = у(х, w)1 { 1 - у(х, w)} 1-1_ (5.20)
Если мы рассмотрим обучающий набор независимых наблюдений, то функ­
ция ошибок, которая задается отрицательной логарифмической функцией прав­
доподобия, является функцией перекрестной энтропии вида

N
Е ( W) =- L {tn ln Уп + (1- tn) ln (1- Уп)}, (5.21)
n=\

где Уп обозначает у(хт w). Обратите внимание, что в этой формуле нет аналога
точности шума Р, поскольку предполагается, что целевые значения размечены
правильно. Тем не менее эта модель легко обобщается на ситуацию, в которой
допускаются ошибки разметки (см. упраж11е11ие 5.4). Simard et а/. (2003) обна­
ружили, что использование функции перекрестной энтропии вместо суммы
квадратов для задачи классификации приводит к более быстрому обучению, а
также к улучшению обобщения.
Если у нас есть К отдельных бинарных классификаций, то мы можем исполь­
зовать сеть, имеющую К выходов, каждый из которых имеет функцию актива­
ции в виде логистической сигмоидальной функции. С каждым выходом связана
бинарная метка класса tk е {О, 1}, где k = 1, ... , К. Если предположить, что метки
классов являются независимыми при заданном входном векторе, то условное

распределение целевых переменных равно

p(tlx,w)= ПYk(x,w) 1k [1-yk(x,w)J1-1k. (5.22)


k=\
5.2. Обучение сетей 323

Взяв отрицательный логарифм соответствующей функции правдоподобия,


(см. упраж11е11ие 5.5), получаем следующую функцию ошибок:

N К

Е( W) =- LL {tnk lnynk + (1-tnk )In(l- Ynk )}, (5.23)


n=I k=I
где Упk обозначает Уk(хт w). Опять же, производная от функции ошибок по акти­
вации для конкретного выходного элемента, как и в случае регрессии, принима­

ет вид (5.18) (см. упражиеиие 5.6).


Интересно сравнить решение этой задачи, полученное с помощью нейрон­

ной сети, с решением на основе линейной модели классификации, рассмотрен­


ной в главе 4. Предположим, мы используем стандартную двухслойную сеть

такого типа, как показано на рис. 5.1. Мы видим, что весовые параметры в
первом слое сети распределяются между различными выходами, тогда как в

линейной модели каждая задача классификации решается независимо. Первый


слой сети можно рассматривать как извлечение нелинейных признаков, а об­
мен признаками между различными выходами может упростить вычисления и

улучшить обобщение.
Наконец, рассмотрим стандартную задачу классификации с несколькими
классами, в которой каждый вход присваивается одному из К взаимоисключаю­

щих классов. Бинарные целевые переменные tk е {О, 1} имеют схему кодирова­

ния 1 из К, указывающую класс, а сетевые выходы интерпретируются как

Ук(х, w) = p(tk = l Jx), что приводит к следующей функции ошибок:

N К

E(w) =- LLtnk lnyk (хп,w). (5.24)


n=I k=I
Следуя обсуждению, изложенному в разделе 4.3.4, мы видим, что функция

активации выходного элемента, соответствующая канонической связи, задается


функцией softmax:

(5.25)

которая удовлетворяет условиям: О :::;yk:::; 1 и LYk =1. Заметим, что значения


k
ук(х, w) не изменяются, если ко всем значениям ak(x, w) добавляется константа,
заставляющая функцию ошибок быть постоянной для некоторых направлений в
324 ГЛАВА 5. НЕЙРОННЫЕ СЕТИ

весовом пространстве. Это вырождение исчезает, если к функции ошибок до­


бавляется соответствующий регуляризирующий член (см. раздел 5.5).
И снова производная функции ошибок относительно активации для конкрет­
ного выходного элемента принимает знакомый вид (5.18) (см. упра31с11ение 5. 7).
Таким образом, существует естественный выбор функции активации выход­
ного элемента и функции ошибок в соответствии с типом решаемой задачи. Для
регрессии мы используем линейные выходы и сумму квадратов ошибок, для

(множественных независимых) бинарных классификаций используем логисти­


ческие сигмоидальные выходы и функцию перекрестной энтропии, а для клас­
сификации многих классов - выходы softmax с соответствующей многоклассо­
вой функцией перекрестной энтропии. Для задач бинарной классификации мы
можем использовать один выход с логистической сигмоидальной функцией ак­
тивации или, альтернативно, использовать сеть с двумя выходами, имеющими

функцию активации выхода в виде softmax.

5.2.1. Оптимизация параметров

Перейдем к задаче поиска весового вектора w, который минимизирует вы­


бранную функцию E(w). На этом этапе полезно иметь геометрическую картину

функции ошибок, которую мы можем рассматривать как поверхность над про­


странством весов (рис. 5.5). Прежде всего заметим, что если мы сделаем не­

большой шаг в весовом пространстве от w до w + дw, то изменение функции


ошибок будет равно дЕ;::: дwтVE(w), где вектор VE(w) указывает направление
наибольшей скорости возрастания функции ошибок. Поскольку ошибка E(w) яв­
ляется гладкой непрерывной функцией от w, ее наименьшее значение будет до­

стигаться в точке весового пространства, где градиент функции ошибок равен


нулю, т.е.

VE(w) =О, (5.26)


так как в противном случае мы могли бы сделать небольшой шаг в направлении
VE(w) и тем самым еще больше уменьшить ошибку. Точки, в которых градиент
равен нулю, называются стационарными и могут быть точками минимума, мак­
симума или седловыми.
5.2. Обучение сетей 325

E(w)

'\/ Е
Рис. 5.5. Геометрический вид функции ошибок E(w)
в виде поверхности над пространством весов.

Точка Wл является локальным, а w 8 - глобальным минимумом.

В любой точке wc локальный градиент поверхности

ошибок задастся вектором У' Е

Наша цель - найти вектор w, такой, что E(w) принимает наименьшее значе­
ние. Однако функция ошибок обычно имеет сильно нелинейную зависимость от
веса и смещения, и поэтому в весовом пространстве будет много точек, в кото­

рых градиент будет равен нулю или будет очень маленьким. Действительно, из
обсуждения в разделе 5.1.1 следует, что для любой точки w, являющейся ло­
кальным минимумом, существуют другие точки в весовом пространстве, экви­

валентные минимуму. Например, в двухслойной сети, показанной на рис. 5.1, с

М скрытыми элементами каждая точка в весовом пространстве является членом


семейства М1.2м эквивалентных точек (см. ра:1дел 5.1.1).
Кроме того, обычно существует несколько неэквивалентных стационарных
точек и, в частности, несколько неэквивалентных минимумов. Минимум, кото­
рый соответствует наименьшему значению функции ошибок для любого весово­
го вектора, называется глобШiьным минимумом. Любые другие минимумы, соот­
ветствующие более высоким значениям функции ошибок, называются локШiь­
ными минимумами. Для успешного применения нейронных сетей может не
потребоваться находить глобальный минимум (и вообще, не будет известно,
найден ли глобальный минимум), но может потребоваться сравнить несколько
локальных минимумов, чтобы найти достаточно хорошее решение.
Поскольку найти аналитическое решение уравнения VE(w) =О невозможно,

мы прибегаем к итеративным количественным процедурам. Оптимизация не-


326 ГЛАВА 5. НЕЙРОННЫЕ СЕТИ

прерывных нелинейных функций является широко изученной проблемой, и су­


ществует обширная литература о том, как ее эффективно решить. Большинство
методов включают в себя выбор некоторого начального значения w(0 2) для век­
тора весов, а затем перемещение по весовому пространству в последовательно­

сти шагов вида

w(т+I) = w(r) + Лw(т), (5.27)


где т обозначает шаг итерации. Различные алгоритмы включают различные ва­
рианты для обновления векторных весов Лw<r>. Многие алгоритмы используют
информацию о градиенте и, следовательно, требуют, чтобы после каждого об­
новления значение \1E(w) вычислялось при новом векторе весов w<т+IJ_ Чтобы по­
нять важность информации о градиенте, полезно рассмотреть локальное при­
ближение к функции ошибок на основе разложения Тейлора.

5.2.2. Локальная квадратичная аппроксимация


Для того чтобы понимать задачу оптимизации и различные методы ее реше­
ния, следует рассмотреть локальную квадратичную аппроксимацию функции
ошибок.
Рассмотрим разложение Тейлора E(w) в окрестности некоторой точки wв ве­
совом пространстве

E(w) =E(w)+(w-w/ ь+_!._(w-w)т H(w-w), (5.28)


2
где кубические и члены более высокого порядка опущены. Здесь вектор Ь опре­
деляется как градиент функции Е, вычисленный в точке w
(5.29)

и матрица Гессе Н ='V'VЕ имеет элементы

( Н) = дЕ (5.30)
ij дw.дw.
1 } w=w

Из (5.28) следует, что соответствующее локальное приближение к градиенту


задается формулой
'VE =Ь + H(w- w). (5.31)

Для точек w, достаточно близких к w, эти выражения будут давать разумные


приближения ошибки и ее градиента.
5.2. Обучение сетей 327

Рассмотрим частный случай локального квадратичного приближения в окрест­


ности точки w·, являющейся минимумом функции ошибок. В этом случае линей­
ного члена нет, так как VЕ = О при w· и выражение (5 .28) принимает вид

(5.32)

где матрица Гессе Н вычисляется в точке w". Чтобы дать геометрическую интер­
претацию этого, рассмотрим уравнение дrIЯ собственных значений матрицы Гессе:

(5.33)

где собственные векторы u; образуют полное ортонормированное множество


(см. прилоJ1сение В), так что

(5.34)

Разложим теперь вектор w- w" как линейную комбинацию собственных век­


торов в виде

(5.35)

Это можно рассматривать как преобразование системы координат, в которой


начало координат переводится в точку w", а оси вращаются дrIЯ согласования с
собственными векторами (через ортогональную матрицу, столбцы которой яв­
ляются векторами u;). Более подробно эта процедура обсуждается в приложе­

нии В. Подставляя (5.35) в (5.32) и используя (5.33) и (5.34), можно записать


функцию ошибок в виде

E(w) = E(w•)+.!.. LA;a/. (5.36)


2 i

Матрица Н называется положительно определенной, если и только если

vтHv >О дrIЯ любых v "#О. (5.37)

Поскольку собственные векторы {u1} образуют полное множество, произ­


вольный вектор v можно записать в виде

(5.38)

Из (5.33) и (5.34) следует, что

(5.39)
328 ГЛАВА 5. НЕЙРОННЫЕ СЕТИ

поэтому матрица Н будет положительно определенной, если и только если все ее


собственные значения строго положительные (см. упраJ1сне11ие 5.10). В новой си­
стеме координат, базисные векторы которой задаются собственными векторами
{ui}, контуры постоянных значений функции Е являются эллипсами с центром в
начале координат, как показано на рис. 5.6 (см. упражиеиие 5.1 /). Для одномер­
ного весового пространства стационарная точка w· будет точкой минимума, если

>0. (5.40)

Соответствующий результат в пространстве D измерений заключается в том,


что матрица Гессе, вычисленная в точке w·, должна быть положительно опреде­
ленной (см. упра:шнеиие 5.12).

Рис. 5.6. В окрестности минимума w· фу11кцию ошибок можно


аппроксимировать квадратичной функцией . Тогда контуры, соответствующие

постоянной ошибке, являются эллипсами, оси которых ориентированы в1~оль

собственных векторов U; матрицы Гессе с длинами, которые обратно пропорциональны

квадратным корням соответствующих собственных значений А;

5.2.3. Использование информации о градиенте


Как мы увидим в разделе 5.3, градиент функции ошибок можно эффективно
вычислить с помощью процедуры обратного распространения ошибки. Исполь­
зование этой информации о градиенте может привести к значительному улуч­
шению скорости, с которой могут быть установлены минимумы функции оши­
бок. Посмотрим, благодаря чему это происходит.
В квадратичном приближении к функции ошибок, приведенной в (5.28), по­
верхность ошибки определяется вектором Ь и матрицей Н, которые (с.<Н. ynpaJIC-
5.2. Обучение сетей 329

нение 5.13) содержат в общей сложности W(W + 3)/2 независимых элементов


(поскольку матрица Н является симметричной), где W - размерность вектора w
(т.е. общее количество адаптивных параметров сети). Таким образом, местопо-
2
ложение минимума этого квадратичного приближения зависит от О( W ) пара-
метров, и мы не должны ожидать, что найдем минимум, до тех пор, пока не со­

берем O(W2) независимых элементов информации. Если мы не будем использо­


вать информацию о градиенте, то должны выполнить O(W2) вычислений
функции, каждая из которых потребует O(W) шагов. Таким образом, количество
вычислительных операций, необходимых для нахождения минимума с помощью
3
такого подхода, оценивалось бы как O(W ).
Теперь сравните это с алгоритмом, который использует информацию о гра­
диенте. Поскольку каждая оценка VЕ приносит W элементов информации, мы
можем надеяться найти минимум функции за счет О( W) вычислений градиента.
Как мы увидим, с помощью обратного распространения ошибок каждое такое
вычисление требует только О( W) шагов, и поэтому минимум можно теперь
найти за O(W2) шагов. По этой причине использование информации о градиенте
составляет основу практических алгоритмов обучения нейронных сетей.

5.2.4. Оптимизация градиентного спуска

Самый простой подход к использованию информации о градиенте состоит в


том, чтобы выбрать обновление веса в (5.27) и сделать небольшой шаг в направ­
лении отрицательного градиента, так что

w(•+I) = w<тJ - 17VE(Jт», (5.41)


где параметр 17 > О называется скоростью обучения. После каждого такого обнов­
ления градиент заново вычисляется при новом векторе весов и процесс повторяет­

ся. Обратите внимание на то, что функция ошибок определена по обучающему


множеству, поэтому на каждом шаге для вычисления VE необходимо обработать
все обучающее множество. Методы, которые сразу используют весь набор дан­
ных, назьmаются пакетными (Ьatch methods). На каждом шаге весовой вектор пе­
ремещается в направлении наибольшей скорости уменьшения функции ошибок, и
поэтому этот подход известен как метод градиентного, или наискорейшего, спус­
ка. Хотя такой подход может интуитивно казаться разумным, на самом деле он

неудачный по причинам, обсуждавшимся в Bishop and Nabney (2008).


Для пакетной оптимизации существуют более эффективные методы, такие
как методы сопряженных градиентов и квазинъютоновские методы, которые
намного более надежны и намного быстрее, чем простой метод градиентного
спуска (Gill et а/" 1981; Fletcher, 1987; Nocedal and Wright, 1999). В отличие от
330 ГЛАВА 5. НЕЙРОННЫЕ СЕТИ

метода градиентного спуска, эти алгоритмы обладают тем свойством, что функ­
ция ошибок всегда уменьшается на каждой итерации, пока весовой вектор не до­
стигнет локального или глобального минимума.
Чтобы найти достаточно хороший минимум, может потребоваться много­
кратное выполнение алгоритма с использованием градиента, каждый раз с по­
мощью другой случайно выбранной начальной точки, и сравнение результиру­
ющей производительности на независимом тестовом множестве.

Тем не менее существует последовательная версия метода градиентного

спуска, которая на практике оказалась полезной для обучения нейронных сетей


на больших множествах данных (Le Cun et а/" 1989). Функции ошибок, осно­
ванные на максимальном правдоподобии для множества независимых наблюде­
ний, включают сумму членов, по одному для каждой точки данных:

N
E(w) = LEn (w). (5.42)
n=I

Метод последовательного градиентного спуска (on-line gradient descent), ко­


торый также называется методом стохастического градиентного спуска, об­
новляет вектор весов на основе одной точки за раз, так что

(5.43)

Это обновление повторяется путем циклического последовательного обхода


данных или случайного выбора точек с возвращением. Конечно, существуют
промежуточные сценарии, в которых обновления основаны на пакетах точек.
Одним из преимуществ последовательных методов по сравнению с пакетны­
ми является то, что первые намного эффективнее учитывают избыточность дан­
ных. Чтобы убедиться в этом, рассмотрим крайний пример, в котором мы берем
набор данных и удваиваем его размер, дублируя каждую точку. Обратите вни­
мание, что тем самым мы просто умножаем функцию ошибок на два, и поэтому
это эквивалентно использованию исходной функции ошибок. Пакетные методы
потребуют двойного объема вычислительных операций для вычисления гради­
ента пакетной функции ошибок, тогда как последовательные методы останутся
неизменными. Другим свойством последовательного градиентного спуска явля­
ется возможность выхода из локальных минимумов, поскольку стационарная

точка относительно функции ошибок на всем множестве данных, как правило,


не является стационарной точкой для каждой точки данных в отдельности.

Нелинейные алгоритмы оптимизации и их практическое применение для


обучения нейронной сети подробно обсуждаются в Bishop and Nabney (2008).
5.3. Обратное распространение ошибки 331

5.3. Обратное распространение ошибки

Наша цель в этом разделе- найти эффективный метод вычисления градиен­


та функции ошибок E(w) для нейронной сети прямого распространения. Мы
увидим, что это можно сделать с помощью схемы передачи локальных сообще­
ний, в которой информация передается поочередно вперед и назад по сети и ко­
торая называется обратным распространением ошибки.
Следует отметить, что термин "обратное распространение" используется в
литературе по нейронным сетям для обозначения множества разных вещей.
Например, многослойную архитектуру персептрона иногда называют сетью об­
ратного распространения. Термин "обратное распространение" также использу­
ется для описания процесса обучения многослойного персептрона с помощью
метода градиентного спуска, применяемого к сумме квадратов ошибок. Чтобы
уточнить терминологию, полезно более внимательно изучить характер процесса
обучения. Большинство алгоритмов обучения включают в себя итеративную
процедуру минимизации функции ошибок, при этом корректировка весов про­
изводится в результате последовательности шагов. На каждом таком шаге мы

можем различать два разных этапа. На первом этапе необходимо вычислить


производные функции ошибок относительно весов. Как мы увидим, важным
вкладом метода обратного распространения является предоставление эффектив­
ного метода вычисления таких производных. Поскольку на данном этапе ошиб­
ки распространяются назад через сеть, мы будем использовать термин "обратное
распространение" для описания процесса вычисления производных. На втором
этапе производные используются для корректировки весов. Простейший такой
метод, который первоначально рассматривался Rumelhart et а/. (1986), использу­
ет градиентный спуск. Важно понимать, что эти два этапа отличаются один от

другого. Таким образом, первый этап, а именно распространение ошибок назад


через сеть для вычисления производных, может быть применен ко многим дру­
гим видам сети, а не только к многослойному персептрону. Он также может
быть применен к функциям ошибок, отличным от простых сумм квадратов, и к
анализу других производных, таких как матрицы Якоби и Гессе, как мы увидим
далее в этой главе. Аналогичным образом вторая стадия корректировки веса с
помощью вычисленных производных может быть решена с помощью множества
схем оптимизации, многие из которых существенно более мощные, чем простой
метод градиентного спуска.
332 ГЛАВА 5. НЕЙРОННЫЕ СЕТИ

5.3.1. Вычисление производных функций ошибок


Теперь мы выведем алгоритм обратного распространения для сети, имеющей
произвольную топологию прямого распространения, произвольные дифферен­
цируемые нелинейные функции активации и широкий класс функций ошибок.
Полученные формулы затем будут проиллюстрированы с помощью простой
слоистой структуры сети, содержащей один слой сигмоидальных скрытых эле­

ментов вместе с суммой квадратов ошибок.


Множество функций ошибок, представляющих практический интерес,
например, те, которые определяются максимальным правдоподобием для мно­

жества независимых одинаково распределенных данных, содержат сумму чле­

нов, по одному для каждой точки в обучающем множестве, так что

N
E(w)= LEп(w). (5.44)

Здесь мы рассмотрим задачу вычисления У' Еп(w) для одного такого члена в
функции ошибок. Ее можно использовать непосредственно для последователь­
ной оптимизации или же для накопления результатов по обучающим множе­
ствам в случае пакетных методов.

Для начала рассмотрим простую линейную модель, в которой выходы Yk яв­


ляются линейными комбинациями входных переменных Х;, так что

(5.45)

вместе с функцией ошибок, которая для конкретного входного примера п при­


нимает вид

(5.46)

где Упk = Уk(хп, w). Градиент этой функции ошибок относительно веса w1; задается
формулой

(5.47)

который можно интерпретировать как локальное вычисление с помощью умно­

жения ошибки УпJ- tn1, ассоциированной с выходом связи w1;, на переменную Хп;,
ассоциированную со входом связи. В разделе 4.3.2 мы видели аналогичную

формулу для логистической сигмоидальной функции активации в сочетании


с функцией перекрестной энтропии, а также для функции активации softmax в со-
5.3. Обратное распространение ошибки 333

четании с соответствующей функцией перекрестной энтропии. Теперь мы уви­


дим, как этот простой результат распространяется на более сложную настройку
многослойных сетей прямого распространения. В общей сети прямого распро­

странения каждая единица вычисляет взвешенную сумму своих входов вида

(5.48)

где z; - активация элемента, или вход, который устанавливает соединение с

элементом}, а wj; - вес, связанный с этим соединением. В разделе 5.1 мы виде­

ли, что в эту сумму можно включить смещения, вводя дополнительный элемент,

или ввод, с активацией, равной единице. Поэтому нам не нужно явно рассматри­

вать смещения. Сумма в (5.48) преобразуется нелинейной функцией активации


h(·) в активацию z1 элемента} в виде

(5.49)

Обратите внимание на то, что одна или несколько переменных z; в сумме (5.48)
могут быть входами, и аналогичным образом элемент j в (5.49) может быть вы­

ходом.

Для каждого примера в обучающем множестве предположим, что мы предоста­


вили соответствующий входной вектор в сеть и вычислили активацию всех скры­
тых и выходных элементов в сети путем последовательного применения фор­
мул (5.48) и (5.49). Этот процесс часто называют прямым распространением, по­
скольку его можно рассматривать как прямой поток информации через сеть.
Теперь рассмотрим вычисление производной Еп относительно веса w1;. Выхо­

ды различных элементов будут зависеть от конкретного входного образа п. Од­


нако, чтобы сохранить обозначения без изменений, мы будем опускать индекс п
в сетевых переменных. Прежде всего отметим, что Еп зависит от веса w1; только
через суммированный вход а1 в элемент}. Поэтому мы можем применить прави­
ло дифференцирования сложных функций:

дЕп _ дЕп да1


(5.50)
дw1; да j дwji

Введем полезное обозначение:

(5.51)
334 ГЛАВА 5. НЕЙРОННЫЕ СЕТИ

где д; часто называют ошибками по причинам, которые мы вскоре увидим. Ис­


пользуя (5.48), можем написать:

да.
_1_=z. (5.52)
дwji ,.

Подставляя (5.51) и (5.52) в (5.50), получим:

дЕп =д.z" (5.53)


дw"
]1
] 1

Уравнение (5.53) означает, что требуемая производная получается просто путем


умножения значения д для элемента на выходном конце веса на значение z для

элемента на входном конце веса (где z=1в случае смещения). Заметим, что это

выражение имеет тот же вид, что и для простой линейной модели, рассмотрен­
ной в начале этого параграфа. Таким образом, для вычисления производных нам
нужно только вычислить значение д1 для каждого скрытого и выходного эле­
мента в сети, а затем применить (5.53).
Как мы уже видели, для выходных элементов мы имеем

(5.54)
если в качестве функции активации выходного элемента мы используем канони­
ческую связь. Чтобы вычислить д1 для скрытых элементов, мы снова используем
правило дифференцирования сложных функций,

д} = дЕп = L дЕп даk ' (5.55)


да1 k даk да1

где индекс суммирования пробегает все элементы k, на который ссылаются эле­


менты}. Расположение элементов и весов показано на рис. 5.7. Обратите внима­

ние на то, что элементы с меткой k могут включать в себя другие скрытые эле­

менты и/или выходные элементы. При записи (5.55) мы используем тот факт,
что изменения в а1 приводят к изменениям функции ошибок только за счет вари­
аций переменных ak. Если теперь подставить в (5.55) определение д, заданное
формулой (5.51), и воспользоваться (5.48) и (5.49), мы получим следующую
формулу обратного распространения:

дi = h'( aJ) L wkJдk, (5.56)


k

из которой следует, что значение д для конкретного скрытого элемента можно


получить, распространяя дназад от элементов выше по сети (рис. 5.7). Заметим,
5.3. Обратное распространение ошибки 335

что суммирование в (5 .56) берется по первому индексу wkJ (соответствующему

обратному распространению информации через сеть), тогда как в уравнении


прямого распространения (5 .10) она берется по второму индексу. Поскольку мы

уже знаем значения д для выходных элементов, рекурсивно применяя (5.56),


можем вычислить д для всех скрытых элементов в сети прямого распростране­
ния , независимо от ее топологии.

Z;

Рис. 5.7. Вычисление 1~ дл я скрытого эл емс111а/ путем обратного распространения Jиз

тех элементов k, на которые ссылается элсмс11тj. Синяя стрелка обо1начает направление

информационного потока во вр е мя прямого распространения , а красные стрелки

ук аз ывают н а обратное рас11ростра11с11и с информании об ошибк е

Итак, процедуру обратного распространения ошибки можно резюмировать

следующим образом.

Обратное распространение ошибки

1. Введите входной вектор хп в сеть и пройдите по сети, вычисляя форму­


лы (5.48) и (5.49), чтобы найти активацию всех скрытых и выходных
элементов.

2. Вычислите дk для всех выходных элементов, используя (5.54).


3. Выполните обратное распространение ошибки с помощью формулы (5.56),
чтобы найти д1 для каждого скрытого элемента в сети.

4. Используйте (5.53) для вычисления необходимых производных.

Для пакетных методов производная от общей ошибки Е может быть получена


путем повторения вышеуказанных шагов для каждого примера в обучающем
множестве с последующим суммированием по всем примерам:

дЕ -I дЕп (5 .57)
дwji - п дwji.
336 ГЛАВА 5. НЕЙРОННЫЕ СЕТИ

В приведенном выше выводе мы неявно предположили, что каждый скрытый

или выходной элемент в сети имеет одну и ту же функцию активации h(-). Одна­
ко этот вывод легко обобщить и позволить отдельным элементам иметь отдель­
ные функции активации, просто отслеживая соответствие между формой функ­
ции h(-) и элементами.

5.3.2. Простой пример

Вышеприведенный вывод процедуры обратного распространения ошибки


позволил использовать общие формы для функции ошибок, функций активации
и топологии сети. Чтобы продемонстрировать применение этого алгоритма, рас­
смотрим конкретный пример. Он был выбран с учетом как его простоты, так и
практической значимости, потому что многие приложения нейронных сетей, о
которых говорится в литературе, используют этот тип сети. В частности, рас­

смотрим двухслойную сеть вида, показанную на рис. 5.1, вместе с функцией


ошибок в виде суммы квадратов ошибок, в которой выходные элементы имеют
линейные функции активации, так что Ук = ak, тогда как скрытые элементы име­
ют сигмоидальные функции активации:

h(a) = th(a), (5.58)


где

а -а

th{a)= е -е . (5.59)
еа +е-а

Полезной особенностью этой функции является то, что ее производная может


быть выражена в особенно простой форме:

h'(a) = 1- h(a) 2 • (5.60)


Мы также рассматриваем стандартную сумму квадратов ошибок, так что для

примера п ошибка задается выражением

1 к 2
Eп=2~(yk-tk), (5.61)

где Yk - активация выходного элемента k; tk - соответствующая целевая пере­


менная для конкретного входного примера Хп·

Для каждого примера в обучающем множестве, в свою очередь, сначала вы­


полняем прямое распространение, используя формулы
5.3. Обратное распространение ошибки 337

а1 = L w1(1)i xi,
D
(5.62)
1=0
z1 = th(a1), (5.63)
м (2)
Yk = L wkJ z1. (5.64)
}=О

Потом вычисляем б для каждого выходного элемента, используя

(5.65)
Затем выполняем обратное распространение ошибки, получая ~ для скрытых
элементов, используя формулу
к

~ = (t-z;),LwkJбk. (5.66)
k=I

Наконец, производные по весам первого и второго слоев задаются выражением

д~~) = б1 хi, д~;) = бkz1 . (5.67)


дwji дwkj

5.3.3. Эффективность обратного распространения ошибки


Одним из наиболее важных аспектов обратного распространения ошибки явля­
ется его вычислительная эффективность. Чтобы понять это, рассмотрим, как коли­
чество компьютерных операций, необходимых для вычисления производных

функции ошибок, масштабируется общим количеством W весов и смещений в се­

ти. Отдельное вычисление функции ошибок (для заданного входного примера) по­
требует О( W) операций при достаточно большом W. Это следует из того факта,
что, за исключением сети с очень разреженными соединениями, количество весов

обычно намного больше, чем количество элементов, поэтому основная часть вы­
числительных операций в сети прямого распространения связана с вычислением
сумм (5.48) и вычислением функций активации, связанных с небольшими затра­
тами. Каждому члену в сумме (5.48) требуется одно умножение и одно сложение,
что приводит к общей вычислительной стоимости, равной O(W).
Альтернативным подходом к обратному распространению ошибок для вы­
числения производных функции ошибок является использование конечных раз­
ностей. Это можно сделать путем возмущения каждого веса по очереди и ап­
проксимации производных выражением

дЕ Еп ( W}i + Е ) - Еп ( W}i)
_п = +О(в), (5.68)
дwji Б
338 ГЛАВА 5. НЕЙРОННЫЕ СЕТИ

где с<< 1. При компьютерном моделировании точность приближения к произ­


водным может быть улучшена, уменьшаясь до тех пор, пока не появятся про­
блемы с численным округлением. Точность метода конечных разностей можно
значительно улучшить за счет использования симметричных центральных раз­

ностей:

дЕ = Еп ( w1i + 8 )- Еп ( w1i -
п
8)

( 2}
е .
__ (5.69)
дwji 28

В этом случае поправки порядка О( с) аннулируются, что можно доказать, раз­


ложив правую часть формулы (5.69) в ряд Тейлора, поэтому остаются только
2
поправки порядка О( с ). Однако при этом количество вычислительных этапов
увеличивается примерно вдвое по сравнению с (5.68) (см. упраш:иеиие 5.14).
Основная проблема, связанная с численным дифференцированием, заключа­
ется в том, что очень желательный порядок O(W) оказывается потерянным. Для
каждого прямого распространения потребуются О( W) шагов, а сеть содержит W
весов, каждый из которых должен быть возмущен индивидуально, так что общее
количество операций имеет порядок O(W2).
Однако на практике количественное дифференцирование играет важную
роль, поскольку сравнение производных, рассчитанных путем обратного рас­
пространения, с результатами, полученными с помощью центральных разностей,

обеспечивает эффективную проверку правильности любой программной реали­


зации алгоритма обратного распространения. При обучении сетей на практике
производные должны вычисляться с помощью обратного распространения, по­
скольку это дает максимальную точность и численную эффективность. Однако

результаты должны сравниваться с результатами численного дифференцирова­


ния с использованием формулы (5.69) для некоторых тестовых случаев, чтобы
проверить правильность реализации.

5.3.4. Матрица Якоби


Мы видели, как производные функции ошибок по весам могут быть получе­
ны путем распространения ошибок назад через сеть. Метод обратного распро­
странения также можно применить для вычисления других производных. Здесь

мы рассмотрим вычисление матрицы Якоби, элементы которой задаются произ­


водными от сетевых выходов по входам

(5.70)
5.3. Обратное распространение ошибки 339

где каждая такая производная вычисляется при фиксированных остальных вход­


ных данных. Матрицы Якоби играют полезную роль в системах, построенных из
ряда различных модулей (рис. 5.8). Каждый модуль может содержать фиксиро­
ванную или адаптивную функцию, которая может быть линейной или нелиней­
ной, если она дифференцируема. Предположим, мы хотим минимизировать
функцию ошибок Е по параметру w, как показано на рис. 5.8. Производная
функции ошибок задается формулой

дЕ _" дЕ дуk дz1


- - .L.,-----, (5.71)
дw k,j дуk дz } . дw

в которой матрица Якоби для красного модуля, показанного на рис. 5.8, появля­
ется в среднем члене.

u--•
t---•Y

х--• w

Рис. 5.8. Модульная система распо:шавания обрюов,

в которой матрица Якоби может исполЬ3оваться для обратного

распространения ошибок от выходов в предыдущие модули системы

Поскольку матрица Якоби позволяет оценивать меру локальной чувствитель­

ности выходов к изменениям каждой из входных переменных, она также позво­


ляет любым известным ошибкам Лх;, связанным со входом, распространяться
через обученную сеть, чтобы вычислить их вклад Луk в ошибки на выходах с по­
мощью соотношения

(5.72)

которое справедливо при условии, что IЛx;I невелики. В общем случае сетевое
отображение, представленное обученной нейронной сетью, будет нелинейным,
поэтому элементы матрицы Якоби не будут константами, а будут зависеть от
конкретного используемого входного вектора. Таким образом, формула (5.72)
справедлива только для малых возмущений входов, а сама матрица Якоби долж­
на быть заново вычислена для каждого нового входного вектора.
340 ГЛАВА 5. НЕЙРОННЫЕ СЕТИ

Матрицу Якоби можно вычислить с помощью процедуры обратного распро­


странения ошибок, аналогичной той, которая была получена ранее для вычисле­
ния производных функции ошибок по весам. Начнем с представления элемента
Jki в виде

(5.73)

Здесь мы использовали формулу (5.48). Индекс суммирования в формуле (5.73)


пробегает все элементы j, на которые ссылается модуль ввода i (например, по
всем элементам в первом скрытом слое в слоистой топологии, рассмотренной
ранее). Запишем теперь рекурсивную формулу обратного распространения, что­
бы определить производные дуk /да/

(5.74)

где индекс суммирования пробегает все элементы l (соответствующие первому


индексу wu), на которые ссылается элемент j. Здесь мы снова использовали фор­
мулы (5.48) и (5.49). Это обратное распространение начинается с выходных эле­
ментов, для которых требуемые производные можно найти непосредственно по
форме функции активации выходного элемента. Например, если мы имеем инди­
видуальные сигмоидальные функции активации на каждом выходном элементе, то

(5.75)

тогда как для выходов softmax мы имеем

(5.76)

Мы можем описать процедуру вычисления матрицы Якоби следующим обра­


зом. Введите входной вектор, соответствующий точке в пространстве ввода, в
которой должна быть найдена матрица Якоби, и выполните распространение
вперед обычным способом, чтобы получить активацию всех скрытых и выход-
5.4. Матрица Гессе 341

пых элементов в сети. Далее, для каждой строки k матрицы Якоби, соответству­

ющей выходному модулю k, выполните обратное распространение ошибок, ис­


пользуя рекурсивное соотношение (5.74), начиная с (5.75) или (5.76), для всех
скрытых элементов в сети. Наконец, используйте (5.73) для обратного распро­
странения ошибок на входы. Матрицу Якоби также можно вычислить с помо­
щью альтернативного механизма прямого распространения, который можно вы­
вести аналогично механизму обратного распространения, приведенному здесь
(с.и. упражпение 5.15).
Реализацию таких алгоритмов также можно проверить с помощью численно-
го дифференцирования в виде

дуk
-=
Yk ( Х; +с)- Yk ( Х; - с)
+О с
( 2) , (5.77)
дх; 2&
которое подразумевает 2D операций прямого распространения в сети с D входами.

5.4. Матрица Гессе


Мы показали, как метод обратного распространения ошибки может быть ис­
пользован для получения первых производных функции ошибок по весам. Об­
ратное распространение также можно использовать для вычисления вторых

производных ошибки
д2Е
(5.78)
дwjiдwlk
Заметим, что иногда удобно рассматривать все веса и смещения как элементы w;
одного вектора, обозначаемого w, и тогда вторые производные образуют элементы
Hij матрицы Гессе Н, где i,j Е {1, "., W}, где W- общее количество весов и сме­
щений. Матрица Гессе играет важную роль во многих аспектах нейронных сетей.

1. Несколько нелинейных алгоритмов оптимизации, используемых для обу­


чения нейронных сетей, основаны на свойствах второго порядка поверх­
ности ошибок, которые контролируются матрицей Гессе (Bishop and
Nabney, 2008).
2. Матрица Гессе составляет основу быстрой процедуры переобучения сети
прямого распространения после небольшого изменения обучающих дан­
ных (Bishop, 1991 ).
342 ГЛАВА 5. НЕЙРОННЫЕ СЕТИ

3. Обратная матрица Гессе бьmа использована для определения наименее зна­


чимых весов в сети в рамках сетевых алгоритмов отсечения (Le Cun et а/.,
1990).
4. Матрица Гессе играет центральную роль в аппроксимации Лапласа для бай­
есовской нейронной сети (см. раздел 5. 7). Ее обратная матрица использует­
ся для определения прогнозного распределения для обученной сети, ее соб­
ственные значения определяют значения гиперпараметров, а ее определи­

тель используется для вычисления модельных данных. Для вычисления


матрицы Гессе для нейронной сети использовались различные схемы ап­
проксимации. Тем не менее матрицу Гессе можно также точно вычислить,
используя обобщение метода обратного распространения ошибки.

Важным соображением для многих приложений матрицы Гессе является эф­


фективность, с которой ее можно вычислить. Если сеть имеет W параметров (ве­
са и смещения), то матрица Гессе имеет размеры Wx W, и поэтому вычисли-
2
тельные затраты, необходимые для ее вычисления оцениваются как О( W ) для
каждого примера в множестве данных. Как мы увидим, существуют эффектив­
ные методы вычисления матрицы Гессе, сложность которых действительно име-
2
ет порядок O(W ).

5.4.1. Диагональная аппроксимация

В некоторых из рассмотренных выше приложений матрицы Гессе необходима


ее обратная матрица, а не она сама. По этой причине представляет определенный
интерес использование диагональной аппроксимации матрицы Гессе, иначе гово­

ря, замена недиагональных элементов нулями, чтобы вычисление обратной мат­


рицы стало тривиальным. Как и ранее, рассмотрим функцию ошибок, состоящую
из суммы членов по одному для каждого примера в множестве данных, так что

Е = LEn. Тогда матрицу Гессе можно получить, поочередно рассматривая при-


п

меры, а затем суммируя результаты по всем примерам. Из (5.48) следует, что диа-
гональные элементь1 матрицы Гессе для примера п можно записать так:

д2 Еп д2 Еп 2
--2-=--2-z; · (5.79)
дw;; да;

Используя (5.48) и (5.49), вторые производные в правой части (5.79) можно


найти рекурсивно с помощью правила дифференцирования сложных функций, и
получить уравнение обратного распространения ошибки:
5.4. Матрица Гессе 343

(5.80)

Если теперь пренебречь недиагональными элементами во вторых производ­


ных, получим (Becker and Le Cun, 1989; Le Cun et al., 1990):

(5.81)

Обратите внимание на то, что количество операций, необходимых для вы­


числения этой аппроксимации, имеет порядок О( W), где W - общее количество
весов и смещений в сети по сравнению с O(W2) для полной матрицы Гессе.
Ricotti et al. (1988) также использовали диагональную аппроксимацию матри­
цы Гессе, но они сохранили все члены в оценке д 2 Еп/ да~ и получили точные
выражения для диагональных членов. Обратите внимание, что вычислительная
сложность этого метода не имеет порядок O(W). Однако основная проблема с
диагональными приближениями состоит в том, что на практике обычно считает­
ся, что матрица Гессе является существенно недиагональной, и поэтому эти ап­

проксимации, которые в основном обусловлены вычислительным удобством,


должны рассматриваться с осторожностью.

5.4.2. Аппроксимация векторного произведения

Когда для решения регрессионных задач применяются нейронные сети, в ка­


честве функции ошибок обычно используется сумма квадратов ошибок:

1 N 2
Е=-L(Уп-tп)' (5.82)
2 n;J

где мы предполагаем, что сеть имеет один выход, чтобы упростить обозначения
(обобщение на несколько выходов не составляет труда). Тогда мы можем напи­
сать матрицу Гессе в виде (с.1\1. упраж11е11ие 5.16)

(5.83)
n;\ n;J

Если сеть была обучена по множеству данных, а ее выходы Уп оказались


очень близкими к целевым значениям tn, то второй член в (5.83) будет мал и им
можно пренебречь. В более общем случае, однако, может быть целесообразно
пренебречь этим членом по следующим причинам. Напомним из раздела 1.5.5,
что оптимальная функция, которая минимизирует сумму квадратов потерь,
344 ГЛАВА 5. НЕЙРОННЫЕ СЕТИ

представляет собой условное математическое ожидание целевых данных. Тогда

величина Уп - tn является случайной величиной с нулевым математическим ожи­


данием. Если предположить, что его значение не коррелирует со значением чле­

на со второй производной в правой части (5.83), то при суммировании поп весь


член будет усреднен до нуля (c,w. упражнеиие 5.17).
Пренебрегая вторым членом в (5.83), мы приходим к аппроксимации Левен­
берга-Марквардта, или к аппроксимации векторного произведения (поскольку
матрица Гессе строится из суммы векторных произведений), которая задается
формулой

(5.84)

где bn =У' ап = У'уп , потому что функция активации для выходных элементов яв­
ляется просто тождественной. Оценка аппроксимации векторного произведения
для матрицы Гессе является простой, поскольку она включает только первые

производные функции ошибок, которые могут быть эффективно вычислены за


О( W) шагов с помощью стандартной процедуры обратного распространения
ошибки. Элементы матрицы можно найти за О( W2) шагов простым умножением.
Важно подчеркнуть, что эта аппроксимация, скорее всего, будет корректной для
сети, прошедшей соответствующее обучение, и что для общего сетевого отоб­
ражения член со второй производной в правой части (5.83) обычно не будет

пренебрежимо малым.
В случае функции перекрестной энтропии для сети с логистической сигмои­
дальной функцией активации выходного элемента (см. упраJ1сиение 5.19) соот­
ветствующая аппроксимация задается формулой

N
Н= LУп(1-уп)ЬпЬ~. (5.85)
n=I

Аналогичный результат можно получить для многоклассовых сетей с функ­


цией активации выходного элемента softmax (см. упра:нс11е1111е 5.20).

5.4.3. Обратная матрица Гессе

Мы можем использовать аппроксимацию векторного произведения для раз­

работки вычислительно эффективной процедуры аппроксимации обратной мат­


рицы Гессе (HassiЬi and Stork, 1993). Сначала запишем аппроксимацию вектор­
ного произведения в матричных обозначениях как
5.4. Матрица Гессе 345

N
HN = Iьпь~, (5.86)
n=I

где Ьп =У' -.ап - вклад в градиент активации выходного элемента, возникаю­


щий за счет точки п. Теперь мы получаем последовательную процедуру постро­
ения матрицы Гессе путем перебора точек. Предположим, что мы уже получили
обратную матрицу Гессе, используя первые L точек из обучающего множества
данных. Отделив этот вклад от точки данных L + 1, получим:

(5.87)

Чтобы вычислить обратную матрицу Гессе, рассмотрим матричное тождество

(M+vv т)-1 --М -1 _(м-1v)(vтм-1)


т 1 • (5.88)
l+v м- v

Это тождество является просто частным случаем тождества Вудбери (В. 7). Если
теперь отождествить матрицу HL с матрицей М и вектор bL + 1 с вектором v, по­
лучим:

ьт н-1
н-1 -
L+1 -
н-1
L
- н -1ь
L L+1 L+1 L
Т -1 (5.89)
1+ bL+lHL bL+1

Таким образом, точки последовательно обрабатываются до тех пор, пока


L + 1 не станет равным N и весь набор данных не будет обработан. Следователь­
но, этот результат представляет собой процедуру для вычисления обратной мат­
рицы Гессе с помощью одного прохода через набор данных. Начальная матрица
Н 0 выбрана равной al, где а- малая величина, так что алгоритм фактически
находит матрицу, обратную к матрице Н + al. Эти результаты не особенно чув­
ствительны к точному значению а. Обобщение этого алгоритма на сети, имею­
щие более одного выхода, не составляет труда (c.w. упражиеиие 5.21).
Отметим здесь, что матрицу Гессе иногда можно вычислить косвенно как
часть алгоритма обучение сети. В частности, квазиньютоновские алгоритмы не­
линейной оптимизации постепенно формируют приближение к обратной матри­
це Гессе во время обучения. Такие алгоритмы подробно обсуждаются в Bishop
and Nabney (2008).

5.4.4. Конечные разности

Как и в случае первых производных функции ошибок, мы можем найти вто­


рые производные с помощью конечных разностей с погрешностью, ограничен-
346 ГЛАВА 5. НЕЙРОННЫЕ СЕТИ

ной численной точностью. Если мы поочередно возмущаем каждую возможную


пару весов, то

д2Е 1
---=-- 2 {в(w1 ; +c,w1k +c)-E(w1; +&, w1k -c)-
дw1;дw1k 4& (5.90)
k-c)}+o(c 2).
-E(w1; -&,wzk +c)+E(w1; -c,w1

И снова, используя симметричную формулу центральных разностей, мы га-


2
рантируем, что остаточные ошибки имеют порядок О(с ), а не О(с). Поскольку в
матрице Гессе есть W2 элементов и для вычисления каждого элемента требуется
четыре этапа прямого распространения, каждый из которых требует выполнения
O(W) операций (для каждого примера), мы видим, что в этом подходе для вы­
числения полной матрицы Гессе потребуется O(W 3) операций. Таким образом,
он обладает плохими показателями вычислительной сложности, хотя на практи­
ке очень полезен в качестве проверки компьютерной реализации методов обрат­
ного распространения ошибки.
Более эффективную версию численного дифференцирования можно реализо­
вать, применяя центральные разности первых производных функции ошибок,
которые сами вычисляются с помощью обратного распространения. Это дает

(5.91)

Поскольку в этот раз возмущаются толькоW весов, а градиенты можно вычис­


лить за O(W) шагов, мы видим, что этот метод дает матрицу Гессе за O(W 2)
операций.

5.4.5. Точная оценка матрицы Гессе

До сих пор мы рассматривали различные схемы аппроксимации для вычисле­


ния матрицы Гессе или ее обратной. Матрицу Гессе также можно точно вычис­
лить для сети произвольной топологии прямого распространения, используя
обобщение метода обратного распространения ошибки для вычисления первых
производных, который обладает многими желательными характеристиками,
включая вычислительную эффективность (Bishop, 1991; Bishop, 1992). Он может
применяться к любой дифференцируемой функции ошибок, которая может быть
выражена как функция сетевых выходов и сетей, имеющих произвольные диф­
ференцируемые функции активации. Количество вычислительных шагов, необ-
5.4. Матрица Гессе 347

ходимых для вычисления матрицы Гессе, имеет порядок O(W2). Аналогичные


алгоритмы были также рассмотрены Buntine and Weigend (1993).
Здесь мы рассмотрим конкретный случай сети, имеющей два слоя весов, для
которых легко выводятся требуемые уравнения (см. упра:щиение 5.22). Будем

использовать индексы i и i'для обозначения входов, индексы} иj'- для скры­


тых элементов, а индексы k и k' - для выходов. Сначала определим

(5.92)

где Еп - вклад в ошибку точки п. Затем матрицу Гессе для этой сети можно раз­
делить на три отдельных блока следующим образом.
1. Оба веса во втором слое:

(5.93)

(5.94)

3. Один вес в каждом слое:

(5.95)

Здесь ~'J - элемент j, j' тождественной матрицы. Если один или оба веса явля­
ются членами смещения, то соответствующие выражения получаются путем

установки соответствующей активации, равной единице. Включение соединений

с пропуском слоев не составляет труда (с.-н. упра.жнеиие 5.23).

5.4.6. Быстрое умножение на матрицу Гессе

Во многих приложениях матрицы Гессе интерес представляет не сама матри­


v. Мы видели, что вычисле­
ца Гессе Н, а ее произведение на некоторый вектор
ние матрицы Гессе требует операций, а также хранения O(W2) элементов.
O(W2)
Однако вектор vтН, который мы хотим вычислить, имеет только W элементов,
поэтому вместо вычисления матрицы Гессе в качестве промежуточного шага
348 ГЛАВА 5. НЕЙРОННЫЕ СЕТИ

можем попытаться найти эффективный подход к непосредственному вычисле­


нию вектора vтН, требующего только O(W) операций.
Для этого сначала отметим, что
т т
v H=v У'(У'Е), (5.96)

где У' обозначает оператор градиента в весовом пространстве. Затем мы можем


записать стандартные уравнения прямого и обратного распространения для вы­
числения VE и применить к этим уравнениям формулу (5.96), получая набор
уравнений прямого и обратного распространения для вычисления vтН (M0ller,
1993; Pearlmutter, 1994). Это соответствует действию на исходные уравнения
прямого и обратного распространения дифференциального оператора vтУ'. Perl-
mutter (1994) использовал для обозначения оператора vтУ' символ 'R{-}, и мы
тоже будем следовать этому соглашению. Анализ прост и использует обычные
правила дифференциального исчисления с результатом

'R{w} =v. (5.97)

Данный метод лучше всего продемонстрировать на простом примере, и мы

снова выберем двухслойную сеть, показанную на рис. 5 .1, с линейными выход­

ными элементами и функцией ошибок в виде суммы квадратов ошибок. Как и


прежде, рассмотрим вклад в функцию ошибок одного примера из множества
данных. Требуемый вектор получается, как обычно, суммированием по вкладам
от каждого из примеров отдельно. Для двухслойной сети уравнения прямого

распространения задаются формулой

(5.98)

z1 = h(a), (5.99)
Yk = LWkJzJ. (5.100)
j

Теперь мы действуем на эти уравнения, используя оператор 'R{·}, чтобы по­

лучить набор уравнений прямого распространения в виде

n{ а1 } = L vjixi' (5.101)
j

'R{z1} = h'(a1)R{a1 }, (5.102)

n{yk} = LWkjn{z1}+ LVkjzj, (5.103)


j
5.4. Матрица Гессе 349

гдеv1; - элемент вектора v, соответствующий весу w1;. Величины вида R{z1 },


R{a1} и R{yk} следует рассматривать как новые переменные, значения которых
найдены с помощью приведенных выше уравнений.
Поскольку мы рассматриваем сумму квадратов ошибок, то получим следую­
щие стандартные выражения для обратного распространения:

дk =Yk- tk, (5.104)

дi = h'( ai) L wkJдk.


k
(5.105)

И снова, мы воздействуем на эти уравнения с помощью оператора R{·}, по­

лучая множество уравнений обратного распространения в виде

R{дk} = R{yk}, (5.106)

R { д1 } = h" (а1) R {а1 } L wkfдk +


k
(5.107)
+h'( а1 )L vkJдk + h'( а1 ) L wk1R{дk}.
k k

Наконец, имеем обычные уравнения для первых производных ошибки:

(5.108)

(5.109)

и действуя на них с помощью оператора R{·}, получаем выражения для элемен­


тов вектора vтН:

(5.110)

(5.111)

Реализация этого алгоритма включает в себя введение дополнительных пере­


менных R{a1}, R{z1} и R{д1 } для скрытых элементов и R{дk} и R{yk} для вы­
ходных элементов. Для каждого входного примера значения этих величин мож-
v
но наити с помощью приведенных выше результатов, а затем элементы v тн за-

даются формулами (5.110) и (5.111). Элегантным аспектом этого метода


т
является то, что уравнения для вычисления v Н тесно связаны с теми, которые
350 ГЛАВА 5. НЕЙРОННЫЕ СЕТИ

используются для стандартного прямого и обратного распространения, и поэто­


му обобщение существующего программного обеспечения для вычисления этого
произведения обычно не составляет труда.
При желании этот метод можно использовать для вычисления полной мат­
рицы Гессе, выбирая вектор v, который последовательно задается рядом еди­
ничных векторов вида (О, О, "., 1, ... , О), выделяющих отдельные столбцы мат­
рицы Гессе . Это приводит к формализму, который аналитически эквивалентен
процедуре обратного распространения Bishop (1992), как описано в разде­
ле 5.4.5, хотя и с некоторой потерей эффективности из-за дополнительных вы­
числений.

5.5. Регуляризация в нейронных сетях

Количество входных и выходных элементов в нейронной сети обычно опре­


деляется размерностью множества данных, тогда как количество М скрытых

элементов является свободным параметром, который можно настроить, чтобы


обеспечить наилучшее качество прогнозирования. Обратите внимание на то, что
величина М контролирует количество параметров (весов и смещений) в сети, по­

этому мы можем ожидать, что при использовании метода максимального прав­

доподобия будет достигнуто оптимальное значение М, которое дает наилучшие


характеристики обобщения, соответствующие оптимальному балансу меж­
ду недообучением и переобучением. На рис . 5.9 приведен пример влияния раз­

личных значений М на задачу синусоидальной регрессии.

М= З

о
-~ )(
)(
о

)(
о

-1 -1 -1

о о о

Рис. 5.9. Примеры двухслойных сетей , обучающихся по 1О точкам, юятым ю

синусои д ального множества д анных. На графиках показ ан ре зультат построения сетей ,

имеющих М = 1, 3 и 1О скрытых элементов соответственно, путем минимиз ации суммы

квадратов ошибок с помощью масштабированного алгоритма сопряженного градиента

Однако ошибка обобщения зависит не только от значения М из-за наличия


локальных минимумов в функции ошибок, как показано на рис. 5.10. Здесь мы

видим эффект выбора нескольких случайных инициализаций весового вектора


5.5. Регуляризация в нейронных сетях 351

для диапазона значений М. Наилучшая точность на контрольном множестве в

данном случае достигнута при М= 8. На практике одним из подходов к выбору


М является построение графика, показанного на рис. 5.10, с последующим выбо­
ром конкретного решения, имеющего наименьшую ошибку на множестве вали-
дации.

160 +
140
:f
+
120 + f
• + + +- +
~
100 +
+ i +f *l
80
60
+
... + +
+ ,j.
t
+ i 1 :. t .j

о 2 4 6 8 10
Рис. 5.1 О. Зависимость суммы квадратов ошибок на множестве тестирования для

полиномиальных данных от количества скрытых элементов в сети при 30 случайных

инициализациях для каждого размера сети, демонстрирующих эффект локальных

минимумов. Для каждой новой инициализа~1ии вектор весов выбирался из генеральной

совокупности с изотропным нормальным распределением, имеющим нулевое

математическое ожидание и лисперсию, равную 1О

Существуют, однако, и другие способы управления сложностью модели


нейронной сети, чтобы избежать чрезмерного переобучения. Обсуждая аппрок­
симацию полиномиальной кривой в главе 1, мы видели, что альтернативный

подход заключается в выборе относительно большого значения для М, а затем в


управлении сложностью путем добавления регуляризирующего члена к функции
ошибок. Самый простой регуляризатор - квадратичный, дающий регуляризо­

ванную ошибку вида


- л т
E(w)=E(w)+-w w. (5.112)
2
Этот регуляризатор также называется редукцией весов и подробно обсуждал­
ся в главе 3. В таком случае эффективная сложность модели определяется выбо­
ром коэффициента регуляризации Л. Как мы видели ранее, этот регуляризатор
352 ГЛАВА 5. НЕЙРОННЫЕ СЕТИ

можно интерпретировать как отрицательный логарифм нормального распреде­


ления с нулевым математическим ожиданием по весовому вектору w.

5.5.1. Согласованные нормальные априорные распределения

Одним из ограничений простой редукции весов в форме (5.112) является то,


что она несовместима с некоторыми масштабирующими свойствами сетевых
отображений. Чтобы проиллюстрировать это, рассмотрим многослойную сеть
персептрона, имеющую два уровня весов и линейные выходные элементы, кото­
рые выполняют отображение из множества входных переменных {х;} в множе­
ство выходных переменных {yk}. Активации скрытых элементов в первом скры­
том слое принимают форму

(5.113)

в то время как активация выходных элементов определяется по формуле

Yk = LWkJzi+wko· (5.114)
j

Предположим, мы выполняем линейное преобразование входных данных вида

Х; ~х; =ах; +Ь. (5.115)

Тогда мы можем организовать преобразование, выполненное сетью, без из­


менений, сделав соответствующее линейное преобразование весов и смещений
от входов к элементам в скрытом слое (см. упра:нсиеиие 5.24):

(5.116)

(5.117)

Аналогично линейное преобразование выходных переменных сети вида

(5.118)

может быть достигнуто путем преобразования весов и смещений второго слоя с


помощью преобразований
(5.119)

(5.120)
5.5. Регуляризация в нейронных сетях 353

Если мы обучаем одну сеть с помощью исходных данных, а другую - с по­

мощью данных, для которых входные и/или целевые переменные преобразуются


одним из приведенных выше линейных преобразований, то для согласованности
требуется, чтобы мы получили эквивалентные сети, которые отличаются только
указанным линейным преобразованием веса. Любой регуляризатор должен
обеспечивать это свойство, в противном случае он произвольно отдает предпо­
чтение одному решению перед другим, эквивалентным решением. Ясно, что

простая редукция весов (5.112), которая относится ко всем весам и смещениям,


не удовлетворяет этому свойству.

Поэтому мы ищем регуляризатор, инвариантный относительно линейных


преобразований (5.116), (5.117), (5.119) и (5.120). Необходимо, чтобы регуляри­

затор был инвариантен к изменению масштаба весов и сдвигам смещений. Такой


регуляризатор задается формулой

(5.121)

где W1 обозначает множество весов в первом слое, W2 - множество весов во

втором слое, а смещения исключаются из суммирования. Этот регуляризатор


остается неизменным при преобразованиях весов, при условии, что параметры
регуляризации перемасштабируются с помощью преобразований Л ~ а 112 Л 1 и 1
1 -1/2 1
л.2 ~с л.z.

Регуляризатору (5.121) соответствует априорное распределение, имеющее вид

р ( wl а1 , а2 ) ос ехр [- а21 L w а22 L w


weW1
2 -
weWz
2 ). (5.122)

Обратите внимание, что априорные распределения этого вида являются не­


собственными (они не могут быть нормированы), потому что параметры сме­
щения не ограничены. Использование несобственных априорных распределений
может привести к затруднениям при выборе коэффициентов регуляризации и
сравнении моделей в байесовской структуре, поскольку соответствующие уров­
ни обоснованности равны нулю. По этой причине принято включать отдельные
априорные распределения для смещений (которые тем самым нарушают инвари­
антность сдвига), имеющие свои собственные гиперпараметры. Мы можем про­
иллюстрировать влияние полученных четырех гиперпараметров, извлекая при­

меры из генеральной совокупности с априорным распределением и строя график


соответствующих сетевых функций, как показано на рис. 5.11.
354 ГЛАВА 5. НЕЙРОННЫЕ СЕТИ

(].~ = 1,
4г----~---~--~----.
«t = 1, (].~ = 1, ~=1
40
(].~ = 1, «t = 1, (].~ = 10, ~ = 1

2 20
о о

-2 -20
-4 -40
-6'----~---~--~------' -60
-1 --0,5 о 0,5 -1 --0,5 о 0,5
(].~ = 103,
5г----~---~--~----,
«t = 10 2, (].~ = 1, ~ = 1 а.~ = 10
3,
5г----~---~--~----.
dt = 103, а.~ = 1, ~=1

о о

-5 -5

-10~--~---~--~------' -10~--~---~--~--~
-1 --0,5 о 0,5 -1 --0,5 о 0,5

Рис. 5.11. Эффект гиперпараметров, регулирующих априорное распределение по весам и

смещениям в двухслойной сети с одним входом, одним линейным выходом и 12 скрытыми


элементами, имеющими функции активации th. Априорные распределения управляются

,
четырьмя гиперпараметрами, а1ь , a 1w , а~ и а; которые представляют собой точности
нормальных распределений смещений первого слоя, весов первого слоя, смещений

второго слоя и весов второго слоя соответственно. Мы видим, что гипсрпараметр а;

определяет вертикальный масштаб функций (обратите внимание на разные диапазоны

вертикальной оси на двух верхних диаграммах), гиперпарамстр а~ управляет


горизонтальной шкалой вариаций значений функций, а гиперпарамстр а 1ь управляет
горизонтальным диапа:юном, по которым происходят изменения. Параметр а~ , эффект
которого здесь нс пока1ш1, определяет диапазон вертикальных смещений функций

Обобщая, мы можем рассмотреть априорные распределения, в которых веса


делятся на любое количество групп Wk, так что

(5.123),

где

(5.124)

В качестве частного случая этого априорного распределения, выбирая группы


для обеспечения соответствия множествам весов, связанных с каждым из вход­
ных элементов, и оптимизируя маргинальное правдоподобие по соответствую-
5.5. Регуляризация в нейронных сетях 355

щим параметрам ak, мы получим автоматическое определение релевантности,


рассмотренное в разделе 7.2.2.

5.5.2. Обучение с остановкой


Альтернативой регуляризации как способа управления эффективной сложно­
стью сети является процедура обучения с остановкой (early stopping). Обучение
нелинейных сетевых моделей соответствует итеративному уменьшению функ­
ции ошибок, определенной по обучающему множеству данных. Для многих ал­
горитмов оптимизации, используемых для сетевого обучения, таких как метод
сопряженных градиентов, ошибка является невозрастающей функцией номера
итерации. Однако ошибка, измеренная относительно независимых данных,
обычно называемых контрольным множеством, часто демонстрирует сначала
снижение, за которым следует увеличение по мере того, как сеть начинает пере­

обучаться. Таким образом, если остановить обучение в точке наименьшей ошиб­


ки относительно контрольного множества данных, как показано на рис . 5 .12,
можно получить сеть, имеющую хорошие характеристики обобщения.

0,45

0,25

~ 0,4

0,2
~. 1 11 lllllllD

1
0,15 о 0,35 о
10 20 30 40 50 10 20 30 40 50

Рис. 5.12. Поведение ошибки на тестовом множестве (с1еви) и ошибки

на контрольном множестве (с права) во вrсмн типичного обучения в з ависимости

от лапа итерации для множества синусоидал ьных данных. Цель достижения наилучшего

обобщения пре;щолагает , что обучение ; щлжно быть остановл е но в точке ,

обозначенной в ертикал ьными 11унктирными линиями и соответствующей

минимуму ошибки на контрол ьном множестве

Поведение сети в этом случае иногда объясняют качественно с точки зрения


эффективного количества степеней свободы, которое сначала невелико, а затем
возрастает по мере обучения, что соответствует устойчивому увеличению эф­
фективной сложности модели . Завершение обучения до того, как была достиг­
нута минимальная ошибка обучения, представляет собой способ ограничения
эффективной сложности сети .
356 ГЛАВА S. НЕЙРОННЫЕ СЕТИ

В случае квадратичной функции ошибок мы можем проверить эту точку зре­


ния и показать, что обучение с остановкой должно проявлять аналогичное пове­
дение при регуляризации с помощью редукции весов. Это можно понять по
рис. 5.13, на котором оси в весовом пространстве были повернуты параллельно
собственным векторам матрицы Гессе. Если в отсутствие редукции весов весо­
вой вектор начинается в начале координат и перемещается во время обучения по
пути, указанному локальным вектором отрицательного градиента, тогда вектор

весов будет перемещаться первоначально параллельно оси w2 через точку, при­


мерно соответствующую w, а затем перейдет к минимуму функции ошибок Wмi..
Это следует из формы поверхности ошибки и сильно отличающихся собствен­
ных значений матрицы Гессе. Поэтому остановка вблизи w похожа на редук­
цию весов. Связь между обучением с остановкой и редукцией весов можно оце­
нить количественно, тем самым показывая, что величина т17 (где т- номер ите­
рации, а 17- параметр скорости обучения) играет роль обратного параметра
регуляризации Л. Таким образом, эффективное количество параметров в сети в
ходе обучения растет.

Рис. 5.13. Схематическая иллюстрация того, почему обучение с остановкой может

дать результаты, аналогичные редукции весов в случае квадратичной фуню(ии ошибок .

Эллипс показывает контур постоянной ошибки, а wмL обозначает минимум функции

ошибок . Если весовой вектор начинает движение в начале координат и перемещается

в соответствии с направлением отрицательного локального градиента,

то он будет следовать по пути, показанному кривой. Остановившись на раннем этапе,

мы найдем весовой вектор \V , качественно подобный полученному с помощью

простого регулятора редукции весов и обучения с минимумом рсгулярюованной

ошибки, как видно из сравнения с рис. 3.15


5.5. Регуляризация в нейронных сетях 357

5.5.3. Инварианты

Во многих приложениях распознавания образов требуется, чтобы предсказания


были неизменными, или инвариантными, при одном или нескольких преобразова­
ниях входных переменных. Например, при классификации объектов в двумерных
изображениях, таких как рукописные цифры, конкретному объекту должен присва­
иваться один и тот же класс независимо от его положения в изображении (инвари­
антность к сдвигу) или его размера (масштабная инвариантность). Такие преоб­
разования приводят к значительным изменениям исходных данных, выражаемых в

терминах интенсивности каждого rшкселя изображения, и все же они должны при­


водить к тому же результату классификации. Точно так же при распознавании речи
небольшие уровни нелинейного искажения вдоль оси времени, которые сохраняют
временной порядок, не должны изменять интерпретацию сигнала.

Если доступно достаточно большое количество обучающих образов, то адап­


тивная модель, такая как нейронная сеть, может обеспечивать инвариантность,
по крайней мере, приблизительно. Для этого в обучающее множество необходи­
мо включить достаточно большое количество примеров, демонстрирующих эф­
фекты различных преобразований. Таким образом, для инвариантности к сдвигу
в изображении обучающее множество должно содержать примеры объектов на
разных позициях.

Однако этот подход может быть непрактичным, если количество обучающих


примеров ограничено или существует несколько инвариантов (поскольку коли­
чество комбинаций преобразований растет экспоненциально с количеством та­
ких преобразований). По этой причине мы ищем альтернативные подходы к по­
ощрению адаптивной модели поддерживать требуемые инварианты. Их можно
разделить на четыре категории.

1. Обучающее множество дополняется с помощью копий обучающих приме­


ров, преобразованных в соответствии с желаемыми инвариантами. Напри­
мер, в задаче о распознавании цифр мы можем сделать несколько копий
каждого примера, в котором цифра на каждом изображении смещена в
другую позицию.

2. К функции ошибок добавляется регуляризирующий член, который штра­


фует изменения в выходе модели при преобразовании ввода. Это приводит
к методу касательного распространения (tangent propagation), обсуждае­
мому в разделе 5.5.4.
3. Инвариантность встроена в предварительную обработку с помощью из­
влечения признаков, инвариантных относительно необходимых преобра­
зований. Любая последующая система регрессии или классификации, ко-
358 ГЛАВА 5. НЕЙРОННЫЕ СЕТИ

торая использует такие функции, как входы, обязательно будет также учи­
тывать эти инварианты.

4. Последним вариантом является внедрение свойств инварианnюсти в струк­


туру нейронной сети (или в определение функции ядра в случае таких мето­
дов, как метод релевантных векторов). Один из способов достижения это­
го - использование локальных рецептивных полей и общих весов, которые
обсуждаются в контексте сверточных нейронных сетей в разделе 5.5.6.
Первый подход часто оказывается относительно простым в применении и
может использоваться для поощрения сложных инвариантов, таких как на

рис. 5.14. Для последовательных алгоритмов обучения это можно сделать, пре­
образовывая каждый входной пример до того, как он будет представлен модели,
чтобы при повторном использовании примеров каждый раз добавлялось друтое
преобразование (взятое из соответствующего распределения). Для пакетных ме­
тодов аналогичный эффект может быть достигнут путем многократного тиражи­
рования каждой точки и независимого преобразования каждой копии. Использо­
вание таких дополненных данных может привести к значительным улучшениям

обобщения (Simard et а/., 2003), хотя может оказаться дорогостоящим с точки


зрения вычислительных затрат.

Рис. 5.14. Искусственное деформирование рукописной цифры. Исходное изображение

показано слева. Верхний ряд справа демонстрирует три примера деформированных

цифр с соответствующими полями смещения, показанными в нижнем ряду . Эти поля

смещения генерируются путем выборочных случайных перемещений Лх, Луе(О, \)на

каждом пикселе и затем сглаживания сверткой с нормальным распределением,

имеющим дисперсию 0,01; 30 и 60 соответственно

Второй подход оставляет неизменным набор данных, но изменяет функцию


ошибок посредством добавления регулятора. В разделе 5.5.5 будет показано, что
этот подход тесно связан с первым подходом.
5.5. Регуляризация в нейронных сетях 359

Одним из преимуществ третьего подхода является то, что он может правиль­


но экстраполировать далеко за пределы преобразований, включенных в обуча­
ющее множество. Тем не менее может быть трудно найти создаваемые вручную
признаки с требуемыми инвариантами, не отбрасывающие информацию, кото­
рая может быть полезной для распознавания.

5.5.4. Касательное распространение

Мы можем использовать регуляризацию, чтобы заставить модели быть инвари­


антными к преобразованиям входных данных методом касательного распро­
странения (Simard et а/., 1992). Рассмотрим эффект преобразования на конкретном
входном векторе xn. Если преобразование является непрерывным (например, пе­
ренос или вращение, но не зеркальное отражение), то преобразованный пример
будет заметать многообразие М в D-мерном пространстве ввода. Это показано на
рис. 5.15 для случая D = 2, выбранного для простоты. Предположим, преобразова­
ние определяется одним параметром q(который может быть, например, углом по­
ворота). Тогда подпространство, заметаемое вектором Хт будет одномерным и па­
раметризованным параметром q. Пусть вектор, являющийся результатом действия
на Xn этого преобразования, обозначается через s(xn, q) и определяется так, что
s(x, О)= х. Тогда касательная к кривой М задается производной по направлениям
t = дs/дq, а касательный вектор в точке Xn задается формулой
дs(хп,q)
't = --'---'-1 (5.125)
п дq ~=0

Xz

Рис. 5.15. Двумерное входное пространство, демонстрирующее эффект непрерывного

преобразования конкретного входного векторах". Одномерное преобразование,

параметри:юванное непрерывной переменной ,;, примененное к х",

заставляет его '3аметать одномерное многообразие М. Локально эффект

преобрюования может быть аппроксимирован касательным вектором t"


360 ГЛАВА 5. НЕЙРОННЫЕ СЕТИ

При преобразовании входного вектора выходной вектор сети, в общем, изме­


няется. Производная выхода k по qопределяется формулой

(5.126)

где Jld- элемент (k, i) матрицы Якоби J, рассмотренной в разделе 5.3.4. Резуль­
тат (5.126) можно использовать для модификации стандартной функции ошибок,
чтобы стимулировать локальную инвариантность в окрестности точек путем до­
бавления к исходной функции ошибок Е регуляризирующей функции П, чтобы
получить полную функцию ошибок в виде

E=E+m, (5.127)

где Л- коэффициент регуляризации и

(5.128)

Функция регуляризации будет равна нулю, когда функция сетевого отображения


инвариантна относительно преобразования в окрестности каждого вектора обра­
за, а значение параметра Л определяет баланс между обучающими данными и
свойством инвариантности.
В практической реализации касательный вектор t п можно аппроксимировать

с помощью конечных разностей, вычитая исходный вектор xn из соответствую­


щего вектора после преобразования, используя небольшое значение ;, а затем
деля на q(рис. 5.16).
Регуляризирующая функция зависит от веса сети через якобиан J. Формализм
обратного распространения для вычисления производных регуляризатора по ве­
сам легко получается путем обобщения методов, введенных в разделе 5.3
(см. упражнение 5.26).
Если преобразование определяется параметрами L (например, L = 3 для слу­
чая параллельных переносов в сочетании с вращениями двумерного изображе­

ния), то многообразие М имеет размерность L, а соответствующий регуляриза­


тор задается суммой членов вида (5.128), по одному для каждого преобразова­
ния. Если одновременно рассматривать несколько преобразований, причем
сетевое отображение инвариантно относительно каждого из них в отдельности,
то оно будет (локально) инвариантным к комбинациям этих преобразований
(Simard et al., 1992).
5.5. Регуляризация в нейронных сетях 361

а) б)

в) г)

Рис. 5.16. Показано следующее: а) исходное изображение х рукописной цифры;

б) касательный вектор t , соответствующий бесконечно малому вращению по часовой

стрелке ; синий цвет соответствует положительным значениям, а желтый -


отрицательным; в) результат п.обавления небольшого вклада от касательного

вектора в исходное изображение, дающее вектор х + &t, где & = 15 градусов;

г) истинное изображение, повернутое п.ля сравнения

Связанный с ним метод, называемый методом касателыюго расстояния, мо­


жет бьrгъ использован для обеспечения свойств инвариантности в методах, осно­
ванных на расстояниях, таких как метод ближайших соседей (Simard et а/., 1993).

5.5.5. Обучение на основе преобразованных данных


Мы видели, что одним из способов обеспечения инвариантности модели к
множеству преобразований является расширение обучающего множества с по­
мощью преобразованных версий исходных примеров. Здесь мы покажем, что
362 ГЛАВА 5. НЕЙРОННЫЕ СЕТИ

этот подход тесно связан с методом касательного распространения (Bishop,


1995Ь, Leen, 1995).
Как и в разделе 5.5.4, рассмотрим преобразование, определяемое одним па­
раметром q и описываемое функцией s(x, q), с условием s(x, О) = х. Мы также
рассмотрим функцию ошибок в виде суммы квадратов ошибок. Функция оши­
бок для нетрансформированных входов может быть записана (в пределе, при
бесконечном множестве данных) в виде

Е =~ fJ {у( x)-t} 2 p(tlx )Р( х )dxdt, (5.129)

как описано в разделе 1.5.5. Там мы рассмотрели сеть, имеющую один вывод,

чтобы сохранить обозначения относительно простыми. Если теперь мы рассмот­


рим бесконечное количество копий каждой точки, каждая из которых возмущена
преобразованием, в котором параметр qизвлечен из генеральной совокупности с
распределением р( q), то функцию ошибок, определенную над этим расширен­
ным набором данных, можно записать как

(5.130)

Предположим теперь, что распределение р( q) имеет нулевое математическое

ожидание с малой дисперсией, поэтому мы рассматриваем только малые преоб­


разования входных векторов. Затем мы можем разложить функцию преобразо­
вания в ряд Тейлора по степеням q:
а ;2 82
s(x,q) = s(x,O) + q дq s(x,q)lq=O +2 дq 2 s(x,q)lq=O +о( q3 ) =

=х+ qt +~q 2 t' +о( q3 ),


где t 'обозначает вторую производную s(x, q) по q, вычисленную при q= О. Это
позволяет разложить в ряд модельную функцию:

Подставляя это разложение в функцию среднеквадратической ошибки (5.130),


получим:
5.5. Регуляризация в нейронных сетях 363

E=~fJ{y(x)-t} 2 p(tlx)p(x)dxdt+
+JE[;]fJ{у( х )-t}-rтvy( x)p(tlx )dxdt
+JE[ q2 ]~ п {у( х )-t}{( -r')т Vy( х) +-rтVVy( х )-r} +
+( 'tтVy( х )2 )p(tlx )р( x)dxdt +0( q3 ).
Поскольку распределение преобразований имеет нулевое математическое ожи­
дание, мы имеем JE[q] =О. Кроме того, обозначим JE[q 2] через Л. Если отбросить
члены порядка О(;\ то функция средней ошибки принимает вид

E=E+m, (5.131)

где Е - исходная сумма квадратов ошибок, а регуляризирующий член n при­


нимает вид

n =~ f[{y( x)-JE[tlx]} ]{( -rYvy(x) +-rтVVy( x)-r} +


(5.132)
+( 'tтVy( х ) )Р( х )dx,
2

где мы выполнили интегрирование по t.


Мы можем еще больше упростить этот регуляризирующий член следующим
образом. В разделе 1.5.5 мы увидели, что функция, минимизирующая сумму
квадратов ошибок, задается условным математическим ожиданием JE[tlx] целе­
вых значений t. Из (5.131) видно, что регуляризованная ошибка будет равна
нерегуляризованным суммам квадратов плюс слагаемые, которые имеют поря­

док O(q2), поэтому сетевая функция, минимизирующая общую ошибку, будет


иметь вид

у(х) = JE[tlx] +O(q 2). (5.133)

Таким образом, чтобы аппроксимация имела второй порядок q, первый член в


регуляризаторе должен быть равным нулю, и мы приходим к формуле

(5.134)

что эквивалентно регуляризатору касательного распространения (5.128).


364 ГЛАВА 5. НЕЙРОННЫЕ СЕТИ

Если мы рассмотрим частный случай, когда преобразование входов состоит


из добавления случайного шума, так что х ~ х + ~. то регуляризатор принимает
вид (см. упражиеиие 5.27)

(5.135)

Такой вид регуляризации называется регуляризацией Тихонова (Tikhonov and


Arsenin, 1977; Bishop, 1995Ь ). Производные этого регуляризатора по сетевым
весам можно найти с помощью расширенного алгоритма обратного распро­
странения (Bishop, 1993). Мы видим, что для малых амплитуд шума регуляри­

зация Тихонова связана с добавлением случайных шумов к входам, что, как


было показано, улучшает обобщение при соответствующих условиях (Sietsma
and Dow, 1991).

5.5.б. Сверточные сети

Другим подходом к созданию моделей, которые являются инвариантными к

определенному преобразованию входных данных, является внедрение свойств

инвариантности в структуру нейронной сети. Этот подход лег к основу сверточ­


ных нейронных сетей (Le Cun et al" 1989; LeCun et а/" 1998), которые широко
применяются к изображениям.
Рассмотрим конкретную задачу распознавания рукописных цифр. Каждое
входное изображение содержит набор значений интенсивности пикселя, а жела­
емый выход - это распределение вероятностей по десяти классам цифр. Мы
знаем, что идентичность цифры инвариантна относительно сдвигов и масштаби­
рования, а также (малых) вращений. Кроме того, сеть должна также проявлять
инвариантность к более тонким преобразованиям, таким как упругие деформа­
ции вида, показанного на рис. 5.14. Например, можно бьшо бы просто рассмат­
ривать изображение как вход в полносвязную сеть, аналогичную показанной на
рис. 5.1. При достаточно большом обучающем множестве такая сеть в принципе
могла бы дать хорошее решение этой задачи и, например, изучить соответству­

ющие инварианты.

Однако этот подход игнорирует ключевое свойство изображений, которое за­

ключается в том, что соседние пиксели сильнее коррелированы, чем более отда­
ленные. Многие из современных подходов к компьютерному зрению использу­

ют это свойство, выделяя локШ1ьные признаки, которые зависят только от не­

больших подобластей изображения. Информацию из таких признаков можно


5.5. Регуляризация в нейронных сетях 365

объединить на более поздних этапах обработки, выделяя признаки более высо­


кого порядка и в конечном итоге получая информацию об изображении в целом.
Кроме того, локальные признаки, которые полезны в одной области изображе­

ния, вероятно, будут полезны в других областях изображения, например, если к


объекту применили параллельный перенос.

Эти понятия реализованы в сверточных нейронных сетях с помощью трех


механизмов: 1) локальных рецептивных полей, 2) разделения весов и
3) подвыборки (subsampling)1. Структура сверточной сети показана на рис. 5.17.
В слое свертки элементы объединяются в группы, каждая из которых называется
картой признаков. Каждый элемент в карте признаков получает входные данные

только из небольшой подобласти изображения, и все элементы в карте призна­


ков используют одни и те же значения веса. Например, карта признаков может
состоять из 100 элементов, образующих сетку 1О х 1О, причем каждый элемент
принимает входные данные из фрагментов изображений размером 5х5 пиксе­

лей. Таким образом, вся карта признаков имеет 25 регулируемых весов и один
регулируемый параметр смещения. Входные значения из фрагмента образуют
линейную комбинацию с помощью весов и смещения, а результат преобразу­
ется сигмоидальной нелинейной функцией по формуле (5.1). Если мы рас­

сматриваем элементы как детекторы признаков, то все элементы в карте при­

знаков обнаруживают один и тот же образ, но в разных местах входного изоб­


ражения. Благодаря разделению веса вычисление активации этих элементов
эквивалентно свертке интенсивностей пикселей изображения с ядром, содер­

жащим весовые параметры. Если входное изображение смещено, активация


карты признаков будет сдвинута на одну и ту же величину, но в остальном не
изменится. Это обеспечивает основу для (приближенной) инвариантности се­
тевых выходов к сдвигам и искажениям входного изображения. Поскольку для

создания эффективной модели нам обычно необходимо обнаруживать множе­


ство признаков, в слое свертки будет, как правило, несколько карт приз­

наков, каждая из которых имеет свой собственный набор весов и параметров


смещения.

1
Синоним: субдискретизация. - Примеч. ред.
366 ГЛАВА 5. НЕЙРОННЫЕ СЕТИ

Исходное изображение Слой свертки Слой подвыборки

Рис. 5.17. Диаграмма, иллюстрирующая часть сверточной нейронной сети и слой

элементов свертки, за которым следует слой элементов подвыборки.

В сети можно использовать несколько последовательных пар таких слоев

Выходы элементов свертки образуют входные данные для слоя подвыборки


сети. Для каждой карты признаков в слое свертки существует плоскость элемен­

тов в слое подвыборки, и каждый элемент принимает входные данные из не­


большого рецептивного поля в соответствующей карте признаков слоя свертки.
Эти элементы выполняют подвыборку. Например, каждый элемент подвыборки
может принимать входные данные из области 2 х 2 в соответствующей карте
признаков и вычислять среднее значение этих входов, умноженное на адаптив­

ный вес с добавлением адаптивного параметра смещения, а затем преобразовы­


ваться с помощью сигмоидальной нелинейной функции активации. Рецептивные
поля выбираются так, чтобы они были непрерывными и неперекрывающимися,
так что в слое подвыборки будет вдвое меньше строк и столбцов по сравнению
со слоем свертки. Таким образом, ответы элементов в слое подвыборки будут
относительно мало чувствительными к малым смещениям изображения в соот­
ветствующих областях входного пространства.
На практике архитектура сети может состоять из несколько пар слоев свертки

и подвыборки. На каждом этапе наблюдается большая степень инвариантности


входных преобразований по сравнению с предыдущим слоем. В конкретном
слое свертки может существовать несколько карт признаков для каждой группы

элементов в предыдущем слое подвыборки, так что постепенное уменьшение


5.5. Регуляризация в нейронных сетях 367

пространственного разрешения компенсируется возрастающим количеством

признаков. Последний слой сети, как правило, будет полносвязным, полностью


адаптивным, с нелинейностью выхода softmax в случае классификации многих
классов.

Всю сеть можно обучить с помощью минимизации ошибок, используя для


вычисления градиента функции ошибок алгоритм обратного распространения.
Для этого обычный алгоритм обратного распространения необходимо слегка
модифицировать, чтобы обеспечить выполнение ограничений, связанных с раз­
делением весов (см. упраJкиеиие 5.28). Из-за использования локальных рецеп­
тивных полей количество весов в сети меньше, чем если бы сеть была полно­
связной. Кроме того, благодаря значительному количеству ограничений на веса
количество независимых параметров, которые будут получены на основе дан­
ных, существенно уменьшается.

5.5.7. Мягкое разделение весов

Одним из способов снижения эффективной сложности сети с большим коли­


чеством весов является требование, чтобы веса в определенных группах бьmи
одинаковыми. Этот метод разделения весов обсуждался в разделе 5.5.6 как спо­
соб обеспечения инвариантности к сдвигу в сетях, используемых для интерпре­
тации изображений. Однако это применимо только к конкретным проблемам, в
которых форма ограничений может быть указана заранее. Здесь мы рассмотрим
форму мягкого разделения весов (Nowlan and Hinton, 1992), в которой жесткое
требование равенства весов заменяется формой регуляризации, в которой оди­
наковые значения должны принимать не все, а только определенные группы ве­

сов. Кроме того, разделение весов на группы, вычисление среднего веса для
каждой группы и распространение значений внутри групп становятся частью
процесса обучения.
Напомним, что простой регуляторизатор на основе редукции весов, приве­
денный в (5.112), можно рассматривать как отрицательный логарифм априорно­
го нормального распределения по весам. Мы можем назначать значения весов
для нескольких групп, а не только для одной группы, рассматривая распределе­

ние вероятностей, представляющее собой смесь нормальных распределений


(с,и. раздел 2.3.9). Центры и дисперсии нормальных компонентов, а также коэф­
фициенты смешивания будут рассматриваться как регулируемые параметры, ко­
торые считаются частью процесса обучения. Таким образом, имеем плотность
вероятности вида
368 ГЛАВА 5. НЕЙРОННЫЕ СЕТИ

p(w)= Пр(w;), (5.136)

где
м

р( W;) = LlljN( w;lµ;,O"n (5.137)


j=I

и л1 - коэффициенты смешивания. Взяв отрицательный логарифм, приходим к


функции регуляризации вида

(5.138)

Тогда общая функция ошибок задается формулой

E(w)=E(w)+O(w). (5.139)

Эта ошибка минимизируется как по весам w;, так и по параметрам смеси {"J, µ, Oj}.
Если бы веса бьmи постоянными, то параметры смеси можно бьшо бы определить с
помощью алгоритма ЕМ, рассмотренного в главе 9. Однако распределение весов
само эволюционирует во время процесса обучения, и поэтому, чтобы избежать вы­
числительной неустойчивости, выполняется совместная оптимизация весов и пара­
метров смеси. Это можно сделать с помощью стандартного алгоритма оптимиза­

ции, такого как метод сопряженных градиентов или квазиньютоновские методы.

Чтобы минимизировать общую функцию ошибок, необходимо вычислять ее


производные по различным регулируемым параметрам. Для этого удобно рас­
сматривать параметры {л1 } как априорные вероятности и вводить соответству­
ющие апостериорные вероятности, которые, следуя (2.192), задаются теоремой
Байеса в виде

(5.140)

Производные от общей функции ошибок по весам задаются формулой


(см. упражнение 5.29)

(5.141)

Следовательно, эффект регуляризирующего члена заключается в том, что он


притягивает каждый вес к центру j-й нормального компонента с силой, пропор-
5.5. Регуляризация в нейронных сетях 369

циональной апостериорной вероятности этого компонента для данного веса. Это


именно тот эффект, к которому мы стремимся.
Производные ошибки по центрам нормальных компонентов также легко вы­

числяются (с.м. упра:нс11е11ие 5.30):

(5.142)

Эти производные также имеют простую интуитивную интерпретацию: они толка­

ют параметры µ1 к среднему значению весов, взвешенному по апостериорным ве­

роятностям того, что соответствующие веса генерируются компонентом}. Анало­


гично производные по дисперсиям задаются формулой (см. упра;жнепие 5.31)

(5.143)

Эти производные толкают а1 к средневзвешенному квадрату отклонений весов в


окрестности соответствующего центра µ1, где весовые коэффициенты снова за­
даются апостериорной вероятностью того, что каждый вес генерируется компо­
нентом}. Заметим, что в практических реализациях обычно вводятся новые пе­

ременные ?, определенные по формуле


(5.144)

и минимизация выполняется относительно ?· Это гарантирует, что параметры а1


останутся положительными, а также предотвращает появление патологических

решений, в которых один или несколько параметров а1 обращаются в нуль, что


соответствует коллапсу нормального компонента к одно из значений весовых
параметров. Такие решения более подробно обсуждаются в контексте моделей
смесей нормальных распределений в разделе 9. 2.1.
Для вычисления производных по коэффициентам смешивания tr1 нужно
учесть ограничения

L1i1 =1, O:S;tr:S;l, (5.145)


j

которые следуют из интерпретации параметров tr1 как априорных вероятностей.


Это можно сделать, выразив коэффициенты смешивания через множество вспо­
могательных переменных { Т/J}, используя функцию softmax, заданную формулой
370 ГЛАВА 5. НЕЙРОННЫЕ СЕТИ

(5.146)

Тогда производные регуляризованной функции ошибок по {711} примут вид


(с.м. упражиеиие 5.32)

(5.147)

Таким образом, мы видим, что параметры :r1 стремятся к средней апостери­


орной вероятности для компонента}.

5.6. Сети со смешанной пnотностью

Целью обучения с учителем является моделирование условного распределе­


ния p(tlx), которое для многих простых задач регрессии выбирается нормаль­
ным. Однако при решении практических задач машинного обучения часто воз­
никают совершенно не нормальные распределения. Они могут возникнуть,
например, в обратных задачах, в которых распределение может быть многомо­
дальным, и в этом случае предположение о нормальном распределении может

привести к очень неточным предсказаниям.

В качестве простого примера обратной задачи рассмотрим кинематику робо­


та (рис. 5.18). Прямая, задача заключается в поиске конечной позиции манипу­
лятора робота при заданных шарнирных углах и имеет единственное решение
(см. упращ:11е11ие 5.33). Однако на практике мы хотим перевести манипулятор
робота в определенную позицию, и для этого необходимо задать соответствую­
щие шарнирные углы. Следовательно, необходимо решить обратную задачу, ко­
торая имеет два решения, как показано на рис. 5.18.
Прямые задачи часто соответствуют причинно-следственным связям в физи­
ческой системе и, как правило, имеют единственное решение. Например, кон­
кретная картина симптомов в организме человека может быть вызвана наличием
определенного заболевания. Однако при распознавании образов нам обычно
приходится решать обратную задачу, например, пытаться предсказать наличие
заболевания с учетом множества симптомов. Если прямая задача связана с отоб­
ражением "многие к одному", то обратная будет иметь несколько решений.
Например, несколько разных заболеваний могут приводить к одним и тем же
симптомам.
5.6. Сети со смешанной плотностью 371

локоть
вверх

Рис. 5.18. Слева показан двух:~венный робот-манипулятор,

в котором декартовы координаты (х 1 , х 2 ) манипулятора однозначно

определяются двумя шарнирными углами, 0 1 и Oz, и (фиксированными)

длинами плеч L 1 и L2 . Это называется прюwой кинематикой руки . На практике мы

должны найти шарнирные утлы, которые приведут к желаемому положению

манипулятора, и, как показано на рисунке справа, эта обратная кинематика имеет два
решения , соответствующие положениям "ло коть вверх" и "локоть вниз"

В примере с робототехникой кинематика определяется геометрическими


уравнениями, и многомодальностъ очевидна. Однако во многих задачах машин­
ного обучения наличие многомодальности, особенно в пространстве большой
размерности, может быть менее очевидным. Однако в учебных целях мы рас­

смотрим простую модельную задачу, для которой можем легко визуализировать

многомодальность. Данные для этой задачи генерируются путем выбора пере­


менной х равномерно из интервала (О, 1), чтобы получить набор значений {хп}, а

соответствующие целевые значения tn получены путем вычисления функции

Хп + 0,3sin(21lxn) с последующим добавлением шума, равномерно распределен­


ного на интервале (-0, 1; О, 1). Обратная задача получается, если поменять ролями
переменные х и t. На рис. 5.19 показаны множества данных для прямой и обрат­

ной задач, а также результаты их аппроксимации двухслойными нейронными


сетями с шестью скрытыми элементами и единственным линейным выходным

элементом путем минимизации суммы квадратов ошибок. Наименьшие квадра­

ты соответствуют максимальному правдоподобию при предположении о нор­


мальном распределении . Мы видим, что для обратной задачи с существенно не
нормальным распределением это приводит к очень плохой модели .
Итак, необходимо найти универсальный способ моделирования условных ве­
роятностных распределений. Этого можно достичь, используя модель смеси для
p(tlx), в которой как коэффициенты смешивания, так и плотности компонентов
372 ГЛАВА 5. НЕЙРОННЫЕ СЕТИ

являются гибкими функциями входного вектора х, что приводит к созданию се­


ти со смешанной плотностью . Для любого заданного значениях модель смеси
дает универсальный формализм для моделирования произвольной условной
плотности вероятности p(tlx). Если мы рассмотрим достаточно гибкую сеть, то
получим метод аппроксимации произвольных условных распределений.

о о

о о

Рис. 5.19. Слева показан набор данных для простой прямой задачи , в которой красная

кривая демонстрирует результат их аппроксимации двухслойной нейронной сетью

путем минимизации суммы квадратов ошибок . Соответствующая обратная задача,

показанная справа, получается путем обмена ролями переменных х и t. Здесь та же есть,


которая снова обучается путем минимизации суммы квадратов ошибок , очень плохо

аппроксимирует данные из-за их мноrомодальности

Здесь мы будем развивать модель для нормальных компонентов, так что

p(tlx) = Ltrk (x)N( tlµk (x),ai (x)I). (5.148)


k=I

Это пример гетероскедастической модели, поскольку дисперсия шума на


данных является функцией входного вектора х. В качестве компонентов вместо
нормальных распределений можно использовать другие распределения, напри­

мер распределения Бернулли, если целевые переменные являются двоичными, а


не непрерывными. Мы также ограничимся случаем изотропных ковариаций для
компонентов, хотя сеть со смешанной плотностью можно легко обобщить на
общий случай ковариационной матрицы, представив ковариации с помощью
факторизации Холецкого (Williams, 1996). Даже с изотропными компонентами

условное распределение p(tlx) не предполагает факторизации по компонентам t


(в отличие от стандартной среднеквадратической модели регрессии) вследствие
смешанного распределения.
5.6. Сети со смешанной плотностью 373

Теперь мы возьмем различные параметры смеси, а именно коэффициенты


смешивания л°k{х), математические ожидания µk(x) и дисперсии af ( х), кото­
рые будут определяться выходами обычной нейронной сети, принимающей на
вход вектор х. Структура этой сети со смешанной плотностью показана на
рис. 5.20. Сеть со смешанной плотностью тесно связана с задачей о смеси экс­

пертов, которая обсуждается в разделе 14. 5.3. Принципиальная разница заклю­


чается в том, что в сети со смешанной плотностью для прогнозирования пара­

метров всех плотностей компонентов и коэффициентов смешивания использует­


ся одна и та же функция, поэтому нелинейные скрытые элементы разделяются
между функциями, зависящими от входа.

p(tlx)

Рис. 5.20. Сеть со смешанной 11лотностью может представлять

общие плотности условной вероятности p{t[x), рассматривая модель

параметрической смеси для распределения t, параметры которой определяются

выходами нейронной сети, принимающей х в качестве входного вектора

Нейронная сеть на рис. 5.20 может быть, например, двухслойной сетью с


сигмоидальными (th) скрытыми элементами. Если модель смеси (5.148) содер­
жит К компонентов, а вектор t имеет L компонентов, то сеть будет иметь К ак­
тиваций выхода, обозначенных как а; , которые определяют коэффициенты
смешивания Л"t(х), К выходов, обозначенных как al, которые определяют ши­
рину ядер at(x), и К хL выходов, обозначаемых как которые определяют at ,
компоненты µkj(x) центров ядер µk(x). Общее количество сетевых выходов рав­
но (L + 2)К по сравнению с обычными L выходами для сети, которые просто
предсказывают условные математические ожидания целевых переменных.

Коэффициенты смешивания должны удовлетворять ограничениям

L1l"k(x)=1, O~Л"k(x)~l, (5.149)


k=I

которые можно выполнить с помощью множества выходов softmax


374 ГЛАВА 5. НЕЙРОННЫЕ СЕТИ

(5.150)

Аналогично дисперсии должны удовлетворять условию стi ~ О и поэтому мо­


гут быть представлены через экспоненты соответствующих сетевых активаций:

(5.151)

Наконец, поскольку математические ожидания µk(x) имеют действительные


компоненты, они могут быть непосредственно представлены сетевыми выход­
ными активациями:

(5.152)

Адаптивные параметры сети со смешанной плотностью содержат вектор w ве­


сов и смещений в нейронной сети, которые могут бьпь установлены с помощью
метода максимального правдоподобия, или, что эквивалентно, путем минимиза­
ции функции ошибок, определяемой как отрицательный логарифм функции прав­
доподобия. Для независимых данных эта функция ошибок принимает вид

(5.153)

где мы сделали зависимости от w явными.


Чтобы минимизировать функцию ошибок, необходимо вычислить производ­
ные от ошибки E(w) по компонентам w. Их можно вычислить, используя стан­
дартную процедуру обратного распространения ошибки, при условии, что мы
получим подходящие выражения для производных от ошибки по активациям
выходного элемента. Они представляют собой сигналы ошибки д для каждого
примера и для каждого выходного элемента и могут распространяться обратно в
скрытые элементы и производные функции ошибок, вычисленные обычным
способом. Поскольку функция ошибок (5.153) состоит из суммы слагаемых, по
одному для каждой точки из обучающего множества, мы можем рассматривать
производные для определенного примера п, а затем находить производные от Е,
суммируя по всем примерам.

Поскольку мы имеем дело со смесью распределений, удобно рассматривать


коэффициенты смешивания n°k{x) как априорные вероятности, зависящие от х, и
вводить соответствующие апостериорные вероятности, заданные формулой
5.6. Сети со смешанной плотностью 375

(5.154)

где .N,," обозначает N (tn 1µk ( хп), а} ( хп)).


Производные по активациям сетевого выхода, управляющие коэффициента-
ми смешивания, задаются следующей формулой (см. упраж11е11ие 5.34):

дЕп
--" = nk -rпk· (5.155)
даk

Аналогично производные по выходным активациям, управляющим матема­

тическими ожиданиями, задаются формулой (cw. упраж11е11ие 5.35)

(5.156)

Наконец, производные по выходным активациям, управляющим дисперсия­


ми, задаются формулой (см. упра.жиеиие 5.36)

(5.157)

Мы демонстрируем использование сети со смешанной плотностью, возвра­

щаясь к примеру модельной обратной задачи, показанной на рис. 5.19. Графики


коэффициентов смешивания lrk(x), математических ожиданий µk(x) и контуров
условной плотностир(tlх) показаны на рис. 5.21. Выходы нейронной сети и, сле­
довательно, параметры в модели смеси распределений обязательно являются не­
прерывными однозначными функциями входных переменных. Однако из
рис. 5.21, в, следует, что модель может создавать условную плотность, которая

является одномодальной для одних значений х и трехмодальной для других, мо­


дулируя амплитуды компонентов смешивания lrk(x).
Как только сеть со смешанной плотностью обучена, она может предсказать
функцию условной плотности целевых данных для любого заданного значения
входного вектора. Эта условная плотность представляет собой полное описание
генератора данных, поскольку речь идет о задаче предсказания значения выход­

ного вектора. По этой функции плотности можно вычислить более конкретные


величины, которые могут представлять интерес для разных приложений. Одним
376 ГЛАВА 5. НЕЙРОННЫЕ СЕТИ

из простейших из них является математическое ожидание, соответствующее

условному усреднению целевых данных, которое дается выражением

f
e[tlx]= tp(tlx)dt= Ink(x)µk(x),
k=I
(5.158)

о о

о о
а) б)

о о

о о

в) г)

Рис. 5.21. График коэффициентов смешивания п,(х) как функция от х для трех функций

ядра в сети со смешанной плотностью, обученной по данным, приведенным на рис. 5.19.


Модель имеет три нормальных компонента и использует двухслойный многослойный

персептрон с пятью сигмоидальными элементами th в скрытом слое и девятью выходами

(что соответствует трем математическим ожиданиям, трем дисперсиям нормальных

компонентов и трем коэффициентам смешивания). При малых и больших значениях х, где

условная плотность вероятности целевых данных является одномодальной, только одно из

ядер имеет высокую априорную вероятность, тогда как при промежуточных значениях х,

где условная плотность вероятности является трехмодальной, три коэффициента

смешивания имеют сравнимые значения (а) . Графики математических ожиданий µk(x)


построены с помощью того же цветового кодирования, что и графики коэффициентов

смешивания (6). График контуров соответствующей условной плотности вероятности

целевых данных для той же сети со смешанной плотностью (в). График приближенной

условной моды условной вероятности (отмечена красными точками) (г)


5.7. Байесовские нейронные сети 377

где мы использовали формулу (5.148). Поскольку стандартная сеть, обученная


по методу наименьших квадратов, аппроксимирует условное математическое

ожидание, мы видим, что сеть со смешанной плотностью может воспроизводить


обычный результат наименьших квадратов в виде частного случая. Конечно, как
мы уже отмечали, для многомодального распределения условное среднее имеет

ограниченную ценность.

Аналогичным образом можно вычислить дисперсию функции плотности от­


носительно условного математического ожидания (см. ynpaJ1c11e11ue 5.37):

s2 (x)=t:[llt-f[tlx Jll lx]= 2


(5.159)

~ ~"•(x+·f(x)+,(x)-tф)µ1 (x)llT (5160)

где мы использовали формулы (5.148) и (5.158). Это более общий результат, чем
соответствующий результат для метода наименьших квадратов, потому что

здесь дисперсия является функцией х.


Мы видели, что для многомодальных распределений условное математиче­

ское ожидание может дать плохое представление данных. Например, при управ­

лении простым манипулятором робота (см. рис. 5 .18) нам нужно выбрать одно
из двух возможных значений шарнирного угла, чтобы достичь желаемой пози­
ции манипулятора, тогда как среднее этих двух решений само по себе не являет­
ся решением. В таких случаях большую ценность может иметь условная мода.
Поскольку условная мода для сети со смешанной плотностью не имеет простого
аналитического решения, для этого потребуется численная итерация. Простая
альтернатива - принять математическое ожидание наиболее вероятного компо­
нента (т.е. того, который имеет наибольший коэффициент смешивания) при
каждом значении х. Это решение показано для модельного множества данных,
представленного на рис. 5.21, г.

5.7. Байесовские нейронные сети

До сих пор в обсуждении нейронных сетей основное внимание уделялось


использованию принципа максимального правдоподобия для определения па­
раметров сети (веса и смещения). Регуляризованное максимальное правдопо­
добие можно интерпретировать как подход МАР (максимум апостериорной
вероятности), в котором регуляризатор можно рассматривать как логарифм
378 ГЛАВА 5. НЕЙРОННЫЕ СЕТИ

априорного распределения параметров. Тем не менее, чтобы делать прогнозы в


рамках байесовского подхода, необходимо маргинализовать распределение
параметров.

В разделе 3.3 мы разработали байесовское решение для простой линейной ре­


грессионной модели в предположении о нормально распределенном шуме. Мы

видели, что апостериорное распределение, которое является нормальным, мож­

но точно вычислить и что прогностическое распределение можно также найти в

замкнутой форме. В случае многослойной сети сильная нелинейная зависимость


сетевой функции от значений параметров означает, что точное байесовское ре­
шение больше не может быть найдено. Фактически логарифм апостериорного
распределения будет невыпуклым, что соответствует многократным локальным
минимумам функции ошибок.
Для решения этой задачи был предложен метод вариационного вывода, кото­
рый будет обсуждаться в главе 10. Он применяется к байесовским нейронным
сетям с помощью аппроксимации апостериорного распределения факторизован­
ным нормальным распределением (Hinton and van Camp, 1993), а также нор­
мальным распределением с полностью заполненной ковариационной матрицей
(Barber and Bishop, 1998а; Barber and Вishop, 1998Ь ). Однако наиболее полное
решение было основано на аппроксимации Лапласа (МасКау, 1992с, МасКау,
1992Ь) и составляет основу для обсуждения, приведенного здесь. Мы будем ап­
проксимировать апостериорное распределение нормальным распределением с

центром в моде истинного апостериорного распределения. Кроме того, будем

предполагать, что ковариация этого нормального распределения мала, так что

сетевая функция приблизительно линейна по параметрам в области простран­


ства параметров, для которой апостериорная вероятность значительно больше
нуля. С помощью эти двух аппроксимаций мы получим модели, аналогичные
линейным моделям регрессии и классификации, рассмотренным в предыдущих

главах, и поэтому можем использовать полученные там результаты. Затем мы


можем использовать метод оценки обоснованности модели для получения то­
чечных оценок гиперпараметров и сравнения альтернативных моделей (напри­
мер, сетей с разным количеством скрытых элементов). Для начала обсудим слу­
чай регрессии, а затем рассмотрим изменения, необходимые для решения задач
классификации.

5.7 .1. Апостериорное распредеnение параметров

Рассмотрим задачу прогнозирования одной непрерывной целевой перемен­


ной t по входному вектору х (обобщение на случай нескольких целевых пара-
5.7. Байесовские нейронные сети 379

метров не составляет труда). Будем предполагать, что условное распределение


p(tlx) является нормальным распределением с математическим ожиданием, зави­
сящим от х при заданном выходе модели нейронной сети у(х, w) и с точностью

(обратной дисперсией) р:
p(tlx, w, Д) = N(tly(x, w), /Т 1 ). (5.161)

Аналогично будем считать, что априорное распределение по весам w является


нормальным и имеет вид

p(wla) = N(wlO, а- 1 1). (5.162)

Для множества независимых одинаково распределенных данных, состоящего

из N наблюдений х 1 , ••• , xN с соответствующим набором целевых значений


'D = {t1, "., tN}, функция правдоподобия задается формулой
N
p(Vlw,P)= ПN(tпlY(xп,w),p- 1 ), (5.163)
n=I

поэтому результирующее апостериорное распределение имеет вид

p(wlV, а, Д) ос p(wla)p(Vlw, Д), (5.164)

и вследствие нелинейной зависимости функции у(х, w) от w будет отличаться от


нормального распределения.

Мы можем найти гауссовскую аппроксимацию апостериорного распределе­

ния с помощью аппроксимации Лапласа. Чтобы сделать это, сначала нужно


найти (локальный) максимум апостериорного распределения, используя итера­
ционный численный метод оптимизации. Как обычно, удобно максимизировать
логарифм апостериорного распределения, который можно записать в виде

а Р N

2 2 n=I
L
lnp(wlV) = --wтw-- {у(хп,w)-tп} + const,
2
(5.165)

что соответствует регуляризованной сумме квадратов ошибок. Предполагая на


данный момент, что а и р фиксированы, можем найти максимум апостериорной
вероятности, который обозначим wМАР, используя стандартные алгоритмы нели­
нейной оптимизации, например метод сопряженных градиентов и алгоритм об­
ратного распространения ошибки для вычисления требуемых производных.
Найдя моду Wмлр, мы можем построить локальную гауссовскую аппроксима­
цию, вычислив матрицу вторых производных отрицательного логарифма апо­
стериорного распределения. Из (5.165) следует, что
380 ГЛАВА 5. НЕЙРОННЫЕ СЕТИ

А= -V'V'lnp(wlV, а, р) = al + рн, (5.166)

где Н - матрица Гессе, содержащая вторые производные суммы квадратов


ошибок по компонентам w. Алгоритмы вычисления и аппроксимации матрицы
Гессе обсуждались в разделе 5.4. Соответствующая гауссовская аппроксимация
апостериорного распределения следует из (4.134):

(5.167)

Аналогично прогностическое распределение получается маргинализацией по


отношению к этому апостериорному распределению:

J
p(tlx,V)= p(tlx,w)q(wlV)dw. (5.168)

Однако даже при гауссовской аппроксимации апостериорного распределения это


интегрирование по-прежнему невозможно выполнить аналитически из-за нели­

нейной зависимости сетевой функции у(х, w) от w. Чтобы добиться прогресса,


предположим, что апостериорное распределение имеет небольшую дисперсию по
сравнению с характерными масштабами w, по которым изменяется у(х, w). Это
позволяет разложить сетевую функцию в ряд Тейлора в окрестности wМАР и сохра­
нить только линейные члены

(5.169)
где мы определили вектор

9 =У'. у( х, w)1 -
w-wМAP
. (5.170)

В этой аппроксимации теперь есть линейно-гауссовская модель с нормальным


распределением для p(w) и p(tlw), математическое ожидание которого является
линейной функцией от w:

(5.171)

Следовательно, можно использовать общий результат (2.115) для маргиналь­


ного распределения p(t):

p(tlx, V, а, Д) = N(tly(x, wМАР), <i(x)), (5.172)

где зависящая от ввода дисперсия задается выражением

а2(х) = р-'+ qтA-'q. (5.173)


5.7. Байесовские нейронные сети 381

Как видим, прогностическое распределение p(tlx, V) является нормальным

распределением, математическое ожидание которого определяется сетевой

функциейу(х, •мАР) с параметром, равным МАР-значению. Дисперсия имеет два


слагаемых, первое из которых возникает из собственным шумом на целевой пе­
ременной, а второй зависит от х и выражает неопределенность в интерполяции,

обусловленную неопределенностью параметров модели w. Это распределение


следует сравнить с соответствующим прогностическим распределением для мо­

дели линейной регрессии, заданной (3.58) и (3.59).

5.7 .2. Оптимизация rиперпараметров

До сих пор мы предполагали, что гиперпараметры а и fЗ фиксированы и из­


вестны. Мы можем использовать обоснованность моделей, обсуждаемую в раз­
деле 3.5, вместе с гауссовской аппроксимацией апостериорного распределения,
полученной с помощью аппроксимации Лапласа, и получить практичную про­

цедуру выбора значений таких гиперпараметров.


Маргинальное правдоподобие, или обоснованность гиперпараметров, полу­
чается путем интегрирования по сетевым весам:

p(Vla,fJ) =Jp(Vlw,fJ)p( wla )dw. (5.174)

Этот интеграл легко вычислить, используя результат аппроксимации Лапласа


(4.135) (см. упраж11е11ие 5.39). Взяв логарифмы, получим:

1 W N N
lnp(Vla,/J) = -Е(wМАР )- 2lnlAI + 2 lna + 2 ln/J- 2 ln(2я), (5.175)

где W- общее количество параметров в векторе w, а регуляризованная функция


ошибок определяется формулой

/JN 2 а Т
Е(wмАР)=-I{у(хп,WмАР)-tп} +-wмАР"мАР· (5.176)
2 n=I 2

Как видно, эта функция имеет тот же вид, что и соответствующий результат
(3.86) для модели линейной регрессии.
В рамках подхода, основанного на обоснованности моделей, делаем точечные
вычисления для а и fJ, максимизируя ln p('DI а, fЗ). Рассмотрим сначала максими­
зацию по а, что можно сделать по аналогии со случаем линейной регрессии,

рассмотренным в разделе 3.5.2. Сначала определим уравнение для собственного


значения:

(5.177)
382 ГЛАВА 5. НЕЙРОННЫЕ СЕТИ

где Н - матрица Гессе, включающая в себя вторую производную от суммы


квадратов ошибок, вычисленную при w = WмлР· По аналогии с (3.92) получим:

а= r (5.178)
т
WмАРWМАР

где у- эффективное количество параметров, определяемое по формуле (см. раз­


дел 3.5.3)

r=f_i_. (5.179)
i=I а+А;

Заметим, что этот результат был точным для случая линейной регрессии. Од­
нако для нелинейной нейронной сети он не учитывает тот факт, что изменения в
{Звызовут изменения в матрице Гессе Н, что, в свою очередь, изменит собствен­
ные значения. Поэтому мы неявно проигнорировали слагаемые, входящие в

производные от А; относительно а.
Аналогично из (3.95) следует, что максимизация обоснованности относи­
тельно fЗ дает формулу для уточнения:

1 1 N 2
-=-I{у{хп,WмАР)-tп} · (5.180)
/З N-r n=I

Как и в случае с линейной моделью, нужно чередовать уточнение гиперпара­


метров а и fЗ и обновление апостериорного распределения. Однако из-за много­
модальности апостериорного распределения ситуация с моделью нейронной се­

ти сложнее. Как следствие, решение для wМАР, найденное путем максимизации

логарифма, будет зависеть от инициализации w. Решения, отличающиеся только


вследствие симметрии перестановок и смены знака в скрытых элементах, иден­

тичны с точки зрения прогноза, и поэтому не имеет значения, какое из эквива­

лентных решений будет найдено ((:,и, раздел 5.1.1). Однако могут существовать

и неэквивалентные решения, и они, как правило, дают разные значения для оп­

тимизированных гиперпараметров.

Чтобы сравнить разные модели, например нейронные сети с разным количе­


ством скрытых элементов, необходимо вычислить обоснованность моделей p(V).
Их можно аппроксимировать, подставив в (5 .17 5) значения гиперпараметров аи /3,
полученные с помощью итерационной оптимизации. Более тщательная оценка по­
лучается путем маргинализации по а и /3, опять же, на основе полученной гауссов­

ской аппроксимации (МасКау, 1992с, Bishop, 1995а). В любом случае необходимо


вычислить определитель IAI матрицы Гессе. На практике это может быть пробле-
5.7. Байесовские нейронные сети 383

матично, поскольку определитель, в отличие от следа, чувствителен к малым соб­


ственным значениям, которые часто трудно определить точно.

Аппроксимация Лапласа основана на локальном квадратичном разложении в

окресmости моды апостериорного распределения над весами. В разделе 5.1.1 мы


видеJШ, что двухслойная сеть имеет М!2м эквиваленmых мод, которые отличаются
симметрией перестановок и смены знака, где М - количество скрытых элементов.
При сравнении сетей, имеющих разное количество скрьпых элементов, это обстоя-
м
телъство можно учесть, умножив уровень обоснованности на коэффициент М!2 .

5.7 .3. Байесовские нейронные сети для классификации


До сих пор мы использовали аппроксимацию Лапласа для построения байе­
совских моделей регрессии на основе нейронных сетей. Теперь обсудим измене­
ния в этом подходе, которые возникают, когда эти нейронные сети применяются

для классификации. Рассмотрим сеть, имеющую единственный выходной эле­

мент с логистической сигмоидальной функцией активации, соответствующий


задаче бинарной классификации. Обобщение этой сети на случай многих клас­
сов с выходами softmax является несложным (см. упра.ж11е11ие 5.40). Мы будем
часто использовать аналогичные результаты для линейных моделей классифика­
ции, рассмотренных в разделе 4.5, поэтому рекомендуем читателю ознакомиться

с этим материалом до изучения данного раздела.

Логарифмическая функция правдоподобия для этой модели задается формулой


N
lnp(Vlw)= L{tnlnyn +(1-tп)ln(l-yп)}, (5.181)
n=I

где tn е {О, 1} - целевые значения, ауп =у(хп, w). Обратите внимание на то, что
в этой формуле нет гиперпараметра /З, поскольку предполагается, что точки раз­
мечены правильно. Как и ранее, априорное распределение считается изотроп­
ным и нормальным (5.162).
На первом этапе применения аппроксимации Лапласа к этой модели выпол­
няется инициализация гиперпараметра а, а затем путем максимизации логариф­
мической функции правдоподобия определяется вектор параметров w. Это экви­
валентно минимизации регуляризованной функции ошибок

(5.182)
384 ГЛАВА 5. НЕЙРОННЫЕ СЕТИ

и может быть достигнуто с помощью алгоритма обратного распространения


ошибок в сочетании со стандартными алгоритмами оптимизации, как описано в
разделе 5.3.
Имея решение wМАР для весового вектора, вычислим матрицу Гессе Н, содер­
жащую вторые производные отрицательной логарифмической функции правдопо­
добия. Это можно сделать, например, используя точный метод из раздела 5.4. 5
или аппроксимацию векторного произведения, заданную формулой (5.85). Вто­
рые производные отрицательной логарифмической функции правдоподобия
можно снова записать в виде (5.166), после чего гауссовская аппроксимация
апостериорного распределения задается формулой (5.167).
Чтобы оптимизировать гиперпараметр а, снова максимизируем маргинальное
правдоподобие, которое, как легко показать, принимает вид (см. упраж11е11ие 5.41)
1 w
1np(Vla) = -Е(wМАР )--lnlAI +-lna, (5.183)
2 2
где регуляризованная функция ошибок определяется формулой

а Т
Е( WмАР) = - LN {tn lnyn + (1-tn )ln(l- Уп )} +-wМАРwМАР,
n=I 2
(5.184)

в которой Уп =у(хт wМАР). Максимизация этой функции обоснованности по а


снова приводит к уравнению для уточнения, заданному формулой (5.178).
Использование процедуры вычисления обоснованности для определения ги­
перпараметра а показано на рис. 5.22 на примере искусственных двумерных

данных, обсуждаемых в прш~ожеиии А.


Наконец, нам нужно прогностическое распределение, которое определяется

формулой (5.168). Опять же, из-за нелинейности сетевой функции аналитиче­


ское интегрирование в этой формуле невозможно. Простейшее приближение со­
стоит в том, чтобы предположить, что апостериорное распределение очень узкое
и, следовательно,

p(tlx, !>) = p(tlx, wМАР). (5.185)

Однако мы можем улучшить это решение, принимая во внимание дисперсию


апостериорного распределения. В этом случае линейное приближение для сете­
вых выходов, как было использовано в случае регрессии, было бы неуместным
из-за логистической сигмоидальной функции активации выходного элемента,
которая ограничивает вывод диапазоном (О, 1). Вместо этого делаем линейное
приближение для активации выходного элемента в виде

а(х, w) = аМАР(х) + Ьт(w-wМАР), (5.186)


5.7. Байесовские нейронные сети 385

2 о о~
о

-1

-2

-2 -1 о 2

Рис. 5.22. Вычисление обоснованности на примере искусственных данных из двух

классов. Зеленая кривая показывает оптимальную границу решения; черная - результат

аппроксимации с помощью двухслойной сети с восемью скрытыми элементами по

методу максимального правдоподобия; красная кривая пока.1ывает результат

применения регуляризатора, в котором гиперпараметр а оптимизируется с помощью

процедуры вычисления обоснованности, начиная с начального значения а= О. Заметим,

что процедура вычисления обоснованности 3Начительно снижает переобучение сети

где аМАР(х) = а(х, Wмлр), а вектор Ь =Va(x, •мАР) можно найти с помощью алго­
ритма обратного распространения ошибки.
Поскольку теперь мы имеем гауссовскую аппроксимацию к апостериорному
распределению по w, а модель для а является линейной функцией w, можно об­
ратиться к результатам раздела 4.5.2. Распределение значений активации вы­
ходного элемента, обусловленное распределением по сетевым весам, определя­
ется формулой

f
р( alx, v) = д( а -аМАР ( х)-ьт (х )(w-wМAP) )ч( wlV )dw, (5.187)

где q(wlV)- гауссовская аппроксимация апостериорного распределения, задан­


ная формулой (5.167). Из раздела 4.5.2 видно, что это распределение является
нормальным с математическим ожиданием аМАР = а(х, Wмлр) и дисперсией
(
а; х) = ьт (х )А- 1 Ь(х). (5.188)

Наконец, чтобы получить прогностическое распределение, следует выпол­


нить маргинализацию по а:

p(t =llx, v) =fа( а )р( alx, V )da. (5.189)


386 ГЛАВА 5. НЕЙРОННЫЕ СЕТИ

Свертка нормального распределения с логистической сигмоидой аналитически

не вычисляется, поэтому, применяя аппроксимацию (4.153) к (5.189), получим:

p(t =llx, v) =а( к( а; )аМАР ). (5.190)

где функция кО определяется формулой (4.154). Напомним, что и а;, и Ь зави­


сят от х.

На рис. 5.23 приведен пример реализации этого подхода для классификации


множества искусственных данных, описанного в приложеиии А.

з з

2 2
о о

о о

-1 -1

-2 -2
ох

-2 -1 о 2 -2 -1 2
Рис . 5.23. Аппроксимация Лапласа для байесовской нейронной сети, имеющей восемь

скрытых элементов с функциями активации th и единственным логистическим

сигмоидным выходом . Весовые параметры были найдены с помощью метода

масштабированных сопряженных градиентов, а гиперпараметр а был оптимизирован с

помощью вычисления обоснованности моделей . Слева приведен результат

использования простой аппроксимации (5 .185) на основе точечной оценки wмдР для

параметров, в которой зеленая кривая показывает границу решения у= 0,5, а остальные

контуры соответствуют выходным вероятностям у= О, 1; 0,3; 0,7 и 0,9. Справа приведен

соответствующий результат , полученный с помощью (5 .190). Обратите внимание на то ,

что эффект маргинализации проявляется в растяжении контуров и снижении

надежности прогнозов, так что в каждой входной точке х апостериорные вероятности

смещаются в сторону 0,5, тогда как сам контур у = 0,5 не изменяется

Упражнения

5.1. (**)Рассмотрим функцию двухслойной сети вида (5.7), в которой скрытые


неmmейные функции активации h(·) задаются логистическими сигмоидами
а(а) = {1 + ехр(-а)} - 1 . (5.191)
Упражнения 387

Покажите, что существует эквивалентная сеть, которая вычисляет точно


такую же функцию, но с функциями активации скрытых элементов, задан­
ными как th(a), где функция th определяется формулой (5.59). Подсказка:

сначала найдите связь между о-(а) и th(a), а затем покажите, что парамет­
ры двух сетей отличаются линейными преобразованиями.

5.2. (*) WWW Покажите, что максимизация функции правдоподобия при услов­
ном распределении (5.16) для нейронной сети с несколькими выходами
эквивалентна минимизации суммы квадратов ошибок (5.11 ).
5.3. (**)Рассмотрим задачу регрессии с несколькими целевыми переменными, в
которой предполагается, что распределение целевых переменных, обуслов­
ленное входным вектором х, является нормальным распределением вида

p(tlx, w) = N(tly(x, w), I), (5.192)


где у(х, w)- выход нейронной сети с входным вектором х и весовым век­

тором w, а I - ковариационная матрица предполагаемого нормального


шума на целевых переменных. Имея множество независимых наблюдений
х и t, запишите функцию ошибок, которая должна быть минимизирована,
и найдите решение по принципу максимального правдоподобия для w,
предполагая, что матрица I фиксирована и известна. Предположим те­
перь, что матрица I также определяется по данным. Запишите решение

максимального правдоподобия для I. Заметим, что теперь оптимизация w


и I связана, в отличие от случая независимых целевых переменных, об­
суждаемых в разделе 5.2.
5.4. (**) Рассмотрим проблему бинарной классификации с целевыми значени­
ями tE {О, 1} и выходом сети у(х, w), представляющим вероятность

p(t = 1lx), и предположим, что существует вероятность того, что метка


класса в точке обучающего множества была задана неправильно. Предпо­
лагая, что данные являются независимыми и одинаково распределенными,

запишите функцию ошибок, соответствующую отрицательной логариф­


мической функции правдоподобия. Проверьте, что функция ошибок (5.21)
получена при&= О. Обратите внимание на то, что эта функция ошибок де­
лает модель надежной для неправильно размеченных данных, в отличие от
обычной функции ошибок.

5.5. (*) WWW Покажите, что максимизация вероятности для многоклассовой


модели нейронной сети, в которой сетевые выходы имеют интерпретацию
Yk(x, w) = p(tk = 1lx), эквивалентна минимизации функции перекрестной
энтропии (5.24).
388 ГЛАВА 5. НЕЙРОННЫЕ СЕТИ

5.6. (*) WWW Покажите, что производная функции ошибок (5.21) относительно
активации ak выходного элемента, имеющего логистическую сигмоидаль­

ную функцию активации, удовлетворяет (5.18).


5.7. (*)Покажите, что производная функции ошибок (5.24) относительно акти­
вации ak выходных элементов, имеющих функцию активации softmax,
удовлетворяет (5.18).
5.8. (*) В (4.88) мы видели, что производная логистической сигмоидальной
функции активации может быть выражена через само значение функции.
Выведите соответствующий результат для функции активации th, опреде­
ленной формулой (5.59).
5.9. (*) WWW Функция ошибок (5.21) для задач бинарной классификации была
получена для сети, имеющей логистическую сигмоидальную функцию ак­
тивации, так что О~ у(х, w) ~ 1 и t Е {О,
1}. Выведите соответствующую
функцию ошибок, если сеть имеет выход -1 ~у(х, w) ~ 1 и целевые пере­
менные принимают значения t = 1 для класса С 1 и t = -1 для класса ~. Ка­
ким будет подходящий выбор функции активации выходного элемента?

5.10. (*) WWW Рассмотрим матрицу Гессе Нс уравнением для собственного век­
тора (5.33). Устанавливая вектор v в (5.39) равным каждому из собствен­
ных векторов ui по очереди, покажите, что матрица Н положительно опре­
делена, если и только если все ее собственные значения положительны.

5.11. (**) WWW Рассмотрим квадратичную функцию ошибок, определяемую


формулой (5.32), в которой матрица Гессе Н имеет собственное значение,
заданное формулой (5.33). Покажите, что контуры постоянной ошибки яв­
ляются эллипсами, оси которых ориентированы вдоль собственных векто­
ров U; с длинами, которые обратно пропорциональны квадратному корню
из соответствующих собственных значений А;.

5.12. (**) WWW Рассматривая локальное разложение Тейлора (5.32) функции


ошибок относительно стационарной точки w·, покажите, что необходимым
и достаточным условием того, что стационарная точка является локаль­

ным минимумом функции ошибок, является то, что матрица Гессе Н,


определяемая формулой (5.30) с w=w·, является положительно опреде­
ленной.

5.13. (*)Покажите, что вследствие симметрии матрицы Гессе Н количество не­


зависимых элементов в квадратичной функции ошибок (5.28) задается
формулой W(W + 3)/2.
Упражнения 389

5.14. (*)Выполнив разложение Тейлора, убедитесь, что слагаемые порядка О(в)


отсутствуют в правой части (5.69).
5.15. (**)В разделе 5.3.4 мы построили процедуру вычисления матрицы Якоби
для нейронной сети с помощью процедуры обратного распространения
ошибки. Выведите альтернативный формализм для нахождения матрицы
Якоби на основе формул прямого распространения.

5.16. (*)Аппроксимация матрицы Гессе с помощью векторного произведения


для нейронной сети на основе суммы квадратов ошибок задается форму­
лой (5.84). Обобщите этот результат на случай нескольких выходов.

5.17. (*) Рассмотрим квадратичную функцию потерь вида

Е =~ fJ {у( х, w)-t} 2р( x,t)dxdt, (5.193)

где у(х, w)- параметрическая функция, например нейронная сеть. Ре­


зультат (1.89) показывает, что функция у(х, w), которая минимизирует эту

ошибку, определяется условным математическим ожиданием t при задан­


ном х. Используя этот результат, покажите, что вторая производная от Е
относительно двух элементов w, и ws вектора w задается формулой
д2Е ду ду
--= J--p(x)dx. (5.194)
дw,дws дw, дws

Обратите внимание на то, что для конечной выборки из генеральной сово­


купности с распределением р(х) мы получаем (5.84).
5.18. (*)Рассмотрим двухслойную сеть вида, показанного на рис. 5.1, с добав­
лением дополнительных параметров, соответствующих соединениям с

пропуском слоев, которые идут непосредственно от входов к выходам.

Обобщив обсуждение из раздела 5.3.2, запишите формулы для производ­

ных функции ошибок по этим дополнительным параметрам.

5.19. (*) WWW Выведите выражение (5.85) для аппроксимации матрицы Гессе с
помощью векторного произведения для сети, имеющей один выходной
элемент с логистической сигмоидальной функцией активации и функцией
перекрестной энтропии, соответствующее результату (5.84) для суммы

квадратов ошибок.

5.20. (*) Выведите выражение для аппроксимации матрицы Гессе с помощью


векторного произведения для сети, имеющей К выходных элементов с

функцией активации выходного элемента softmax и функцией перекрест-


390 ГЛАВА 5. НЕЙРОННЫЕ СЕТИ

ной энтропии, соответствующее результату (5.84) для суммы квадратов


ошибок.

5.21. (***)Обобщите выражение (5.86) для аппроксимации матрицы Гессе век­


торным произведением на случай К > 1 выходных элементов. Иначе гово­
ря, выведите рекурсивное выражение, аналогичное (5.87), позволяющее

учесть постоянно увеличивающееся количество выходных элементов и

примеров. Используя эти результаты и тождество (5.88), найдите последо­

вательные выражения для итерационных приближений, аналогичные

(5.89), для поиска обратной матрицы Гессе путем постепенного включения


дополнительных примеров и выходных элементов.

5.22. (**)Выведите результаты (5.93)-(5.95) для элементов матрицы Гессе

двухслойной сети прямого распространения путем применения правила


дифференцирования сложных функций.

5.23. (**)Обобщите результаты раздела 5.4.5 для точной матрицы Гессе двух­
слойной сети, чтобы учесть соединения с пропуском слоев, которые идут
непосредственно от входов к выходам.

5.24. (*)Убедитесь, что сетевая функция, определенная формулами (5.113) и


(5.114), инвариантна относительно преобразования (5.115), примененного

к входам, при условии, что веса и смещения одновременно преобразуются


с помощью формул (5.116) и (5.117). Аналогичным образом покажите, что
сетевые выходы могут быть преобразованы согласно (5.118) путем приме­
нения преобразования (5.119) и (5.120) к весам и смещениям второго слоя.

5.25. (***) WWW Рассмотрим квадратичную функцию ошибок вида

(5.195)

где w· - минимум, а матрица Гессе Н положительно определена и постоян­


на. Предположим, что исходный весовой вектор w(O) выбран в начале коор­

динат и обновляется с помощью простого метода градиентного спуска:

w(т) =w(т-I) -pVE, (5.196)

где т обозначает номер шага, а р- скорость обучения (которая считается


малой). Покажите, что после т шагов компоненты вектора весов, парал­

лельные собственным векторам матрицы Н, можно записать как

(5.197)
Упражнения 391

где w1 = wтu1 , u1 и 711 - собственные векторы и собственные значения мат­


рицы Н соответственно, так что

(5.198)

Покажите, что при •~ оо это дает ..,<т) ~ w·, как и ожидалось, при условии
ll-p7711<1. Теперь предположим, что обучение прекращается после конеч­
ного числа шагов •· Покажите, что компоненты весового вектора, парал­
лельного собственным векторам матрица Гессе, удовлетворяют условиям

w1(т) = w1• при 711 » ( р• )-1 , (5.199)

lw)r) 1«lw~1 при 171 « (Р• )-1. (5.200)

Сравните этот результат с обсуждением в разделе 3.5.3 регуляризации с


простой редукцией весов и, как следствие, покажите, что параметр (р•)- 1
является аналогом параметра регуляризации Л. Вышеприведенные резуль­

таты также показывают, что эффективное количество параметров в сети,


определяемое формулой (3.91), растет по мере обучения.

5.26. (**) Рассмотрим многослойный персептрон с произвольной топологией


прямого распространения, который должен быть обучен путем минимиза­
ции функции ошибок касательного распространения (5.127), в которой ре­
гуляризирующая функция задается формулой (5.128). Покажите, что регу­
ляризирующий член Q можно записать в виде суммы по примерам в виде

(5.201)

где g- дифференциальный оператор, определяемый формулой

д
9=:L•;-·
; дх1
(5.202)

Действуя на формулы прямого распространения

z1 = h (а1 ) , а1 =L wJizi (5.203)


i

оператором g' покажите, что nn можно вычислить с помощью алгоритма


прямого распространения, используя следующие формулы:

(5.204)
392 ГЛАВА 5. НЕЙРОННЫЕ СЕТИ

где мы определили новые переменные

а1 =Qz1 , /31 =Qa1 . (5.205)

Покажите теперь, что производные от nn относительно веса w, 5 в сети мо­


гут быть записаны в виде

(5.206)

где мы определили

(5.207)

Запишите формулы обратного распространения для 01cr и, как следствие,


выведите набор формул обратного распространения для вычисления Ф1сr·

5.27. (**) WWW Рассмотрим подход к обучению с преобразованными данными


для частного случая, когда преобразование состоит из добавления случай­
ного шума х ~ х + i;, где i; имеет нормальное распределение с нулевым
математическим ожиданием и единичной ковариационной матрицей. Сле­

дуя рассуждениям, аналогичным рассуждениям в разделе 5.5.5, покажите,


что результирующий регуляризатор сводится к тихоновской форме
(5.135).
5.28. (*) WWW Рассмотрим нейронную сеть, например сверточную, обсуждаемую
в разделе 5.5.6, в которой несколько весов должны иметь одинаковое зна­
чение. Обсудите, как необходимо изменить стандартный алгоритм обрат­
ного распространения ошибки, чтобы гарантировать, что такие ограниче­
ния выполняются при вычислении производных функции ошибок по
настраиваемым параметрам сети.

5.29. (*) WWW Проверьте результат (5.141).


5.30. (*)Проверьте результат (5.142).
5.31. (*)Проверьте результат (5.143).
5.32. (**) Покажите, что производные коэффициентов смешения {.1Тk}, опреде­
ленные формулой (5.146), по вспомогательным параметрам {171} задаются
формулой

дJТk
а111 = о1;1Т1 -JТ11Тk. (5.208)

Используя ограничение LYk (w;) = 1 для всех i, выведите результат (5.147).


k
Упражнения 393

5.33. (*)Запишите пару уравнений, которые выражают декартовы координаты

(х 1 , х 2 ) для манипулятора робота, показанного на рис. 5.18, в терминах

шарнирных углов ()1 и ~ и длин звеньев L 1 и L 2• Предположим, начало ко­


ординат системы задается точкой крепления нижнего звена. Эти уравне­
ния определяют прямую кинематику робота.

5.34. (*) WWW Выведите результат (5.155) для производной функции ошибок
по активациям выходов сети, управляющим коэффициентами смешивания
в сети со смешанной плотностью.

5.35. (*)Выведите результат (5.156) для производной функции ошибок в по ак­


тивациям выходов сети, управляющим математическими ожиданиями

компонентов в сети со смешанной плотностью.

5.36. (*)Выведите результат (5.157) для производной функции ошибок по акти­

вациям выходов сети, управляющим дисперсиями компонентов в сети со

смешанной плотностью.

5.37. (*)Проверьте результаты (5.158) и (5.160) для условного математического

ожидания и дисперсии сетевой модели со смешанной плотностью.

5.38. (*) Используя общий результат (2.115), получите прогностическое распре­


деление (5.172) для аппроксимации Лапласа для модели байесовской
нейронной сети.

5.39. (*) WWW Используя результат аппроксимации Лапласа (4.135), покажите,


что функция обоснованности гиперпараметров а и ~ в байесовской модели
нейронной сети может быть аппроксимирована формулой (5.175).
5.40. (*) WWW Опишите изменения, которые необходимо внести в байесовские
нейронные сети, обсуждаемые в разделе 5. 7.3, для обработки многоклас­
совых задач с помощью сетей с функциями активации элементов вывода
softmax.
5.41. (**)Выполняя шаги, аналогичные шагам, приведенным в разделах 5. 7.1 и

5. 7.2 для регрессионных сетей, получите результат (5.183) для маргинально­

го правдоподобия для сети, имеющей функцию перекрестной энтропии


и логистическую сигмоидальную функцию активации выходного элемента.
6

В главах 3-4 рассматривались линейные параметрические модели для регрессии


и классификации, в которых форма отображения у(х, w) входных переменных х
в выходные переменные у определяется вектором адаптивных параметров w. На

этапе обучения обучающее множество данных используется либо для получения


точечной оценки вектора параметров, либо для определения апостериорного рас­
пределения по этому вектору. Затем данные обучения отбрасываются, а предска­
зания для новых входов основываются исключительно на векторе параметров w,
полученном в результате обучения. Этот подход также используется в нелинейных
параметрических моделях, таких как нейронные сети (см. главу 5).
Тем не менее существует класс методов распознавания образов, в которых
обучающие данные или их подмножества хранятся и используются на этапе про­
гнозирования. Например, модель плотности вероятности Парзена содержала ли­
нейную комбинацию ядерных функций, каждая из которых бьша центрирована
относительно одной из обучающих точек. Аналогичным образом в разделе 2.5.2
396 ГЛАВА 6. ЯДЕРНЫЕ МЕТОДЫ

мы ввели простой метод классификации, называемый методом ближайших сосе­


дей, который присваивал каждому новому тестовому вектору метку ближайшего
образа из обучающего множества (см. раздел 2.5.2). Это примеры методов на
основе памяти, которые включают в себя сохранение всего обучающего множе­
ства для прогнозирования будущих данных. Как правило, в этих методах необ­
ходимо определить метрику, которая измеряет сходство между любыми двумя
векторами в пространстве входных переменных. Как правило, они быстро обу­
чаются, но медленно прогнозируют.

Многие линейные параметрические модели можно привести в эквивалентный


двойственный вид, в котором предсказания также основаны на линейных ком­
бинациях ядер, вычисленных в обучающих точках. Как мы увидим, для моделей,
основанных на фиксированном нелинейном отображении пространства при­
знаков ф(х), ядро задается соотношением

k(x, х') = ф(х)т ф(х'). (6.1)

Из этого определения следует, что ядро является симметричной функцией своих


аргументов, так что k(x, х') = k(x', х). Концепция ядра бьmа введена в теорию рас­
познавания образов Aizeпnan et al и др. (1964) в контексте метода потенциальных
функций, назьmаемых так по аналогии с электростатикой. Несмотря на то что на
многие годы он бьm забыт, он бьm вновь введен в машинное обучение в контексте
классификаторов с большим зазором в книге Boser et а/. (1992), что в итоге приве­
ло к созданию метода опорных векторов (см. mаву 7). С тех пор интерес к этой
теме носит как теоретический, так и практический характер. Одним из наиболее

значительных событий бьmо обобщение ядер для обработки символических объ­


ектов, что позволило значительно расширить круг решаемых проблем.

Простейший пример ядра получается путем рассмотрения тождественного


отображения пространства признаков в формуле (6.1), так что ф(х) = х, и в этом
случае k(x, х') = хтх'. Мы будем называть его линейным ядром.
Концепция ядра, сформулированная как скалярное произведение в простран­
стве признаков, позволяет строить интересные расширения многих известных

алгоритмов, используя ядерный трюк, также известный как за.мена ядра. Общая
идея состоит в следующем. Если у нас есть алгоритм, сформулированный так,
что исходный вектор х входит только в скалярные произведения, то мы можем
заменить это скалярное произведение другим выбором ядра. Например, метод
замены ядра может быть применен к анализу главных компонентов (см. раз­
дел 12.3), что приводит к нелинейному варианту РСА (Schбlkopf et а/" 1998).
Другими примерами замены ядра являются метод ближайших соседей и ядер-
6.1. Двойственные представления 397

ный дискриминант Фишера (Mika et а/" 1999; Roth and Steinhage, 2000; Baudat
and Anouar, 2000).
Существует множество форм ядра, и несколько примеров ядер описано в этой
главе. Многие из них являются функцией разности между аргументами, так что
k(x, х') = k(x - х'). Они называются стационарными ядрами, потому что они ин­
вариантны к сдвигам в пространстве входных переменных. Другая разновид­

ность включает в себя однородные ядра, которые также называются радиальны­


ми базисными функциями (см. раздел 6. 3) и зависят только от величины рассто­
яния (обычно евклидова) между аргументами, так что k(x, х') = k(llx-x'll).
К современным учебникам по ядерным методам относятся Scholkopf and
Smola (2002), Herbrich (2002) и Shawe-Taylor and Cristianini (2004).

6.1. Двойственные представления


Многие линейные модели регрессии и классификации можно переформули­
ровать в двойственном виде, в котором ядро возникает естественным образом.
Эта концепция будет играть важную роль в обсуждении метода опорных векто­
ров в следующей главе. Здесь мы рассмотрим модель линейной регрессии, пара­

метры которой определяются путем минимизации регуляризованной суммы


квадратов ошибок, заданной формулой

1N { 2 А
J(w)=-:L wтф(хп)-tп} +-wтw, (6.2)
2п~ 2
где Л ~О. Если мы приравняем градиент J(w) по wк нулю, то увидим, что реше­
ние для w принимает вид линейной комбинации векторов ф(хп) с коэффициен­
тами, являющимися функциями w, вида
1 N N
W=--:L{wтф(хп)-tп}Ф(хп)= Lапф(хп)=Фта, (6.3)
А п=\ n=\

где Ф - матрица плана (design matrix), в которой п-я строка задается вектором
~ т
.,,(хп) . Здесь вектор а= (а 1 , "., aN) т , и мы определили

(6.4)

Вместо того чтобы работать с вектором параметров w, теперь мы можем пе­


реформулировать алгоритм наименьших квадратов в терминах вектора парамет­
ров а, что приводит к двойственному представлению. Если подставить вектор
w = Фта в функционал J(w), получим:
398 ГЛАВА 6. ЯДЕРНЫЕ МЕТОДЫ

1 1 л
J(a) =-атФФтФФт а-атФФтt +-tтt+-атФФт а (6.5)
2 2 2 '
где t = (t 1, ... , tN)т. Определим теперь матрицу Грама К= ФФт, являющуюся
симметричной матрицей с N х N элементами
(6.6)
где мы ввели ядро k(_x, х'), определенное формулой (6.1). В терминах матрицы
Грама сумма квадратов ошибок может быть записана как

1 1 л
J( а) =-аткка-а ткt +-tтt +-атка. (6.7)
2 2 2
Исключая w из (6.4) с помощью формулы (6.3) и решая уравнение относи­
тельно а, получаем:

(6.8)

Если подставить это решение обратно в модель линейной регрессии, то полу­


чим следующее предсказание для нового входа х:

(6.9)

где мы определили вектор k(x) с элементами kп(х) = k(x"' х). Таким образом, мы
видим, что двойственная формулировка позволяет полностью выразить решение
задачи, полученное методом наименьших квадратов, через ядро k(x, х'). Эта
формулировка называется двойственной, потому что решение а можно предста­
вить как линейную комбинацию элементов из ф(х), восстанавливая исходную
формулировку в терминах вектора параметров w (см. упражнение 6.1). Обрати­
те внимание, что предсказание в точке х задается линейной комбинацией целе­
вых значений из обучающего множества. На самом деле мы уже получили этот
результат в разделе 3.3.3, используя несколько иное обозначение.
В двойственной формулировке мы определяем вектор параметров а, инвер­
тируя матрицу N х N, тогда как в исходной пространственной формулировке нам
пришлось инвертировать матрицу М х М для определения w. Поскольку N обычно
намного больше М, двойственная формулировка, по-видимому, не особенно по­
лезна. Однако преимущество двойственной формулировки, как мы увидим, со­
стоит в том, что она полностью выражается через ядро k(x, х'). Поэтому мы мо­
жем работать непосредственно в терминах ядер и избегать явного введения век­
тор-функции ф(х), позволяющей неявно использовать пространства признаков с
высокой, даже бесконечной размерностью.
6.2. Конструирование ядер 399

Существование двойственного представления, основанного на матрице Гра­


ма, является свойством многих линейных моделей, включая персептрон
(см. упражнение 6.2). В разделе 6.4 мы будем развивать двойственность между
вероятностными линейными моделями регрессии и гауссовскими процессами.

Двойственность также будет играть важную роль при обсуждении метода опор­
ных векторов в главе 7.

6.2. Конструирование ядер


Чтобы использовать замену ядра, мы должны иметь возможность конструи­
ровать корректные ядра. Один из подходов состоит в том, чтобы выбрать отоб­
ражение пространства признаков ф(х), а затем использовать его, чтобы найти
соответствующее ядро, как показано на рис. 6.1. Здесь ядро определено для од­
номерного входного пространства на

т м
k(x,x') =Ф(х) Ф(х') = Lф,(х)Фi(х'), (6.10)
i=I
где фi(х)-базисные функции.

0,5

-0,5

-1'---------~
-1 о

6,0~-------~

3,0
0,0

-04~----~---~
'-1 о о

Рис. 6.1. Построение ядра, начиная с соответствующего набора базисных функций.

В каждом столбце нижний график показывает ядро k(x, х'), определенное формулой (6.1 О),
как функцию от х при х' =О, а верхний график показывает соответствующие базисные

функции, заданные полиномами (левый столбец), нормальными распределениями

(центральный столбец) и логистичсскими сигмоидами (правый столбец)


400 ГЛАВА 6. ЯДЕРНЫЕ МЕТОДЫ

Альтернативный подход заключается в том, чтобы напрямую строить ядра.


В этом случае мы должны убедиться, что выбранная функция является коррект­
ным ядром, иначе говоря, что она соответствует скалярному произведению в не­

котором (возможно, бесконечномерном) пространстве признаков. В качестве


простого примера рассмотрим ядро, заданное формулой

k(_x, z) = (хтz) 2 • (6.11)


В частном случае двумерного пространства входных данных х = (х 1 , х2 ) мы

можем разложить члены и тем самым идентифицировать соответствующее не­


линейное отображение признаков:

k(x,z)=(xтz) 2 =(x1z1 +x2 z2 ) 2 =


=Х12 Z12 + 2x,z,x2Z2 + X2Z2
2 2
=
(6.12)
=(xf ,hx1x2 ,x0( zf ,hz1 z2 ,znт =
=Ф(х)т Ф{z).
Мы видим, что отображение признаков принимает форму ф ( х) = (xf, hx, х2 , х~) т
и поэтому содержит все возможные члены второго порядка с определенными весо­

выми коэффициентами.
Однако в более общем плане нам нужен простой способ проверить, является
ли функция корректным ядром без необходимости явно строить функцию ф(х).
Необходимым и достаточным условием того, что функция k(x, х') является кор­
ректным ядром (Shawe-Taylor and Cristianini, 2004), является то, что матрица
Грама К, элементы которой заданы значениями k(хт хт), должна быть положи­
тельно полуопределенной для всех возможных вариантов множества {хп}. Заме-
тим, что положительно полуопределенная матрица - это не то же самое, что

матрица, элементы которой неотрицательны (см. прило;нсе11ие В).

Одним из мощных методов построения новых ядер является построение их из


более простых ядер. Это можно сделать, используя следующие свойства.

Методы построения новых ядер

Если ядра k1(x, х') и k2(x, х') являются корректными, то следующие ядра тоже
будут корректными:

k(x, х') = ck1(x, х'), (6.13)


k(x, х') = f(x) k1(x, x')f(x'), (6.14)
6.2. Конструирование ядер 401

k(x, = q(k1(x, х')),


х') (6.15)
k(x, х') = exp(k1(x, х')), (6.16)
k(x, х') = k1(x, х') + k2(x, х'), (6.17)
k(x, х') = k 1(x, x')k2(x, х'), (6.18)
k(x, х') = k3 (ф(х), ф(х')) (6.19)
k(x, х') = хтАх', (6.20)
k(x, х') = ka(Xa, Ха')+ kь(хь, хь'), (6.21)
k(x, х') = ka(Xa, Ха')kь(Хь, хь'), (6.22)
где с >О - постоянная,JО - любая функция; q(·) - многочлен с неотрица­
тельными коэффициентами; ф(х)-это функция от х до JRM; k3 (·")-допу­
стимое ядро в JRM; А- симметричная положительная полуопределенная мат­
рица, Ха и хь - переменные (не обязательно дизъюнктные) с х =(ха, хь); ka
и kь - корректные ядра над их соответствующими пространствами.

Зная эти свойства, мы можем теперь приступить к построению более слож­


ных ядер, соответствующих конкретным приложениям. Мы требуем, чтобы ядро

k(x, х') было симметричным и положительно полуопределенным и выражало


соответствующую форму сходства между х и х' в соответствии с предполагае­
мым приложением. Здесь мы рассмотрим несколько общих примеров ядра. Бо­
лее подробное обсуждение ядер см. в Shawe-Taylor и Cristianini (2004).
Мы видели, что простое полиномиальное ядро k(x, х') = (хтх') 2 содержит толь­
ко члены второй степени. Если рассматривать чуть более общее ядро k(x, х') =
= (хтх' + с)2 при с> О, то соответствующее отображение признаков ф(х) содер­
жит постоянные и линейные члены, а также члены второго порядка. Аналогично
k(x, х') = (хтх'~ содержит все одночлены порядка М. Например, если х их' -
два изображения, то ядро представляет собой определенную взвешенную сумму
всех возможных произведений из М пикселей в первом изображении и М пиксе­
лей во втором. Аналогично можно обобщить ядро и включить все члены до сте­
пени М, рассматривая функцию k(x, х') = (хтх' + с)м при с> О. Используя ре­
зультаты (6.17) и (6.18) для комбинаций ядер, мы видим, что все они будут кор­
ректными.

Другое часто используемое ядро имеет вид

(6.23)
402 ГЛАВА 6. ЯДЕРНЫЕ МЕТОДЫ

и часто называется гауссовым ядром. Обратите внимание, однако, что в этом


контексте оно не интерпретируется как плотность вероятности и поэтому коэф­
фициент нормирования опущен. Мы видим, что это корректное ядро, расклады­
вая квадрат

(6.24)
и получая
т 2 т 2 т 2
k(x, х') = ехр(-х х/2а )ехр(х х'/а )ехр(-(х') х'/2а ), (6.25)
а затем используя (6.14) и (6.16) вместе с утверждением о корректности линей­
ного ядра k(x, х') = хтх. Заметим, что вектор признаков, соответствующий гаус­
сову ядру, имеет бесконечную размерность (см. упраж·нение 6.11).
Гауссово ядро не ограничивается использованием евклидова расстояния. Ес­
ли мы используем замену ядра в (6.24) для замены хтх, нелинейным ядром
к(х, х'), получим:

k(x,x') = ехр{- 2 ~ 2 (к(х,х)+ к(х',х')-2к(х,х'))}. (6.26)

Важным преимуществом ядер является возможность обобщения входных


данных, которые могут быть символьными, а не просто векторами действитель­
ных чисел. Ядра можно определять для таких разнообразных объектов, как гра­
фы, множества, строки и текстовые документы. Рассмотрим, например, фикси­
рованное множество и определим невекторное пространство, состоящее из всех

возможных подмножеств этого множества. Если А 1 и А 2 - два таких подмноже­


ства, то один простой выбор ядра будет иметь вид

(6.27)

где А1 nА2 обозначает пересечение множеств А1 и А2 и IAI обозначает количе­


ство элементов в множестве А. Это корректное ядро, так как оно соответствует
скалярному произведению в пространстве признаков (см. упражнение 6.12).
Один из плодотворных подходов к построению ядер основан на использовании
вероятностных порождающих моделей (Haussler, 1999), которые позволяют при­
менять порождающие модели в контексте дискриминации. Порождающие модели
естественным образом могут справляться с отсутствующими данными, а в случае
скрытых марковских моделей могут обрабатывать последовательности различной
длины. Напротив, дискриминационные модели обычно дают лучшую производи­
тельность в задачах классификации, чем порождающие модели. Поэтому пред­
ставляется интересным объединить эти два подхода (Lasseттe et а/., 2006). Один из
6.2. Конструирование ядер 403

способов их комбинирования - использовать порождающую модель для опреде­


ления ядра, а затем использовать это ядро для дискриминации. Учитывая порож­
дающую модель р(х), мы можем определить ядро по формуле

k(x, х') = р(х)р(х'). (6.28)

Это, очевидно, корректное ядро, потому что мы можем интерпретировать его

как скалярное произведение в одномерном пространстве признаков, определяемом

отображением р(х). Говорят, два входа х и х' являются похожими, если оба они
имеют высокие вероятности. Мы можем использовать (6.13) и (6.17) для расшире­
ния этого класса ядер путем рассмотрения сумм по произведениям разных распре­

делений вероятностей с положительными весовыми коэффициентами p(i) вида


k(x,x') = LP(xli)p(x'li)p(i). (6.29)

Это ядро эквивалентно, с точностью до общей мулътипликативной констан­


ты, смеси распределений, в которой компоненты факторизуются, причем индекс
i играет роль скрытой переменной. Два входа, х и х', дадут большое значение
для ядра и, следовательно, окажутся похожими, если они имеют значительную

вероятность в разных компонентах (c.w. разt>е:1 9.2). Переходя к пределу, мы мо­


жем также рассмотреть ядра вида

f
k(x,x')= p(xlz)p(x'lz)p(z)dz, (6.30)

где z- непрерывная скрытая переменная.

Предположим теперь, что наши данные состоят из упорядоченных последова­

тельностей длины L, так что набmодение задается выражением Х = {х 1 , "" xr}. По­
пулярной порождающей моделью для последовательностей является скрытая

марковская модель, которая выражает распределение р(Х) как маргинализацию


над соответствующей последовательностью скрытых состояний Z= {z 1, "., zr}
(см. раздела 13.2). Мы можем использовать этот подход для определения ядра,

измеряющего схожесть двух последовательностей Х и Х' путем обобщения сме­


си (6.29):
k(X,X') = LP(XIZ)p(X'IZ)p(Z), (6.31)
z
так что обе наблюдаемые последовательности порождаются одной и той же
скрытой последовательностью Z. Эту модель можно легко расширить, чтобы
можно бьmо сравнивать последовательности различной длины.
404 ГЛАВА 6. ЯДЕРНЫЕ МЕТОДЫ

Альтернативный метод использования порождающих моделей для определе­


ния ядер известен как ядро Фишера (Jaakkola and Haussler, 1999). Рассмотрим
параметрическую порождающую модель р(х18), где 8- вектор параметров.
Цель состоит в том, чтобы найти ядро, которое измеряет похожесть двух вход­
ных векторов х и х', индуцированных порождающей моделью. Jaakkola and
Haussler (1999) рассматривают градиент по 8, который определяет вектор в про­
странстве признаков, имеющем ту же размерность, что и 8. В частности, они
рассматривают оценку Фишера

q( 8, х) = V oln p(xl 8), (6.32)

из которого ядро Фишера определяется формулой

k(x, х') = q(8, x)тF- 1 q(8, х'). (6.33)

Здесь F- информационная матрица Фишера, заданная формулой

(6.34)

где математическое ожидание по х при распределениир(х18). Это можно объяс­


нить с точки зрения информационной геометрии (Amari, 1998), в которой рас­
сматривается дифференциальная геометрия пространства параметров модели.
Здесь мы просто отметим, что информационная матрица Фишера обеспечивает
инвариантность ядра при нелинейной повторной параметризации модели плот­
ности 8 ~ f/1(8) (см. упражнеиие 6. 13).
На практике часто невозможно вычислить информационную матрицу Фише­
ра. Один из подходов состоит в том, чтобы просто заменить математическое
ожидание в определении информации Фишера средним выборочным значением:

1 N Т
F=-:Lq(8,xп)q(8,xп). (6.35)
N n=I

Это ковариационная матрица оценок Фишера, поэтому ядро Фишера соответ­


ствует отбеливанию этих оценок. Проще говоря, мы можем опустить информаци­
онную матрицу Фишера и использовать неинвариантное ядро (см. раздел 12.1.3):
k(x, х') = q(8, x/q(8, х'). (6.36)

Применение ядер Фишера для поиска документов описано в Hofmann (2000).


Последним примером ядра является сигмоидальное ядро, заданное формулой

k(x, х') = th(axтx, + Ь), (6.37)


6.3. Радиальные базисные функции 405

матрица Грама которого вообще не является положительно полуопределенной.


Однако эта форма ядра использовалась на практике (Vapnik, 1995), возможно,
потому, что она дает разложения ядра, такие как в методе опорных векторов, от­

даленно напоминающие модели нейронных сетей. Как мы увидим, при беско­


нечном количестве базисных функций байесовская нейронная сеть с соответ­
ствующим априорным распределением сводится к гауссовскому процессу, тем

самым обеспечивая более глубокую связь между нейронными сетями и ядерны­


ми методами (см. раздел 6.4. 7).

6.3. Радиальные базисные функции

В главе 3 мы обсуждали регрессионные модели, основанные на линейных


комбинациях фиксированных базисных функций, но не интересовались тем, ка­
кую форму могут иметь эти базисные функции. Широко распространен один из
вариантов радиальных базисных функций, в котором каждая базисная функция
зависит только от радиального расстояния (обычно евклидова) до центра µ1, так
что ~(х) = h(llx - P1ll).
Исторически радиальные базисные функции были введены для точной ин­
терполяции функций (Powell, 1987). Ее цель - найти гладкую функцию f(x),
которая точно совпадает с каждым целевым значением {t1, ••• , tN} на заданном
входном векторе {х 1 , х2 , ••• , xN}" т.е. /(хп) = tn для п = 1, ... , N. Это достигается с
помощью выражения f(x) в виде линейной комбинации радиальных базисных
функций, центры которых совпадают с заданными точками:
N
f (х) =L wnh(llx-xпll)· (6.38)
n=I

Значения коэффициентов {wп} определяются по методу наименьших квадра­


тов, и поскольку количество коэффициентов и ограничений одинаково, резуль­
татом является функция, которая точно совпадает с каждым целевым значением.
Однако в приложениях, связанных с распознаванием образов, целевые значения
обычно искажены шумом, и точная интерполяция нежелательна, поскольку это
способствует переобучению.
Разложения по радиальным базисам также возникают в теории регуляризации
(Poggio and Girosi, 1990; Bishop, 1995а). Для суммы квадратов ошибок с регуля­
ризатором, определяемым как дифференциальный оператор, оптимальное реше­
ние определяется разложением оператора по функциям Грина (аналогичным
собственным векторам дискретной матрицы), снова с базисными функциями с
406 ГЛАВА 6. ЯДЕРНЫЕ МЕТОДЫ

центрами в каждой точке исходных данных. Если дифференциальный оператор


изотропен, то функции Грина зависят только от радиального расстояния от со­
ответствующей точки. Из-за наличия регуляризатора решение больше не интер­
полирует данные обучения точно.
Другая мотивация для радиальных базисных функций исходит из рассмотре­
ния задачи интерполяции, когда искаженными являются входные, а не целевые

переменные (Webb, 1994; Bishop, 1995а). Если шум на входной переменной х


описывается переменной ,;, имеющей распределение v(,;), то сумма квадратов
ошибок принимает вид

1 N 2
E=- Lf{y(xп +')-tп} v(,)d,. (6.39)
2 n=l
Используя вариационное исчисление, мы можем выполнить оптимизацию по

функцииу(х) и получить (см. упраж11е11ие 6.17, приложение Г):


N
у{х)= Ltпh(x-xп), (6.40)
n=I

где базисные функции задаются формулой

(6.41)

Мы видим, что существует набор базисных функций с центрами в каждой


точке данных. Эта модель называется моделью Надарая-Ватсона и будет еще
раз построена с другой точки зрения в разделе 6.3.1. Если распределение шума
v(,;) изотропно, так что оно является функцией только 11.:11, то базисные функции
будут радиальными.

Заметим, что базисные функции (6.41) нормированы, так что L h ( х - хп) = 1


п

для любого значения х. Эффект такой нормализации показан на рис. 6.2. Норма-
лизация иногда используется на практике, чтобы избежать появления областей
пространства входных переменных, где все базисные функции принимают не­
большие значения, из-за чего прогнозные значения в таких областях обязательно
будут либо малы, либо зависеть исключительно от параметра смещения.
6.3. Радиальные базисные функции 407

0,8 0,8

0,6 0,6

0,4 0,4

0,2 0,2

о
-0,5 о 0,5 -1 -0,5 о 0,5

Рис. 6.2. График гауссовых базисных функций (слева) вместе с соответствующими

нормализованными базисными функциями (справа)

Другая ситуация, в которой возникают разложения по нормализованным ра­


диальным базисным функциям, возникает при оценке плотности ядра в задаче
регрессии, о которой речь пойдет в разделе 6.3. 1.
Поскольку с каждой точкой исходных данных связана отдельная базисная
функция, при прогнозировании новых точек соответствующая модель может
оказаться вычислительно затратной. Поэтому были предложены модели
(Broomhead and Lowe, 1988, Moody and Darken, 1989; Poggio and Girosi, 1990),
которые сохраняют разложение по радиальным базисным функциям, но при
этом количество базисных функций М меньше, чем количество точек N. Как
правило, количество базисных функций и координаты их центровµ; определя­
ются только на основе входных данных {хп}· Тогда базисные функции сохраня­
ются фиксированными, а коэффициенты {w;} определяются методом наимень­
ших квадратов путем решения обычной системы линейных уравнений, как опи­
сано в разделе 3.1.1.
Одним из простейших способов выбора центров базисных функций является
использование случайно выбранного подмножества точек исходных данных. Бо­
лее систематический подход называется методом ортогональных наименьших
квадратов (Chen et а/., 1991). Это последовательный процесс выбора, в котором
на каждом шаге следующая точка, которая должна быть выбрана в качестве цен­
тра базисной функции, - та, которая дает наибольшее уменьшение суммы квад­
ратов ошибок. Значения коэффициентов разложения определяются как часть ал­
горитма. Также используются алгоритмы кластеризации, такие как метод К

средних, которые дают набор центров базисных функций, больше не совпадаю­


щих с точками исходных данных (см. раздел 9.1).
408 ГЛАВА 6. ЯДЕРНЫЕ МЕТОДЫ

6.3.1. Модель Надарая-Ватсона

В разделе 3.3.3 мы видели, что предсказание модели линейной регрессии для


нового входа х представляет собой линейную комбинацию целевых значений из
обучающего множества с коэффициентами, заданными эквивалентным ядром
(3.62), удовлетворяющим ограничению на сумму (3.64).
Мы можем обосновать ядерную модель регрессии (3.61) с другой точки зре­
ния, начиная с ядерной оценки плотности. Предположим, у нас есть обучающее
множество {хп, tп} и мы используем оценку плотности Парзена для моделирова­
ния совместного распределения р(х, t), так что (см. раздел 2.5.1)
} N
p(x,t)=-:Lf(x-xn,t-tп), (6.42)
N n=I
где /(х, t) - функция плотности компонента, и каждая точка исходных данных
является центром отдельного компонента. Теперь найдем выражение для функ­
ции регрессии у(х), соответствующее условному среднему целевой переменной,
обусловленной входной переменной, которая задается выражением
00

y(x)=E[tlx ]= J tp(tlx)dt=

Jtp(x,t)dt
(6.43)
= f р (х, t) dt =
Lf tf(x-xn,t-tп)dt
п

Lf f(x-xm,t-tт)dt.
т

Предположим теперь для простоты, что функции плотности компонент име­


ют нулевое математическое ожидание, так что

00

f f (х, t) dt =о
--«;
(6.44)

для всех значений х. Используя простую замену переменных, получим:

Lg(x-xп)tп
у(х)= Ig(x-xm) (6.45)
т
6.3. Радиальные базисные функции 409

где п, т = 1, .. " Nи ядро k(_x, хп) задается формулой

g(х-хп)
k ( х, хп) = I g (x-xm ), (6.46)
т

тогда

"'
g(x)= Jf(x,t)dt. (6.47)

Результат
(6.45) известен как модель Надарая-Ватсона, или ядерная регрес­
сия (Nadaraya, 1964; Watson, 1964). Для локализованного ядра она придает
больший вес точкам хт близким к х. Заметим, что ядро (6.46) удовлетворяет
ограничению на сумму

N
Lk(x,xп)=l.
n=l

Фактически эта модель определяет не только условное математическое ожи­


дание, но и полное условное распределение, заданное формулой

(6.48)
т

по которой можно вычислить другие ожидания.

В качестве иллюстрации рассмотрим случай единственной входной перемен­


ной х, в которой функция f(x, t) - изотропное нормальное распределение по пе­
ременной z = (х, t) с нулевым математическим ожиданием и дисперсией r:i. Соот­
ветствующее условное распределение (6.48) задается смесью нормальных распре­
делений (см. упражнение 6.18) и показано вместе с условным математическим
ожиданием для синусоидальных искусственных данных на рис. 6.3.
Очевидным обобщением этой модели является использование более гибких
форм гауссовых компонентов, например, имеющих разные параметры диспер­
сии входных и целевых переменных. В более общем плане мы могли бы моде­
лировать совместное распределение p(t, х) с использованием модели гауссовой
смеси, прошедшей обучение с использованием методов, обсуждавшихся в гла­
ве 9 (Ghahramani and Jordan, 1994), а затем найти соответствующее условное
распределение p(tjx). В последнем случае мы больше не имеем представления в
терминах ядра, вычисленных в точках обучающего множества. Однако количе­
ство компонентов в модели смеси может быть меньше, чем количество обучаю-
410 ГЛАВА 6. ЯДЕРНЫЕ МЕТОДЫ

щих точек, что приводит к модели, которая быстрее вычисляется для тестовых
точек. Таким образом, мы несем повышенные вычислительные затраты на этапе
обучения, чтобы ускорить работу модели при составлении прогнозов.

1,5

0,5

-0,5

-1

- 1,5 '---"----'---~--.._____ _.___ ___.____,


о 0,2 0,4 0,6 0,8
Рис. 6.3. Регрессионная ядерная модель ядра Надарая-Ватсона с использованием

изотропных гауссовых ядер для синусоидального набора данных. Исходная синусоидальная

функция покюана зеленой кривой, точки исходных данных покюаны синим цветом, и

каждый из них является центром изотропного гауссова ядра. Результирующая функция

регрессии, заданная условным математическим ожиданием, показана красной линией

вместе с областью стандартного отклонения для условного распределения p(tfx),

показанного красным цветом. Синий эллипс вокруг каждой точки данных показывает

контур одного стандартного отклонения для соответствующего ядра. Они выглядят

некруглыми из-за разных масштабов на горизонтальной и вертикальной осях

6.4. Гауссовские процессы


В разделе 6.1 мы ввели ядра, применив понятие двойственности к детерми­
нированной модели регрессии. Здесь мы расширим роль ядер до вероятностных
дискриминационных моделей, приводящих к гауссовским процессам. Таким об­
разом, мы увидим, как ядра естественным образом возникают в рамках байесов­
ского подхода.

В главе 3 мы рассмотрели линейные регрессионные модели вида у(х, w) =


=wтф(х), в которых w- вектор параметров, а ф(х)- вектор фиксированных
нелинейных базисных функций, зависящих от входного вектора х. Мы показали,
что априорное распределение по w порождает соответствующее распределение

по функциям у(х, w). Затем по заданному обучающему множеству мы вычисляли


апостериорное распределение по wи тем самым получали соответствующее апо-
6.4. Гауссовские процессы 411

стериорное распределение по регрессионным функциям, которое, в свою оче­


редь (с добавлением шума), подразумевало прогностическое распределение

p(tlx) для новых входных векторов х.


Рассматривая гауссовские процессы, мы обойдемся без параметрической мо­
дели и вместо этого определим прямое распределение вероятности по функциям.
На первый взгляд может показаться трудным работать с распределением по бес­
конечному пространству функций. Однако, как мы увидим, для конечного обу­
чающего множества нам нужно всего лишь учитывать значения функции на
дискретном множестве входных значений х"' разделенных на обучающее и те­
стовое множество, и поэтому на практике мы можем работать в конечном про­
странстве.

Модели, эквивалентные гауссовским процессам, широко изучались во многих

областях. Например, в литературе по геостатистике регрессия на основе гауссов­


ского процесса называется кригингом (Cressie, 1993). Точно так же модели АRМА
(авторегрессионные скользящие средние), фильтры Калмана и сети радиалъно­
базисных функций могут рассматриваться как разновидности моделей на основе
гауссовского процесса. Обзоры гауссовских процессов с точки зрения машинного
обучения можно найти в МасКау (1998), Williams (1999) и МасКау (2003), а срав­
нение моделей на основе гауссовского процесса с альтернативными подходами

приведено в Rasmussen (1996). Недавно также вышел учебник Rasmussen and


Williams (2006) по гауссовским процессам.

6.4.1. Еще раз о линейной регрессии

Чтобы обосновать подход на основе гауссовских процессов, вернемся к при­


меру линейной регрессии и заново выведем прогностическое распределение, ис­
пользуя распределения по функциям у(х, w). Это даст конкретный пример гаус­
совского процесса.

Рассмотрим модель, определенную как линейная комбинация М фиксирован­


ных базисных функций, заданных элементами вектора ф(х), так что

у(х) = wт ф(х), (6.49)


где х - входной вектор; w- М-мерный вектор весов. Теперь рассмотрим апри­
орное распределение по wв виде изотропного гауссовского распределения

p(w) = N(wlO, а- 1 1), (6.50)

зависящего от гиперпараметра а, который представляет собой точность (обрат~


ную дисперсию) распределения. Для любого заданного значения w определение
412 ГЛАВА 6. ЯДЕРНЫЕ МЕТОДЫ

(6.49) задает определенную функцию от х. Следовательно, распределение веро­


ятности по w, определяемое (6.50), индуцирует распределение вероятности по
функциям у(х). На практике мы хотим вычислить эту функцию при определен­
ных значениях х, например, в обучающих точках х 1 , "., xN. Поэтому нас интере­
сует совместное распределение значений функций у(х 1 ), "., y(xN), которую мы
обозначим как вектор у с элементамиуп = у(хп) при п = 1, "., N. Из (6.49) следу­
ет, что этот вектор задается формулой

у= Фw, (6.51)

где Ф - матрица плана с элементами Фпk = фk(хп). Мы можем найти распределе­


ние вероятностей у следующим образом. Прежде всего отметим, что у - это ли­
нейная комбинация случайных переменных, имеющих нормальное распределение
при заданных элементах w, и, следовательно, сама имеет нормальное распределе­

ние (см. упра:ж:11е11ие 2.31). Таким образом, нам нужно найти только его матема­
тическое ожидание и ковариационную матрицу, которые следуют из (6.50):

Е[у] = ФЕ[w] =О, (6.52)


т т т 1 т
cov[y] = Е[уу ] = Фlffi[ww ]Ф = а ФФ =К, (6.53)

где К - матрица Грама с элементами

(6.54)

и k(x, х') - ядро.


Эта модель дает нам конкретный пример гауссовского процесса. В общем
случае гауссовский процесс определяется как распределение вероятности по
функциям у(х) так, что множество значений у(х), совместно вычисляемых на
произвольном множестве точек х 1 , ".,хм имеет нормальное распределение.

В тех случаях, когда входной вектор х является двумерным, это также можно
назвать гауссовским случайным полем. В более общем случае стохастический
процесс у(х) задается путем совместного распределения вероятностей для любо­
го конечного набора значенийу(х 1 ), ".,y(xN) согласованным образом.
Ключевым моментом гауссовских случайных процессов является тот факт,
что совместное распределение по N переменным у 1 , "., YN полностью определя­
ется статистиками второго порядка, а именно математическим ожиданием и ко­

вариацией. В большинстве приложений мы не будем иметь никаких предвари­


тельных знаний о математическом ожидании у(х) и поэтому для симметрии
примем его равным нулю. С точки зрения базисных функций это эквивалентно
6.4. Гауссовские процессы 413

выбору нулевого математического ожидания априорного распределения весов


p(wla). Затем задание гауссовского процесса завершается указанием ковариации
у(х), вычисленной при любых двух значениях х, которая задается ядром

(6.55)

Для конкретного случая гауссовского процесса, определяемого линейной моде­


лью регрессии (6.49) с весом до (6.50), ядро задается выражением (6.54).
Мы также можем определить ядро напрямую, а не косвенно, выбрав базис­
ную функцию. На рис. 6.4 приведены примеры базисных функций на основе
гауссовских процессов для двух вариантов ядра. Первым из них является гаус­

сово ядро вида (6.23), а вторым - экспоненциальное ядро, заданное формулой

k(x, х') = exp(-Blx, x'I), (6.56)


которая соответствует процессу Орнштейна-Уленбека, первоначально введен­
ному в Uhlenbeck and Ornstein (1930) для описания броуновского движения.

3 3

1,5 1,5

о о

- 1,5 -1,5

-3
-1 -0,5 о 0,5 -0,5 о 0,5
Рис. 6.4. Примеры гауссовских процессов для гауссового ядра (слева)

и э кспонснциалыюго ядра (справа)

6.4.2. Регрессия на основе гауссовских процессов

Чтобы применить модели гауссовских процессов к задаче регрессии, необхо­


димо учитывать шум наблюдаемых целевых значений, которые задаются фор­
мулой

fп =Уп + &т (6.57)


где Уп = у(хп), а &п - случайная шумовая переменная, значение которой выбира­
ется независимо для каждого наблюдения п. Здесь мы рассмотрим шумовые
процессы, имеющие нормальное распределение, так что

р(Цуп) = N(fпlYn• /Г 1 ), (6.58)


414 ГЛАВА 6. ЯДЕРНЫЕ МЕТОДЫ

где f3 - гиперпараметр, представляющий точность шума. Поскольку шум неза­


висим для каждой точки исходных данных, совместное распределение целевых

значений t = (t 1, "., tN)т, обусловленное значениями у= (у 1 , "., УN)т, определяется


изотропным нормальным распределением

(6.59)

где IN обозначает единичную матрицу N х N. Из определения гауссовского про­


цесса следует, что маргинальное распределение р(у) является нормальным, ма­
тематическое ожидание которого равно нулю и ковариантная матрица которого

определяется матрицей Грама К, так что

р(у) = N( у 10, К). (6.60)


Ядро, определяющее матрицу К, обычно выбирается так, чтобы для одинаковых
точек Хп и Хт соответствующие значения у(хп) и у(хт) были более сильно корре­
лированы, чем для непохожих точек. Здесь понятие похожести зависит от при­
ложения.

Чтобы найти маргинальное распределение p(t), обусловленное входными


значениями х 1 , ""хм необходимо интегрировать по у. Это можно сделать, вос­
пользовавшись результатами из раздела 2.3.3 для линейно-гауссовской модели.
Используя (2.115), видим, что маргинальное распределение t задается формулой
p(t) = fp(tly)p(y)dy = N(tlo,c), (6.61)

где ковариационная матрица С содержит элементы

С(хт Хт) = k(хт Хт) + /Г 1 дпт· (6.62)


Этот результат отражает тот факт, что два гауссовых источника случайности, а
именно связанные с у(х) и&, независимы и поэтому их ковариации просто сум­
мируются.

Одно широко используемое ядро для регрессии на основе гауссовского про­


цесса задается экспонентой квадратичной формы с добавлением постоянных и
линейных членов:

(6.63)

Заметим, что слагаемое, содержащее 8 3, соответствует параметрической мо­


дели, которая является линейной функцией входных переменных. На рис. 6.5
показаны выборки из генеральной совокупности с этим априорным распределе-
6.4. Гауссовские процессы 415

нием для различных значений параметров 00, •.• , Вз, а на рис. 6.6 показан набор
точек, извлеченных из генеральной совокупности с совместным распределением
(6.60) вместе с соответствующими значениями, определяемыми (6.61).
(1,00; 4,00; 0,00; 0,00) (9,00; 4,00; 0,00; 0,00) (1,00; 64,00; 0,00; 0,00)

1,5

-1,5

-3
-1 --0,5 о 0,5 --0,5 о 0,5
(1,00; 0,25; 0,00; 0,00) (1,00; 4,00; 10,00; 0,00) (1,00; 4,ОО; 0,00;5,ОО)
3 9~-~-~-~-~

1,5 4,5 2

о о о

-1,5 -4,5 -2

-3 -9~-~-~-~-~
-1 --0,5 о 0,5 -1 --0,5 о 0,5 --0,5 о 0,5

Рис. 6.5. Выборки из генеральной совокупности с априорным распределением

гауссовского процесса, определенные ковариационной функцией (6.63).


Название над каждым графиком означает ( 80 , 81, 82, 83)

До сих пор мы использовали концепцию гауссовских процессов для построе­


ния модели совместного распределения по наборам точек. Однако наша цель
при решении задачи регрессии - предсказать целевые переменные для новых
т
точек по заданному обучающему множеству. Предположим, что tN = {t1, "" tN) ,
соответствующие входным значениям х 1 , ... ,Хм образуют обучающее множе­
ство наблюдений, и наша цель- предсказать целевую переменную tN+ 1 для но­
вого входного вектора xN+I· Для этого необходимо вычислить прогностическое
распределение p{tN+ 1ltN)· Заметим, что это распределение обусловлено также пе­
ременными х 1 , " " xN и xN+i· Однако, чтобы не усложнять обозначения, мы не
будем явно отображать эти условные переменные.
Чтобы найти условное распределение p(tN+ 1 jt), сначала запишем совместное
т
распределение p(tN+1), где tN+ 1 обозначает вектор (t 1, "., tм tN+ 1) • Затем применим
результаты из раздела 2.3.1 для получения требуемого условного распределе­
ния, как показано на рис. 6.7.
416 ГЛАВА 6. ЯДЕРНЫЕ МЕТОДЫ

-з~------~------~
-1 о х

Рис. 6.6. Выбор точек {t,J из гауссовского процесса. Синяя кривая показывает

выборочную функцию ю генеральной совокупности с априорным распределением

гауссовского процесса, а красные точки обозначают значения у"' полученные путем

вычисления функции при наборе входных значений {х"}. Соответствующие значения

{ t 11 } , показанные зеленым цветом, получаются путем добавления независимого


гауссовского шума к каждому из значений {у 11 }

-] о

Рис. 6.7. Регрессия на основе гауссовского процесса для случая одной

обучающей и одной тестовой точки, в которой красные эллипсы показывают контуры

совместного распределения p(t 1, t 2). Здесь t 1 - обучающая точка, вертикальная синяя

линия соответствует ее фиксированному значению, а условная вероятность p(t2lt 1),


показанная зеленой кривой, как функция от t2
6.4. Гауссовские процессы 417

Из (6.61) следует, что совместное распределение по t1, ••• , tN+ 1 задается выра­
жением

(6.64)

где CN+ 1 является(N + 1) х (N + 1) ковариационной матрицей с элементами, за­


данными формулой (6.62). Поскольку это совместное распределение является
нормальным, мы можем применить результаты из раздела 2.3.1, чтобы найти
условное нормальное распределение. Представим ковариационную матрицу
следующим образом:

(6.65)

где CN - ковариационная матрица из N х N элементов, заданных формулой (6.62)


для п, т = 1, ... , N, вектор k имеет элементы k(x"' xN+ 1) при п = 1"", N и скаляр
1
с= k(xN+ 1, xN+ 1) + /Т. Используя результаты (2.81) и (2.82), мы видим, что
условное распределение p(tN+ 1lt) является нормальным распределением с ма­
тематическим ожиданием и ковариационной матрицей, заданными формулами

m(xN+i) = kтCN1 t, (6.66)

а 2 ( xN+l) = c-kтС~k. (6.67)

Это ключевые результаты, которые определяют регрессию на основе гауссов­


ского процесса. Поскольку вектор k является функцией входной тестовой точки
Хн+ 1 , прогностическое распределение является нормальным распределением, ма­

тематическое ожидание и дисперсия которого зависят от xN+l· Пример регрессии


на основе гауссовского процесса приведен на рис. 6.8.
Единственное ограничение на ядро состоит в том, что ковариационная мат­
рица, заданная формулой (6.62), должна быть положительно определенной. Если
А; - собственное значение матрицы К, то соответствующее собственное значе-
ние матрицы С будет равно Л, + fТ1. Поэтому достаточно, чтобы матрица ядра
k(x"' xm) была положительно полуопределенной для любой пары точек хп и xm,
так что Л, ~ О, так как любое собственное значение Л,, равное нулю, по-прежнему
будет порождать положительное собственное значение для матрицы С, потому
что fЗ> О. Это ограничение на ядро уже обсуждалось ранее, поэтому мы можем
снова использовать все методы из раздела 6.2 для построения подходящих ядер.
418 ГЛАВА 6. ЯДЕРНЫЕ МЕТОДЫ

0,5
о
/~
о

- 0,5

-1

о 0,2 0,4 0,6 0,8


Рис. 6.8. Регрессия на основе гауссовского процесса , примененная к синусоидальному

набору данных, показанному на рис. А . 6, в котором три крайних правых точки были

опущены. Зеленая кривая показывает синусоидальную функцию, из которой точки,

показанные синим, получаются путем выбора и добавления гауссовского шума. Красная

линия показывает математическое значение прогностического распределения

гауссовского процесса, а заштрихованная область соответствует полос е "пл юс и минус

два стандартных отклонения". Обратите внимание на то, как неопределенность

увеличивается в области справа от точек

Заметим, что математическое ожидание (6.66) прогностического распределе­


ния можно записать в виде функции от xN+ 1
N
m(xN+1)= ~:>пk(хп,ХN+1), (6.68)
n=I

где ап - п-й компонент вектора C~t . Таким образом, если ядро k(хт xm) зави­
сит только от расстояния llxn - Xmll, то получим разложение по радиальным ба­
зисным функциям .
Результаты (6.66) и (6.67) определяют прогностическое распределение для ре­
грессии на основе гауссовского процесса с произвольным ядром k(хт xm). В част­
ном случае, когда ядро k(x, х') определено с помощью конечного набора базисных
функций, мы можем получить результаты, полученные в разделе 3.3. 2 для линей­
ной регрессии, придерживаясь концепции гауссовского процесса (с.м. упра:нсне-
11ие 6.21).
Следовательно, для таких моделей мы можем получить прогностическое рас­

пределение, приняв концепцию пространства параметров, либо используя ре­


зультаты теории линейной регрессии, либо теорию функционального простран­
ства и использования гауссовского процесса.
6.4. Гауссовские процессы 419

Главной вычислительной операцией при использовании гауссовских процес­


сов является обращение матрицы размером N х N, для которой стандартные ме­
тоды требуют операций. Напротив, в модели базисных функций модели
O(N 3 )
мы должны вычислить матрицу, обратную матрице SN размером М х М. Эта
процедура имеет вычислительную сложность порядка О(М3). Обратите внима­
ние на то, что с обеих точек обращение матрицы должно выполняться один раз
для заданного обучающего множества. Для каждой новой тестовой точки в обо­
их методах требуется умножение матрицы на вектор, имеющее сложность по-
2 2
рядка O(N ) в случае гауссовского процесса и О(М ) для модели линейных ба-
зисных функций. Если количество базисных функций М меньше количества то­
чек N, то подход на основе базисных функций будет более эффективным с
вычислительной точки зрения. Однако преимуществом подхода на основе гаус­
совских процессов является то, что мы можем рассматривать ковариационные

функции, которые могут быть выражены только через бесконечное количество


базисных функций.
Однако для больших обучающих множеств данных прямое применение мето­
дов на основе гауссовского процесса может стать неосуществимым, поэтому

бьт разработан ряд схем аппроксимации, которые лучше масштабируются в со­


ответствии с размером обучающего множества, чем точный подход (Gibbs, 1997;
Tresp, 2001; Smola and Bartlett, 2001; Williams and Seeger, 2001; Csat6 and Opper,
2002; Seeger et а/" 2003).
Мы применили регрессию на основе гауссовских процессов для случая одной
целевой переменной. Расширение этого формализма до нескольких целевых пере­
менных, известное как совместный кригинг (Cressie, 1993), не составляет труда
(см. упражнение 6.23). Бьти также рассмотрены другие расширения регрессии на
основе гауссовского процесса для таких целей, как моделирование распределения
по малоразмерным многообразиям для обучения без учителя (Bishop et а/., 1998а)
и решение стохастических дифференциальных уравнений (Graepel, 2003).

6.4.3. Настройка гиперпараметров

Прогнозы модели на основе гауссовскоrо процесса частично зависят от вы­


бора ковариационной функции. На практике вместо фиксации ковариационной
функции можно использовать параметрическое семейство функций, а затем вы­
водить значения параметров из данных. Эти параметры управляют такими ве­
щами, как корреляция длина-масштаб и точность шума, и соответствуют гипер­
параметрам в стандартной параметрической модели.
420 ГЛАВА 6. ЯДЕРНЫЕ МЕТОДЫ

Методы настройки гиперпараметров основаны на оценке функции правдопо­


добия p(tl 0), где О - гиперпараметры модели на основе гауссовского процесса.
Самый простой подход - получить точную оценку О, максимизируя логариф­
мическую функцию правдоподобия. Поскольку О представляет собой набор ги­
перпараметров для задачи регрессии, эту процедуру можно рассматривать как

аналог процедуры максимального правдоподобия второго типа для моделей ли­


нейной регрессии. Максимизация логарифмической функции правдоподобия
может быть выполнена с использованием эффективных градиентных алгоритмов
оптимизации, таких как метод сопряженных градиентов (Fletcher, 1987; Nocedal
and Wright, 1999; Bishop and Nabney, 2008).
Функция логарифмического правдоподобия для модели регрессии на основе
гауссовского процесса легко вычисляется с использованием стандартной формы

для многомерного нормального распределения:

(6.69)

Для нелинейной оптимизации нам также нужен градиент функции логариф­


мического правдоподобия по к вектору параметров О. Будем считать, что вы­
числение производных CN несложно, как это было бы в случае ковариантных
функций, рассмотренных в этой главе. Используя результат (В.21) для произ­
водной от с/.} вместе с результатом (В.22) для производной от lnlC,vl, получим:

~ln
д(}. р
(tiO) =-_!_2 Tr(c-N дСN)
1
д(}.
+_!_t1c-N дСN
2
1 c- t.
д(}. N
1 (6.70)
1 1 1

Так как ln p(tl О) в общем случае является невыпуклой функцией, он может иметь
несколько максимумов.

Можно прямо ввести априорное распределение по О и максимизировать ло­


гарифм апостериорного распределения с помощью градиентных методов.
В полностью байесовском подходе необходимо вычислить маргинальные рас­
пределения по О, взвешенные с помощью произведения априорного распределе­
ния р( О) и правдоподобияр(tlО). В целом, однако, точная маргинализация будет
невозможной, и мы должны прибегнуть к численным приближениям.
Модель регрессии на основе гауссовского процесса дает прогностическое рас­
пределение, математическое ожидание и дисперсия которого являются функциями
входного вектора х. Однако мы предположили, что вклад в прогнозируемую дис­
персию, возникающую из аддитивного шума, определяемого параметром f3, явля­

ется постоянным. Для некоторых задач, которые называются гетероскедастиче­


ски.ми, сама дисперсия шума также зависит от х. Чтобы смоделировать это, можно
6.4. Гауссовские процессы 421

расширить модель на основе гауссовского процесса, введя второй гауссовский


процесс, tПобы представить зависимость /3 от входах (Goldberg et al" 1998). По­
скольку /3- это дисперсия и, следовательно, неотрицательное число, для модели­
рования ln /3 (х) мы используем гауссовский процесс.

6.4.4. Автоматическое определение релевантности

В предыдущем разделе мы увидели, как можно использовать метод макси­


мального правдоподобия для определения корреляции "длина-масштаб" гаус­
совского процесса. Этот метод можно с пользой расширить, включив отдельный
параметр для каждой входной переменной (Rasmussen and Williams, 2006). Как
мы увидим, оптимизация этих параметров с помощью метода максимального

правдоподобия позволяет определить относительную важность различных вход­


ных данных. Это пример в контексте применения гауссовских процессов для
автоматического определения релевантности (automatic relevance determina-
tion -ARD) который изначально бьm сформулирован в рамках нейронных се­
тей (МасКау,1994; Neal, 1996). Механизм, с помощью которого выбираются со­
ответствующие входные данные, обсуждается в разделе 7.2.2.
Рассмотрим гауссовский процесс с двумерным пространством входных пере­
менных х = (х 1 , х 2 ), имеющим ядро вида

k(x,x')=B0 exp{-..!_ I/l;(x; -х;) 2 }. (6.71)


2 1=1

Выборки из генеральных совокупностей с результирующим априорным рас­


пределением по функциям у(х) показаны на рис. 6.9 для двух разных параметров
точности 17;. Мы видим, что, как только какой-нибудь параметр 1'/; становится
малым, функция становится относительно нечувствительной к соответствующей
входной переменной х;. Адаптируя эти параметры к множеству данных с ис­
пользованием метода максимального правдоподобия, мы получаем возможность
обнаруживать входные переменные, которые мало влияют на прогностическое
распределение, поскольку соответствующие значения 1'/; будут малыми. Это мо­
жет быть полезным на практике, поскольку позволяет отбрасывать такие входы.
На рис. 6.1 О показано автоматическое определение релевантности на примере
простого искусственного набора данных, имеющего три входа: х 1 , х 2 и х 3
(Nabney, 2002). Сначала генерируется целевая переменная t путем выборки 100
значений х 1 из генеральной совокупности с нормальным распределением, затем

вычисляется функция sin(21E'x 1) и добавляется гауссовский шум. Значения х 2 за­


даются путем копирования соответствующих значений х 1 и добавления шума,
422 ГЛАВА 6. ЯДЕРНЫЕ МЕТОДЫ

а значения х 3 выбираются из генеральной совокупности с независимым нор­


мальным распределением. Таким образом, переменная х 1 является хорошим пре­
диктором переменной t, переменная х2 - более шумным предиктором перемен­
ной t, а переменная х 3 имеет только случайные корреляции с переменной t. Мар­

гинальное правдоподобие для гауссовского процесса с параметрами ARD 77 1, 772,


773 оптимизировано с использованием масштабированного алгоритма сопряжен­
ных градиентов. На рис. 6.1 О показано, что 771 сходится к относительно большо­

му значению, 772 - к значительно меньшему значению, а 773 становится очень

малым, указывая на то, что х 3 не имеет значения для предсказания t.

-1
1

Рис. 6.9. Выборки из генеральной совокупности с априорным распределением

гауссовских процессов, в которых ядро задается формулой (6.71 ). Левый график

соответствует значениям 77 1 = 172 = 1, правый - 17 1 = 1, 172 = 0,01

10°

10-4 ~-~--~--~-~-~
о 20 40 60 80 100

Рис . 6.1 О. Автоматическое определение релевантности в гауссовском

процессе для искусственной задачи с тремя входами , х 1 , х 2 и х 3 , для которых кривые

показывают соответствующие :шачения гиперпараметров, 17 1 (красный),


172 (зеленый) и 173 (синий) в зависимости от количества итераций

при оптимизации маргинального правдоподобия . Подробности приведены в тексте .

Обратите внимание на логарифмическую шкалу на вертикальной оси


6.4. Гауссовские процессы 423

Метод ARD легко интегрируется в экспоненциально-квадратичное ядро


(6.63), чтобы получить следующий вид ядра, который оказался полезным для
приложений гауссовских процессов в области регрессионных задач:

(6.72)

где D- размерность пространства входных переменных.

6.4.5. Гауссовские процессы для классификации

Цель вероятностного подхода к классификации состоит в моделировании


апостериорных вероятностей целевой переменной для нового входного вектора

с учетом обучающего множества данных. Эти вероятности должны лежать в ин­


тервале (О, 1), тогда как модель гауссовского процесса делает прогнозы, которые
лежат на всей вещественной оси. Однако мы можем легко адаптировать гауссов­

ские процессы к задачам классификации, преобразуя выход гауссовского про­


цесса с использованием соответствующей нелинейной функции активации.
Рассмотрим сначала задачу бинарной классификации с целевой переменной
te{O, 1}. Если мы определим гауссовский процесс над функцией а(х), а затем
преобразуем функцию, используя логистическую сигмоиду у= а(а), заданную
(4.59), то получим негауссовский случайный процесс над функциями у(х), где
уе(О, 1). На рис. 6.11 этот процесс показан для одномерного исходного про­
странства, в котором распределение вероятностей по целевой переменной t зада­
ется распределением Бернулли:

p(tla) = а(а)1(1 - а(а)) 1 - 1 • (6.73)

10

5 0,75

о 0,5

-5 0,25

-10 о
-1 -0,5 о 0,5 -1 -0,5 о 0,5

Рис. 6.11. На графике слева показана выборка из гауссовского процесса

над функциями а(х), а на графике справа пока3ан результат преобразования

Jтой выборки с использованием логистической сигмоиды


424 ГЛАВА 6. ЯДЕРНЫЕ МЕТОДЫ

Как обычно, обозначаем входные обучающие данные через х 1 , ••• ,хн с соот-
т
ветствующими наблюдаемыми целевыми переменными tн= (t 1, •• " tн) . Мы так-
же рассмотрим одну контрольную точку Хн+~ с целевым значением tN+i· Наша

цель- определить прогностическое распределение p(tн+ 1 lt), где мы оставим


обусловленность входных переменных неявной. Для этого введем гауссовский
процесс перед вектором aN+ 1, который имеет компоненты а(х 1 ), •• " а(хн+ 1 ). Это, в
свою очередь, определяет негауссовский процесс над tN+ 1, и, обусловливая дан­
ные обучения tм получаем требуемое прогностическое распределение. Гауссов­
ский априорный процесс для aN+ 1 принимает вид
(6.74)

В отличие от регрессии, ковариационная матрица больше не включает шум,


потому что мы предполагаем, что все обучающие точки размечены правильно.
Однако по вычислительным соображениям удобно ввести шумоподобный член,
определяемый параметром v, который гарантирует, что ковариационная матрица

положительно определена. Таким образом, ковариационная матрица CN+ 1 содер­


жит элементы, заданные формулой

(6.75)

где k(хт xm)- произвольное положительное полуопределенное ядро, рассмот­


ренное в разделе 6.2, а значение v обычно фиксируется заранее. Будем считать,

что ядро k(x, х') определяется вектором параметров (} и позже обсудим, как
можно извлечь (} из обучающих данных.
Для задач бинарной классификации достаточно предсказать p(tN+ 1 = 1ltн), по­
тому что значение p(tN+ 1 = Oltн) затем задается равным 1 - p(tN+ 1 = 1ltн). Необхо­
димое прогностическое распределение задается формулой

(6.76)

где р(tн+ 1 = 1lанн) = а(ан+1).


Этот интеграл не вычисляется аналитически и поэтому может быть аппрок­
симирован с использованием выборочных методов (Neal, 1997). В качестве аль­
тернативы можно рассматривать методы, основанные на аналитическом при­

ближении. В разделе 4.5.2 мы получили приближенную формулу (4.153) для

свертки логистической сигмоиды с нормальным распределением. Этот результат

можно использовать для вычисления интеграла в (6.76), если мы имеем гауссов­

ское приближение к апостериорному распределению р(ан+ 1 1tн). Обычное обосно­


вание гауссовской аппроксимации апостериорного распределения состоит в том,
6.4. Гауссовские процессы 425

что по мере увеличения количества точек вследствие центральной теоретиче­

ской теоремы истинное апостериорное распределение будет стремиться к гаус­


совскому (см. раздел 2.3). В случае гауссовских процессов количество перемен­
ных растет с количеством данных, и поэтому этот аргумент не применяется

напрямую. Однако, если мы рассмотрим увеличение количества точек, попада­


ющих в фиксированную область пространства х, то соответствующая неопреде­
ленность в функции а(х) будет уменьшаться, асимптотически приближаясь к
нормальному распределению (Williams and Barber, 1998).
Три подхода к получению гауссовской аппроксимации рассматриваются в
разделе 10.1. Один из них основан на вариационном выводе (Gibbs and МасКау,
2000) и использует локальную вариационную границу логистической сигмоиды
(10.144). Это позволяет аппроксимировать произведение сигмоидальных функ­
ций произведением нормальных распределений, тем самым обеспечивая марги­
нализацию по aN. Этот подход также дает нижнюю оценку функции правдопо­
добия р(tм 8). Вариационный подход к классификации на основе гауссовского
процесса также можно распространить на случай многих классов (К> 2) задачи
с использованием гауссовской аппроксимации функции sofmax (Gibbs, 1997).
Второй подход использует распространение ожиданий (Opper and Winther,

2000Ь, Minka, 2001Ь, Seeger, 2003). Поскольку истинное апостериорное распре­


деление является одномодальным, как мы вскоре увидим, распространение ожи­

даний может дать хорошие результаты (см. разде.r110.7).

6.4.б. Аппроксимация Лапласа

Третий подход к классификации на основе гауссовского процесса основан на


аппроксимации Лапласа, которую мы сейчас подробно рассмотрим. Чтобы вы­
числить прогностическое распределение (6.76), мы ищем гауссовскую аппрок­

симацию апостериорного распределения над aN+I• которое, используя теорему

Байеса, дается формулой (см. раздел 4.4)

Р( aN+1ltN) = JР( aN+I•aNltN )daN =


= -1 (
р tN
)J p(aN+l•aN )p(tNlaN+l>aN )daN =
(6.77)
= -1()J p(aN+llaN )p(aN )p(tNlaN )daN =
рtN

=fp(aN+llaN )p(aNltN )daN,


426 ГЛАВА 6. ЯДЕРНЫЕ МЕТОДЫ

где мы использовали p(tNlaN+ 1, aN) = p(t,vlaN)· Условное распределение p(aN+ 1laN)


получается путем применения результатов (6.66) и (6.67) к регрессии на основе
гауссовского процесса:

(6.78)

Таким образом, мы можем вычислить интеграл в (6.77), найдя аппроксимацию


Лапласа для апостериорного распределения p(aNltN), а затем используя стан­
дартный результат для свертки двух нормальных распределений.

Априорное распределение p(aN) задается гауссовским процессом с нулевым


математическим ожиданием и ковариационной матрицей См а вероятность
p(tNlaN) (при условии независимости данных) задается формулой

N t 1-t N
1
Р (t N а N ) = Па ( ап ) " (1- а ( ап )) " = П еа" 1" а (-ап ) . (6.79)
n=I n=\

Затем мы получаем аппроксимацию Лапласа с помощью разложения в ряд Тей­

лора логарифма p(aNltN), который с точностью до аддитивной константы норми­


ровки задается величиной

\J'( aN) =lnp( aN) + lnp( tNlaN) =

=-.!.ат
2 NNN
с- 1 а - N
2
ln(2tr)-..!...1n1c
2 N1+ еNN
а - (6.80)
N
-L ln (1+ еа" ).
n=I

Сначала необходимо найти моду апостериорного распределения, и для этого


требуется вычислить градиент \J' (aN), который задается формулой

(6.81)

где uN - вектор с элементами а(ап). Мы не можем просто найти моду, прирав­


няв этот градиент к нулю, поскольку uN нелинейно зависит от ам и поэтому
прибегаем к итерационной схеме, основанной на методе Ньютона-Рафсона, что
приводит к алгоритму наименьших квадратов с итеративным пересчетом весов

(IRLS). В этом случае необходимо вычислять вторые производные от \J'(aN), ко­


торые также нужны для аппроксимации Лапласа и задаются формулой

(6.82)
6.4. Гауссовские процессы 427

где WN - диагональная матрица с элементами а(ап)(1-а(ап)), и мы использова­


ли результат (4.88) для производной логистической сигмоиды. Заметим, что эти
диагональные элементы лежат в диапазоне (О, 1/4), и, следовательно, W N являет­
ся положительно определенной матрицей. Поскольку матрица CN (и, следова­
тельно, ее обратная) является положительно определенной по построению, а так
как сумма двух положительно определенных матриц также положительно опре­

делена, мы видим, что матрица Гессе А=-V'V''l'(aN) положительно определена, и


поэтому апостериорное распределение p(aNitN) является выпуклым и, следова­
тельно, имеет единственную моду, которая является глобальным максимумом.
Однако апостериорное распределение не является нормальным, поскольку мат­
рица Гессе зависит от aN.
Используя формулу Ньютона-Рафсона (4.92), уравнение итеративного об­
новления для aN можно записать следующим образом (см. упражнеиие 6.25):

a~ew = CN {I + WNCN )- 1{tN -aN + WNaN }. (6.83)

Эти формулы вычисляются повторно до тех пор, пока не сойдутся к моде, кото­
рую обозначим через а;.. В моде градиент V''l'(aN) равен нулю и, следовательно,
а;. будет удовлетворять условию

(6.84)

Как только мы найдем моду апостериорного распределения, мы сможем вы­


числить матрицу Гессе, заданную формулой

Н =-V'V'l'(aN) = WN +С~, (6.85)

где элементы W N вычисляются с использованием •N· Это определяет нашу гаус­


совскую аппроксимацию апостериорного распределения р( aNltN), заданному
формулой

(6.86)

Теперь мы можем объединить это с (6.78) и, следовательно, вычислить инте­


грал (6.77). Поскольку это соответствует линейно-гауссовской модели, можно
использовать общий результат (2.115) (01. упражнение 6.26):
E[aN+1 ltN] = kт(tN- uN), (6.87)

(6.88)

Теперь, когда мы имеем нормальное распределение для p(aN+ 1ltN), можно ап­
проксимировать интеграл (6.76), используя результат (4.153). Как и в байесов­
ской логистической регрессионной модели (см. раздел 4.5), если нас интересует
428 ГЛАВА 6. ЯДЕРНЫЕ МЕТОДЫ

только граница решения, соответствующая p(tN+ 1ltN) = 0,5, то нужно только рас­
смотреть математическое ожидание и можно игнорировать эффект дисперсии.
Необходимо также определить параметры (} функции ковариации. Один из
подходов состоит в том, чтобы ~аксимизировать функцию правдоподобия, задан­
ную распределением p(tNI 8), для которой нужны выражения для логарифмической
функции правдоподобия и его градиента. При желании также можно добавить
подходящие члены регуляризации, что приведет к решению с оштрафованным
максимальным правдоподобием. Функция правдоподобия определяется так:

(6.89)

Этот интеграл невозможно вычислить аналитически, поэтому снова исполь­

зуем аппроксимацию Лапласа. Используя результат (4.135), получим следующее


приближение для логарифмической функции правдоподобия:

(6.90)

где 'Р (а.~ )=ln р (а.~ 1(}) + ln р ( t N 1а~) . Нам также необходимо вычислить гради­
ент ln p(t,yj 8) относительно параметра fJ. Обратите внимание на то, что измене­

ния в (} приведут к изменениям в а~ , что приведет к дополнительным условиям


на градиент. Таким образом, когда мы дифференцируем (6.90) по (}, получаем
два набора членов, первый из которых связан с зависимостью ковариационной

матрицы CN от(}, а второй- с зависимостью а~ от 8.


Слагаемые, возникающие из явной зависимости от 8, можно найти, используя
(6.80) вместе с результатами (В.21) и (В.22). Они задаются формулой

дlnp(tNl8) _ _!_a·rc-' acN с-'а.• -


д(). - 2 N N д{). N N
} }
(6.91)
1 [( l+CNWN )-1 WN-- .
--Tr дСN]
2 д()j

Для вычисления членов, возникающих из-за зависимости а~ от (},отметим,

что аппроксимация Лапласа бьmа построена таким образом, что 'l'(aN) имеет ну­
левой градиент в точке а N =а.~ , и поэтому функция '1' (а~) не дает вклада в
градиент из-за ее зависимости от а~ . Это дает следующий вклад в производную

по компоненту ~ выражения
6.4. Гауссовские процессы 429

_! f дlnjwн.+C~1 j да:=
2 n=I дап д()J
(6.92)
1~[( l+CNWN )-1 CN J
=-- L... •(
Un 1-un •)(1-2un•)да:
--,
2 n=I пп д(}j

где и:= и( а:), и снова мы использовали результат (В.22) вместе с определени-



ем W м Мы можем вычислить производную от ап по ~. дифференцируя соот-
ношение (6.84) по~:

да: = дС N (t - и )- С W да: . (6.93)


д(}. д(}. N N N N д(}.
} } }

Перегруппировка приводит к следующему результату:

да: =(l+W С )-1дСн(t -и). (6.94)


д(}. N N д(}. N N
} J

Комбинируя (6.91), (6.92) и (6.94), можем вычислить градиент логарифмиче­


ской функции правдоподобия, который можно использовать со стандартными
алгоритмами нелинейной оптимизации, чтобы определить значение для IJ.
Мы можем проиллюстрировать применение аппроксимации Лапласа для
гауссовских процессов с использованием набора исходных данных для бинарной
классификации, показанного на рис. 6.12. Расширение аппроксимации Лапласа
на гауссовские процессы с участием К> 2 классов и функции активации softmax
не составляет труда (Williams and Barber, 1998) (см. приложение А).

2 2

о о

-2 -2

-2 о 2 -2 о 2

Рис. 6.12. Использование гауссовского процесса для классификации. Слева приведены

данные вместе с оптимальной границей решения при истинном распределении (зеленый

цвет) и границей решения для классификации на основе гауссовского процесса (черный

цвет). Справа приведена прогностическая аностериорная вероятность для синего

и красного классов вместе с границей решения на основе гауссовского процесса


430 ГЛАВА 6. ЯДЕРНЫЕ МЕТОДЫ

6.4.7. Связь с нейронными сетями

Мы видели, что диапазон функций, которые могут быть представлены нейрон­


ной сетью, определяется количеством скрытых элементов Ми что при достаточно

большом М двухслойная сеть может аппроксимировать любую заданную функ­


цию с произвольной точностью. В методе максимального правдоподобия количе­
ство скрытых элементов должно быть ограничено до уровня, зависящего от разме­
ра обучающего множества, чтобы избежать чрезмерного переобучения. Однако с
байесовской точки зрения нет смысла ограничивать количество параметров в сети
в соответствии с размером обучающего множества.
В байесовской нейронной сети априорное распределение по вектору пара­
метров wв сочетании с сетевой функциейf(х, w) дает априорное распределение
по функциям от у(х), где у - вектор сетевых выходов. Neal (1996) показал, что
для широкого класса априорных распределений по w распределение функций,
генерируемых нейронной сетью, при М ~ оо будет стремиться к гауссовскому
процессу. Следует, однако, отметить, что в этом пределе выходные переменные
нейронной сети становятся независимыми. Одно из величайших достоинств
нейронных сетей заключается в том, что выходы используют общие скрытые
элементы, и поэтому они могут "заимствовать статистическую силу" друг у дру­
га, т.е. веса, связанные с каждым скрытым элементом, зависят от всех выходных

переменных, а не только от одной из них. Следовательно, это свойство теряется


в пределе гауссовского процесса.

Мы видели, что гауссовский процесс определяется его ковариационной


функцией (ядром). Williams (1998) дал явные формы ковариации в случае двух
конкретных вариантов функции активации скрытого элемента (пробит и гауссо­
вой). Эти ядра k(x, х') нестационарны, т.е. они не могут быть выражены как
функция разности х - х', как следствие того, что нормальное априорное распре­
деление весов центрировано относительно нуля, что нарушает инвариантность к

сдвигу в весовом пространстве.

Работая непосредственно с функцией ковариации, мы неявно маргинализиро­


вали распределение весов. Если априорное распределение весов определяется

гиперпараметрами, то их значения будут определять линейный масштаб распре­


деления по функциям, что можно понять, изучая примеры на рис. 5.11 для слу­
чая конечного числа скрытых элементов. Обратите внимание на то, что мы не
можем аналитически маргинализировать гиперпараметры и должны использо­

вать методы, описанные в разделе 6.4.


Упражнения 431

Упражнения

6.1. (**) WWW Рассмотрим двойственную формулировку задачи линейной ре­


грессии по методу наименьших квадратов, приведенную в разделе 6.1.
Покажите, что решение для компонент ап вектора а можно выразить как
линейную комбинацию элементов вектора ф(хп). Обозначив эти коэффи­
циенты вектором w, покажите, что дуальность двойственной формулиров­
ки определяется исходным представлением с помощью вектора w.
6.2. (* *) В этом упражнении мы разрабатываем двойственную формулировку
алгоритма обучения персептрона. Используя правило обучения персеп­
трона (4.55), покажите, что обученный вектор весов w можно записать как
линейную комбинацию векторов tпф(хп), где tn Е {-1, +1}. Обозначив ко­
эффициенты этой линейной комбинации через а,,, сформулируйте алго­
ритм обучения персептрона и определите прогностическую функцию для
персептрона в терминах а,,. Покажите, что вектор функций ф(х) входит в
эту формулировку только в виде ядра k(x, х') = ф(х)т ф(х').
6.3. (*)Метод ближайшего соседа (с.м. ра.здел 2.5.2) присваивает новый вход­
ной вектор х тому классу, которому принадлежит ближайший исходный
вектор хп из обучающего множества, где в простейшем случае расстояние

определяется евклидовой метрикой llx- xnll 2 • Выражая это правило через


скалярное произведение, а затем используя замену ядра, сформулируйте
метод ближайшего соседа для общего нелинейного ядра.

6.4. (*) В приложении В приведен пример матрицы, которая имеет положи­


тельные элементы, но отрицательное собственное значение и, следова­
тельно, не является положительно определенной. Найдите пример обрат­
ного свойства, а именно матрицу 2 х 2 с положительными собственными
значениями, но имеющую хотя бы один отрицательный элемент.

6.5. (*) WWW Проверьте результаты (6.13) и (6.14) для построения корректных
ядер.

6.6. (*) Проверьте результаты (6.15) и (6.16) для построения корректных ядер.

6. 7. (*) WWW Проверьте результаты (6.17) и (6.18) для построения корректных


ядер.

6.8. (*) Проверьте результаты (6.19) и (6.20) для построения корректных ядер.

6.9. (*)Проверьте результаты (6.21) и (6.22) для построения корректных ядер.


432 ГЛАВА 6. ЯДЕРНЫЕ МЕТОДЫ

6.10. (*) Покажите, что ядро k(x, х') = f(x)f(x') - отличный выбор ядра для
обучения функцииf(х), показав, что линейная обучающая машина, осно­
ванная на этом ядре, всегда будет находить решение, пропорциональ­
ное f(х).

6.11. (*) Используя разложение (6.25), а затем раскладывая средний множитель


в степенной ряд, покажите, что гауссово ядро (6.23) можно представить
как скалярное произведение бесконечномерного вектора признаков.

6.12. (**) www. Рассмотрим пространство всех возможных подмножеств А дан­


ного фиксированного множества D. Покажите, что ядро
(6.27) соответству­
ет скалярному произведению в пространстве признаков размерности 21D 1
,

определяемым отображением ф(А), где А - подмножество множества D, а


элемент Фи(А), индексированный подмножеством И, задается формулой

1, если И ~ А,
Фи( А)= { (6.95)
О в противном случае.

Здесь И~ А обозначает, что И либо подмножество А, либо равно А.

6.13. (*) Покажите, что ядро Фишера, определенное в (6.33), остается инвари­
антным, если мы делаем нелинейное преобразование вектора параметров
О~ 'lf(O), где функция l/f(·) обратима и дифференцируема.
6.14. (*) WWW Запишите форму ядра Фишера, определяемую (6.33), для распре­
деления p(xlµ) = N(xlµ, S), которое является гауссовским с математиче­
ским ожиданиемµ и фиксированной ковариационной матрицей С.

6.15. (*) Рассматривая определитель матрицы Грама 2 х 2, покажите, что поло­


жительно определенное ядро k(x, х') удовлетворяет неравенству Коши­
Шварца:
(6.96)
6.16. (**)Рассмотрим параметрическую модель, управляемую вектором пара­
метров w, множеством входных значений х 1 , ••• , xN и нелинейным отоб­
ражением функций ф(х). Предположим, зависимость функции ошибок от
w принимает вид
J(w) = f(wт ф(х 1 ), ••• , wт ф(хN)) + g(wтw), (6.97)
где g(-) - монотонно возрастающая функция. Записав wв форме
N
w= L,апФ(хп)+w.L, (6.98)
n=I

где wl = ф(хп) =О для всех п,


Упражнения 433

покажите, что значение w, минимизирующее J(w), принимает вид линей­

ной комбинации базисных функций ф(хп) при п = 1, "., N.

6.17. (**) WWW Рассмотрим суммы квадратов ошибок (6.39) для данных, име­
ющих шум, где v( i;) - распределение шума. Используя вариационное
исчисление, минимизируйте эту функцию ошибок относительно функции
у(х) и покажите, что оптимальное решение задается разложением вида
(6.40), в котором базисные функции задаются формулой (6.41).
6.18. (*)Рассмотрим модель Надарая-Ватсона с одной входной переменной х
и одной целевой переменной t, имеющей гауссовы компоненты с изо-
2
тропными ковариациями, так что ковариационная матрица имеет вид CJ' 1,
где 1- единичная матрица. Запишите выражения для условной плотно­
сти p(tlx) и условного математического ожидания E[tlx] и дисперсии
var[tlx] в терминах ядра k(_x, хп).
6.19. (**)Альтернативная точка зрения на ядерную регрессию возникает из
рассмотрения задач регрессии, в которых входные переменные, а также

целевые переменные искажаются аддитивным шумом. Предположим,

каждое целевое значение tn генерируется, как обычно, с помощью функ­


ции у(zп), вычисленной в точке Zn, и добавления гауссовского шума. Од­
нако наблюдается не значение Zт а лишь искаженная по шуму версия
Хп = Zn + i;т где случайная величина i; определяется некоторым распре­
делением g(i;). Рассмотрим множество наблюдений {хт tп}, где
п = 1, .. , N вместе с соответствующей суммой квадратов ошибок, опреде­
ляемой усреднением по распределению входных шумов:

1N 2
E=- LJ{y(xп -~;п)-tп} g(i;п)di;n. (6.99)
2 n=I
Минимизируя Е относительно функции y(z) с использованием вариацион­
ного исчисления (eow. прило.жепие Г), покажите, что оптимальное реше­
ние для у(х) задается ядерным регрессионным решением Надарая-Ватсона
вида (6.45) с ядром вида (6.46).
6.20. (**) WWW Проверьте результаты (6.66) и (6.67).
6.21. (**) WWW Рассмотрим модель регрессии на основе гауссовского процесса,
в которой ядро определено с помощью фиксированного набора нелиней­
ных базисных функций. Покажите, что прогностическое распределение
идентично результату (3.58), полученному в разделе 3.3.2 для байесов­

ской модели линейной регрессии. Для этого заметим, что обе модели
434 ГЛАВА 6. ЯДЕРНЫЕ МЕТОДЫ

имеют нормальные прогностические распределения, и поэтому необхо­


димо только показать, что условное математическое ожидание и диспер­

сия одинаковы. Для математического ожидания используйте матричное


тождество (В.6), а для дисперсии- (В.7).

6.22. (**)Рассмотрим задачу регрессии с N входными обучающими векторами


х 1 , .", xN и L входными тестовыми векторами xN+ 1," •• , xN+L• и предполо­
жим, что мы определяем гауссовский процесс над функциями t(x). Выве­
дите выражение для совместного прогностического распределения для

t(xN+ 1), .. " t(xN+L) при заданных значениях t(x 1), ". , t(xN). Покажите марги­
нальное распределение для одного из тестовых наблюдений t1, где индекс
N + 1 5, j 5, N + L задается обычным результатом регрессии на основе
гауссовского процесса (6.66) и (6.67).
6.23. (**) WWW Рассмотрим регрессионную модель на основе гауссовского про­
цесса, в которой целевая переменная t имеет размерность D. Запишите
условное распределение tN+ 1 для тестового входного вектора xN+ 1 при за­

данном обучающем множестве входных векторов х 1 ,"", xN и соответ­


ствующих целевых наблюдений t 1, ••• , tм

6.24. (*) Покажите, что диагональная матрица W, элементы которой удовле­


творяют условию О < W;; < 1, положительно определена. Покажите, что
сумма двух положительно определенных матриц является положительно

определенной матрицей.

6.25. (*) www. Используя формулу Ньютона-Рафсона (4.92), выведите формулу


итеративного обновления (6.83) для нахождения моды а~ апостериорно­
го распределения в модели классификации на основе гауссовского про­
цесса.

6.26. (*) Используя результат (2.115), выведите выражения (6.87) и (6.88) для
математического ожидания и дисперсии апостериорного распределения

p(aN+ 1ltN) в модели классификации на основе гауссовского процесса.


6.27. (***)Докажите результат (6.90) для логарифмической функции правдопо­
добия в контексте аппроксимации Лапласа для классификации на основе
гауссовского процесса. Аналогичным образом выведите результаты (6.91),
(6.92) и (6.94) для членов градиента логарифмической функции правдопо­
добия.
7

В предыдущей главе мы рассмотрели алгоритмы машинного обучения, осно­


ванные на нелинейных ядрах. Многие из этих алгоритмов имеют существенный
недостаток - ядро k(xm xm) должно быть вычислено для всех возможных пар Хп
и Xm обучающих точек, что может оказаться невозможным во время обучения и
приводить к чрезмерно долгим вычислениям при прогнозировании для новых

точек. В этой главе будут рассмотрены разреженные ядерные ш~горитмы, у ко­


торых прогнозы для новых входов зависят только от ядра, вычисленного на

подмножестве обучающих точек.


Начнем изложение с подробного описания метода опорных векторов (Sup-
port Vector Machines - SVМ), который несколько лет назад стал популярным
методом решения задач классификации, регрессии и обнаружения новизны.
Важным свойством метода опорных векторов является то, что определение па­
раметров модели сводится к задаче выпуклой оптимизации, поэтому любое ло­
кальное решение также является глобальным оптимумом. Поскольку метод
436 ГЛАВА 7. РАЗРЕЖЕННЫЕ ЯДЕРНЫЕ МЕТОДЫ

опорных векторов широко использует метод множителей Лагранжа, читателю


предлагается ознакомиться с ключевыми понятиями, приведенными в прило­

J1ее11ии Д. Дополнительная информация о методе опорных векторов приведена в


Vapnik (1995), Burges (1998), Cristianini и Shawe-Taylor (2000), Muller et а/.
(2001 ), Schбlkopf и Smola (2002) и Herbrich (2002).
SVM - это метод принятия решений, и поэтому в нем не предусмотрено вы­
числение апостериорных вероятностей. Мы уже обсуждали некоторые из пре­
имуществ вычисления вероятностей в разделе 1.5.4. Альтернативный метод раз­

реженных ядер, известный как метод релевантных векторов (relevance vector


machine- RVM), основан на байесовском выводе и предусматривает вычисле­
ние апостериорных вероятностей для выходов, а также, как правило, порождает
гораздо более разреженные решения, чем SVМ.

7 .1. Методы классификации с максимальным зазором


Начнем обсуждение метода опорных векторов, вернувшись к задаче бинар­
ной классификации с помощью линейных моделей вида

у(х) = wт ф(х) + Ь, (7.1)


где ф(х) обозначает фиксированное преобразование пространства признаков, и
мы сделали явным параметр смещения Ь. Заметим, что вскоре мы сформулируем
двойственное представление, выраженное в терминах ядра, что позволяет не ра­
ботать явным образом в пространстве признаков. Обучающее множество содер­
жит N входных векторов х 1 , "., xN с соответствующими целевыми значениями
t 1, •• " tм где tn Е {-1, 1}, а новые точки х классифицируются по знаку числау(х).
Предположим пока, что обучающее множество является линейно разделимым
в пространстве признаков, так что по определению существует по крайней мере

один набор параметров w и Ь, такой, что функция вида (7.1) удовлетворяет усло­
вию у(хп) >О для точек с tn = +1 и у(хп) <О для точек, удовлетворяющих усло­
вию tn =-1, так что tпу(хп) >О для всех обучающих точек.
Конечно, существует множество таких решений, которые точно разделяют
классы. В разделе 4.1. 7 описан алгоритм персептрона, который гарантированно
найдет решение за конечное количество шагов. Однако решение, которое он
находит, будет зависеть от (произвольных) начальных значений, выбранных для
w и Ь, а также от порядка, в котором представлены обучающие точки. Если су­
ществует несколько решений, которые точно классифицируют обучающее мно­
жество, то мы должны попытаться найти то из них, которое дает наименьшую
7.1. Методы классификации с максимальным зазором 437

ошибку обобщения. Метод опорных векторов подходит к этой задаче с помо­


щью концепции зазора (margin), который определяется как наименьшее рассто­

яние между границей решения и любой из выборок (рис. 7.1).

у= -1

Рис. 7.1. Зазор -- это перпендикулярное расстояние между границей решения и

ближайшей точкой исходных данных, как показано на рисунке слева . Максимизация

зазора приводит к определенному выбору границы решения, как показано справа.

Местоположение этой границы определяется подмножеством точек исходных данных,

называемых опорными векторами, которые обозначены кружками

В методе опорных векторов граница решения выбирается так, чтобы зазор бьm
максимальным. Решение о максимальном зазоре может бьпъ обосновано с помо­
щью теории вычислителыюго обучения, также известной как теория статисти­
ческого обучения (см. разде.;1 7.1.5). Тем не менее простое понимание истоков

концепции максимального зазора бьmо дано Tong and Koller (2000), которые рас­
смотрели теорию классификации, основанную на гибриде порождающих и дис­
криминационных подходов . Сначала они моделируют распределение по входным
векторам х для каждого класса с использованием оценки плотности Парзена с
гауссовыми ядрами, имеющими общий параметр (i. Вместе с априорным распре­
делением класса это позволяет определить оптимальную границу принятия реше­

ния с минимальным уровнем ошибок. Однако, вместо того чтобы использовать эту
оптимальную границу, они определяют лучшую гиперплоскость, минимизируя

вероятность ошибки относительно построенной модели плотности. В пределе при


(i ~ О оптимальная гиперплоскость обеспечивает максимальный зазор. Интуи­
тивные представления, лежащие в основе этого результата, заключаются в том,

что при уменьшении (i точки, расположенные близко к гиперплоскости, домини­


руют над более отдаленными. В пределе гиперплоскость становится независимой
от точек, которые не являются опорными векторами.
438 ГЛАВА 7. РАЗРЕЖЕННЫЕ ЯДЕРНЫЕ МЕТОДЫ

На рис. 10.13 мы увидим, что в байесовском подходе маргинализация по апри­


орному распределению параметров для простого линейно разделимого множества
данных приводит к границе решения, которая лежит в середине области, разделя­
ющей точки. Аналогичным свойством обладает решение с большим зазором.
Напомним (см. рис. 4.1 ), что кратчайшее расстояние от точки х до гипер­
плоскости, определяемой уравнением у(х) =О, где функция у(х) имеет вид (7.1),
задается формулой [y(x)l/llwll· Кроме того, нас интересуют только решения, для
которых все точки исходных данных классифицированы правильно, так что
tпу(хп) >О для всех п. Таким образом, расстояние от точки хп до поверхности
решения определяется формулой

(7.2)

Зазор задается кратчайшим расстоянием до ближайшей точки хп от множества


данных, и мы хотим найти такие параметры wи :Ь, чтобы максимизировать это
расстояние. Таким образом, решение с максимальным зазором является решени­
ем задачи

arg.~{11~11 ~n[t. {wтФ(х.) +Ь)J}' (7.3)

где множитель 1/llwll не оптимизируется поп, так как w не зависит от п. Прямое


решение этой задачи оптимизации бьmо бы очень сложным, поэтому мы преоб­
разуем ее в эквивалентную задачу, которую намного легче решить. Для этого

заметим, что если мы выполним масштабирование w~ кw и Ь ~ кЬ, то рассто­


яние от любой точки хп до поверхности решения, определенного величиной
t,JJ(xп)lllwll, не изменится. Мы можем использовать эту возможность и устано­
вить условие

(7.4)
для точки, ближе всего расположенной к поверхности. В этом случае все точки
исходных данных будут удовлетворять ограничениям

(7.5)
Это выражение называется каноническим представлением гиперплоскости реше­
ния. Для точек, на которых выполняется равенство, ограничения считаются ак­
тивными, в для остальных они - неактивными. По определению всегда будет
существовать хотя бы одно активное ограничение, потому что всегда найдется
7.1. Методы классификации с максимальным зазором 439

точка, самая близкая к гиперплоскости, и после максимизации зазора будет суще­


ствовать как минимум два активных ограничения. Тогда задача оптимизации про­

сто сводится к максимизации llwlГ 1 , что эквивалентно минимизации llwll 2, поэтому


мы должны решить задачу оптимизации

arg min _!_ l wl 2 (7.6)


w,b 2
при ограничениях (7.5). Множитель 1/2 в (7.6) включен для удобства, которое
проявится в дальнейшем. Это пример задачи квадратичного программирования,

в которой мы пытаемся минимизировать квадратичную функцию, подчиненную


набору ограничений в виде линейных неравенств. Может показаться, что пара­

метр смещения Ь исчез из оптимизации. Тем не менее он определяется неявно


через ограничения, поскольку они требуют, чтобы изменения в llwll были ком­
пенсированы изменениями в Ь. Вскоре мы увидим, как это работает.
Для решения этой задачи оптимизации с ограничениями введем множители

Лагранжа ап ~ О с одним множителем ап для каждого ограничения в (7 .5), по­


строив функцию Лагранжа (см. прило:щеиие Д)

(7.7)

где а= (а 1 , "., aN{ Обратите внимание на знак "минус" перед множителем Ла­
гранжа, поскольку мы минимизируем по w и Ь и максимизируем по а. Приравни­
вая производные от L(w, Ь, а) по w и Ь к нулю, получим следующие два условия:

(7.8)
n;J

(7.9)

Исключение wи Ь из L(w, Ь, а) с использованием этих условий дает двойствен­


ную формулировку задачи о максимальном зазоре, в которой мы максимизируем
функцию

(7.1 О)

при ограничениях

ап~О, n=1"."N, (7.11)


440 ГЛАВА 7. РАЗРЕЖЕННЫЕ ЯДЕРНЫЕ МЕТОДЫ

(7.12)

Здесь ядро определяется как k(_x, х') = ф(х)тф(х'). Как и в предыдущем слу­
чае, задача принимает форму задачи квадратичного программирования, в кото­
рой мы оптимизируем квадратичную функцию при ограничениях в виде нера­
венств. Мы обсудим методы решения таких задач квадратичного программиро­
вания в разделе 7.1.1.
Решение задачи квадратичного программирования при М переменных в об­
щем случае имеет вычислительную сложность порядка О(М3). При переходе к
двойственной формулировке мы преобразовали исходную задачу оптимизации,
которая предусматривала минимизацию (7.6) по Мпеременным, в двойственную
задачу (7.10), которая имеет N переменных. Для фиксированного набора базис­
ных функций, количество которых М меньше количества точек исходных дан­
ных N, переход к двойственной задаче оказывается невыгодным. Однако он поз­

воляет переформулировать модель с использованием ядер, и поэтому метод


классификации с максимальным зазором может эффективно применяться к про­
странствам признаков, размерность которых превышает количество точек ис­

ходных данных, включая бесконечные пространства признаков. В формулировке


с использованием ядра также разъясняется роль ограничения, которое состоит в

том, что ядро k(_x, х') положительно определено и, следовательно, функция Ла­
гранжа L (а) ограничена сверху, т.е. задача оптимизации определена корректно.
Чтобы классифицировать новые точки с помощью обученной модели, мы
оцениваем знак у(х), определенный формулой (7.1). Это можно выразить в тер­
минах параметров {ап} и ядра, подставив вместо w выражение (7.8):
N
у(х)= ~:апtпk(х,хп)+Ь. (7.13)
n=I

В прwтжеиии Д показано, что задача оrпимизации с ограничениями такого ви­

да удовлетворяет условиям Каруша-Куна-Таккера (Кarush-Kuhn-Tucker- ККТ),


которые в этом случае требуют, чтобы выполнялись следующие три свойства:

ап ~О, (7.14)
tпу(хп) - 1 ~О, (7.15)
ап{tпу(хп)-1} =О. (7.16)
Таким образом, для каждой точки данных либо ап =О, либо tпу(хп) = 1. Любая
точка данных, для которой ап =О, не будет учитываться в сумме (7.13) и, следо­
вательно, не играет никакой роли в создании прогнозов для новых точек.
7.1. Методы классификации с максимальным зазором 441

Остальные точки исходных данных называются опорными векторами, и по­


скольку они удовлетворяют условиям fпУ (хп) = 1, они соответствуют точкам, ко­
торые лежат на гиперплоскостях с максимальным зазором в пространстве при­

знаков, как показано на рис. 7.1. Это свойство является основным для практиче­
ского применения метода опорных векторов. После обучения модели
значительная часть точек исходных данных может быть отброшена и сохранены
только опорные векторы.

Джозеф-Луи Лагранж
1736-1813
Хотя Лагранж и считается французским математиком,
он родился в Турине (Италия). В возрасте девятнадца­
ти лет он уже внес важный вклад в математику и бьт
назначен профессором Королевской артиллерийской
школы в Турине. В течение многих лет Эйлер упорно
убеждал Лагранжа переехать в Берлин, что он в конце
концов и сделал в 1766 году, когда он стал преемни-
ком Эйлера на посту директора математического департамента Берлин­
ской академии. Позже он переехал в Париж, чудом оставшись в живых во
время французской революции благодаря личному вмешательству Лавуа­
зье (французского химика, открывшего кислород), который сам впослед­
ствии бьm казнен на гильотине. Лагранж внес важный вклад в вариацион­
ное исчисление и основы динамики.

Решив задачу квадратичного программирования и найдя значение для а, мы

можем затем определить значение порогового параметра Ь, заметив, что любой


опорный вектор Хп удовлетворяет условию tпу(хп) = 1. Используя (7.13), получим:

(7.17)

где S- множество индексов опорных векторов. Хотя мы можем решить это


уравнение относительно Ь, используя произвольно выбранный опорный вектор
хп, с вычислительной точки зрения более устойчивое решение получается, если
мы сначала умножим уравнение на tn, с учетом, что t; =1, а затем усредним эти
уравнения по всем опорным векторам и решим относительно Ь:
442 ГЛАВА 7. РАЗРЕЖЕННЫЕ ЯДЕРНЫЕ МЕТОДЫ

(7.18)

где Ns - общее количество опорных векторов.


Для последующего сравнения с альтернативными моделями мы можем выра­

зить классификацию с максимальным зазором в терминах минимизации функ­


ции ошибок с помощью простого квадратичного регуляризатора в виде

(7.19)

где E 00(z)- функция, равная нулю, если z ~ О, и оо в противном случае. Эта функ­
ция гарантирует, что ограничения (7.5) выполнены. Заметим, что до тех пор, пока
параметр регуляризации удовлетворяет условию Л > О, его точное значение не иг­
рает никакой роли .
На рис. 7.2 приведен пример классификации, полученный в результате обу­
чения метода опорных векторов на простом искусственном множестве данных,

использующем гауссово ядро в виде (6.23). Хотя множество данных не является


линейно разделимым в двумерном пространстве исходных данных х, оно ли­

нейно разделяется в нелинейном пространстве признаков, неявно определяемом

нелинейным ядром. Таким образом, обучающие точки отлично разделяются в


пространстве исходных данных.

х
х

Рис. 7.2. Пример искусственных данных из двух классов

в двух измерениях, показывающих контуры постоянных значений у(х),

полученных по методу опорных векторов с гауссовым ядром .

Также показаны границы решения, границы зазоров и опорные векторы


7.1. Методы классификации с максимальным зазором 443

Этот пример также дает геометрическое представление о причинах разре­

женности в методе SVM. Гиперплоскость максимального зазора определяется


расположением опорных векторов. Другие точки исходных данных могут сво­

бодно перемещаться (пока они остаются за пределами зазора), никак не влияя на


границы решения, и поэтому решение не будет зависеть от таких точек.

7.1.1. Перекрытие распределений классов


До сих пор мы предполагали, что точки обучающего множества линейно раз­
делимы в пространстве признаков ф(х). Полученный метод опорных векторов
даст точное разделение обучающих данных в пространстве исходных данных х,
хотя соответствующая граница решения будет нелинейной. Однако на практике
условные по классу распределения могут перекрываться, и в этом случае точное

разделение обучающих данных может привести к плохому обобщению.


Следовательно, нам нужен способ изменения метода опорных векторов, до­
пускающий неправильную классификацию некоторых обучающих точек. Из
(7.19) видно, что в случае разделимых классов мы неявно использовали функ­
цию ошибок, которая давала бесконечную ошибку, если точка данных была
классифицирована ошибочно, и нулевую ошибку, если она была классифициро­
вана правильно, а затем оптимизировали параметры модели для максимизации

зазора. Теперь мы изменим этот подход, чтобы точкам данных разрешалось


находиться на неправильной стороне от границы зазора, но со штрафом, кото­
рый увеличивается с расстоянием от этой границы. Для последующей оптимиза­
ции удобно сделать это штраф линейной функцией этого расстояния. Для этого
введем фиктивные переменные qn ~О, где п = 1, ... , N, с одной фиктивной пере­
менной для каждой точки обучающих данных (Bennett, 1992; Cortes and Vapnik,
1995). qn =О для точек исходных данных, которые находят­
Они определены как
ся на правильной стороне (на границе или внутри области), и qn = ltп-y(x)I для
других точек. Таким образом, точка данных, находящаяся на границе решения
у(хп) =О, будет иметь qn = 1, а точки с qп > 1 будут классифицированы ошибоч­
но. Затем точные ограничения классификации (7.5) заменяются на неравенства

(7.20)

в которых фиктивные переменные должны удовлетворять условию qп ~ О. Точки


данных, для которых qп = О, классифицированы правильно и находятся либо на
границе, либо на правильной стороне зазора. Точки, для которых О< qп ~ 1 ле­
жат внутри зазора, но на правильной стороне границы решения, а те точки дан­
ных, для которых qn > 1, лежат на неправильной стороне границы решения и
444 ГЛАВА 7. РАЗРЕЖЕННЫЕ ЯДЕРНЫЕ МЕТОДЫ

классифицируются ошибочно, как показано на рис. 7.3. Иногда это явление опи­
сывается как ослабление жестких ограничений, чтобы создать мягкий зазор
и позволяет некорректно классифицировать некоторые точки обучающих дан­
ных. Обратите внимание, что хотя фиктивные переменные допускают перекры­
вающиеся распределения классов, эта структура по-прежнему чувствительна к

выбросам, потому что штраф за ошибочную классификацию линейно возрастает


в зависимости от qn.
у= -1

у= 1

Рис. 7.3. Фиктивные переменные q" z О. Точки данных


с кружками вокруг них являются опорными векторами

Наша цель состоит в том, чтобы максимизировать зазор, мягко штрафуя точ­
ки, которые лежат на неправильной стороне от границы зазора. Следовательно,
мы минимизируем функцию

cf qn +_!_llwl
n=\ 2
2
' (7.21)

где параметр С > О управляет компромиссом между штрафом фиктивной пере­


менной и зазором. Поскольку любая точка, которая ошибочно классифицирова­
на, удовлетворяет условию qn > 1, число L, qn является верхней границей коли-
n
чества ошибочных точек. Таким образом, параметр С аналогичен (обратному)
коэффициенту регуляризации, поскольку он контролирует компромисс между
минимизацией ошибок обучения и контролем сложности модели. В пределе при
С ~ оо мы получаем предыдущий вариант метода опорных векторов для разде-
ляемых данных.

Теперь мы хотим минимизировать (7.21) с учетом ограничений (7.20) вместе


с qn ~ О. Соответствующий лагранжиан задается формулой
1 2 N N N
L{w,b,~,a,µ)=-llwll +CL,qn -L,an{tпy(xп)-l+qn}- Lµnqn, (7.22)
2 n=I n=\ п=\
7.1. Методы классификации с максимальным зазором 445

где {ап ~ О} и {µ ~ О} - множители Лагранжа. Соответствующее множество


условий К.КТ задается формулами (см. приложеиие Д)
ап ~о, (7.23)
- 1 + qn ~О,
tпу(хп) (7.24)
ап(tпу(хп)- 1 + qп) ~о, (7.25)
µ,,~о, (7.26)
qn ~О, (7.27)
µ,,qn = О, (7.28)
где п = 1, ... , N.
Теперь оптимизируем w, Ь и {qп}, используя определение (7.1) функцииу(х):

N
дL = О ~ W= ~>пtпф(хп), (7.29)
дw n=I

(7.30)

(7.31)

Используя эти результаты для исключения w, Ь и {qп} из лагранжиана, получим


двойственный лагранжиан в виде

_ N 1 N N
L(a) = ~>п - - L~>namtntтk(xп,xm), (7.32)
n=I 2 n=l m=I

который идентичен случаю линейно разделимых множеств, за исключением то­


го, что ограничения несколько отличаются. Чтобы увидеть, каковы эти ограни­
чения, отметим, что условие ап ~ О требуется, потому что ап - это множители
Лагранжа. Кроме того, из (7.31) и условия µп ~О следует ап :$С. Следовательно,
нужно максимизировать (7.32) по двойственным переменным {ап}:
(7.33)

(7.34)

для п = 1, "., N, где (7.33) известны как квадратные ограничения (Ьох


constraints). Эта задача снова представляет собой задачу квадратичного про­
граммирования. Если подставить (7.29) в
(7 .1 ), мы увидим, что предсказания для
новых точек снова вычисляются по формуле (7.13).
446 ГЛАВА 7. РАЗРЕЖЕННЫЕ ЯДЕРНЫЕ МЕТОДЫ

Теперь мы можем интерпретировать полученное решение. Как и ранее, неко­

торые точки исходных данных могут удовлетворять условию ап = О, и в этом


случае они не вносят вклад в прогностическую модель (7.13). Остальные точки
являются опорными векторами. Они удовлетворяют условию ап >О и, как следу­
ет из (7 .25), должны удовлетворять условию
(7.35)
Если ап <С, то из (7.31) следует, чтоµ,,> О, а с учетом (7.28) это значит, что
;п =О и, следовательно, такие точки лежат на границе. Точки, удовлетворяющие
условию ап = С, могут лежать внутри зазора и быть правильно классифициро­
ванными, если ;п ~ 1, или ошибочно классифицированными, если ;п > 1.
Для определения параметра Ь в (7 .1) отметим, что те опорные векторы, для
которых О < ап <С, удовлетворяют условию ;п =О, так что tпу(хп) = 1, и, следо­
вательно, будут удовлетворять условию

(7.36)

Как и в предыдущем случае, вычислительно устойчивое решение получается


путем усреднения:

(7.37)

где М обозначает набор индексов точек исходных данных, удовлетворяющих

условию о < ап < с.


Альтернативная, но эквивалентная формулировка метода опорных векторов,
известная как v-SVМ, бьша предложена Schбlkopf et а/. (2000). Он предполагает
максимизацию

(7.38)

с учетом ограничений
О~ ап ~ 1/N, (7.39)
N
Lain =0, (7.40)
n=I
N
Lan ~ v. (7.41)
n=I
7.1. Методы классификации с максимальным зазором 447

Преимущество этого подхода состоит в том, что параметр v, который заменя­


ет С, можно интерпретировать и как верхнюю границу доли ошибок зазора (то­
чек, удовлетворяющих условию qn > О и, следовательно, лежащих на неправиль­
ной стороне границы зазора и допускающих как правильную, так и неправиль­

ную классификацию), и как нижнюю границу доли опорных векторов. Пример


v-SVМ, примененный к искусственному набору данных, приведен на рис. 7.4.
Здесь использовались гауссовы ядра вида exp(-rllx-x11 2) с r= 0,45.
)(
х )(

2
х

-2

-2 о 2
Рис. 7.4. Метод v-SVM, примененный к неразделимому набору данных

в двух измерениях. Опорные векторы обозначаются кружочками

Хотя предсказания для новых входных данных производятся с использованием

только опорных векторов, фаза обучения (т.е. определение параметров а и Ь) ис­


пользует все множество данных, и поэтому важно иметь эффективные алгоритмы
для решения задачи квадратичного программирования. Прежде всего отметим, что
целевая функция i(a), заданная формулами (7.10) или (7.32), является квадратич­
ной, и поэтому любой локальный оптимум также будет глобальным, если ограни­
чения определяют вьmуклую область (что они и делают вследствие их линейности).
Прямое решение задачи квадратичного программирования с использованием тра­
диционных методов часто неосуществимо из-за высоких требований к скорости
вычислений и объему памяти, поэтому необходимо найти более практические под­
ходы. Метод фрагментации (Vapnik, 1982) использует тот факт, что значение ла­
гранжиана не изменяется, если мы удалим строки и столбцы матрицы ядра, соот­
ветствующие множителям Лагранжа, которые имеют нулевое значение. Это позво­

ляет разбить всю задачу квадратичного программирования на ряд меньших задач,


цель которых в конечном итоге определить все ненулевые множители Лагранжа и

отбросить остальные. Фрагментацию можно реализовать с использованием защи-


448 ГЛАВА 7. РАЗРЕЖЕННЫЕ ЯДЕРНЫЕ МЕТОДЫ

щенного метода сопряженных градиентов (Burges, 1998). Хотя по приблизитель­


ным оценкам фрагмеmирование уменьшает размер матрицы в квадратичной функ­
ции с количества точек исходных данньIХ в квадрате до количества ненулевьIХ

множителей Лагранжа в квадрате, даже это число может быть слишком больIШIМ,
чтобы поместиться в памяти компьютера для крупномасштабньIХ приложений.
Методы декомпозиции (Osuna et al" 1996) также сводятся к решению ряда задач
квадратичного программирования меньшего размера, но они сконструированы та­

ким образом, что каждая из них имеет фиксированный размер, и поэтому метод
может применяться к произвольно большим множествам данных. Тем не менее он
по-прежнему связан с численным решением подзадач квадратичного программиро­

вания и поэтому может быть проблематичным и дорогостоящим. Один из самьIХ


популярных подходов к обучению метода опорнъIХ векторов называется последо­
вательной минимальной оптимизацией, или SMO (Platt, 1999). Он доводит кон­
цепцию фрагментации до предела и рассматривает только два множителя Лагранжа
за раз. В этом случае подзадача может бьпь решена аналитически, тем самым пол­
ностью исключая численное решение задачи квадратичного программирования.

Выбор пары множителей Лагранжа для рассмотрения на каждом шаге осуществля­


ется по эвристическим правилам. На практике обнаружено, что сложность метода
SMO в зависимости от количества точек исходных даннъIХ колеблется от линейно­
го до квадратичного в зависимости от конкретного приложения.

Мы видели, что ядра соответствуют скалярным произведениям в простран­

ствах признаков, которые могут иметь большую или даже бесконечную размер­
ность. Поскольку непосредственная работа с ядрами позволяет избежать явного
представления пространства признаков, может показаться, что метод опорных

векторов каким-то образом снимает "проклятие размерности" (см. раздел 1.4).


Однако это не так, поскольку существуют ограничения на значения функций,
которые ограничивают эффективную размерность пространства признаков. Что­
бы увидеть это, рассмотрим простое полиномиальное ядро второго порядка, ко­
торое мы можем разложить по его компонентам:

k(x,z)=(l+xтz) 2 =(1+x1z1+x2 z2 ) 2 =
=1+2X1Z1 +2X2Z2 +xfzf +2X1Z1X2Z2 +x;z; =
(7.42)
= (1,J2x1,J2x2,x12,J2x1x2,x; )(1,J2z1,J2z2,zf ,J2z1z 2,z; )т =

=Ф(х)т Ф(z).
7.1. Методы классификации с максимальным зазором 449

Таким образом, это ядро представляет собой скалярное произведение в про­


странстве признаков, имеющем шесть измерений, в котором отображение из
входного пространства в пространство признаков описывается векторной функ­
цией ф(х). Однако коэффициенты, взвешивающие эти разные функции, ограни­
чены конкретными формами. Таким образом, любой набор точек в исходном
двумерном пространстве х лежал бы точно на двумерном нелинейном многооб­
разии, вложенном в шестимерное пространство признаков.

Мы уже подчеркивали тот факт, что метод опорных векторов не дает вероят­
ностных результатов, а вместо этого принимает решения о классификации но­
вых входных векторов. Veropoulos et а/. (1999) предложили модификации мето­
да SVМ, позволяющие контролировать компромисс между ложноположитель­
ными и ложноотрицательными ошибками. Однако, если мы хотим использовать
SVМ в качестве модуля в большей вероятностной системе, нам необходимы ве­
роятностные предсказания метки класса t для новых входов х.

Чтобы решить эту проблему, Platt (2000) предложил аппроксимацию логи­


стической сигмоиды на выходах ранее обученного метода опорных векторов.
В частности, предполагается, чтобы требуемая условная вероятность имела вид

p(t = 1lx) = а(Ау(х) +В), (7.43)

где функцияу(х) определяется формулой (7.1). Значения параметров А и В опре­

деляются путем минимизации функции перекрестной энтропии, определенной


на обучающем множестве, состоящем из пар значений у(хп) и tn. Чтобы избежать
серьезного переобучения, данные, используемые для аппроксимации сигмоиды,
должны быть независимыми от данных, используемых для обучения оригиналь­
ного метода SVМ. Этот двухэтапный подход эквивалентен предположению, что
выходной сигнал у(х) метода опорных векторов представляет собой логарифм
отношения шансов того, что вектор х принадлежит классу t = 1. Поскольку про­

цедура обучения SVM не предназначена для этого специально, этот метод может
дать плохую аппроксимацию апостериорных вероятностей (Тipping, 2001).

7.1.2. Связь с логистической регрессией

Как и в случае разделимого случая, мы можем повторно преобразовать метод


SVМ для неразделимых распределений в терминах минимизации регуляризо­
ванной функции ошибок. Это также позволит вьщелить сходства и различия с
моделью логистической регрессии (сJи, раздел 4.3.2).
Мы видели, что для точек исходных данных, которые находятся на правильной
стороне от границы зазора и, следовательно, удовлетворяют условию Упtп ~ 1, име-
450 ГЛАВА 7. РАЗРЕЖЕННЫЕ ЯДЕРНЫЕ МЕТОДЫ

ем ;" =О, а для остальных точек ;" = 1-yntn. Таким образом, целевая функция
(7.21) может быть записана (с точностью до общей мультипликативной констан­
ты) в виде

(7.44)

где А.= (2СТ 1 и Esv О - кусочно-линейная функция ошибок (hinge епоr), опреде­
ляемая формулой
(7.45)
где [·]+ обозначает положительную часть. Кусочно-линейная функция ошибок,
называемая так из-за ее формы, показана на рис. 7.5. Ее можно рассматривать
как аппроксимацию ошибки классификации, т.е. функцию ошибок, которую мы
хотели бы свести к минимуму, что также показано на рис. 7.5.

Рис. 7.5. Графики кусочно-линейной функции ошибок, используемой в методе

опорных векторов (синяя кривая), и функция ошибок для лоrистической регрессии

(красная кривая) , масштабированная с коэффициентом l /l n 2,


чтобы она проходила через точку (О, 1). Черным цветом показаны ошибки

классификации, зеленым - квадратическая ошибка

Когда мы рассматривали модель логистической perpeccm1 в разделе 4.3.2, нам


было удобно работать с целевой переменной t е {О, 1}. Для сравнения с методом
опорных векторов мы сначала переформулируем логическую регрессию макси­
мального правдоподобия с использованием целевой переменной t е {-1, 1}. Для
этого заметим, что p(t = 1[у)= а(у), где у(х) задается формулой (7.1), а а(у)­
логистическая сигмоида, определяемая формулой (4.59). Отсюда следует, что
7.1. Методы классификации с максимальным зазором 451

p(t=-1[y)= 1- а(у)= а(-у), где мы использовали свойства логистической сигмо­


иды, и поэтому можем записать:

p(t[y) = a(yt). (7.46)


Отсюда можно построить функцию ошибок, взяв отрицательный логарифм
функции правдоподобия, которая с квадратичным регуляризатором примет вид
(см. упраж11е11ие 7.6).

(7.47)

где

ELR(yt) = ln(l + exp(-yt)). (7.48)


Для сравнения с другими функциями ошибок мы можем разделить эту формулу
на ln(2) так, чтобы функция ошибок проходила через точку (О, 1). Эта функция с
измененной ошибкой также показана на рис. 7.5 и имеет аналогичную форму
для функции ошибок метода опорных векторов. Основное различие заключается
в том, что плоская область в E8v(yt) приводит к разреженным решениям.
Как логистическая ошибка, так и кусочно-линейная функция потерь могут
рассматриваться как непрерывные приближения к уровню ошибочной класси­
фикации. Другая функция непрерывной ошибки, которая иногда использовалась
для решения задач классификации, представляет собой квадратичную ошибку,
которая также показана на рис. 7.5. Однако оно приписывает большой вес точ­
кам, которые были классифицированы правильно, но расположены далеко от
границы решения на правильной стороне. Такие точки будут сильно перевеши­
вать вклад ошибочно классифицированных точек, и поэтому, если целью явля­
ется минимизация уровня ошибочной классификации, лучшим выбором будет
монотонно убывающая функция ошибок.

7.1.3. Многоклассовые варианты SVM


Метод опорных векторов в основном применяется для решения задачи би­
нарной классификации. На практике, однако, часто приходится решать задачи,
связанные с К> 2 классами. Поэтому бьmи предложены различные методы для
объединения нескольких двухклассовых SVM для создания многоклассового
метода классификации.
Одним из широко используемых подходов (Vapnik, 1998) является построе­
ние К отдельных методов SVM, в которых k-я модель Yk(x) обучается с исполь­
зованием данных из класса Ck в качестве положительных примеров и данных из
оставшихся К-1 классов - как отрицательных примеров. Этот подход называ-
452 ГЛАВА 7. РАЗРЕЖЕННЫЕ ЯДЕРНЫЕ МЕТОДЫ

ется "один против остальных". Однако на рис. 4.2 показано, что использование
решений отдельных методов классификации может привести к несогласованным
результатам, при которых вектор назначается нескольким классам одновремен­

но. Иногда эту проблему можно решить, делая прогнозы для новых входных
данных х по правилу

у(х) = maxyk (х). (7.49)


k

К сожалению, этот эвристический подход имеет недостаток: разные методы


классификации обучаются на разных задачах, и нет гарантии, что реальные ве­
личины Yk(x) для разных методов классификации будут иметь соответствующие
масштабы.
Еще одна проблема с подходом "один против остальных" заключается в том,
что обучающие множества не сбалансированы. Например, если у нас есть десять
классов с одинаковым количеством обучающих точек, то отдельные методы
классификации обучаются на множествах данных, содержащих 90% отрица­
тельных примеров и только 10% положительных, и симметрия исходной задачи
теряется. Один из вариантов схемы "один против остальных" был предложен
Lee et al. (2001). В этом методе целевые значения изменяются так, чтобы поло­
жительный класс имел целевое значение +1, а отрицательному соответствовало
значение-1/(К-1).
Weston and Watkins (1999) определяют одну целевую функцию для обучения
всех К методов SVМ одновременно, основываясь на максимизации зазора между
каждым классом и остальными классами. Однако это может привести к значи­
тельному замедлению обучения, поскольку, вместо того чтобы решать К от­
дельных задач оптимизации по N точкам с общей сложностью О(КN2), необхо­
димо решить одну задачу оптимизации размера (K-l)N с общей сложностью
O(K 2N 2).
Другой подход состоит в том, чтобы обучить К(К-1)12 различных бинарных
вариантов SVM для всех возможных пар классов, а затем классифицировать те­
стовые точки в соответствии с наибольшим количеством голосов. Этот подход
иногда называют "каждый против каждого". Мы уже видели на рис. 4.2, что
это может привести к двусмысленности в полученной классификации. Кроме то­
го, для больших К этот подход требует значительно большего времени обуче­
ния, чем подход "один против остальных". Аналогично для оценки тестовых то­
чек требуется значительно больше вычислений.
Последнюю задачу можно решить путем организации бинарных классифика­
торов в виде направленного ациклического графа (не путайте его с вероятност-
7.1. Методы классификации с максимальным зазором 453

ной графовой моделью), что приводит к методу DAGSVМ (Platt et al" 2000). Для
К классов метод DAGSVM имеет в общей сложности К(К - 1)/2 классификато­
ров, и для классификации новой тестовой точки требуется вычислить только К - 1
бинарных классификаций с использованием конкретных классификаторов в за­
висимости от пути в графе.
Другой подход к многоклассовой классификации основан на кодах с исправ­
лением ошибок. Он был разработан Dietterich and Bakiri (1995) и применен для
метода опорных векторов в работе Allwein et al. (2000). Его можно рассматри­
вать как обобщение схемы голосования "каждый против каждого", в которой
для подготовки отдельных классификаторов используются более общие разде­
ления классов. Сами К классов представляются в виде отдельных наборов отве­
тов выбранных бинарных классификаторов. Вместе с подходящей схемой деко­
дирования это обеспечивает устойчивость к ошибкам и неоднозначности в вы­
водах отдельных классификаторов. Хотя применение метода SVM к задачам
классификации многих классов остается открытой проблемой, на практике под­
ход "один против остальных" используется наиболее широко, несмотря на его
специфическую формулировку и практические ограничения.
Существуют также одноклассовые методы опорных векторов, которые ре­
шают задачу обучения без учителя, связанную с оценкой плотности вероятно­
сти. Однако вместо моделирования плотности данных эти методы направлены
на то, чтобы найти гладкую границу, охватывающую область высокой плотно­
сти. Граница выбирается так, чтобы представлять квантиль плотности, т.е. веро­
ятность того, что точка данных, полученная из распределения, попадет в эту об­
ласть, задается фиксированным числом от О до 1, которое задано заранее. Это
более ограниченная задача, чем оценка полной плотности, но ее может быть до­
статочно для конкретных приложений. Предложены два подхода к этой задаче с
использованием метода опорных векторов. Алгоритм Schбlkopf et al. (2001) пы­
тается найти гиперплоскость, которая отделяет все, кроме фиксированной
доли v обучающих данных от начала координат, и в то же время максимизирует
расстояние (зазор) гиперплоскости от начала координат, а Тах and Duin (1999)
строят наименьшую сферу в пространстве признаков, содержащую все, кроме
доли vточек исходных данных. Для ядер k(x, х'), которые являются функциями
только х-х', оба алгоритма эквивалентны.

7 .1.4. Метод SVM для регрессии

Теперь распространим метод опорных векторов на задачи регрессии и в то


же время сохраним свойство разреженности (см. раздел 3.1.4). В простой линей-
454 ГЛАВА 7. РАЗРЕЖЕННЫЕ ЯДЕРНЫЕ МЕТОДЫ

ной регрессии мы минимизируем регуляризованную функцию ошибок, задан­


ную формулой

(7.50)

Для получения разреженных решений функция квадратичных ошибок заменяет­


ся с-нечувствителыюй функцией ошибок (Vapnik, 1995), которая равна нулю,
если абсолютная разница между прогнозом у(х) и целевым значением t меньше,
чем &, где с> О. Простой пример &-нечувствительной функции ошибок, имею­
щей линейный штраф за ошибки вне области нечувствительности, определяется
формулой

Ec(y(x)-t ) = {
O,ecлиly(x)-tl<c,
(7.51)
IY( х )- tl-c в противном случае.
Она показана на рис. 7.6.

E(z)

-€ о € z

Рис. 7.6. График е-нечувствительной функции ошибок (красный цвет), при которой

ошибка линейно возрастает с расстоянием за пределами области нечувствительности.

Для сравнения также показана функция квадратичной ошибки (зеленый цвет)

Следовательно, мы должны минимизировать регуляризованную функцию


ошибок, заданную формулой

(7.52)

где у(х) задается формулой (7.1). По соглашению (обратный) параметр регуля­


ризации, обозначаемый С, стоит перед ошибкой.
Как и ранее, мы можем переформулировать задачу оптимизации, введя фик­
тивные переменные. Для каждой точки данных Хп нам понадобятся две фиктив­
ные переменные, qn ~ О и ~п ~ О , где qn > О соответствует точке, для которой
7.1. Методы классификации с максимальным зазором 455

t.>y(x.)+6, а~. >0 соответствует точке, для которой t.<у(х.)-6(рис. 7.7).


Условие для целевой точки, лежащей внутри 6-трубки, состоит в том, что у. - 6 ~
S t. $у.+ 6, где у.= у(х.). Фиктивные переменные позволяют точкам находиться
снаружи трубки, если фиктивные переменные отличны от нуля и выполняются
соответствующие условия:

t.$y(x.) + 6+ qno (7.53)


t.;?:y(x.)-6- ~• . (7.54)

у(х) y+i:
~> о у

Рис. 7.7. Применение метода SVM для регрессии. Показаны регрессионная кривая

вместе с &-нечувствительной трубкой , а также примеры фиктивных переменных ,; и ,;п .


Точки над &-трубкой удовлетворяют условию ,; > О и ,;" = О, точки ниже &-трубки
удовлетворяют условию ,; = О и ,;п > О, а точки внутри 6 -трубки удовлетворяют
условию ,; ООО ,;IJ = о

Функция ошибок для регрессии по методу опорных векторов может быть за­
писана как

f( q. + ;.А + -llwll
С L.J ) 1 . 2
(7.55)
n=I 2

Данную функцию необходимо минимизировать при ограничениях q.;?: О и ~.;?:О ,


а также (7.53) и (7.54). Этого можно добиться, введя множители Лагранжа а.;?: О,
а. ;?: о , µ,, ;?: о и А. ;?: о и оптимизируя лагранжиан:

(7.56)

Теперь заменим у(х) на (7.1), а затем приравняем производные от лагранжиа­


на по w, Ь, q. и ~. к нулю, получая
456 ГЛАВА 7. РАЗРЕЖЕННЫЕ ЯДЕРНЫЕ МЕТОДЫ

N
дL =0 ~ w= ~)ап -ап)Ф(хп), (7.57)
дw n=I
N
дL =0 ~ L(ап - ап ) = о, (7.58)
дЬ n=I

дL =0 ~ ап + µп =С, (7.59)
дqп

а: =О ~ ап + µп =с. (7.60)
дqп

Используя эти результаты для исключения соответствующих переменных из

лагранжиана, мы видим, что двойственная задача сводится к максимизации


функции (см. упражиеиие 7. 7):

f
l(a,a)=-_!_ I(ап -ап)(ат -ат)k(хп,хт)-
2 n=lm=I
(7.61)
N N
-вL(ап +ап)+ L(ап -ап)tп
n=I n=I

относительно {ап} и {ап}, где мы ввели ядро k(x, х') = ф(х)тф(х'). Как и в
предыдущем случае, это задача максимизации с ограничениями, и чтобы найти
ограничения, заметим, что должны выполняться условия ап > о и ап ~ о ' потому
что это - множители Лагранжа. Кроме того, условия µ,, > О и fl,n ~О вместе с
(7.59) и (7.60) означают, что ап s С и ап s С, и поэтому снова получаем квадрат­
ные ограничения:

Osan s С, (7.62)

Osan sC (7.63)

вместе с условием (7.58).


Подставляя (7.57) в (7.1), мы видим, что прогнозы для новых входных данных
могут быть сделаны с использованием формулы

N
у(х)= L(ап -ап)k(х,хп)+Ь, (7.64)
n=I

которая снова выражается через ядро.


7.1. Методы классификации с максимальным зазором 457

Соответствующие условия Каруша-Куна-Таккера (ККТ), которые утвержда­


ют, что произведение двойственных переменных и ограничений в решении

должно обращаться в нуль, задаются формулами

ап(Е+ .;п + Уп - tп) =О, (7.65)

ап ( Е + ~п - Уп + tn) =О, (7.66)

(С- ап),;п =О, (7.67)


(с-ап)~п =0. (7.68)

Из них мы можем получить несколько полезных результатов. Прежде всего отме­

тим, что коэффициент ап может быть отличным от нуля, если &+ .;п + Уп - tn =О,
откуда следует, что обучающая точка либо лежит на верхней границе &-трубки
(qп =О), либо над верхней границей (,;п >О). Точно так же ненулевое значение для
Qn подразумевает, ЧТО Е + ~п - Уп + tn = 0 И такие ТОЧКИ ДОЛЖНЫ лежать либо На
нижней границе трубки, либо ниже нее.

Кроме того, два ограничения, &+ .;п + Уп - tn =О и Е + ~п - Уп + tn несовмести­


мы, что легко увидеть, сложив их вместе и отметив, что .;п и ~п не отрицатель­
ны, в то время как & - строго положительное число, поэтому для каждой точки
ИСХОДНЫХ данНЫХ Хп либо ат либо ап (ИЛИ обе Переменные) ДОЛЖНЫ быть рав­
НЫМИ НУЛЮ.

Опорными векторами являются те точки исходных данных, которые вносят


вклад в прогнозы, заданные формулой (7.64), иначе говоря, те, для которых либо
а. :1: О, либо ап :1: О . Это точки, которые лежат на границе трубки или вне трубки.
Для всех точек внутри трубки выполняются условия ап = ап = О . Мы снова по­
лучаем разреженное решение, и единственными членами, которые должны быть
вычислены в прогностической модели (7.64), являются те, которые включают в
себя опорные векторы.
Параметр Ь можно найти, рассматривая точку исходных данных, для которой
О < ап < С, которая с учетом (7 .67) должна удовлетворять условию .;п = О, и по­
этому с учетом (7.65) удовлетворять условию &+ Уп - tn =О. Используя (7.1) и
решая уравнение относительно Ь, получим:

N (7.69)
=tn -Е- ~)ат -ат)k(хп,хт),
m=I
458 ГЛАВА 7. РАЗРЕЖЕННЫЕ ЯДЕРНЫЕ МЕТОДЫ

где мы использовали условие (7 .57). Мы можем получить аналогичный резуль­


тат, рассматривая точку, для которой О< ап <С. На практике лучше усреднять
по всем таким оценкам Ь.
Как и в случае классификации, существует альтернативная формулировка
SVМ для регрессии, в которой параметр, определяющий сложность, имеет более
интуитивную интерпретацию (SchOlkopf et а/., 2000). В частности, вместо того,
чтобы фиксировать ширину в-нечувствительной области, мы фиксируем пара­
метр v, который ограничивает долю точек, лежащих вне трубки. Это предпола­
гает максимизацию функции

L(a,a)=-_!_ II(aп -ап)(ат -ат)k(хп,хт)+


2 n=I m=I
N
(7.70)
+~)ап -ап)tп
n=I

с учетом ограничений

0$ап $C/N, (7.71)


0$ап $C/N, (7.72)
N
L (ап - ап ) = О, (7.73)
n=I

N
L(ап +ап)$vС. (7.74)
n=I

Можно показать, что за пределы нечувствительной трубки выходят не более


чем vN точек исходных данных, в то время как по крайней мере vN точек ис­
ходных данных являются опорными векторами и поэтому лежат либо на трубке,
либо снаружи.
Использование метода опорных векторов для решения задачи регрессии ил­

люстрируется синусоидальным множеством данных, показанным на рис. 7.8


(см. приложеиие А). Здесь параметры vи С выбраны вручную. На практике их
значения обычно определяются с помощью перекрестной проверки.
7.1. Методы классификации с максимальным зазором 459

/""
о о
о

-1 о
--i
о х

Рис. 7.8. Применение метода v-SVМ для задачи регрессии

с искусственным синусоидальным набором данных и гауссовых ядер.

Кривая прогнозируемой регрессии показана красной кривой, а &-нечувствительная

трубка соответствует заштрихованной области. Кроме того, точки исходных данных

показаны зеленым цветом, а опорные векторы - синими кружочками

7.1.5. Теория вычислительного обучения


Исторически метод опорных векторов обычно анализировался и обосновы­
вался с использованием теоретического подхода, известного как теория вычис­

лительного обучения, также иногда называемого теорией статистического


обучения (Anthony and Biggs, 1992; Kearns and Vazirani, 1994; Vapnik, 1995;
Vapnik, 1998). Этот термин впервые ввел Valiant (1984), который сформулировал
теорию приближенно корректного обучения с высокой вероятностью, или РАС
(рrоЬаЫу approximately соттесt). Цель теории РАС состоит в том, чтобы понять,
насколько большим должно быть множество исходных данных, чтобы обеспе­
чить хорошее обобщение. Она также дает оценки вычислительной стоимости
обучения, хотя мы их здесь не рассматриваем.
Предположим, множество данных 1) размера N извлечено из генеральной со­
вокупности с совместным распределением р(х, t), где х - входная переменная,
а t - метка класса. Ограничимся ситуацией, в которой шум отсутствует, а мет­
ки классов определяются некоторой (неизвестной) детерминированной функци­
ей t = g(x). Придерживаясь теории РАС, мы говорим, что функция f(x; 7J), из­
влеченная из пространства F таких функций на основе обучающего множест­
ва 7J, имеет хорошее обобщение, если ожидаемая частота ошибок не превышает
некоторый заранее заданный порог с, т.е.

Ex,t [1( f(x;D) ~ t)J <с, (7.75)


460 ГЛАВА 7. РАЗРЕЖЕННЫЕ ЯДЕРНЫЕ МЕТОДЫ

где 10 - индикаторная функция, а математическое ожидание вычисляется от­


носительно распределения р(х, t). Величина в левой части является случайной,
так как зависит от обучающего множества 'D, а для теории РАС требуется, чтобы
для множества данных 'D, случайным образом извлеченного из генеральной со­
вокупности с распределением р(х, t), неравенство (7.75) выполнялось с вероят­
ностью, большей, чем 1-б. Здесь д- еще один заранее заданный параметр,
а термин "приближенно корректный с высокой вероятностью" отражает требо­
вание, чтобы с большой вероятностью (больше 1- д) частота ошибок была не­
большой (меньше с). При заданном выборе пространства моделей :F и заданных
параметрах & и д обучение РАС направлено на обеспечение границ минимально­
го размера N множества данных, необходимого для соответствия этому крите­
рию. Ключевым количеством в теории РАС является размерность Вапника­
Червоненкиса, или VC, которая представляет собой меру сложности простран­
ства функций и позволяет распространять подход РАС на пространства, содер­
жащие бесконечное количество функций.
Оценки, полученные в рамках теории РАС, часто описывают наихудший слу­
чай, поскольку они относятся к произвольному выбору распределения р(х, t), если
обучающие и тестовые выборки независимо извлекаются из одной и той же гене­
ральной совокупности, и к произвольному выбору функции f(x), принадлежащей
:F. В реальных приложениях машинного обучения мы имеем дело с распределени­
ями, которые имеют значительную регулярность, например, когда большие обла­
сти исходного пространства имеют одну и ту же метку класса. Вследствие отсут­
ствия каких-либо предположений о форме распределения границы РАС очень
консервативны, иначе говоря, они сильно переоценивают размер множеств дан­

ных, необходимых для достижения заданной точности обобщения. По этой при­


чине оценки РАС почти не нашли практических приложений.
Одной из попыток улучшить точность границ РАС является РАС-байесовский
подход (McAllester, 2003), который рассматривает распределение по простран­
ству :F функций, напоминающее априорное распределение в байесовском под­
ходе. Он все еще рассматривает произвольный выбор р(х, t), и поэтому, хотя
границы более узкие, они по-прежнему очень консервативны.

7 .2. Метод релевантных векторов

Метод опорных векторов использовался в различных приложениях для клас­

сификации и регрессии. Тем не менее он страдает от ряда ограничений, некото­


рые из которых уже описаны в этой главе. В частности, результаты SVМ пред­
ставляют собой решения, а не апостериорные вероятности. Кроме того, SVМ из-
7.2. Метод релевантных векторов 461

начально был разработан для двух классов, и его расширение на случай К> 2
классов проблематично. Существует параметр сложности С, или v (а также па­
раметр & в случае регрессии), который должен быть найден с помощью контроля
на отложенных данных, например перекрестной проверки. Наконец, прогнозы

выражаются в виде линейных комбинаций ядер, которые центрированы на точ­


ках обучающих данных и должны быть положительно определенными.
Метод релевантных векторов, или RVM (Tipping, 2001), - это байесовский
разреженный ядерный метод для регрессии и классификации, который обладает
многими преимуществами SVM и не имеет его основных ограничений. Кроме
того, обычно он приводит к появлению гораздо более разреженных моделей, что
способствует более быстрой работе с тестовыми данными при сохранении сопо­
ставимой ошибки обобщения.
В отличие от метода SVМ, нам будет удобнее сначала ввести регрессионную
форму R VМ, а затем рассмотреть вопрос о его распространении на задачи клас­

сификации.

7.2.1. Метод RVM для регресс и и

Метод релевантных векторов для регрессии является линейной моделью, уже


изученной в главе 3, но с модифицированным априорным распределением, по­
рождающим разреженные решения. Эта модель определяет условное распреде­
ление для действительной целевой переменной t при заданном входном векто­
ре х, которое принимает вид

p(tix, w, /J) = N(t[y(x), /Г 1 ), (7.76)

где /J= а-2 - точность шума (обратная дисперсия шума), а математическое


ожидание задается линейной моделью вида

у(х)= Lwiфi(x)=wтф(x) (7.77)


j;l

с фиксированными нелинейными базисными функциями ф;(х), которые обычно


включают постоянный член, так что соответствующий весовой параметр пред­
ставляет собой смещение.
Метод релевантных векторов является конкретным примером модели, пред­
назначенной для отражения структуры метода опорных векторов. В частности,
базисные функции задаются ядрами, причем каждое ядро связано с каждой из
точек обучающих данных. Тогда общее выражение (7.77) принимает SVМ­
подобную форму:
462 ГЛАВА 7. РАЗРЕЖЕННЫЕ ЯДЕРНЫЕ МЕТОДЫ

N
у( Х) = L wnk( x,xn) + Ь, (7.78)
n=I

где Ь - параметр смещения. Количество параметров в этом случае равно


M=N+ 1, а у(х) имеет тот же вид, что и прогностическая модель (7.64) для
SVМ, за исключением того, что коэффициенты ап здесь обозначаются как wn.
Следует подчеркнуть, что последующий анализ справедлив для произвольного
выбора базисной функции, а для общности будем работать с формой (7.77).
В отличие от SVM, в методе RVМ нет никаких ограничений на положительную
определенность ядра, а базисные функции не привязаны ни к количеству, ни по
местоположению обучающих точек данных.
Предположим, нам дано множество, состоящее из N наблюдений входного
вектора х, которое мы обозначим матрицей данных Х, п-я строка которой пред­
ставляет собой вектор х~ , где п = 1, "., N. Соответствующие целевые значения
задаются вектором t = (t1, "., tN)т. Таким образом, функция правдоподобия опре­
деляется формулой
N
p(tlX,w,p) = Пp(tnlxn,w,p). (7.79)
n=I

Затем мы вводим априорное распределение по вектору параметров w и, как в


главе 3, рассматриваем априорное нормальное распределение с нулевым мате­

матическим ожиданием. Однако ключевым отличием метода RVМ является то,


что мы вводим отдельный гиперпараметр а; для каждого из весовых параметров

w; вместо одного общего гиперпараметра. Таким образом, априорное распреде­


ление весов принимает вид

p(wla)= ПN(w;IO,a;- 1 ), (7.80)


i=I

где а; представляет собой точность соответствующего параметра w;; а обозна­


чает вектор (а 1 , "., ам)т. В дальнейшем мы увидим, что при максимизации обос­
нованности этих гиперпараметров значительная их часть стремится к бесконеч­
ности, а соответствующие весовые параметры имеют апостериорные распреде­

ления, сосредоточенные в нуле. Таким образом, базисные функции, связанные


с этими параметрами, не играют никакой роли в прогнозах, сделанных моделью,

и поэтому эффективно сокращаются, что приводит к разреженной модели.


Используя результат (3.49) для моделей линейной регрессии, мы видим, что
апостериорное распределение весов снова является нормальным и принимает вид
7.2. Метод релевантных векторов 463

p(wlt, Х, а, .Р) = N(wlm, 1:), (7.81)

где математическое ожидание и ковариационная матрица задаются выражениями

m= j11:Фтt, (7.82)
1: =(А+ РФТФ)- 1 , (7.83)
где Ф - матрица плана с N х Мс элементами Фп; = q);(хп) для i = 1, ... , N, ФпМ = 1 для
п= 1, .... , Nи А= diag(a;).
Значения а и .Р определяются с использованием метода максимального прав­
доподобия второго типа (см. раздел 3.5), известного как аппроксимация обостю­
ванности, в котором максимизируется маргинальное правдоподобие, получен­
ное путем интегрирования по весовым параметрам:

p(tlX,a,p) =fp(t!X,w,Д)p(wla)dw. (7.84)

Поскольку это выражение представляет собой свертку двух нормальных рас­


пределений, легко вычислить, что логарифмическая функция маргинального
правдоподобия имеет вид (см. упражнение 7.10)

p(tlX,a,p) = InN(tlo,c) =
(7.85)
= -~{ Nin(2n-) + 1n1c1 + ec-'t},
где t = (t1, ••• , tN)т, и мы определили матрицу С размера NxN, заданную формулой
С =/J11 + ФА- 1 Фт. (7.86)

Наша цель - максимизировать (7.85) по гиперпараметрам а и р. Это требует


лишь небольшой модификации результатов, полученных в разделе 3.5 для ап­
проксимации обоснованности модели линейной регрессии. Как и прежде, можем
определить два подхода. В первом мы просто приравниваем искомые производ­

ные маргинального правдоподобия к нулю и получаем следующие уравнения


для итерационного приближения (см. упра.т:11е11ие 7.12):

a"ew
l
=Jj_
2 , (7.87)
т;

(7.88)
464 ГЛАВА 7. РАЗРЕЖЕННЫЕ ЯДЕРНЫЕ МЕТОДЫ

где т; - i-й компонент апостериорного математического ожидания m, определя­


емая формулой (7.82). Величина У; измеряет, насколько хорошо соответствую­
щий параметр W; определяется данными и задается формулой (с.м. раздел 3.5.3)

(7.89)
в которой Lu - i-я диагональный компонент апостериорной ковариационной
матрицы 1:, заданной формулой (7.83). Таким образом, обучение происходит пу­
тем выбора начальных значений для а и /3, вычисления математического ожида­
ния и ковариационной матрицы апостериорного распределения (7.82) и (7.83)
соответственно, а затем итеративного уточнения гиперпараметров по формулам
(7.87) и (7.88) и апостериорного математического ожидания и ковариационной
матрицы по формулам (7.82) и (7.83), до тех пор, пока не будет выполнен крите­
рий сходимости.

Второй подход заключается в использовании ЕМ-алгоритма, который обсуж­


дается в разделе 9.3.4. Эти два подхода к определению значений гиперпарамет­
ров, максимизирующих обоснованность, формально эквивалентны (см. упраж­
иен ие 9.23). Однако с помощью вычислений бьmо показано, что подход, осно­
ванный на прямой оптимизации по формулам (7.87) и (7.88), обеспечивает
несколько более высокую сходимость (Tipping, 2001 ).
В результате оптимизации мы обнаруживаем, что доля гиперпараметров {а;}
стремится к большим (в принципе бесконечным) значениям, поэтому весовые
параметры W;, соответствующие этим гиперпараметрам, имеют апостериорные

распределения с нулевым математическим ожиданием и дисперсией (см. раз­


дел 7.2.2). Таким образом, эти параметры и соответствующие базисные функции
ф;(х) исключаются из модели и не играют никакой роли в прогнозировании но­
вых данных. В случае моделей вида (7.78) входные данные хт соответствующие
остальным ненулевым весам, называются релевантными векторами, поскольку

они идентифицируются с помощью механизма автоматического определения


релевантности и аналогичны опорным векторам SVМ. Следует, однако, под­
черкнуть, что этот механизм достижения разреженности в вероятностных моде­

лях посредством автоматического определения релевантности является довольно

универсальным и может применяться к любой модели, выраженной как адап­


тивная линейная комбинация базисных функций.
Найдя значения а• и р• для гиперпараметров, которые максимизируют мар­
гинальное правдоподобие, можно вычислить прогностическое распределение по
t для нового входного векторах. Из (7.76) и (7.81) следует, что это распределе­
ние задается формулой (сJн. упражиение 7.14)
7.2. Метод релевантных векторов 465

f
p(tlx,X,t,a*,p") = p(tlx,w,p•)p(wlX,t,a•,p•)dw =
(7.90)
= N(tlmт Ф( х ),а 2 ( х) ).
Таким образом, прогностическое математическое ожидание задается выраже­

нием (7.76), где w устанавливается равным апостериорному математическому


ожиданию m, а дисперсия прогностического распределения определяется выра­

жением

(7.91)

где матрица 1: задается формулой (7.83), в которой а и Дпринимают оптималь­


ные значения а· и р•. Это знакомый результат (3.59), полученный ранее в кон­
тексте линейной регрессии. Напомним, что для локализованных базисных функ­
ций прогностическая дисперсия для моделей линейной регрессии становится
малой в областях исходного пространства, где нет базисных функций. В случае
RVМ с базисными функциями, центрированными в точках исходных данных,
модель будет становиться все более уверенной в своих прогнозах при экстрапо­
ляции вне области исходных данных (Rasmussen and Qui.nonero-Candela, 2005),
что, разумеется, нежелательно (с.1\1. раздел 6.4.2). Прогностическое распределе­
ние в регрессии на основе гауссовского процесса не имеет этого недостатка. Од­
нако вычислительная стоимость составления прогнозов с гауссовскими процес­

сами обычно намного выше, чем для метода RVM.


На рис. 7.9 приведен пример применения метода RVM к набору данных для
синусоидальной регрессии. Здесь параметр точности шума ртакже определяется
путем максимизации правдоподобия. Мы видим, что количество релевантных
векторов в методе RVM значительно меньше количества опорных векторов, ис­
пользуемых в методе SVM. Обнаружено, что для широкого диапазона задач ре­
грессии и классификации метод R VM дает модели, которые, как правило, на по­
рядок более компактны, чем соответствующая модель, построенная с помощью

метода опорных векторов, что приводит к значительному улучшению скорости

обработки тестовых данных. Примечательно, что эта большая разреженность до­


стигается с небольшой ошибкой обобщения (или вообще ее отсутствием) по
сравнению с соответствующим SVM.
466 ГЛАВА 7. РАЗРЕЖЕННЫЕ ЯДЕРНЫЕ МЕТОДЫ

-1

о
х

Рис. 7.9. Регрессия с помощью метода RVM на основе того же набора данных и тех же

гауссовских ядер, что и на рис. 7.8 для модели регрессии v-SYM. Математическое
ожидание прогностического распределения в методе RVM показано красной кривой,

а одно стандартное отклонение прогностического распределения - заштрихованной

областью. Кроме того, точки данных показаны зеленым цветом, а релевантные векторы -
синими кружками . Обратите внимание на то, что в модели есть только три релевантных

вектора по сравнению с семью опорными векторами в методе v-SVM на рис . 7.8

Основным недостатком метода RVМ по сравнению с методом SVM является


то, что обучение предполагает оптимизацию невыпуклой функции, а время обу­
чения может быть больше, чем для сопоставимого варианта SVМ. Для модели с
М базисными функциями для RVМ требуется обращение матрицы размера М х М,
которая, как правило, требует выполнения порядка О(М 3 ) вычислительных опе­
раций. В конкретном случае SVМ-подобной модели (7.78) имеем: M=N+ 1. Как
мы уже отмечали, существуют методы обучения SVМ, стоимость которых при­
мерно квадратична по N. Конечно, в случае RVМ мы всегда имеем возможность
начать с меньшего количества базисных функций, чем N + 1. Более важно то, что
в методе релевантных векторов параметры, определяющие сложность, и диспер­

сия шума определяются автоматически за один сеанс обучения, тогда как в ме­
тоде опорных векторов параметры С и в (или v) обычно обнаруживаются с ис­

пользованием перекрестной проверки, которая включает в себя несколько сеан­


сов обучения. Кроме того, в следующем разделе мы выведем альтернативную
процедуру обучения метода опорных векторов, которая значительно улучшит
скорость обучения.
7.2. Метод релевантных векторов 467

7.2.2. Анализ разреженности

Ранее мы отметили, что механизм автоматического определения релевантно­


сти приводит к тому, что некоторое подмножество параметров приводится к ну­

лю. Теперь мы более подробно рассмотрим механизм разреженности в контексте


метода релевантных векторов. По ходу дела мы придем к значительно более
быстрой процедуре оптимизации гиперпараметров по сравнению с приведенны­
ми выше прямыми методами.

Прежде чем приступить к анализу, сформулируем неофициальное представ­


ление о происхождении разреженности в байесовских линейных моделях. Рас­

смотрим множество данных, содержащий N =2 наблюдений t 1 и t2, вместе с мо­


делью, имеющей единственную базисную функцию ф(х), с гиперпараметром а
наряду с изотропными шумами, имеющими точность р. Из (7.85) следует, что
маргинальное правдоподобие задается выражением p(tla, /1) = N(tlO, С), в кото­
ром ковариационная матрица принимает вид

1 1 т
C=-I+-qJffJ (7.92)
р а

где ffJ обозначает N-мерный вектор (ф(х 1 ), ф(х2 ))т и аналогично t = (t 1, t2 )т. Обра-
тите внимание на то, что это всего лишь модель гауссовского процесса с нуле­

вым математическим ожиданием по t с ковариационной матрицей С. Наша


цель - при заданном наблюдении t найти а• и р•, максимизируя маргинальное
правдоподобие. На рис. 7.10 видно, что, если между направлением ffJ и вектором
t обучающих данных существует плохая согласованность, соответствующий ги­
перпараметр а будет стремиться к оо, а базисный вектор будет исключен из мо­
дели. Этот эффект возникает из-за того, что любое конечное значение для а все­
гда будет определять меньшую вероятность данных, тем самым уменьшая зна­
чение плотности при t, при условии, что гиперпараметр р имеет оптимальное
значение. Мы видим, что любое конечное значение для а приведет к тому, что
распределение будет продолжено в направлении, удаляющемся от данных, тем
самым увеличивая массу вероятности в областях, расположенных далеко от
наблюдаемых данных, и, следовательно, уменьшая значение плотности на самом
целевом объекте данных. Для более общего случая М базисных векторов ffJJ, ".,(/Jм
имеет место аналогичная ситуация, а именно: если конкретный базисный вектор
плохо согласован с вектором данных t, то он, вероятно, будет исключен из
модели.
468 ГЛАВА 7. РАЗРЕЖЕННЫЕ ЯДЕРНЫЕ МЕТОДЫ

1, 1 t2

с,
. ... " ... ._" ...
'
'Xt
с
'Xt
1 '

i
1
-
'
t1 f1

.
··г
Рис. 7.10. Механизм разреженности в байесовской линейной регрессионной модели с
т
обучающим вектором целевых значений t= (t 1, t 2) , обозначенным крестиком , для модели

с одним базисным вектором qJ= (ф(х 1 ), ф(х2 ))т, которая слабо согласована с целевым
вектором t. Слева показана модель, имеющая только изотропный шум, так что С= /Г'I,
что соответствует а= оо, причем гиперпараметр /3 принимает свое наиболее вероятное
значение . Справа показана та же модель, но с конечным значением а. В каждом случае

красный эллипс соответствует единичному расстоянию Махаланобиса, причем на обоих

рисунках ICI принимает одинаковое значение, в то время как пунктирный зеленый круг
демонстрирует вклад, возникающий из-за шума р - 1 • Мы видим, что любое конечное
значение а уменьшает вероятность наблюдаемых данных, поэтому для нахождения

наиболее вероятного решения базисный вектор исключается из модели

Теперь исследуем механизм разреженности с более строгой математической


точки зрения для общего случая с М базисных функций. Чтобы обосновать этот
анализ, прежде всего отметим, что в формуле (7.87) для уrочнения параметра а;
члены в правой части сами по себе также являются функциями, зависящими от а;.
Таким образом, эта формула являются неявной, и итерация потребуется даже для
определения единственного а; при фиксированных значениях всех остальных а1
при}:;t: i.
Следовательно, необходимо искать другой подход к оптимизации RVМ, в ко­
торой явно определяется зависимость маргинального правдоподобия (7.85) от
конкретного а;, а затем явно определяются его стационарные точки (Faul and
Тipping,
2002; Faul, 2003). Для этого сначала выведем вклад а; в матрицу С,
определяемую формулой (7.86):
7.2. Метод релевантных векторов 469

(7.93)

где f/J; обозначает i-й столбец матрицы Ф, иначе говоря, N-мерный вектор с эле­
ментами (ф(х 1 ), "., ф(хN)), в отличие от вектора ф,., который обозначает п-ю
строку матрицы Ф. Матрица С_; представляет собой матрицу С с удаленной i-й
базисной функцией. Используя матричные тождества (В.7) и (В.15), определи­
тель и матрицу, обратную матрице С, можно записать:

(7.94)

(7.95)

Используя эти результаты, можно написать функцию маргинального правдо­


подобия (7.85) в виде (см. упражнеиие 7.15)
L( а) = L( a..t) + А( а;), (7.96)
где L( а..;) - логарифмическое маргинальное правдоподобие с исключенной ба­
зисной функцией f{J;, а величина А(а;) определяется формулой

Л( а;) =.!.[1n
2
а; - ln (а; + s;) + ___яl__]
а; +s;
(7.97)

и выражает всю зависимость от а;. Здесь мы ввели две величины:

(7.98)

qi Tc-lt
= f{J; -i . (7.99)

где S; называется разрежетюстью, а q1 - качеством базисной функции f/J;, и,


как мы увидим, большое значение s; по отношению к значению q; означает, что
базисная функция f/J; скорее всего будет исключена из модели. Разреженность
измеряет степень перекрытия базисной функции f{J; с другими базисными векто­
рами в модели, а качество представляет собой меру согласованности базисного
вектора f{J; с разностью между обучающими целевыми значениями t = (t 1, ••• , tN)т
и вектором прогнозов у_;, которые были бы результатом модели с исключенным
вектором tp; (Tipping and Faul, 2003).
Стационарные точки маргинального правдоподобия относительно а; возни­
кают, когда производная
470 ГЛАВА 7. РАЗРЕЖЕННЫЕ ЯДЕРНЫЕ МЕТОДЫ

dA.(a;) a; 1sf-(qf-s;)
(7.100)
da; 2(а; +s;)2

равна нулю. Решение имеет две возможные формы. Вспоминая, что а;~ О, мы
видим, что если qf < s , то
получаем решение при а; ~ оо. И наоборот, если
q; > s , можно решить уравнение относительно а;:
2
s,
а, =-2-- (7.101)
q;
-S;

Эти два решения показаны на рис. 7 .11. Мы видим, что относительная величина
качества и разреженности определяет, будет ли конкретный базисный вектор ис­
ключаться из модели или нет. Более полный анализ (Faul and Тipping, 2002), осно­
ванный на вторых производных маргинального правдоподобия, подтверждает,
что эти решения действительно являются единственными максимумами А( iXj)
(с.м. упражиеиие 7.16).

-5 о 5 -5 о 5

Рис. 7.11. Графики логарифмического маргинального правдоподобия А(а;) от \п а,,


имеющие единственный максимум при конечном а1 для q12 = 4 и s, = 1 (так, что q; > s1 ),
слева на рисунке, и максимум при а1 ~ оо для q12 = 1 и s1 = 2 (так, что q; < s1 ) - справа

Заметим, что этот подход позволил получить замкнутое решение для а; при
заданных значениях других гиперпараметров. Этот анализ также позволяет по­
лучить представление о происхождении разреженности в методе RVМ, что так­
же приводит к практическому алгоритму оптимизации гиперпараметров, обла­

дающих значительными скоростными преимуществами. Он использует фикси­


рованный набор потенциальных векторов-кандидатов, а затем циклически
проходит через них, чтобы решить, должен ли каждый вектор быть включен в
модель. Полученный последовательный разреженный байесовский алгоритм
обучения описан ниже.
7.2. Метод релевантных векторов 471

Последовательный разреженный байесовский алгоритм обучения

1. Если решается задача регрессии, то задайте начальное значение /J.


2. Инициализируйте базисную функцию tp 1, задав гиперпараметр а1 по формуле
(7.1О1 ), а остальные гиперпараметры а1 при j *1 - бесконечным значением,
так чтобы в модель входила только функция rp 1•
3. Вычислите матрицу~ и вектор m, а также q; и s; для всех базисных функ­
ций.

4. Выберите базисную функцию-кандидат fP;.

5. Если q; > s; и а;< оо, так что базисный вектор (/);уже включен в модель, то
обновите а;, используя (7.1О1 ).

6. Если q; > s; и а;= оо, включите rp 1 в модель и оцените гиперпараметр а;,


используя (7.1о1 ).

7. Если q; ~ s 1 и а;< оо, то удалите базисную функцию f/J; из модели и задайте


а;=ОО,

8. При решении задачи регрессии обновите р.

9. Если процесс сошелся, завершите выполнение, в противном случае перей­


дите к п. 3.

Заметим, что если q;2 ~ s1 и а1 = оо, то базисная функция f/J; уже исключена из мо­
дели и никаких действий не требуется. На практике удобно вычислять величины

(7.102)

(7.103)

В таком случае переменные качества и разреженности могут быть выражены


в форме

(7.104)

a.S.
s. =--'-'-. (7.105)
1 al-si
472 ГЛАВА 7. РАЗРЕЖЕННЫЕ ЯДЕРНЫЕ МЕТОДЫ

Заметим, что при а;= оо имеем: q; = Q; и s; = S; (с.м. упраJи:иепие 7.17). Ис­


пользуя (В.7), можно записать:

Q; = /З(fJ[ t - /3 2(fJ[ Ф Т..Ф т t, (7.106)

S; =/3(/J;т (/); - /32 rp( ФТ..Ф т (/);' (7.107)

где матрицы Ф и :!: содержат только те базисные векторы, которые соответству­


ют конечным гиперпараметрам а;. Следовательно, на каждом этапе требуемые
вычисления имеют порядок О(М\ где М - количество активных базисных век­
торов в модели, которое, как правило, намного меньше, чем количество N обу­

чающих образов.

7.2.3. Метод RVM для классификации


Мы можем распространить метод релевантных векторов на задачи классифи­
кации, применяя априорное распределение ARD по весам к вероятностной мо­
дели линейной классификации, изученной в главе 4. Сначала рассмотрим бинар­

ную задачу классификации с целевой переменной t Е{О, 1}. Теперь модель при­
нимает форму линейной комбинации базисных функций, преобразуемых

логистической сигмоидой:

у(х, w) = ст(wт ф(х)), (7.108)

где ст(·) - логистическая сигмоида, определяемая формулой (4.59). Если мы

введем нормальное априорное распределение по весовому вектору w, то полу­

чим модель, которая рассмотрена в главе 4. Разница в том, что в методе RVМ эта

модель использует априорное распределение ARD (7 .80), в которой есть отдель­


ный гиперпараметр точности, связанный с каждым весовым параметром.

В отличие от модели регрессии, мы больше не можем аналитически интегри­


ровать вектор параметров w. Здесь мы следуем Тipping (2001) и используем ап­

проксимацию Лапласа (см. раздел 4.4), которая была применена к тесно связан­
ной задаче байесовской логистической регрессии в разделе 4. 5.1.
Начнем с инициализации вектора гиперпараметров а. Затем при заданном
значении а построим гауссовскую аппроксимацию апостериорного распределе­

ния и тем самым получим приближение к маргинальному правдоподобию. По­


сле этого максимизация приближенного маргинального правдоподобия приво­
дит к уточнению значения а, и процесс повторяется, пока не сойдется.
7.2. Метод релевантных векторов 473

Рассмотрим подробнее аппроксимацию Лапласа для этой модели. При фик­


сированном значении а мода апостериорного распределения по w вычисляется
путем максимизации функции

ln р ( wl t, а) = ln {р ( tl w) р ( wl а)} - ln р ( tl а) =
N 1 (7.109)
=L {tn lnyn + (1-tn )ln{l- Уп )}--wт Aw + const,
n=I 2

где А = diag( а;). Это можно сделать, используя метод наименьших квадратов с
итеративным пересчетом весов (IRLS), как описано в разделе 4.3.3. Для этого
нам нужен вектор градиента и матрица Гессе (см. упра:11Сне11ие 7.18) для лога­
рифма апостериорного распределения (7 .109):
Vlnp(wlt, а)=Фт(t-у)-Аw, (7.110)
V'Vln p(wlt, а) = - (ФтВФ +А), (7.111)

где В - диагональная матрица N х N с элементами Ьп = Уп(l-уп); вектор


у= (у 1 , ""уN)т; Ф - матрица плана с элементами Фп; = ф;(хп). Здесь мы исполь­
зовали свойство производной логистической сигмоиды ( 4.88). При условии схо­
димости алгоритма IRLS отрицательный гессиан представляет собой обратную
ковариационную матрицу для гауссовской аппроксимации апостериорного рас­

пределения.

Мода результирующей аппроксимации апостериорного распределения, соот­

ветствующая математическому ожиданию гауссовской аппроксимации, получа­


ется путем приравнивания (7 .11 О) к нулю, что дает математическое ожидание и
ковариантную матрицу аппроксимации Лапласа в виде

w· = А- 1 Фт(t-у), (7.112)
~ = (ФтВФ + А)- 1 • (7.113)

Теперь мы можем использовать эту аппроксимацию Лапласа для вычисления

маргинального правдоподобия. Используя общий результат (4.135) для интегра­


ла, вычисленного с использованием аппроксимации Лапласа, имеем:

p(tla) =f p(tlw )p(wla)dw =


(7.114)
=р ( tlw• )Р( w"la )( 2tr )м12 II;ll/2 .
Если подставить p(tlw•) и p(w•la), а затем приравнять к нулю производную от
маргинального правдоподобия по а, то получим (см. упра.жиеи ие 7.19):
474 ГЛАВА 7. РАЗРЕЖЕННЫЕ ЯДЕРНЫЕ МЕТОДЫ

__!_(w•) 2
+1- _ _!_L. =0. (7.115)
2 1
2а.1 2 11

Определив у;= 1- ~L;; и выполняя перестановку, получим формулу

(7.116)

идентичную формуле уточнения (7.87), полученной для регрессии RVМ.


Если мы определим

t=Фw· +в- 1 (t-у), (7.117)


то сможем записать приближенную логарифмическую функцию маргинального
правдоподобия в виде

Inp( tia) = -~{Nln(2tr) + InlCI + (t)т c-•t}, (7.118)

где

С=В+ФАФт. (7.119)
Эта матрица имеет ту же форму, что и (7.85) в случае регрессии, поэтому можем
применить тот же анализ разреженности и получить тот же алгоритм быстрого
обучения, в котором мы полностью оптимизируем один гиперпараметр ~ на
каждом шаге.

На рис. 7.12 продемонстрировано применение метода релевантных векторов


к искусственному множеству данных. Мы видим, что релевантные векторы, как
правило, не лежат в области границы решения, в отличие от метода опорных
векторов. Это согласуется с предыдущим обсуждением разреженности в методе
RVМ, поскольку базисная функция ф;(х), центрированная в точке данных вблизи
границы, будет соответствовать вектору tp;, который плохо согласован с векто­
ром обучающих данных t.
Одним из потенциальных преимуществ метода релевантных векторов по
сравнению с SVM является то, что он дает вероятностные прогнозы. Например,
это позволяет использовать RVМ, чтобы помочь построить плотность излучения
в нелинейном расширении линейной динамической системы (см. раздел 13.3)
для отслеживания граней в видеопоследовательностях (Williams et а/., 2005). До
сих пор мы рассматривали RVM для задач бинарной классификации. Для К> 2
классов мы снова используем вероятностный подход из раздела 4.3.4, в котором
существуют К линейных моделей вида

(7.120)
7.2. Метод релевантных векторов 475

которые в сочетании с функцией softmax дают такие результаты:


Yk(x)= exp(ak). (7.121)
Iexp( а1 )
j

)(
)( )( " )(

2 )( )( \ 2
)(
)(
11<

)(
о )(
о

-2 -2

-2 о 2 -2 о 2

Рис. 7.12. Пример применения метода релевантных векторов к искусственному набору

данных, в котором на левом графике показана граница решения и точки данных вместе с

релевантными векторами, обозначенными кружочками. Сравнение с результатами,

приведенными на рис. 7.4 для соответствующего метода опорных векторов, показывает,

что R VM дает намного более разреженную мод ель. Правый график показывает

апостериорную вероятность , заданную выходом RVM, в которой доля красного (синего)

цвета указывает вероятность того, что эта точка принадлежит красному (синему) классу

В таком случае логарифмическая функция правдоподобия задается формулой

N К

lnp(Tjw1, •• "wк) =ППУ~'t, (7.122)


n=I k=I

где целевые значения tnk каждой точки исходных данных п закодированы по

схеме 1 из К, аТ - матрица с элементами tnk· Как и в предыдущих случаях, для


оптимизации гиперпараметров можно использовать аппроксимацию Лапласа

(Tipping, 2001), в которой модель и ее матрица Гессе вычисляются с помощью


метода IRLS. Это создает более принципиальный подход к классификации мно­
гих классов по сравнению с попарным методом, используемым в методе опор­

ных векторов, а также дает вероятностные прогнозы для новых точек. Основным
недостатком является то, что матрица Гессе имеет размер МК х МК, где М - ко­

личество активных базисных функций, что дает дополнительный коэффи­


циент К3 в вычислительной стоимости обучения по сравнению с двухклассовым
методом RVМ.
476 ГЛАВА 7. РАЗРЕЖЕННЫЕ ЯДЕРНЫЕ МЕТОДЫ

Основным недостатком метода релевантных векторов является относительно


долгое время обучения по сравнению с SVМ. Однако это компенсируется отсут­
ствием сеансов перекрестной проверки для определения параметров сложности
модели. Кроме того, поскольку этот метод дает более разреженные модели, вре­
мя вычисления на тестовых точках, которое обычно более важно на практике,
как правило, намного меньше. чем у метода SVМ.

Упражнения

7.1. (**) WWW Предположим, у нас есть множество входных векторов {хп} с со­
ответствующими целевыми значениями tn Е {-1, 1} и мы моделируем

плотность входных векторов в каждом классе отдельно, используя плот­

ность ядра Парзена (см. разде.r1 2.5.1) с ядром k(x, х'). Сформулируйте
правило принятия решения с минимальным уровнем ошибок, предполагая,
что два класса имеют одинаковую вероятность. Покажите, что если ядро
выбрано в виде k(x, х') = хтх', то правило классификации сводится к про­
стому присвоению нового входного вектора классу, имеющему самое

близкое математическое ожидание. Наконец, покажите, что если ядро име­


ет вид k(x, х') = ф(х)тф(х'), то классификация основана на самом близком
математическом ожидании в пространстве признаков ф(х).
7.2. (*)Покажите, что если единицу в правой части ограничения (7.5) заменить
некоторой произвольной постоянной у> О, то гиперплоскость с макси­
мальным зазором не изменится.

7.3. (**)Покажите, что независимо от размерности исходного пространства


для определения местоположения гиперплоскости с максимальным зазо­

ром достаточно множества, состоящего всего из двух точек, по одной от

каждого класса.

7.4. (**) WWW Покажите, что ширина максимального зазора р определяется вы­
ражением

1 N
-2 =Lan, (7.123)
р n=I

где числа {ап} определяются с помощью максимизации (7.10) с учетом


ограничений (7.11) и (7.12).
7.5. (**) Покажите, что значения р и {ап} в предыдущем упражнении также
удовлетворяют условию
Упражнения 477

~= 2L(a), (7.124)
р

где функция L(а) определяется формулой (7.1 О). Аналогичным образом


покажите, что

(7.125)

7.6. (*)Рассмотрим модель логистической регрессии с целевой переменной


t е {-1, 1}. Покажите, что, если мы определим p(t = llY) = а(у), где у(х)
задается формулой (7.1), отрицательный логарифм правдоподобия с до­
бавлением квадратичного члена регуляризации примет вид (7.47).
7.7. (*)Рассмотрим лагранжиан (7.56) для регрессионного метода опорных век­
торов. Приравняв к нулю производные лагранжиана по w, Ь, qn и ~п , а затем
выполнив обратную подстановку для исключения соответствующих пере­
менных, покажите, что двойственный лагранжиан задается формулой (7.61).
7.8. (*) WWW Для регрессионного метода опорных векторов, рассмотренного
в разделе 7.1.4, покажите, что все точки обучающих данных, для которых
qn > О, удовлетворяют условию ап = С, и аналогично, все точки, для кото­
рых ~п > о, удовлетворяют условию ап > с.
7.9. (*) Проверьте результаты (7.82) и (7.83) для математического ожидания
и ковариационной матрицы апостериорного распределения по весам в ре­
грессионном методе R VМ.
7.10. (**) WWW Выведите результат (7.85) для маргинального правдоподобия
в регрессионном методе RVM, выполнив интегрирование нормального
распределения по w в (7.84) с помощью выделения полного квадрата в
экспоненте.

7.11. (**)Повторите вышеуказанное упражнение, но на этот раз используя об­


щий результат (2.115).
7.12. (**) WWW Покажите, что прямая максимизация логарифмической функции
маргинального правдоподобия (7 .85) для регрессионного метода реле­
вантных векторов приводит к уравнениям уточнения гиперпараметров

(7.87) и (7.88), где У; определяется по формуле (7.89).


7.13. (**) Анализируя регрессионный RVМ, мы получили формулы уточнения
гиперпараметров (7.87) и (7.88) путем максимизации маргинального прав­
доподобия, заданного формулой (7.85). Расширьте этот подход, включив
априорные распределения гиперпараметров, заданные гамма-распре-
478 ГЛАВА 7. РАЗРЕЖЕННЫЕ ЯДЕРНЫЕ МЕТОДЫ

делениями вида (Б.26), и получите соответствующие формулы уточнения


для а и Р, максимизируя соответствующую апостериорную вероятность
p(t, а, Р 1 Х) по а и р.

7.14. (**)Выведите результат (7.90) для прогностического распределения в ре­


грессионном методе релевантных векторов. Покажите, что прогностиче­
ская дисперсия задается формулой (7.91).
7.15. (**) WWW Используя результаты (7.94) и (7.95), покажите, что маргиналь­
ное правдоподобие (7.85) можно записать в виде (7.96), где Л(а,,) опреде­
ляется формулой (7.97), а коэффициенты разреженности и качества опре­
деляются формулами (7.98) и (7.99) соответственно.

7.16. (*)Вычислив вторую производную логарифмической функции марги­


нального правдоподобия (7.97) для регрессионного метода RVМ относи­
тельно гиперпараметра а;, покажите, что стационарная точка, заданная

формулой (7.1О1 ), является максимумом маргинального правдоподобия.

7.17. (**)Используя (7.83) и


(7.86) вместе с матричным тождеством (В.7), по­
кажите, что величины Sn и Qm определенные формулами (7.102) и (7.103),
можно записать в виде (7.106) и (7.107).

7.18. (*) WWW Покажите, что вектор градиента и матрица Гессе логарифма апо­
стериорного распределения (7 .109) в методе релевантных векторов для
классификации задаются формулами (7 .11 О) и (7 .111 ).
7.19. (**)Убедитесь, что максимизация аппроксимации маргинального правдо­
подобия (7.114) в методе релевантных векторов для классификации при­
водит к результату (7.116) для уточнения гиперпараметров.
8

Теория вероятностей играет центральную роль в современном распознавании


образов. В главе 1 говорилось о том, что теорию вероятностей можно выразить с
помощью двух простых формул: правил сложения и умножения вероятностей.
Все вероятностные выводы и процедуры, обсуждаемые в этой книге, независимо
от того, насколько они сложны, представляют собой применение этих двух фор­

мул. Следовательно, формулировку и работу со сложными вероятностными мо­


делями можно было бы свести исключительно к алгебраическим операциям .
Однако мы можем очень существенно углубить анализ, используя диаграммные
представления вероятностных распределений, называемые графовыми вероят­
ностными моделями. Они обладают несколькими полезными свойствами.

1. Предоставляют простой способ визуализации структуры вероятностной


модели и могут использоваться для проектирования и обоснования новых
моделей.
480 ГЛАВА 8. ГРАФОВЫЕ МОДЕЛИ

2. Анализ свойств модели, включая свойства условной независимости, мож­

но получить путем проверки графа.

3. Сложные вычисления, необходимые для выполнения вывода и обучения


сложных моделей, можно выразить в терминах манипуляций с графами, в
которые соответствующие математические выражения переносятся неявно.

Граф состоит из узлов (также называемых вершинами), соединенных связями


(также называемыми ребрами или дугами). В графовой вероятностной модели
каждый узел представляет случайную величину (или группу случайных величин),
а связи выражают вероятностные отношения между ними. Граф фиксирует способ
разложения совместного распределения по всем случайным величинам на произ­

ведение множителей, каждый из которых зависит только от подмножества пере­


менных. Мы начнем с обсуждения байесовских сетей, также известных как ори­
ентированные графовые модели, в которых связи графов имеют определенную
ориентацию, обозначенную стрелками. Другим основным классом графовых мо­
делей являются марковские случайные поля, также известные как неориентиро­
ванные графовые модели, в которых связи не имеют стрелок и ориентации. Ориен­
тированные графы полезны для выражения причинно-следственных связей между
случайными величинами, тогда как неориентированные лучше подходят для вы­
ражения мягких ограничений между случайными величинами. Для решения про­
блем вывода часто бывает удобно преобразовать как ориентированные, так и не­
ориентированные графы в другое представление, назьmаемое фактор-графом.
В этой главе мы сосредоточимся на ключевых аспектах графовых моделей,
необходимых для приложений в области распознавании образов и машинного
обучения. Более общие методы обработки графовых моделей можно найти в
книгах Whittaker (1990), Lauritzen (1996), Jensen (1996), Castillo et а/. (1997),
Jordan (1999), Cowell et а/. (1999) и Jordan (2007).

8.1. Байесовские сети


Для того чтобы обосновать использование ориентированных графов для опи­
сания распределений вероятностей, сначала рассмотрим произвольное совмест­

ное распределение р(а, Ь, с) трех переменных: а, Ь и с. Обратите внимание на то,


что на данном этапе не нужно указывать что-либо еще об этих переменных,
например, являются ли они дискретными или непрерывными. Действительно,
одним из мощных аспектов графовых моделей является то, что конкретный граф
может формулировать вероятностные утверждения для широкого класса распре-
8.1. Байесовские сети 481

делений. Применяя правило умножения вероятностей ( 1.11 ), можем записать

совместное распределение в виде

р(а, Ь, с)= p(cla, Ь)р(а, Ь). (8.1)

Второе применение правила умножения вероятностей, на этот раз ко второму


слагаемому в правой части (8.1 ), дает:
р(а, Ь, с)= p(cla, b)p(bla)p(a). (8.2)

Заметим, что это разложение выполняется для любого выбора совместного рас­
пределения. Теперь мы представим правую часть (8.2) в терминах простой гра­

фовой модели следующим образом. Сначала введем узел для каждой из случай­
ных величин а, Ь и с и сопоставим каждый узел с соответствующим условным
распределением в правой части (8.2). Затем для каждого условного распределе­
ния добавим в граф ориентированные связи (стрелки) из узлов, соответствую­
щих переменным, на которых распределены вероятности . Таким образом, мно­
жителю p(cla, Ь) будут соответствовать связи, идущие из узлов а и Ь в узел с, то­
гда как множителю р(а) не будет соответствовать ни одна входящая связь. Ре­
зультатом является граф, показанный на рис. 8.1. Если существует связь, идущая
от узла а к узлу Ь, то мы говорим, что узел а является родительским по отноше­
нию к узлу Ь, а узел Ь - дочерним по отношению к узлу а. Обратите внимание
на то, что мы не будем делать никакого формального различия между узлом и
случайной величиной, которой он соответствует, и будем использовать для
ссылки на них один и тот же символ.

Рис. 8.1. Ориентированная графовая модель совместного

распределения вероятностей по трем переменным , а , Ь и с ,

соответствующая разл ожению в правой части (8 .2)

Интересной особенностью формулы (8.2) является то, что левая часть сим­
метрична относительно трех переменных, а, Ь и с, тогда как правая часть - нет.
Действительно, при разложении в (8.2) мы неявно выбрали конкретный порядок,
а именно а, Ь, с, и если бы мы выбрали другой порядок, то получили бы другое
482 ГЛАВА 8. ГРАФОВЫЕ МОДЕЛИ

разложение и, следовательно, другое графовое представление. Мы вернемся к


этому вопросу позже.

Расширим пример, приведенный на рис. 8.1, рассмотрев совместное распре­


деление р(х 1 , "., хк) по К переменным. При повторном применении правила
умножения вероятностей это совместное распределение можно записать как
произведение условных распределений, по одному для каждой из переменных:

(8.3)
Для конкретного выбора К мы можем снова представить это распределение как
ориентированный граф, содержащий К узлов, по одному для каждого условного
распределения в правой части (8.3), причем каждый узел имеет входящие связи
из всех узлов с меньшим номером. Мы говорим, что этот граф полный, потому
что между каждой парой узлов существует связь.
До сих пор мы работали с совершенно абстрактным совместным распределе­
нием, поэтому разложения и их представления в виде полных графов примени­
мы к любому распределению. Как мы вскоре увидим, именно отсутствие свя­
зей на графе отражает интересную информацию о свойствах класса распределе­
ний, которые представляет граф. Рассмотрим граф, показанный на рис. 8.2. Это
не полный граф, потому что, например, в нем нет связи между х 1 и х 2 или х 3 и х 1 .

Рис. 8.2. Пример ориентированного ациклического графа,

описывающего совместное распределение

по переменным х 1 , "., х 7 • Соответствующее разложение

совместного распределения задастся формулой (8.4)

Перейдем теперь от этого графа к соответствующему представлению сов­


местного распределения вероятностей, записанного как произведение условных
распределений, по одному для каждого узла в графе. Каждое такое условное
распределение будет обусловлено только родителями соответствующего узла на
8.1. Байесовские сети 483

графе. Например, узел х 5 будет обусловлен узлами х 1 и х 3 • Таким образом, сов­


местное распределение всех семи переменных задается формулой

Читатель должен внимательно изучить соответствие между (8.4) и рис. 8.2.


Теперь можно в общих чертах изложить связь между конкретным ориентиро­
ванным графом и соответствующим распределением по переменным. Совмест­
ное распределение, которое задается графом, определяется произведением
условных распределений по всем узлам при фиксированных переменных, соот­
ветствующих родителям узлов на графе. Таким образом, для графа с К узлами
совместное распределение задается формулой

р(х)= Пp(xklpak), (8.5)


k=I

где pak- множество родителей узла xk, ах= {х 1 , ".,, хк}. Эта ключевая формула
выражает свойства факторизации совместного распределения для ориентиро­

ванной графовой модели. Хотя до сих пор мы полагали, что каждый узел соот­
ветствует одной переменной, мы можем также хорошо сопоставлять множества

переменных и векторных переменных с узлами графа. Легко показать, что пред­


ставление в правой части (8.5) всегда корректно нормируется при условии нор­

мировки отдельных условных распределений (01. упраж11е11ие 8.1).


Ориентированные графы, которые мы рассматриваем, имеют важное ограни­
чение, а именно: в них не должно быть никаких ориентированных циклов, иначе
говоря, в графе не должно быть замкнутых путей, позволяющих перемещаться
от узла к узлу по связям, следующим по направлению стрелок, и вернуться к ис­

ходному узлу. Такие графы называются также ориентированными ациклически­


ми графа.ми, или DAG (см. упра:нснение 8.2). Это эквивалентно утверждению о
том, что существует такой порядок узлов, при котором в графе нет связей, иду- ·
щих от любого узла к любому узлу с меньшим номером.

8.1.1. Пример: полиномиальная регрессия

В качестве иллюстрации использования ориентированных графов для описания


распределений вероятности рассмотрим байесовскую модель полиномиальной ре­
грессии, введенную в разделе 1.2.6. Случайными величинами в этой модели явля­
ются вектор полиномиальных коэффициентов w и наблюдаемые данные
t = (t 1, "., tN)т. Кроме того, эта модель содержит входные данные Х = (х 1 , "., хN)т,
2 v
а также дисперсию шума а и гиперпараметр а, представляющии точность нор-
484 ГЛАВА 8. ГРАФОВЫЕ МОДЕЛИ

мального априорного распределения по w, которые являются параметрами модели,

а не случайными величинами. Сфокусировавшись пока только на случайных вели­


чинах, мы видим, что их совместное распределение задается произведением апри­

орного распределенияр(w) и Nусловных распределенийр(tпlw) при п = 1, "., N, так


что

N
p(t,w)= p(w)Пp(tnlw). (8.6)
n=I

Это совместное распределение можно представить графовой моделью, пока­


занной на рис. 8.3.

Рис. 8.3. Ориентированная графовая модель,

представляющая совместное распределение (8.6),


соответствующее байесовской полиномиальной

регрессионной модели, введенной в разделе 1.2. 6

Когда мы позже будем рассматривать более сложные модели, нам будет не­
удобно записывать несколько узлов в виде t 1, ••• , tN явным образом, как на
рис. 8.3. Поэтому мы вводим графическое обозначение, позволяющее более
компактно представлять такие множества узлов, рисуя один репрезентативный

узел t" и окружая его прямоутольником, называемым платой (plate), с меткой N,


указывающей, что существует N узлов такого типа. Таким образом, перерисовы­
вая граф, представленный на рис. 8.3, получим граф, показанный на рис . 8.4.

Рис. 8.4. Альтернативное, более компактное

представление графа, показанного на рис. 8.3,


в котором мы использовали плату (поле с меткой N),
представляющую N узлов, из которых явно показан только один узел t"
8.1. Байесовские сети 485

Иногда бывает полезным явно выделить параметры модели и ее стохастиче­


ские переменные. В этом случае формула (8.6) принимает следующий вид:
N
Р( t,wlx,a,cт 2 ) =р( wla) ПР(tпlw,хп,ст 2 ).
n=l

Соответственно, мы можем явно вьщелить х и ст на графе. Для этого примем со­


глашение о том, что случайные величины будут обозначаться незакрашенными
кружочками, а детерминированные параметры - маленькими закрашенными

кружочками. Если мы возьмем граф, представленный на рис. 8.4, и включим де­


терминированные параметры, то получим граф, показанный на рис. 8.5.

а.

N
Рис. 8.5. Модель, представленная на рис . 8.4,
но с детерминированными параметрами,

изображаемыми сплошными у-тами меньшего размера

Применяя графовую модель для решения задачи машинного обучения или


распознавания образов, мы, как правило, фиксируем некоторые из случайных
величин равными конкретным наблюдаемым значениям, например, фиксируем
переменные {tn} из обучающего множества в случае аппроксимации полиноми­
альной кривой . В графовой модели мы будем обозначать такие наблюдаемые пе­
ременные с помощью закрашивания соответствующих узлов. Таким образом,

граф, представленный на рис. 8.5, в котором наблюдаются переменные {tп},


принимает вид, показанный на рис. 8.6. Заметим, что значение w не наблюдает­
ся, поэтому w является примером латентной переменной, также известной как
скрытая переменная . Такие переменные играют решающую роль во многих ве­
роятностных моделях и будут в центре внимания глав 9 и 12.
Наблюдая значения {tп}, мы можем при желании вычислить апостериорное
распределение коэффициентов полинома w, как описано в разt>еле 1.2.5. Пока
отметим, что это подразумевает непосредственное применение теоремы Байеса:

N
р( wlt) ос р( W) Пp(tnlw ), (8 .7)
n=I
486 ГЛАВА 8. ГРАФОВЫЕ МОДЕЛИ

Рис. 8.6. Модель, представленная на рис. 8.5,


но с закрашенными узлами {t"}, указывающими на то,

что соответствующие случайные величины

зафиксированы на их наблюдаемых (обучающих) значениях

где мы снова опустили детерминированные параметры, чтобы сохранить обо­


значения относительно простыми.

В принципе, параметры модели, такие как w, мало интересны сами по себе,


потому что наша конечная цель - прогнозы для новых входных значений.

Предположим, нам дано новое входное значение х и мы хотим найти соответ­


ствующее распределение вероятности для i, обусловленное наблюдаемыми
данными. Графовая модель, описывающая эту задачу, показана на рис. 8.7, а со­
ответствующее совместное распределение всех случайных величин в этой моде­
ли, обусловленное детерминированными параметрами, задается формулой

p(i, t, wlx,x,a,a 2) =[ !]р(tп lхп, w,a2 ) ]Р( wla )p(ilx, w,a2 ). (8.8)

Рис. 8.7. Модель полиномиальной регрессии, соответствующая

рис. 8.6 и показывающая новое входное значение х вместе

с соответствующим предсказанием модели t


8.1. Байесовские сети 487

Затем требуемое прогностическое распределение для t вытекает из правила

сложения вероятностей с помощью интегрирования по w, так что

p(t,lx,x, t,a,o- 2 ) ос f p(i, t, wlx,x,o- )dw,


2

где мы неявно присваиваем случайным величинам t определенные значения,


наблюдаемые в обучающем множестве данных. Детали этих вычислений обсуж­
дались в главе 3.

8.1.2. Порождающие модели

Есть много ситуаций, в которых необходимо извлечь выборку из генеральной


совокупности с заданным распределением вероятностей. Хотя подробному об­
суждению выборочных методов мы посвятим всю главу 11, здесь имеет смысл
описать один метод, называемый наследственным выбором (ancestral sampling),
что особенно актуально для графовых моделей. Рассмотрим совместное распре­
деление р(х 1 , •• " хк) К переменных, которое факторизуется согласно (8.5), в соот­
ветствии с ориентированным ациклическим графом. Будем предполагать, что
переменные упорядочены так, что между любым узлом и узлом с меньшим но­
мером нет никаких связей, иначе говоря, каждый узел имеет больший номер,
чем любой из его родителей. Наша цель- извлечь выборку х1 , •• " Хк из гене­
ральной совокупности с совместным распределением.
Для этого начинаем с узла, имеющего наименьший номер, и извлекаем выборку
из генеральной совокупности с распределением р(х 1 ), которую назовем х1 • Затем

обработаем каждый из узлов по порядку, так что для узла п мы извлекаем выборку
из генеральной совокупности с условным распределением p(xпlPCln), в котором ро­
дительские переменные бьmи зафиксированы на их выборочных значениях. Обра­
тите внимание на то, что на каждом этапе эти родительские значения всегда будут
доступными, поскольку они соответствуют узлам с меньшими номерами, которые

уже были выбраны. Методы извлечения выборок из генеральных совокупностей с


конкретными распределениями будут подробно обсуждаться в главе 11. Как толь­
ко мы выберем последнюю переменную хк, мы достигнем нашей цели и получим
выборку из генеральной совокупности с совместным распределением. Для того
чтобы получить выборку из генеральной совокупности с заданным маргинальным
распределением, соответствующим подмножеству переменных, мы извлекаем

дискретизированные значения для требуемых узлов и игнорируем выборочные


значения для остальных узлов. Например, чтобы извлечь выборку из генеральной
совокупности с распределением р(х2 , х4), выберем значения из генеральной сово-
488 ГЛАВА 8. ГРАФОВЫЕ МОДЕЛИ

купности с полным совмесп1ым распределением, а затем сохраним значения .Х2 , х4

и отбросим оставшиеся значения {хJ;t2 ,4 } •


В практических приложениях вероятностных моделей часто встречаются пе­
ременные с большими номерами, соответствующие терминальным узлам графа,

которые представляют наблюдения, причем узлы с меньшим номером соответ­


ствуют латентным переменным. Основная роль латентных переменных состоит
в том, чтобы представить сложное распределение по наблюдаемым переменным
в терминах модели, построенной из более простых условных распределений
(обычно из экспоненциального семейства) .
Мы можем интерпретировать такие модели как выражение процессов, с по­
мощью которых наблюдались данные. Например, рассмотрим задачу распозна­
вания объекта, в которой каждая наблюдаемая точка данных соответствует
изображению (содержащему вектор интенсивности пикселей) одного из объек­
тов. В этом случае латентные переменные могут интерпретироваться как поло­
жение и ориентация объекта. Наша цель - найти апостериорное распределение
по объектам, в котором мы интегрируем все возможные позиции и ориентации,
по заданному наблюдаемому изображению. Мы можем представить эту задачу,
используя графовую модель, форма которой показана на рис. 8.8.
Объект Позиция Ориентация

Изображение

Рис. 8.8. Графовая модель , представляющая процесс создания изображений о бъектов ,

в котором идентичность объекта (дискретная переменная) и положение и ориентация

этого объекта (непрерывные переменные) имеют независимые априорные вероятности .

Изображение ( вектор интенсивностей пикселей) имеет распределение вероятности ,

которое зави сит от идентичности объекта, а также от его пол ожения и ори ентации

Графовая модель фиксирует причинно-следственный процесс (Pearl, 1988), с


помощью которого были получены наблюдаемые данные. По этой причине та­
кие модели часто называют порождающими. Напротив, модель полиномиальной
регрессии, показанная на рис . 8.5, не является порождающей, поскольку в ней
нет распределения вероятности, связанного с входной переменной х, и поэтому
8.1. Байесовские сети 489

невозможно создать искусственные точки данных по этой модели. Мы могли бы


сделать ее порождающей путем введения подходящего априорного распределе­

ния р(х) за счет усложнения модели.


Однако латентные переменные в вероятностной модели не обязаны иметь ка­
кой-либо явной физической интерпретации. Их можно вводить просто для того,
чтобы построить более сложное совместное распределение из более простых
компонентов. В любом случае метод наследственного выбора, применяемый
к порождающей модели, имитирует создание наблюдаемых данных и, следова­
тельно, приводит к появлению "теоретических" данных, распределение вероят­

ностей которых (если бы модель была идеальным представлением реальности)


была бы такой же, как и наблюдаемых данных. На практике искусственные
наблюдения, полученные с помощью порождающей модели, могут оказаться
полезными для понимания формы распределения вероятности, представленного
этой моделью.

8.1.3. Дискретные переменные

Обсуждая важность распределений вероятностей, являющихся членами экс­


поненциального семейства, мы видели, что это семейство включает в себя мно­
жество известных распределений как частные случаи. Хотя такие распределения
относительно простые, они представляют собой полезные конструкции для со­
здания распределений с более сложной вероятностью (см. раздел 2.4), а графо­
вые модели очень полезны для выражения того, как взаимосвязаны эти струк­

турные блоки.
Такие модели имеют особенно хорошие свойства, если мы сделаем отноше­
ние между каждым родительским и дочерним узлом отношением смежности.

Несколько примеров такого графа будет представлено в ближайшее время. Осо­


бенно заслуживают внимания два случая: когда родительский и дочерний узлы
соответствуют дискретным переменным и когда каждый из них соответствует
нормально распределенным переменным, поскольку в этих двух случаях связь

можно распространять иерархически и построить произвольно сложные ориен­

тированные ациклические графы. Начнем с дискретного случая.


Распределение вероятности p(xlµ) для одной дискретной переменной х,
имеющей К возможных состояний (с использованием представления 1 из К), за­
дается формулой
к

p(xlµ)= пµ:• (8.9)


k=I
490 ГЛАВА 8. ГРАФОВЫЕ МОДЕЛИ

и определяется параметрамиµ= (µ 1, •• " µк)т. Благодаря ограничению Lµk = 1


для определения распределения достаточно указать К - 1 значений для µk~
Предположим теперь, что мы имеем две дискретные переменные, х 1 и х2 ,
каждая из которых имеет К состояний, и мы хотим моделировать их совместное
распределение. Обозначим вероятность наблюдения ха =1 и х21 =1 параметром
µk1, где xlk обозначает k-й компонент х 1 и аналогично для х21 • Совместное распре­
деление можно записать в виде

Поскольку параметры µk1 подчиняются ограничению LL µk1 =1 , это pac-


k 1
пределение определяется К 2 -1 параметрами. Легко видеть, что общее количе-
ство параметров, которые должны быть заданы для произвольного совместного
распределения по М переменным, равно к_М - 1 и, следовательно, растет экспо­
ненциально с количеством переменных М.
Используя правило умножения вероятностей, можем определить совместное
распределение р(х 1 , х2 ) в виде p(x2 lx 1)p(x 1), что соответствует двухузловому гра­

фу со связью, идущей от узла х 1 к узлу х 2 , как показано на рис. 8.9, а. Маргиналь­


ное распределение р(х 1 ) определяется К - 1 параметрами, как и ранее. Аналогично
условное распределение р(х2 1х 1 ) требует задания К- 1 параметра для каждого из К
возможных значений х 1 • Таким образом, общее количество параметров, которое
должно быть указано в совместном распределении, равно (К - 1) + К (К - 1) =
2
=К -1, как и ранее.

а) ХЬ---:0

Рис. 8.9. Полный граф, описывающий общее распределение по двум

дискретным переменным с К состояниями, имеющий К 2 - 1 нараметров (а).


Отбрасывая связь между узлами, мы уменьшаем количество параме1ров до 2(К - 1) (б)

Предположим теперь, что переменные х 1 и х2 независимы и соответствуют


графовой модели, показанной на рис. 8.9, б. Пусть каждая переменная описыва­
ется отдельным мультиномиальным распределением, и общее количество пара­
метров равно 2(К - 1). Для распределения по М независимых дискретных пере­
менных, каждая из которых имеет К состояний, общее количество параметров
8.1. Байесовские сети 491

равно М(К-1) и поэтому линейно растет с ростом количества переменных. Ис­


пользуя графовую модель, мы уменьшили количество параметров, отбросив свя­
зи в графе за счет ограничения класса распределений.
В более общем случае, если мы имеем М дискретных переменных х 1 , ".,хм,
можно моделировать совмесnюе распределение с использованием ориентирован­

ного графа с одной переменной, соответствующей каждому узлу. Условное рас­


пределение на каждом узле задается набором неотрицательных параметров, под­
чиненных обычному нормировочному ограничению. Если граф полный, то мы
имеем полное общее распределение, имеющее Км - 1 параметров, а если в графе
совсем нет связей, то совмесnюе распределение факторизуется в произведение
маргинальных распределений и общее количество параметров равно М(К - 1).
Графы, имеющие промежуточные уровни связности, позволяют использовать бо­
лее общие распределения, чем полностью факторизованные, при этом требуя
меньше параметров, чем общее совместное распределение. В качестве иллюстра­
ции рассмотрим цепочку узлов, показанную на рис. 8.10. Дm1 маргинального рас­

пределения р(х 1 ) требуется К - 1 параметров, тогда как каждое из М - 1 условных


распределений p(x;lx;_ 1), где i = 2, ... , М, требует К(К-1) параметров. Это дает
общее количество параметров, равное К-1 + (M- l)K(K-1), которое квадратич­
но по К и растет линейно (а не экспоненциально) с увеличением длины цепочки М.

Рис. 8.1 О. Данная цепочка из М дискретных узлов, каждая ю которых имеет К

состоя11ий , требует 3ада11ия К - 1 + (М -- 1)К(К - 1) параметров. Это количество линейно

растет с увел ичени ем дл ины цени М. На11ротив , 1юJ 111ый граф из М узлов имел бы Км - 1
параметров, которые э кс1ю11снциш1ыю растут с увеличением М

Альтернативный способ уменьшить количество независимых параметров в мо­


дели - это разделение (sharing) параметров (также известное как связывание
(tying) параметров). Например, в цепи, показанной на рис.8.10, мы можем сделать
так, чтобы все условные распределения р(х 1 1хн), где i = 2, ... , М, управлялись од­
ним и тем же набором из К(К-1) параметров. Вместе с К - 1 параметрами, опре­
деляющими распределение х 1 , это дает общее количество К 2 -1 параметров, ко­
торые должны быть указаны для определения совместного распределения.
Введя априорное распределение Дирихле для параметров, мы можем превра­
тить граф по дискретным переменным в байесовскую модель. С точки зрения
теории графов после этого каждый узел приобретает дополнительный родитель-
492 ГЛАВА 8. ГР АФОВЫЕ МОДЕЛИ

ский узел, представляющий распределение Дирихле по параметрам, связанным с


соответствующим дискретным узлом. Это иллюстрируется цепной моделью, по­
казанной на рис. 8.11. Соответствующая модель, в которой мы связываем пара­

метры, определяющие условные распределения р(х;lхн), где i = 2, "" М, показа­


на на рис. 8.12.

Рис. 8.11. Расширение модсшr, 11оказанной на рис . 8.1О , для включения апр иорных

распределений Дирихле по парам етрам, определяющим дискретные распределения

Рис. 8.12. Модель с рис. 8.11 , но с одним на бором параметровµ ,

разделяемым среди всех у словных распределений p(x; lx , 1)

Другим способом контроля экспоненциального роста количества параметров


в моделях дискретных переменных является использование параметризованных

моделей для условных распределений вместо полных таблиц условных значений


вероятности. Чтобы проиллюстрировать эту идею, рассмотрим граф, показан­
ный на рис. 8.13, в котором все узлы представляют двоичные переменные. Каж­
дая из родительских переменных Х; определяется одним параметром µ;, пред­

ставляющим вероятность р(х; = 1), создавая в целом М параметров для родитель-


м
ских узлов. Однако условное распределение p(ylx 1, ""хм) потребует 2
м
параметров, представляющих вероятность р(у = 1) для каждого из 2 возможных
значений родительских переменных. Таким образом, в общем случае количество
параметров, необходимых для указания этого условного распределения, будет
экспоненциально расти с увеличением числа М. Мы можем получить более эко-
8.1. Байесовскне сети 493

номную форму для условного распределения с использованием логистической


сиrмоиды (см. раздел 2.4), действующей на линейную комбинацию исходных
переменных:

(8.10)

где функция а(а) = (1 + ехр(-а))- 1 - логистическая сиrмоида, х = (х0, х1 , ••• , хм)т -


является (М + 1)-мерный вектор родительских состояний, дополненных переменной
х0, значение которой фиксируется равным единице, а w = (w0, w1, ••• , wм)т - вектор,
состоящий из М + 1 параметров. Это более ограниченная форма условного распре­
деления, чем общий случай, но теперь она определяется рядом параметров, JШней­
но растущих с увеличением М. В этом смысле она аналогична выбору ограничи­
тельной формы ковариационной матрицы (например, диагональной) в многомер­
ном нормальном распределении. Обоснование логистического сигмоидального
представления обсуждалась в разделе 4.2.

Рис. 8.13. Граф, содержащий М родительских узлов х 1 , •.• ,хм

и один дочерний узел у, используемый для иллюстрации идеи

параметризованных условных распределений для дискретных переменных

8.1.4. Линейно-rауссовские модели

В предыдущем разделе мы узнали, как построить совместные распределения

вероятностей по набору дискретных переменных, выражая переменные как узлы


в направленном ациклическом графе. Здесь мы покажем, как многомерное нор­
мальное распределение можно представить в виде ориентированного графа, со­
ответствующего линейно-гауссовской модели по компонентным переменным.

Это позволяет нам наложить на распределение интересную структуру, причем


общий случай нормального распределения и вариант нормального распределе­
ния с диагональной ковариационной матрицей представляют собой две проти­
воположности. Примерами линейно-гауссовских моделей являются несколько
широко используемых методов, таких как вероятностный метод главных компо-
494 ГЛАВА 8. ГР АФОВЪIЕ МОДЕЛИ

нентов, факторный анализ и линейные динамические системы (Roweis and


Ghahramani, 1999). Мы будем интенсивно использовать результаты настоящего
раздела в последующих главах, когда будем подробно рассматривать некоторые

из этих методов.

Рассмотрим произвольный ориентированный ациклический граф из D пере­


менных, в котором узел i представляет собой одну непрерывную случайную пе­
ременную Х;, имеющую нормальное распределение. Математическое ожидание
этого распределения выражается как линейная комбинация состояний родитель­
ских узлов ра; узла i:

(8.11)

где wii и Ь; - параметры, определяющие математическое ожидание; v; - дис­


персия условного распределения для Х;. Логарифм совместного распределения
представляет собой логарифм произведения этих условных распределений по
всем узлам графа и, следовательно, принимает вид

D
lnp(x) = Llnp(x;jpa;) = (8.12)
i=I

(8.13)

где х = (х 1 , "., хv)т и const обозначает члены, не зависящие от х. Мы видим, что


это квадратичная функция от компонентов х, и, следовательно, совместное рас­
пределение р(х) является многомерным нормальным распределением.

Мы можем рекурсивно определить математическое ожидание и ковариаци­


онную матрицу совместного распределения следующим образом. Каждая пере­
менная Х; имеет нормальное распределение вида (8.11) при фиксированных со­
стояниях их родительских узлов, следовательно,

х1 = L wiixJ + Ь; +-F:ci>
jepa 1
(8.14)

где &1 - случайная величина, имеющая нормальное распределение с нулевым


математическим ожиданием и единичной дисперсией, удовлетворяющая усло­

виям JE[c;] =О и
JE[&;&;] = lu, где lu - элемент i,j единичной матрицы. Учитывая
математическое ожидание (8.14), имеем:
8.1. Байесовские сети 495

Е[ х;] = L wuE[ х1 J+ Ь;. (8.15)


jepa1

Таким образом, мы можем найти компоненты Щх] = (Щх 1 ], •• " Щхп])т, начи­
ная с наименьшего пронумерованного узла и рекурсивно обходя граф (здесь мы
снова предполагаем, что узлы пронумерованы так, что каждый имеет больший
номер, чем его родители). Аналогично мы можем использовать (8.14) и (8.15),
чтобы получить элемент i,j ковариационной матрицы для р(х) в виде рекур­
рентного соотношения

cov[ Х;,х1 J= Е[ (Х; -Е[х; ])( х1 -Е[ х1 ]) J=

=Е[(х; -Е[х;]){ L w1k(x1: -E[x1:])+~s1 }]=


kepa 1
(8.16)

= L w11;cov[x;.xk]+Iuv1,
kepa 1

и поэтому ковариацию можно аналогичным образом вычислять рекурсивно,


начиная с наименьшего пронумерованного узла.

Рассмотрим два крайних случая. Прежде всего предположим, что в графе нет
связей, т.е. он состоит из D изолированных узлов. В этом случае нет параметров

w!i, поэтому существуют только D параметров Ь; и D параметров V;. Из рекур­


рентных соотношений (8.15) и (8.16) видно, что математическое ожидание р(х)
задается формулой (Ь 1 , •• " Ьп)т, а ковариационная матрица имеет диагональный
вид diag(v 1, "" vп). Совместное распределение имеет в общей сложности 2D па­
раметров и представляет собой множество, состоящее из D независимых одно­

мерных нормальных распределений.


Теперь рассмотрим полный граф, в котором каждый узел имеет все младшие
нумерованные узлы в качестве родительских. Тогда матрица wiJ имеет i-1 элемен­
тов в i-й строке и, следовательно, является нижней треугольной матрицей (без
элементов на главной диагонали). Тогда общее количество параметров wiJ вы-
2
числяется так: из количества элементов в матрице D х D, которое равно D , вы-

читаем D, поскольку на главной диагонали нет элементов, а затем делим на два,

потому что матрица содержит элементы только ниже главной диагонали. В итоге

получаем D(D - 1) / 2. Таким образом, общее количество независимых парамет­


ров {w;;} и {v;} в ковариационной матрице равно D(D + 1)/2, что соответствует
общему случаю симметричной ковариационной матрицы (см. раздел 2.3).
496 ГЛАВА 8. ГРАФОВЫЕ МОДЕЛИ

Графы, имеющие некоторый промежуточный уровень сложности, соответ­


ствуют совместным нормальным распределениям с частично ограниченными

ковариационными матрицами. Рассмотрим, например, граф, показанный на


рис. 8.14, который не содержит связи между переменными х 1 и х3 • Используя ре­
куррентные соотношения (8.15) и (8.16), мы видим, что математическое ожида­
ние и ковариационная матрица совместного распределения определяются по

формуле (см. упраж11е11ие 8. 7)

(8.17)

V1 Wz1V1 W3zW21V1

1:.= Wz1V1
2
Vz + Wz1V1 W32 ( Vz + w;\
V1) (8.18)

W32W21V1 W32 ( Vz + w;\ V1) v3 + w;


2 ( v2 + w; 1v 1 )

Рис. 8.14. Ориентированный граф, построенный по трем

нормально распределенным переменным с одной отсутствующей связью

Мы можем легко расширить линейно-гауссовскую графовую модель на слу­


чай, когда узлы графа представляют собой многомерные нормально распреде­
ленные переменные. В этом случае можно записать условное распределение для

узла i в виде

(8.19)

где Wu - матрица (которая не является квадратной, если Х; и х1 имеют разные


размерности). Как и прежде, легко проверить, что совместное распределение по

всем переменным является нормальным.

Заметим, что мы уже столкнулись с конкретным примером линейно­


гауссовских отношений (см. раздел 2.3. 6), когда видели, что сопряженное априор­
ное распределение для математического ожидания µ нормально распределенной
переменной х само по себе является нормальным по µ Таким образом, совместное
распределение по х и µ является нормальным. Это соответствует простому

двухузловому графу, в котором узел, представляющийµ, является родительским


по отношению к узлу, представляющему х. Математическое ожидание распреде-
8.2. Условная независимость 497

ления по µ является параметром, управляющим априорным распределением, по­

этому его можно рассматривать как гиперпараметр. Поскольку значение этого ги­
перпараметра может быть неизвестно, можем снова рассматривать его с байесов­
ской точки зрения, введя априорное распределение по гиперпараметру, иногда
называемое гипераприорным, которое также является нормальным. Этот тип кон­

струкции можно расширять в принципе на любом уровне. Он является иллюстра­


цией иерархической байесовской модели, примеры которой приведены в последу­
ющих главах.

8.2. Условная независимость

Важным понятием, связанным с распределениями вероятностей по несколь­

ким переменным, является понятие условной независимости (Dawid, 1980). Рас­


смотрим три переменные, а, Ь и с, и предположим, что условное распределение
а при фиксированных Ь и с не зависит от Ь, так что

p(aib, с)= p(aic). (8.20)

Мы говорим, что а условно не зависит от Ь при условии с. Это можно выра­


зить несколько иначе, если рассмотреть совместное распределение а и Ь при
условии с, которое можно записать в виде

р(а, bic) = p(alb, c)p(bic) =


= p(alc)p(bic), (8.21)

где мы использовали правило умножения вероятностей вместе с (8.20). Таким

образом, совместное распределение а и Ь при условии с факторизуется в произ­


ведение маргинального распределения а и маргинального распределения Ь

(опять же оба при условии с). Это говорит о том, что переменные а и Ь статисти­
чески независимы при фиксированном с. Заметим, что наше определение услов­
ной независимости потребует, чтобы условия (8.20), или эквивалентно (8.21),
выполнялись для любого возможного значения с, а не только для некоторых его
значений. Иногда мы будем использовать сокращенное обозначение условной
независимости (Dawid, 1979), в котором выражение

allblc (8.22)

означает, что а условно не зависит от Ь при условии с, и эквивалентно (8.20).


Условная независимость играет важную роль в использовании вероятностных
моделей распознавания образов, позволяя упрощать как структуру модели, так и
498 ГЛАВА 8. ГРАФОВЫЕ МОДЕЛИ

вычисления, необходимые для логического вывода и обучения в рамках этой


модели. Примеры его использования будут вскоре представлены.
Если дано выражение для совместного распределения по набору переменных
в терминах произведения условных распределений (т.е. математическое пред­
ставление, в основе которого лежит ориентированный граф), то можно в прин­
ципе проверить, сохраняется ли какое-либо свойство потенциальной условной
независимости, путем повторного применения правил сложения и умножения

вероятностей. На практике такой подход оказывается очень трудоемким. Важ­


ной и изящной особенностью графовых моделей является то, что свойство
условной независимости совместного распределения можно определить по гра­

фу, не выполняя никаких аналитических манипуляций. Для этого применяется


так называемое d-разделение, где буква d означает "ориентированное" (directed)
(Pearl, 1988). Далее мы обоснуем концепцию понятия d-разделения и дадим об­
щую формулировку его критерия. Формальное доказательство можно найти
в Lauritzen ( 1996).

8.2.1. Три примера графов

Начнем обсуждение свойств условной независимости ориентированных гра­


фов, рассмотрев три простых примера, каждый из которых включает в себя гра­
фы, имеющие только три узла. Вместе они будут обосновывать и иллюстриро­
вать ключевые концепции d-разделения. Первый из трех примеров показан на
рис. 8.15, и совместное распределение, соответствующее этому графу, легко за­
писывается с использованием общего результата (8.5):
р(а, Ь, с)= p(aic)p(blc)p(c). (8.23)

Рис. 8.15. Первый из трех примеров графов из трех нсремснных,

а, Ь и с, используемых для обсуждения свойств условной

независимости ориентированных графовых моделей

Если ни одна из переменных не наблюдается, то можем исследовать, незави­


симы ли а и Ь, маргинализируя обе части (8.23) по с:
8.2. Условная независимость 499

р(а,Ь):: LP(aic)p(blc)p(c). (8.24)


с

В общем случае это выражение не факторизуется в произведение р(а)р(Ь),


поэтому

a-Jl.-bleJ (8.25)
где 0 обозначает пустое множество, а символ _J!.. означает, что свойство условной
независимости вообще не выполняется. Конечно, это может иметь место для кон­

кретного распределения в силу конкретных числовых значений, связанных с раз­

личными условными верояпюстями, но в целом из структуры графа это не следует.


Предположим теперь, что мы делаем условием переменную с, представлен­

ную графом на рис. 8.16. Из (8.23) легко вывести условное распределение а и Ь


при условии с:

( bl ) = р(а,Ь,с) =
р а, с р(с)

= р ( al с) р ( bl с)
и получаем свойство условной независимости:

а Jl Ь 1 с.

Мы можем предоставить простую графовую интерпретацию этого результата,


рассмотрев путь от узла а до узла Ь через узел с. Говорят, что узел с по отношению
к этому пути имеет тип "хвост к хвосту", потому что он соединен с хвостами двух
стрелок, и наличие такого пути, соединяющего узлы а и Ь, делает эти узлы зави­
симыми. Однако, когда мы фиксируем значение в узле с, как на рис. 8.16, узел
блокирует путь от а до Ь и делает а и Ь (условно) независимыми.

Рис. 8.16. Граф из рис . 8.15, обусловленный значением переменной с

Аналогично рассмотрим граф, показанный на рис. 8.17. Совместное распреде­


ление, соответствующее этому графу, снова получается из общей формулы (8.5):
р(а, Ь, с)= p(a)p(cla)p(blc). (8.26)
500 ГЛАВА 8. ГРАФОВЫЕ МОДЕЛИ

Рис. 8.17. Второй из трех наших примеров графов с тремя узлами,

используемых для обоснования концепции условной независимости

для ориентированных графовых моделей

Прежде всего предположим, что ни одна из переменных не наблюдается. Как


и прежде, мы можем проверить, являются ли а и Ь независимыми, выполняя
маргинализацию по с:

р( а,Ь) =р(а) LP( cia )p(blc) =р( а )p(bla ),


с

которая в общем случае не факторизуется вр(а)р(Ь), и поэтому

(8.27)
как и прежде.

Теперь предположим, что мы фиксируем значение в узле с, как показано на


рис. 8.18. Используя теорему Байеса и (8.26), получим:

р а,
( ь')
с
=р(а,Ь,с)=
р(с)

_ p(a)p(cla)p(blc) _
- р(с) -
= p(alc)p(blc)
и поэтому снова получаем свойство условной независимости

а Jl Ь 1 с.

Рис. 8.18. Граф с рис . 8.17, обусловленный узлом с

Как и ранее, мы можем интерпретировать эти результаты графически. Гово­


рят, что узел с имеет тип "голова к хвосту" по отношению к пути от узла а до
узла Ь. Такой путь соединяет узлы а и Ь и делает их зависимыми. Если теперь
получить наблюдение с, как показано на рис. 8.18, то оно блокирует путь от а до
Ь, и поэтому мы получаем свойство условной независимости а Jl Ь 1 с.
8.2. Условная независимость 501

Наконец, рассмотрим третий из трехузловых примеров - граф, представлен­


ный на рис. 8.19. Как мы увидим, он имеет более тонкие свойства, чем два
предыдущих графа.

Рис. 8.19. Последний ю трех примеров трехузловых графов,

используемых для изучения свойств условной независимости в графовых моделях.

Этот граф имеет свойства, отличающие его от двух предыдущих

Совместное распределение можно снова записать с использованием общего


результата (8.5):
р(а, Ь, с)= p(a)p(b)p(cla, Ь). (8.28)
Рассмотрим сначала случай, когда ни одна из переменных не наблюдается.
Маргинализируя обе части (8.28) по с, получим:

р(а, Ь) = р(а)р(Ь),

поэтому а и Ь являются независимыми, если переменные не наблюдаются, в от­


личие от двух предыдущих примеров. Мы можем записать этот результат как

а ll Ь 1 0. (8.29)
Предположим теперь, что мы фиксируем значение с, как показано на
рис. 8.20. Тогда условное распределение а и Ь задается формулой

( bl) =p(a,b,c)=
р а, с р(с)

р(а )р(Ь )p(cla,b)


=-----'----'-
р (с)

которая в общем случае не факторизуется в произведение p(alc)p(blc), и поэтому

а$.. Ь 1 с.
502 ГЛАВА 8. ГРАФОВЪIЕ МОДЕЛИ

Рис. 8.20. Граф с рис. 8.19, обусловленный значением узла с. На этом графе

обусловленность значением узла с создает зависимость между узлами а и Ь

Таким образом, третий пример противоположен первым двум. Говорят, что


узел с имеет тип "голова к голове" относительно пути от а до Ь, потому что он со­
единяется с головами двух стрелок. Если узел с не наблюдается, он блокирует
путь, а переменные а и Ь становятся независимыми. Однако введение обусловлен­
ности значением узла с разблокирует путь и делает переменные а и Ь зависимыми.
Есть еще одна тонкость, связанная с этим третьим примером, которую нам
нужно рассмотреть. Сначала введем еще один термин. Мы будем говорить, что

узел у является потомком узлах, если существует путь от х до у, в котором каж­

дый шаг пути следует направлениям стрелок. Тогда можно показать, что путь

"голова к голове" будет разблокирован, если будет наблюдаться либо узел, либо
любой из его потомков (см. упражиеиие 8.10).
Таким образом, узел "хвост к хвосту" и узел "голова к хвосту" оставляют
путь разблокированным, если они не наблюдаются, и блокируют путь, если они
наблюдаются. Наоборот, узел "голова к голове" блокирует путь, если он не
наблюдается, но как только узел и/или хотя бы один из его потомков наблюдает­
ся, путь становится разблокированным.
Стоит потратить немного времени, чтобы еще глубже понять необычное по­
ведение графа, представленного на рис. 8.20. Рассмотрим конкретный пример
такого графа, соответствующий задаче с тремя бинарными случайными величи­
нами, относящимися к топливной системе автомобиля (рис. 8.21). Переменная В,
представляющая состояние аккумулятора, который либо заряжен (В = 1), либо
пуст (В = О), переменная F представляет состояние топливного бака, который
либо заполнен топливом (F = 1), либо пуст (F = О), и переменная G отражает со­
стояние электрического топливного датчика и указывает либо полный бак
(G = 1), либо пустой (G =О). Аккумулятор заряжен или пуст, и независимо от
того, заполнен топливный бак или пуст, с вероятностями
р(В =1) = 0,9;
p(F= 1) = 0,9.
8.2. Условная независимость 503

Рис. 8.21. Пример трехузлового графа, используемого для иллюстрации объяснения.

Три узла представляют состояние аккумулятора (В), состояние топливного бака (F) и

показания на электрическом топливном индикаторе (G). Подробности см. в тексте

При заданном состоянии топливного бака и аккумулятора топливный датчик


показывает, что бак полный, с вероятностями, равными

p(G = llB = 1, F= 1) = 0,8;


р( G = 1IB = 1, F = О) = 0,2;
р( G = 1IB = О, F = 1) = 0,2;
p(G = llB =О, F= О)= 0,1.

так что это довольно ненадежный датчик! Все остальные вероятности опреде­
ляются требованием, чтобы сумма вероятностей равнялась единице, поэтому мы

имеем полное описание вероятностной модели.


Пока мы не получили какие-либо данные, априорная вероятность того, что
топливный бак пуст, равна p(F= О)= 0,1. Теперь предположим, что мы смотрим
на топливный датчик и обнаруживаем, что он показывает, что бак пуст,
т.е. G = О. Это соответствует среднему графу на рис. 8.21. Мы можем использо­
вать теорему Байеса для вычисления апостериорной вероятности того, что топ­
ливный бак пуст. Сначала вычислим знаменатель для теоремы Байеса, заданный
формулой

p(G=O)= L L p(G=OIB,F)p(B)p(F)=0,315; (8.30)


Ве{О,1} Fe{O,l}

аналогично

p(F =OIG =О)= L: Р( G = 01в,F = о)р(в) =О,81. (8.31)


Ве{О,1}

Используя эти результаты, имеем

p(G-OIF-O)p(F-0)
p(G=OIF=O)= - - - =0,257. (8.32)
р( G =О)

Следовательно, p(F = 01 G = О) > p(F = О). Таким образом, если мы видим, что
топливный датчик показывает, что бак пустой, более вероятно, что бак действи-
504 ГЛАВА 8. ГРАФОВЫЕ МОДЕЛИ

тельно пуст, что соответствует нашим интуитивным ожиданиям. Далее предпо­


ложим, что мы также проверяем состояние аккумулятора и обнаруживаем, что
он не заряжен, т.е. В= О. Теперь мы наблюдали состояния как топливного дат­
чика, так и аккумулятора, как показано на правом графе на рис. 8.21. Апостери­
орная вероятность того, что топливный бак пуст, учитывая наблюдения топлив­
ного датчика и состояния аккумулятора, определяется формулой

р( G =OIB = O,F =O)p(F =0)


р ( F = 01 G = о, в = о) = L р (G=O1B=O,F ) р ( F ) - о, 111; (8.33)
Fe{O,t}

где априорная вероятность р(В = О) в числителе и знаменателе сократилась. Та­


ким образом, в результате наблюдения за состоянием аккумулятора вероятность
того, что бак пуст, уменьшилась (с 0,257 до О, 111 ). Это согласуется с нашей ин­
туицией: то, что аккумулятор пуст, объясняет то, что датчик топлива показыва­
ет пустой бак. Мы видим, что состояние топливного бака и аккумулятора дей­
ствительно становятся зависимыми в результате наблюдения за показаниями

топливного датчика. Фактически это также будет иметь место, если вместо
наблюдения за топливным датчиком непосредственно мы наблюдаем состояние
некоторого потомка G. Заметим, что вероятность p(F = О 1G = О, В = О) ~ О, 111
больше, чем априорная вероятность p(F= О)= 0,1, поскольку наблюдение за
тем, что показания топливного датчика равны нулю, все же дает некоторые сви­

детельства в пользу пустого топливного бака.

8.2.2. D-разделение

Теперь дадим общую формулировку свойства d-разделения (Pearl, 1988) для


ориентированных графов. Рассмотрим общий ориентированный граф, в котором
А, В и С - произвольные непересекающиеся множества узлов (объединение ко­
торых может быть меньше полного набора узлов на графе). Мы хотим выяснить,
следует ли конкретное утверждение об условной независимости А ll В 1 С из за­
данного ориентированного ациклического графа. Для этого рассмотрим все воз­
можные пути от любого узла А до любого узла В. Любой такой путь считается
заблокированным, если он содержит узел, такой, что

а) стрелки в этом узле встречаются либо "голова к хвосту'', либо от "хвоста к


хвосту'', и узел принадлежит множеству С или

б) стрелки в узле встречаются "голова к голове", и ни узел, ни какой-либо из


его потомков не принадлежит множеству С.
8.2. Условная независимость 505

Если все пути заблокированы, то узел А называется d-разделенным от В уз­


лом С, а совместное распределение по всем переменным в графе будет удовле­
творять условию А ll В 1С.
Концепция d-разделения показана на рис. 8.22. В графе а) путь от а до Ь не
блокируется узлом f, поскольку на этом пути он является узлом типа "хвост к
хвосту" и не наблюдается. Кроме того, он не блокируется узлом е, несмотря на
то, что последний является узлом типа "голова к голове", потому что узел е имеет
потомка с, принадлежащего множеству зафиксированных узлов. Таким образом,
утверждение об условной независимости а ll Ь 1с из этого графа не следует.
В графе б) путь от а до Ь блокируется узлом/, потому что это наблюдаемый узел
типа "хвост к хвосту", и поэтому свойство условной независимости а ll Ь 1/бу­
дет удовлетворяться любым распределением, которое факторизуется в соответ­
ствии с этим графом. Обратите внимание на то, что этот путь также блокируется
узлом е, поскольку он является узлом типа "голова к голове", и ни он, ни его по­
томок не находится в множестве зафиксированных узлов.

а) б)

Рис. 8.22. Концепция d-разделсния. Подробности см. в тексте

2
С точки зрения d-разделения такие параметры, как а и а на рис. 8.5, обозна-
ченные маленькими закрашенными кружочками, ведут себя так же, как наблю­
даемые узлы. Тем не менее не существует никаких маргинальных распределе­

ний, связанных с такими узлами. Следовательно, узлы параметров никогда не


имеют родителей, поэтому все пути через эти узлы всегда будут иметь тип
"хвост к хвосту" и, следовательно будут блокированы. Следовательно, они не
играют никакой роли в d-разделении.
Другим примером условной независимости и d-разделения является концепция
независимых одинаково распределенных данных, введенная в разделе 1.2.4. Рас­

смотрим задачу нахождения апостериорного распределения для математического

ожидания одномерного нормального распределения (см. раздел 2.3). Его можно


представить в виде ориентированного графа, показанного на рис. 8.23, в котором
506 ГЛАВА 8. ГРАФОВЫЕ МОДЕЛИ

совместное распределение определяется априорным распределением р(µ) и набо­


ром условных распределений р(хпlµ) для п = 1, .." N. На практике мы наблюдаем
множество значений D= {х 1 , ••• , xN}, и наша цель - вьшести µ. Предположим, мы
зафиксировали µ и рассмотрим совместное распределение наблюдений. Используя
d-разделение, отмеmм, что существует единственный пуrь от любого Х; до любого
другого х1 *; и что этот пуrь имеет тип "хвост к хвосту" относительно наблюдаемо­
го узлаµ. Каждый такой пуrь блокируется, поэтому наблюдения D = {х 1 , ••• ,хн}
являются независимыми при заданном µ, так что
N
Р ( VI µ) = ПР (хп 1µ ). (8.34)
n=I

N
а) б)

Рис. 8.23. Ориентированный граф, соответству ющий задаче о выводе

математического ожидания µодномерного нормального распределения из наблюдений

х 1 , .. . , xN (а) . Тот же граф , нарисованный с и спол ьзованием платы (б)

Однако, если мы выполним интегрирование по µ, то наблюдения, как прави­


ло, уже не будут независимыми:

f
~ N
p(V) = p(Vlµ)p(µ )dµ * пр(х. ), (8.35)

здесь µ-латентная переменная, потому что ее значение не наблюдается.


Другой пример модели, демонстрирующей независимые одинаково распре­

деленные данные, -граф на рис. 8.7, соответствующий байесовской полиноми­


альной регрессии. Здесь стохастические узлы соответствуют {ln} , w и i . Мы ви­
дим, что узел w имеет тип "хвост к хвосту" относительно пути от i к любому из
узлов tn и поэтому имеем следующее свойство условной независимости:

i Jl t. w. 1 (8.36)
8.2. Условная независимость 507

Таким образом, при фиксированных коэффициентах полинома w прогностиче­


ское распределение для i не зависит от данных обучения {t1, •• " tN}· Следова­
тельно, мы можем сначала использовать данные обучения для определения апо­
стериорного распределения по коэффициентам w, а затем отбросить обучающие
данные и использовать апостериорное распределение для w, чтобы сделать про­

гноз из раздела 3 .3 для новых входных наблюдений х .


Аналогичная структура графа возникает в подходе к классификации, называ­
емом наивной моделью Байеса, в которой мы используем предположения об
условной независимости для упрощения модели. Предположим, наша наблюда­
емая переменная состоит из D-мерного векторах= (х 1 , "" хv)т и мы хотим при­
своить наблюдаемые значения х одному из К классов. Используя схему кодиро­
вания 1 из К, можем представить эти классы посредством К-мерного бинарного
вектора z. Затем мы можем определить порождающую модель, введя мулътино­
миальное априорное распределение р( z 1µ) меток класса, где k-й компонент µk из
µявляется априорной вероятностью класса Ck вместе с условным распределени­
ем p(xlz) наблюдаемого векторах. Ключевое предположение наивной модели
Байеса состоит в том, что при фиксированном классе z распределения входных

переменных х 1 , "" xv являются независимыми. Представление этой модели в ви­


де графа показано на рис. 8.24. Мы видим, что наблюдение z блокирует путь
между Х; и х1 для j =i (потому что такие пути являются "хвостом к хвосту"
в узле z), и поэтому Х; и х1 условно независимы при условии z. Если, однако, мы

маргинализируем z (так что переменная z становится ненаблюдаемой) путь от


"хвоста к хвосту" от Х; до х1 больше не блокируется . Это говорит о том, что
в общем случае предельная плотность р(х) не будет факторизоваться по компо­
нентам х. Мы столкнулись с простым применением наивной модели Байеса
в контексте слияния данных из разных источников для медицинской диагности­
ки в разделе 1.5.

Рис. 8.24. Представление наивной байесовской модели для классификации

в виде графа. При фиксированной метке класса z компоненты наблюдаемого


т
векторах= (х 1 , ..• , х 0 ) предполагаются независимыми
508 ГЛАВА 8. ГРАФОВЫЕ МОДЕЛИ

Имея размеченное обучающее множество, содержащее входные данные


{х 1 , "., xN} вместе с их метками класса, можно настроить наивную модель Байе­
са на данные обучения с использованием метода максимального правдоподобия,
предполагая, что данные извлекаются независимо от модели. Решение получает­

ся путем настройки модели для каждого класса отдельно с использованием со­


ответствующих размеченных данных. В качестве примера предположим, что

плотность вероятности в каждом классе выбрана нормальной. В этом случае


наивное предположение Байеса означает, что ковариационная матрица для каж­
дого нормального распределения является диагональной, а контуры постоянной

плотности в каждом классе будут эллипсоидами, ориентированными вдоль осей.


Однако маргинальная плотность задается суперпозицией нормальных распреде­
лений с диагональной ковариационной матрицей (с весовыми коэффициентами,
определяемыми априорным распределением классов) и поэтому больше не будет
факторизоваться по отношению к его компонентам.
Наивное предположение Байеса полезно, когда размерность D исходного
пространства высока, что осложняет оценку плотности в полном D-мерном про­

странстве. Оно также полезно, если входной вектор содержит как дискретные,
так и непрерывные переменные, так как каждую из них можно представить от­

дельно с использованием соответствующих моделей (например, распределения


Бернулли для бинарных наблюдений или нормальных распределений для дей­
ствительных переменных). Условие условной независимости этой модели явно
является сильным, что может привести к довольно плохим представлениям

условных плотностей при фиксированном классе. Тем не менее, даже если это
предположение не выполняется точно, модель может по-прежнему обеспечивать
хорошую эффективность классификации на практике, поскольку границы при­
нятия решений могут оказаться нечувствительными к некоторым деталям в
условных по классу плотностях (рис. 1.27).
Мы видели, что конкретный ориентированный граф представляет собой кон­
кретное разложение совместного распределения вероятностей в произведение

условных вероятностей. Граф также выражает набор утверждений об условной


независимости, полученных с помощью критерия d-разделения, и теорема о
d-разделении действительно является выражением эквивалентности этих двух
свойств. Чтобы это было ясно, полезно подумать об ориентированном графе как
о фильтре. Предположим, мы рассматриваем конкретное совместное распреде­
ление вероятностей р(х) по переменным х, соответствующим (ненаблюдаемым)
вершинам графа. Фильтр пропускает это распределение, только и только если
его можно факторизовать по формуле (8.5) в соответствии с графом. Если мы
8.2. Условная независимость 509

представим фильтру множество всех возможных распределений р(х) множества


переменных х, то подмножество распределений, проходящих через фильтр, обо­
значается как 1JF, что означает ориентированную факторизацию (directed fac-
torization). Эта модель показана на рис. 8.25. В качестве альтернативы мы можем
использовать граф как фильтр другого типа, предварительно перечислив все
свойства условной независимости, полученные путем применения критерия d-
разделения к графу, а затем разрешим пропускать распределение, только если
оно удовлетворяет всем этим свойствам. Если представить все возможные рас­
пределения р(х) этому второму типу фильтра, то теорема о d-разделении утвер­
ждает, что множество распределений, которые будут пропущены, совпадает с
множеством 1JF. Следует подчеркнуть, что свойства условной независимости,
полученные из d-разделения, применимы к любой вероятностной модели, опи­
сываемой данным ориентированным графом. Это будет верно, например, неза­
висимо от того, являются ли переменные дискретными, или непрерывными, или

их комбинациями. Как и прежде, мы видим, что определенный граф описывает


целое семейство вероятностных распределений.

Рис. 8.25. Мы можем рассматривать графовую модель (в данном случае

ориентированный граф) как фильтр, в котором распределение вероятности р(х)

проходит через фильтр, если и тош,ко если оно удовлетворяет свойству

ориентированной факторизации (8.5). Множество всех распределений вероятности р(х),

проходящих через фильтр, обоз начается как DF. В качестве альтернативы мы можем

использовать граф для фильтрации распределений в зависимости от того , имеют ли они

все свойства условной независимости, свя :щнные с свойствами d-разделения графа .

Теорема о d-разделении утверждает, что множество распределений, которые будут

проходить через второй тин фильтра, совпадает с множеством DF

В одном их крайних случаев мы имеем полностью связный граф, который во­


обще не имеет свойств условной независимости и может представлять любое
возможное совместное распределение вероятностей по заданным переменным.

Множество 1JF будет содержать все возможные распределения р(х). В другом


крайнем случае у нас есть полностью несвязанный граф, т. е. граф, у которого
вообще нет связей . Он соответствует совместным распределениям, которые фак-
510 ГЛАВА 8. ГРАФОВЪIЕ МОДЕЛИ

торизуются в произведение маргинальных распределений по переменным, со­


держащим узлы графа.
Заметим, что для любого заданного графа множество распределений VF будет
включать в себя любые распределения, обладающие дополнительными свойст­
вами независимости, помимо тех, которые описываются графом. Например, пол­
ностью факторизованное распределение всегда будет проходить через фильтр,
подразумеваемый любым графом, состоящим из соответствующего множества пе­
ременных.

Мы заканчиваем обсуждение свойств условной независимости, исследуя поня­


тие марковского покрытия, или марковской границы. Рассмотрим совместное рас­
пределение р(х 1 , •.• , xv), представленное ориентированным графом, имеющим D
узлов, и рассмотрим условное распределение конкретного узла с переменными Х;,

обусловленными всеми остальными переменными х1*;. Используя свойство факто­


ризации (8.5), это условное распределение можно выразить в виде

в котором в случае дискретных переменных интеграл заменяется суммированием.

Заметим теперь, что любой сомножитель p(xklPak), не имеющий никакой функ­


циональной зависимости от Х;, можно вынести за пределы интеграла по Х; и, сле­
довательно, сократить в числителе и знаменателе. Единственными остающимися

факторами будут условное распределение p(x;lpa;) для самого узла Х; вместе с


условными распределениями для любых узлов хь относительно которых узел Х;
принадлежит множеству узлов с условными распределениями p(xklPak), иначе го­
воря, для которого Х; является родительским элементом xk. Условное распределе­
ние p(x;lpa;) будет зависеть от родительских узлов узла Х;, тогда как условные
распределения p(xklPak) будут зависеть от дочерних узлов узлах;, а также от со­
родительских узлов, иначе говоря, переменных, соответствующих родительским
узлам узла xk и не совпадающих с узлом Х;. Множество узлов, содержащих роди­

тельские, дочерние и сородительские узлы, называется марковским покрытием

(рис. 8.26). Мы можем думать о марковском покрьпии узла Х; как о минимальном


множестве узлов, которые изолируют Х; от остальной части графа. Обратите вни­
мание на то, что недостаточно включить в это множество только родительские и
8.3. Марковские случайные поля 511

дочерние узлы узла Х;, потому что феномен объяснения означает, что наблюдения
дочерних узлов не будут блокировать пути к сородителям. Следовательно, мы
должны также наблюдать сородительские узлы.

Рис. 8.26. Марковское покрытие узла х, содержит набор родительских,

дочерний и сородительских узлов . Он обладает тем свойством, что условное

распределение Х;, обусловленное всеми остальными переменными в графе,

зависит только от переменных, принадлежащих марковскому покрытию

8.3. Марковские случайные поля


Мы видели, что ориентированные графовые модели определяют факторизацию
совместного распределения по набору переменных в виде произведения локаль­
ных условных распределений. Они также определяют набор свойств условной не­
зависимости, которым должно обладать любое распределение, которое факторизу­
ется согласно графу. Перейдем теперь ко второму главному классу графовых мо­
делей, которые описываются неориентированными графами. И это снова приводит
нас как к факторизации, так и к набору отношений условной независимости.
Марковское случайное поле, также известное как марковская сеть или неориен­
тированная графовая модель (Kindeпnann and Snell, 1980), имеет набор узлов,

каждый из которых соответствует переменной или группе переменных, а также


набор связей, каждая из которых соединяет пару узлов. Связи не ориентированы,
т.е. не имеют стрелок. В случае неориентированных графов удобно начать с об­
суждения свойств условной независимости.

8.3.1. Свойства условной независимости

В случае ориентированных графов можно было проверить, выполняется ли


конкретное свойство условной независимости, применяя графовый тест, называ­
емый d-разделением (см. раздел 8.2). Это включало проверку блокировки путей,
соединяющих два набора узлов. Однако определение блокировки бьmо несколь-
512 ГЛАВА 8. ГРАФОВЪIЕ МОДЕЛИ

ко тонким из-за наличия путей, имеющих узлы типа "голова к голове". Может

возникнуть вопрос : можно ли определить альтернативную графовую семантику


для распределений вероятности, чтобы условная независимость определялась
простым разделением графов? Ответ на этот вопрос дают неориентированные
графовые модели. Устраняя асимметрию из связей графа, мы устраняем асим­
метрию между родительскими и дочерним узлами, и поэтому сложности, свя­

занные с узлами типа "голова к голове", больше не возникают.


Предположим, в неориентированном графе мы идентифщщруем три множества
узлов, обозначенных А, В и С, и рассмотрим условие условной независимости

AJlBI С. (8.37)
Чтобы проверить, обладает ли этим свойством распределение вероятности,
определенное графом, рассмотрим все возможные пути, соединяющие узлы в
множестве А с узлами в множестве В. Если все такие пути проходят через один
или несколько узлов в множестве С, тогда все такие пути блокируются и сохра­
няется свойство условной независимости. Однако, если существует хотя бы
один такой путь, который не блокируется, свойство не обязательно выполняется,
или, точнее, будут существовать по крайней мере некоторые распределения, со­
ответствующие графу, которые не обладают свойством условной независимости.
Это иллюстрируется примером, показанным на рис . 8.27. Обратите внимание,
что он похож на критерий d-разделения, за исключением того, что в нем нет
"эффекта объяснения". Таким образом, проверять условную независимость в не­
ориентированных графах проще, чем в ориентированных.

Рис. 8.27. Пример неориентированного графа, в котором каждый пуrь от любого

узла в множестве А до любого узла в множестве В проходит по крайней мере через один

узел в множестве С. Следовательно , свойство условной независимости А l.l.. BI С

выполняется для любого распределения вероятностей, описываемого этим графом


8.3. Марковские случайные поля 513

Существует альтернативный способ интерпретации теста условной независи­


мости. Мысленно удалите из графа все узлы, содержащиеся во множестве С,
вместе с любыми связями, которые соединяются с этими узлами. Затем проверь­
те, существует ли путь, соединяющий любой узел из множества А с любым уз­
лом из множества В. Если таких путей нет, тогда свойство условной независи­
мости должно выполняться.

Марковское покрытие для неориентированного графа принимает особенно


простую форму, поскольку узел будет условно независим от всех других узлов,
обусловленных только соседними узлами, как показано на рис. 8.28.

Рис. 8.28. Для неориентированного графа марковское покрытие узлах;

состоит из множества соседних узлов. Он обладает тем свойством, что условное

распределение Х;, обусловленное всеми остальными переменными в графе, зависит

только от переменных, содержащихся в марковском покрытии

8.3.2. Свойства факторизации

Теперь попробуем сформулировать правило факторизации для неориентиро­


ванных графов, которое будет соответствовать вышеупомянутому тесту услов­
ной независимости. Как и прежде, это будет связано с выражением совместного
распределения р(х) в виде произведения функций, определенных на множествах
переменных, которые являются локальными для графа. Поэтому необходимо
решить, какое понятие локальности уместно в данном случае.

Если мы рассмотрим два узла, Х; и х1 , которые не соединены связью, то эти


переменные должны быть условно независимыми, учитывая все остальные узлы
в графе. Это следует из того, что между двумя узлами нет прямого пути и все
остальные пути проходят через наблюдаемые узлы, и, следовательно, эти пути
блокируются. Это свойство условной независимости можно выразить как

(8.38)

где х \{i. jJ обозначает множество всех переменных х с удш~енными узлами xi и xj.


Следовательно, факторизация совместного распределения должна быть такой,
что Х; и xj не появляются в одном и том же множителе, чтобы свойство условной
514 ГЛАВА 8. ГРАФОВЪIЕ МОДЕЛИ

независимости сохранялось для всех возможных распределений, принадлежа­

щих графу.
Это приводит к рассмотрению графового понятия, называемого кликой, которая
определяется как подмножество узлов в графе, такое, что между всеми парами уз­
лов в этом подмножестве существует связь. Иначе говоря, множество узлов в кли­
ке является полносвязнъ1м. Кроме того, максимш~ьная клика - это клика, в кото­
рую невозможно включить любые другие узлы из графа так, чтобы она не пере­
ставала быть кликой. Эти понятия шшюстрируются неориентированным графом
из четырех переменных, показанных на рис. 8.29. Этот граф имеет пять клик из
двух узлов, заданных множествами {х 1 , х2 }, {х 2 , х3 }, {х3 , Х4}, {х4 , х2 } и {х 1 , х3 }, а
также две максимальные клики, заданные множествами {х 1 , х2 , х3 } и {хъ х3 , х4 }.
Множество {х 1 , Хъ х3 , х4 } не является кликой из-за отсутствия связи между х 1 и х4 .

Рис. 8.29. Четырехуровневый неориентированный граф, содержащий ю1ику

(обоз11аченную зелс11ым цветом) и максима.J1ы1ую клику (обозначенную си11им цветом)

Таким образом, мы можем определить факторы разложения совместного рас­


пределения как функции, зависящие от переменных, входящих в клики. Факти­
чески, не теряя общности, мы можем рассматривать функции максимальных
клик, потому что другие клики должны быть подмножествами максимальных
клик. Следовательно, если {х 1 , х2 , х3 } является максимальной кликой и мы опре­
деляем произвольную функцию на этой клике, включение другого фактора,

определенного над подмножеством этих переменных, будет излишним.


Обозначим клику через С, а множество переменных, входящих в эту кли­

ку, - через Хе. Тогда совместное распределение записывается как произведение


функции потенциш~а l/lc(xc) на максимальных кликах графа:
1
p(x)=-Пlfc(xc)· (8.39)
z с

Здесь величина Z, иногда называемая функцией разделения, является константой


нормировки и дается выражением
8.3. Марковские случайные поля 515

х с

обеспечивающим правильное нормирование распределения р(х), заданного

формулой (8.39). Рассматривая только функции потенциала, которые удовлетво­


ряют условию l/fc(xc) ~ О, мы гарантируем, что р(х) ~ О. В (8.40) мы предполо­
жили, что х может быть дискретной переменной, но описанный выше подход
так же применим и к непрерывным переменным или комбинации дискретных и
непрерывных переменных, в которой суммирование заменяется соответствую­
щей комбинацией суммирования и интегрирования.
Заметим, что мы не ограничиваем выбор функций потенциала теми, которые
имеют конкретную вероятностную интерпретацию как маргинальные или

условные распределения. Это контрастирует с ориентированными графами, в


которых каждый фактор представляет собой условное распределение соответ­
ствующей переменной, обусловленное состоянием его родительских узлов. Од­
нако в особых случаях, например, когда неориентированный граф строится на
основе ориентированного, как мы вскоре увидим, функции потенциала могут
действительно иметь такую интерпретацию.
Одним из последствий универсальности функций потенциала l/fc(xc) являет­
ся то, что их произведение, вообще говоря, не будет правильно нормированным.
Следовательно, мы должны ввести явный коэффициент нормировки, заданный
формулой (8.40). Напомним, что для ориентированных графов совместное рас­
пределение автоматически нормировалось как следствие нормированности каж­

дого из условных распределений в факторизации.


Наличие этой константы нормировки является одним из основных ограничений
неориентированных графов. Если у нас есть модель с М дискретными узлами,
каждый из которых имеет К состояний, то вычисление нормализующего члена
м
включает суммирование по К состояниям и, следовательно (в худшем случае),
экспоненциально зависит от размера модели. Функция разбиения необходима для
обучения параметров, поскольку она является функцией любых параметров, кото­
рые управляют функциями потенциала l/fc(Xc). Однако для вычисления локаль­
ных условных распределений функция разбиения не нужна, поскольку условное
отношение является отношением двух маргинальных распределений, при вычис­
лении которого функция разбиения в числителе и знаменателе сокращается. Ана­
логично, вычисляя локальные маргинальные вероятности, мы можем работать с
ненормированным совместным распределением, а затем нормировать маргиналь­

ные распределения явным образом в самом конце. Если маргинальные распреде­


ления включают только небольшое число переменных, вычисление их коэффици­
ента нормировки будет вполне осуществимо.
516 ГЛАВА 8. ГРАФОВЫЕ МОДЕЛИ

До сих пор мы обсуждали понятие условной независимости на основе про­


стого разделения графов и предложили факторизацию совместного распределе­
ния, которое должно соответствовать этой структуре условной независимости.

Однако мы не установили никакой формальной связи между условной независи­


мостью и факторизацией для неориентированных графов. Для этого нам нужно
ограничить внимание строго положительными функциями потенциала l/fc(xc)
(т.е. функциями потенциала, которые никогда не равны нулю или являются от­

рицательными при любом выборе хе). Учитывая это ограничение, мы можем


установить точную связь между факторизацией и условной интерпретацией гра­
фовой модели как фильтра, соответствующего рис. 8.25. Рассмотрим множество
всех возможных распределений, определенных на фиксированном множестве
переменных, соответствующих узлам конкретного неориентированного графа.
Мы можем определить UI как множество распределений, согласованных с мно­
жеством утверждений об условной независимости, которые можно считать из
графа с использованием его разделения. Аналогично мы можем определить U:F
как множество таких распределений, которое можно выразить как факториза­
цию вида(8.39) относительно максимальных клик графа. В теореме Хаммерсли­
Клиффорда (Clifford, 1990) утверждается, что множества UI и U:F идентичны.
Поскольку мы ограничены функциями потенциала, которые являются строго
положительными, удобно выразить их как экспоненты, так что

lf"c(xc) = ехр{-Е(хс)}, (8.41)


где Е(хс) называется функцией энергии, а экспоненциальное представление -
распределением Больцмана. Совместное распределение определяется как произ­
ведение потенциалов, поэтому полная энергия получается путем суммирования

энергий каждой из максимальных клик.

В отличие от факторов совместного распределения для ориентированного

графа потенциалы в неориентированном графе не имеют конкретной вероят­


ностной интерпретации. Хотя это дает большую гибкость при выборе функций
потенциала за счет отсутствия ограничения нормировки, возникает вопрос о

том, как обосновать выбор функции потенциала для конкретного приложения.


Это можно сделать, рассматривая функцию потенциала как способ определения,
какие конфигурации локальных переменных предпочтительнее других. Гло­
бальные конфигурации, имеющие относительно высокую вероятность, - это те,
которые обеспечивают хороший баланс влияний (возможно, противоречивых)
потенциалов клики. Обратимся теперь к конкретному примеру, чтобы проиллю­
стрировать использование неориентированных графов.
8.3. Марковские случайные поля 517

8.3.3. Иллюстрация: удаление шума из изображения


Мы можем проиллюстрировать применение неориентированных графов, ис­
пользуя пример удаления шума из бинарного изображения (Besag, 1974; Geman
and Geman, 1984; Besag, 1986). Хотя это очень простой пример, он типичен для
более сложных приложений. Пусть наблюдаемое зашумленное изображение
описывается массивом бинарных значений пиксел ей У; Е {-1, + 1}, где индекс
i = 1, "., D пробегает все пиксели. Предположим, изображение получено из неиз­
вестного незашумленного изображения, описываемого бинарными значениями
пикселей х; Е {-1, +1} путем случайной инверсии знака пикселей с небольшой
вероятностью. Пример двоичного изображения вместе с изображением, которое
было искажено путем изменения знака пикселей на противоположный с вероят­
ностью 10%, приведен на рис. 8.30. Наша цель- восстановить исходное изоб­
ражение без шумов по заданному зашумленному изображению.

Рис. 8.30. Удаление шума с изображения с исполиованием марковского случайного поля.

В верхнем ряду показаны исходное бинарное изображение (слева)

и искаженное изображение после случайного изменения 10% пикселей (справа).

В нижнем ряду показаны восстановленные изображения, полученные с использованием

метода последовательных условных мод (Itcrated Conditional Modes - ICM) (слева)

и алгоритма разреза графа (справа). Алгоритм !СМ создает изображение, в котором 96%
пикселей согласуются с исходным изображением, тогда как соответствующий показатель

для алгоритма разреза графа составляет 99%


518 ГЛАВА 8. ГРАФОВЪIЕ МОДЕЛИ

Поскольку уровень шума невелик, мы знаем, что будет существовать сильная


корреляция между переменными Х; и у;. Мы также знаем, что соседние пиксели Х;
и xj в изображении сильно коррелированы. Это предварительное знание можно
отразить с помощью марковской модели случайного поля, неориентированный
граф которой показан на рис. 8.31. Этот граф имеет два типа клик, каждая из ко­
торых содержит две переменные. Клики вида {х;, у;} имеют ассоциированную с
ними функцию энергии, которая выражает корреляцию между этими перемен­
ными. Выберем очень простую функцию энергии для этих клик в виде -17х;у;,
где 77- положительная постоянная. Это приводит к желаемому эффекту, давая
более низкую энергию (тем самым поощряя более высокую вероятность), когда
Х; и у; имеют один и тот же знак, и более высокую энергию, когда они имеют
противоположный знак.
Остальные клики содержат пары переменных {х;, xj}, где i и} - индексы со­
седних пикселей. Как и прежде, мы хотим, чтобы энергия была ниже, когда пиксе­
ли имеют один и тот же знак, чем когда они имеют противоположный знак, и по­
этому выбираем энергию, заданную выражением -/Jx;xj, где Р- положительная
константа.

Рис. 8.31. Неориеmированная графовая модель, представляющая марковское случайное

поле для удаления шума с изображения, в котором х, представляет собой бинарную пере­

менную, обозначающую состояние пикселя i в неизвестном изображении без шума, а Yi

обозначает соответствующее значение пикселя iв наблюдаемом изображении с шумом

Поскольку функция потенциала является произвольной неотрицательной


функцией на максимальной клике, мы можем умножить ее на любые неотрица­
тельные функции подмножеств клики или, что эквивалентно, добавить соответ­
ствующие энергии. В этом примере это позволяет добавить дополнительный
член hx; для каждого пикселя i в изображение без шума. Такой член смещает мо-
8.3. Марковские случайные поля 519

делъ в сторону пикселей, которые имеют один конкретный знак, делая ее пред­

почтительнее модели, в которой пиксели имеют разные знаки.


В таком случае полная энергетическая функция для модели принимает вид

(8.42)

Она определяет совместное распределение по х и у, заданное формулой

1
р(х,у) =-ехр{-Е(х,у)}. (8.43)
z
Затем фиксируем элементы у на наблюдаемых значениях, заданных пикселя­
ми изображения с шумом, которые неявно определяют условное распределение
p(xly) изображений без шума. Это пример модели Изинга, которая широко изу­
чалась в статистической физике. Для восстановления изображения мы хотим
найти изображение х, имеющее высокую вероятность (в идеале максимальную).
Для этого будем использовать простой итерационный метод, называемый мето­
дом последовательных условных мод, или !СМ (Кittler и Fбglein, 1984), который
является вариантом метода покоординатного градиентного подъема. Идея со­

стоит в том, чтобы сначала инициализировать переменные {х;}, просто присвоив


Х; =у; для всех i. Затем необходимо поочередно перебирать один узел xj за дру­
гим и вычислять полную энергию для двух возможных состояний xj = +1 и
xj = -1, фиксируя все остальные переменные узла, и устанавливать значение xj в
зависимости от того, какое из состояний имеет более низкую энергию. Это либо
оставит вероятность неизменной, если xj не изменится, либо увеличит ее. По­
скольку изменяется только одна переменная, это простое локальное вычисление,

которое можно выполнить эффективно (см. упра.нс11е11ие 8.13). Затем эта проце­
дура повторяется для другого узла и так далее до тех пор, пока не будет выпол­
нен подходящий критерий остановки. Узлы могут изменяться как систематиче­
ски, например, путем повторного сканирования растра по изображению, так и
путем выбора в случайном порядке.
Если у нас есть последовательность изменений, в которых каждый узел по­

сещается хотя бы один раз и в которых не происходит никаких изменений пере­


менных, то по определению алгоритм будет сходиться к локальному максимуму
вероятности. Однако он не обязательно является глобальным максимумом.
Для простой иллюстрации мы зафиксировали параметры, равные /J= 1,0, 17= 2,1
и h =О. Условие h =О означает, что априорные вероятности двух состояний Х; рав­
ны. Начиная с наблюдаемого изображения с шумом в качестве начальной конфи-
520 ГЛАВА 8. ГРАФОВЫЕ МОДЕЛИ

гурации, мы выполняем алгоритм ICM, пока он не сойдется к изображению без


шума, показанному на левой нижней панели рис. 8.30. Заметим, что если мы за­

дадим Р= О, что означает удаление связей между соседними пикселями, то гло­


бальное наиболее вероятное решение будет задаваться равенством Х; =у; для всех i,
что соответствует наблюдаемому изображению с шумом (см. упрОJ1Снение 8.14).
Позже мы обсудим более эффективный алгоритм поиска решений, имеющих
высокую вероятность, называемый алгоритмом max-sum (см. раздел 8.4), кото­
рый обычно приводит к лучшим решениям, хотя он не гарантирует нахождение
глобального максимума апостериорного распределения. Однако для некоторых
классов моделей, в том числе и для данных, приведенных в (8.42), существуют

эффективные алгоритмы, основанные на графах, которые гарантируют нахож­


дение глобального максимума (Greig et а/" 1989; Boykov et а/" 2001; Kolmogorov
and ZaЬih, 2004). На правой нижней панели рис. 8.30 показан результат приме­
нения алгоритма разреза графа к проблеме устранения шума.

8.3.4. Связь с ориентированными графами

Мы представИJШ два способа представления распределений вероятностей -


с помощью ориентированных и неориентированных графов, поэтому целесооб­
разно обсудить взаимосвязи между ними. Рассмотрим сначала задачу преобразо­
вания модели, заданной с помощью ориентированного графа, в модель, заданную
неориентированным графом. В некоторых случаях это несложно, как в простом
примере, показанном на рис. 8.32. Здесь совместное распределение для ориенти­
рованного графа задается как произведение условных распределений в виде

(8.44)

Рис. 8.32. Пример орие11тированноrо графа (а)

и эквивалентный 11еориентирова11ный граф (б)

Теперь преобразуем это распределение в представление в виде неориентиро­


ванного графа, как показано на рис. 8.32. На неориентированном графе макси­
мальные клики представляют собой пары соседних узлов, поэтому, следуя фор­
муле (8.39), мы хотим написать совместное распределение в виде
8.3. Марковские случайные поля 521

Это легко сделать, заметив, что

'1'1 , 2(Х1, Xz) = p(x1)p(x2lx1),


'1'2,з(Хz, хз) = р(хзlх2),

lflN-1/V(xN-1> xN) = p(xNlxN-1),


где мы включили маргинальное распределение р(х 1 ) для первого узла в первую

функцию потенциала . Заметим, что в этом случае функция разбиения Z равна


единице.

Рассмотрим, как можно обобщить эту конструкцию, чтобы преобразовать лю­


бое распределение, заданное факторизацией по ориентированному графу, в рас­
пределение, заданное факторизацией по неориентированному графу. Это можно
сделать, если потенциалы клики неориентированного графа задаются условными
распределениями ориентированного графа. Чтобы это условие выполнялось, мы
должны убедиться, что множество переменных, которое появляется в каждом из
условных распределений, является членом хотя бы одной клики неориентирован­
ного графа. Для узлов на ориентированном графе, имеющем только один роди­
тельский узел, это достигается простой заменой ориентированной связи на неори­
ентированную. Однако для узлов в ориентированном графе, имеющих более одно­
го родительского узла, этого недостаточно. Это узлы, которые имеют пути типа
''голова к голове'', упоминавшиеся в обсуждении условной независимости. Рас­
смотрим простой ориентированный граф из четырех узлов, показанный на
рис. 8.33. Совместное распределение для ориентированного графа имеет вид

р(х) = р(х 1 )р(х2)Р(Х3)р(х41х 1 , х 2 , х3 ). (8.46)

а) б)

Рис. 8.33. Пример ориентированного графа (а)

и соответствующего неориентированного графа (б)


522 ГЛАВА 8. ГРАФОВЪIЕ МОДЕЛИ

Мы видим, что множитель p(x4 lx 1, х 2 , х 3 ) включает в себя четыре переменные,


х 1 , х 2 , х 3 и х4 , и поэтому все они должны принадлежать одной клике, если это

условное распределение должно быть поглощено потенциалом клики. Для этого


добавим дополнительные связи между всеми парами родительских узлов узла х4 •
По историческим причинам этот процесс "женитьбы родителей" называется мо­
рапизацией, а полученный неориентированный граф после удаления стрелок -
морапъным графом. Важно заметить, что моральный граф в этом примере явля­
ется полным и поэтому не обладает свойствами условной независимости, в от­
личие от исходного ориентированного графа.
Таким образом, в общем случае для преобразования ориентированного графа
в неориентированный мы сначала добавляем дополнительные неориентирован­
ные связи между всеми парами родителей для каждого узла в графе, а затем уда­
ляем стрелки на исходных связях, чтобы создать моральный граф. Затем иници­
ализируем все кликовые потенциалы морального графа значением, равным еди­
нице, и умножаем каждый условный коэффициент распределения в исходном
направленном графе на один из потенциалов клики. В результате морализации
всегда будет существовать как минимум одна максимальная клика, содержащая
все переменные в коэффициенте. Заметим, что во всех случаях функция разбие­
ния задается как Z = 1.
Процесс преобразования ориентированного графа в неориентированный иг­
рает важную роль в точных методах вывода, таких как апгоритм для дерева со­
членений (см. раздел 8.4). Преобразование из неориентированного представле­
ния в ориентированное требуется гораздо реже и в целом создает проблемы из­
за ограничений, связанных с нормировкой. Мы видели, что при переходе от ори­
ентированного представления к неориентированному пришлось отбросить неко­
торые свойства условной независимости. Конечно, мы всегда могли бы триви­
ально преобразовать любое распределение по ориентированному графу в рас­
пределение на неориентированном графе, просто используя полный
неориентированный граф. Это, однако, отбросило бы все свойства условной не­
зависимости и, следовательно, было бы бесцельным. Процесс морализации до­
бавляет минимальное количество дополнительных связей и поэтому сохраняет
максимальное количество свойств независимости.

Мы видели, что процедура определения свойств условной независимости в


ориентированных и неориентированных графах различается. Оказывается, что
эти два типа графа могут выражать различные свойства условной независимо­
сти, поэтому стоит более подробно изучить эту проблему. Для этого вернемся к
представлению конкретного (ориентированного или неориентированного) графа
8.3. Марковские случайные поля 523

в качестве фильтра (с.~н. раздел 8.2), так что множество всех возможных распре­
делений по заданным переменным можно свести к подмножеству, которое соот­
ветствует условно независимым значениям, подразумеваемым графом. Граф
называется D-картой распределения (от термина "dependency map"), если в гра­
фе отображается каждое утверждение об условной независимости, удовлетворя­
емое распределением. Таким образом, полностью несвязный граф (совершенно
без связей) будет тривиальной D-картой для любого распределения .
В качестве альтернативы можно рассмотреть конкретное распределение и
выяснить, какие графы имеют соответствующие свойства условной независимо­
сти . Если для распределения выполняется каждое утверждение об условной не­
зависимости, подразумеваемое графом, то такой граф называется !-картой этого
распределения (от термина "independence map"). Очевидно, что полный граф бу­
дет тривиальной 1-картой для любого распределения.
Если каждое свойство условной независимости распределения отражается в

графе, и наоборот, то граф называется совершенной картой этого распределе­


ния . Таким образом, совершенная карта - это и 1-карта, и D-карта.
Рассмотрим множество таких распределений, для каждого из которых суще­
ствует ориентированный граф, являющийся совершенной картой. Это множе­
ство отличается от множества всех распределений тем, что для каждого из его

распределений существует неориентированный граф, являющийся совершенной


картой. Кроме того, существуют распределения, для которых ни ориентирован­

ные, ни неориентированные графы не являются совершенной картой. Это де­


монстрируется диаграммой Венна на рис. 8.34.

Рис. 8.34. Диаграмма Венна , демонстрирующая множество всех

распределений Р по заданному множеству переменных вм есте с множеством

распределений D, которые можно представить как совершенную карту

с использованием ориентированного графа, и множеством U, которое можно

представить как совершенную карту , иснользуя неориентированный граф


524 ГЛАВА 8. ГРАФОВЫЕ МОДЕЛИ

На рис. 8.35 приведен пример ориентированного графа, являющегося совер­


шенной картой для распределения, удовлетворяющего условиям условной неза­

висимости А ll В 1 0 иА _.jL В 1 С. Не существует соответствующего неориенти­


рованного графа из тех же трех переменных, который являлся бы совершенной
картой.

Рис. 8.35. Ориентированный граф, свойства условной

независимости которОl'О 11ево·1мож110 вырюить с номощью

неориентированного графа из тех же трех переменных

И наоборот, рассмотрим неориентированный граф из четырех переменных,


показанных на рис. 8.36. Этот граф имеет свойства А _.jL В 10, С ll D 1А U В и
А ll В 1С UD. Не существует ориентированного графа с четырьмя переменны­
ми, который имел бы тот же набор свойств условной независимости.

Рис. 8.36. Неориентированный граф, свойства

условной независимости которого невозможно выра·шть

с помощью ориентированного графа с теми же переменными

Эту теорию можно последовательно распространить на графы, которые


включают как ориентированные, так и неориентированные связи и называются

цепными графами (Lauritzen and Wermuth, 1989; Frydenberg, 1990). Ориентиро­


ванные и неориентированные графы представляют собой их частные случаи.
Хотя такие графы могут представлять более широкий класс распределений, чем
либо ориентированные, либо неориентированные по отдельности, остаются рас­
пределения, для которых даже цепной граф не может обеспечить совершенную
карту. Цепные графы далее в книге не рассматриваются.
8.4. Алгоритм max-sum 525

8.4. Алгоритм max-sum


Обратимся теперь к проблеме вывода в графовых моделях, в которой некото­
рые узлы в графе зафиксированы на наблюдаемых значениях, и требуется вы­
числить апостериорные распределения одного или нескольких подмножеств

других узлов. Как мы увидим, теорию графов можно использовать как для поис­
ка эффективных алгоритмов вывода, так и для того, чтобы сделать структуру
этих алгоритмов прозрачной. В частности, мы увидим, что многие алгоритмы

можно выразить в терминах распространения локальных сообщений по графу.


В этом разделе мы сосредоточимся прежде всего на методах точного вывода, а в
главе 1О рассмотрим ряд приближенных алгоритмов вывода.
Сначала рассмотрим графовую интерпретацию теоремы Байеса. Предполо­
жим, мы разложили совместное распределение р(х, у) по двум переменным, х и
у, в произведение множителей в виде р(х, у) = p(x)p(yjx), что можно представить
ориентированным графом, показанным на рис. 8.37, а. Теперь предположим, что
мы наблюдаем значение у, показанное закрашенным узлом на рис. 8.37, б. Мар­
гинальное распределение р(х) можно рассматривать как априорное распределе­
ние по латентной переменной х, и наша цель состоит в том, чтобы вывести соот­
ветствующее апостериорное распределение по х. Используя правила сложения и
умножения вероятностей, можно вычислить вероятность

р(у)= LP(Ylx')p(x'), (8.47)


х'

которую затем можно использовать в теореме Байеса для вычисления

_ p(ylx)p(x)
р ху
( 1 )
- р(у) . (8.48)

х х х

у у у

а) б) в)

Рис. 8.37. Графическое представление теоремы Байеса. Подробности см. в тексте

Таким образом, совместное распределение теперь выражается через р(у) и


p(xjy). С точки зрения теории графов совместное распределение р(х, у) теперь
526 ГЛАВА 8. ГРАФОВЪIЕ МОДЕЛИ

представлено графом, показанным на рис. 8.37, в, в котором направление стрел­


ки изменено на обратное. Это самый простой пример проблемы вывода для гра­
фовой модели.

8.4.1. Цепочки вывода

Теперь рассмотрим более сложную задачу, связанную с цепочкой узлов,


имеющих форму, показанную на рис. 8.32. Этот пример заложит основу для об­
суждения точного вывода на более общих графах позже в этом разделе.
В частности, рассмотрим неориентированный граф, показанный на рис. 8.32, б.
Мы уже видели, что ориентированную цепочку можно преобразовать в эквива­
лентную неориентированную. Поскольку ориентированный граф не имеет узлов с
несколькими родительскими узлами, это не потребует добавления каких-либо до­
полнительных связей, а ориентированные и неориентированные версии этого графа
выражают одно и то же множество утверждений об условной независимости.
Совместное распределение для этого графа имеет вид

1
р( Х) = z lfl1,2 ( Х1 ,Х2 )lf/2,З (Х2 ,Х3) ". lfl N-1,N ( XN-1 •XN ). (8.49)

Рассмотрим конкретный случай, когда N узлов представляют собой дискрет­


ные переменные, каждая из которых имеет К состояний, и в этом случае каждая

функция потенциала lflп-i,п(Xп-I• Хп) задается таблицей К х К, поэтому совместное


2
распределение имеет (N - 1)К параметров.
Рассмотрим проблему вывода маргинального распределения р(хп) для кон­
кретного узла Хт который является частью пути вдоль цепочки. Заметим, что на
данный момент у нас нет наблюдаемых узлов. По определению требуемое мар­
гинальное распределение получается суммированием совместного распределе­

ния по всем переменным, кроме Хт так что

(8.50)

В наивной реализации мы сначала вычисляем совместное распределение, а


затем выполняем явное суммирование. Совместное распределение можно пред­
ставить в виде множества чисел, по одному для каждого возможного значения

переменной х. Поскольку существует N переменных, каждая из которых имеет


К состояний, у переменной х есть KN возможных значений. Поэтому объем вы­
числений и памяти, необходимых для хранения совместного распределения и
маргинализации для получения р(хп), экспоненциально растет с увеличением
длины цепочки N.
8.4. Алгоритм max-sum 527

Однако мы можем получить гораздо более эффективный алгоритм, используя


свойства условной независимости графовой модели. Если мы подставим фактори­
зованное выражение (8.49) для совместного распределения в (8.50), то сможем из­

менить порядок сложения и умножения, чтобы можно было вычислять требуемое


маргинальное распределение гораздо эффективнее. Рассмотрим, например, сум­
мирование по xN. Функция потенциала l/fN-i,N(xN-i,xN) является единственной

функцией, зависящей от хм поэтому мы можем сначала вьшолнитъ суммирование

(8.51)

чтобы получить функцию xN-I· Затем ее можно использовать для выполнения


суммирования по xN_ 1, которое будет включать только эту новую функцию вме­
сте с функцией потенциала l/fN-2, N-I (xN_ 2, xN_ 1), поскольку это второе и последнее
место, в котором также появляется xN-I· Точно так же суммирование по х 1 связа­
но только с потенциальной функцией l/fi, 2 (x 1, х2 ) и поэтому может выполняться
отдельно для получения функции х 2 и т.д. Поскольку каждое суммирование ис­
ключает переменную из распределения, эту процедуру можно рассматривать как

удаление узла из графа.


Если мы сгруппируем функции потенциала и суммы вместе таким образом,
то можем выразить искомую маргинальную функцию в виде
1
р(хп) = Z

[L 'llп-1,n Хп-1 •Хп) ".[L 1/12,з ( Х2' Хз )[Ll//1,2 (Х1 ,Х2


Xn-1
(
Xz Х1
)]] ".]

µа(хп)

[L lflп,n+I (хп
Xn+I
,Xn+l )".[Ll/f
XN
N-1,N ( XN-1 •XN ): ".]. (8.52)

µр(хп)

Читателю рекомендуется внимательно изучить эту процедуру, так как ее ос­


новная идея составляет основу для более позднего обсуждения общего алгоритма
sum-product. Здесь ключевая идея, которую мы используем, заключается в том,
что умножение является дистрибутивной операцией относительно сложения

аЬ +ас= а(Ь +с), (8.53)

где левая сторона включает в себя три арифметические операции, а правая -


только две.
528 ГЛАВА 8. ГРАФОВЫЕ МОДЕЛИ

Теперь оценим вычислительные затраты, необходимые для получения требуе­


мого маргинального распределения, используя это переупорядоченное выражение.

Нам нужно выполнить N - 1 операций суммирования, каждая из которых выпол­


няется над К состояниями и включает функцию двух переменных. Например,
суммирование по х 1 включает в себя только функцию f//1,2(x 1, х2), которая является
таблицей чисел К х К. Мы должны просуммировать эту таблицу по х 1 для каждого
значения х2 , и поэтому сложность этой операции имеет порядок О(К 2 ). Получен­
ный вектор, состоящий из К, умножается на матрицу чисел f//2 ,3 (х 2 , х3 ), а значит,
эта операция тоже имеет сложность О(К 2 ). Поскольку мы должны выполнить N -
1 суммирование и умножение такого рода, общая сложность вычислений марги­
нального распределения р(хп) составит O(NK 2). Эта оценка является линейной по
длине цепочки, в отличие от оценки вычислительной сложности наивного подхо­

да. Таким образом, мы смогли использовать множество свойств условной незави­


симости этого простого графа, чтобы получить эффективные вычисления. Если бы
граф бьm полным и не обладал свойствами условной независимости, мы были бы
вынуждены работать непосредственно с полным совместным распределением.

Теперь мы даем полную интерпретацию этих вычислений в терминах про­


хождения локальных сообщений по графу. Из формулы (8.52) видно, что выра­
жение для маргинального распределения р(хп) разлагается в произведение двух
факторов, умноженное на константу нормировки:

(8.54)

Мы будем интерпретировать µа(Хп) как сообщение, переданное вперед по цепоч­


ке от узла Xn-I до узла Хп· Аналогично µр(хп) можно рассматривать как сообще­
ние, переданное назад по цепочке в узел Хп из узла Хп+ 1• Обратите внимание на то,
что каждое из сообщений содержит набор значений К, по одному для каждого
выбора хт и поэтому произведение двух сообщений должно интерпретироваться
как поточечное произведение элементов этих двух сообщений, чтобы получить
другой набор из К значений.
Сообщение µр(хп) можно вычислить рекурсивно, потому что

(8.55)

Таким образом, сначала вычисляем


8.4. Алгоритм max-sum 529

а затем несколько раз применяем (8.55), пока не достигнем нужного узла. Обрати­

те внимание на структуру уравнения передачи сообщений. Исходящее сообщение


µа(хп) в (8.55) получается путем умножения входящего сообщения µа(Хп_ 1 ) на ло­
кальную функцию потенциала, включающую переменную узла и исходящую пе­
ременную, а затем суммирования по узлу переменной.
Аналогично сообщение µр(хп) можно вычислить рекурсивно, начиная с узла
Хн и используя формулу

(8.57)
= L lflп,n+I { Хп' Xn+I )µр {Xn+l ).
Xn+I

Эта рекурсивная передача сообщений показана на рис. 8.38. Константу норми­

ровки Z легко вычислить, суммируя правую часть (8.54) по всем состояниям Хп.

Для этой операции требует только О(К) вычислений.

Рис. 8.38. Маргинальное рас11ределс11ис р(хп) для узлах" вдоль цепочки

получается путем умножения двух сообщений µа(хп) и µр(х") с последующей

нормировкой. Эти сообщения также можно вычислять рекурсивно, передавая

сообщения на узсн х 11 с обоих концов цепочки

Графы, имеющие вид, показанный на рис. 8.38, называются цепями Маркова,

а соответствующие уравнения передачи сообщений представляют собой пример


уравнений Чепмена-Колмогорова для марковских процессов (Papoulis, 1984).
Предположим теперь, что мы хотим вычислить маргинальные распределения

р(хп) для каждого узла п Е { 1, .", N} в цепочке. Простое применение вышеуказан­


ной процедуры отдельно для каждого узла будет иметь вычислительную слож­
ность порядка O(N2К 2 ). Однако такой подход будет очень затратным с вычис­
лительной точки зрения. Например, чтобы найти р(х 1 ), необходимо передать со­
общение µр (-) из узла хн обратно в узел х 2 • Аналогично для вычисления р(х 2 )
необходимо передать сообщения µр(-) с узла хн обратно на узел х 3 . Это потребует
530 ГЛАВА 8. ГРАФОВЫЕ МОДЕЛИ

много дублированных вычислений, потому что большинство сообщений в обо­


их случаях будут идентичными.
Предположим, что вместо этого мы сначала запускаем сообщение µр(хн_ 1 ),
начиная с узла хм и распространяем соответствующие сообщения назад вплоть

до узла х 1 , а также запускаем сообщение µа(х 2 ), начиная с узла х 2 , и распростра­


няем соответствующие сообщения вперед вплоть до узла хн- Если мы сохраняем
все промежуточные сообщения на этом пути, то маргинальное распределение в
любом узле можно вычислить, применив формулу (8.54). При этом вычисли­
тельные затраты всего в два, а не в N раз больше, чем для нахождения марги­
нального распределения отдельного узла. Обратите внимание, что сообщение
прошло один раз в каждом направлении по каждой ссылке на графе. Заметим

также, что константу нормировки Z достаточно вычислить только один раз, ис­
пользуя любой удобный узел.
Если некоторые из узлов на графе являются наблюдаемыми, то соответству­
ющие переменные фиксируются на их наблюдаемых значениях и суммирование
не производится. Чтобы убедиться в этом, обратите внимание, что эффект фик­
сации переменной Хп на наблюдаемом значении хп можно выразить путем
умножения совместного распределения на (одну или несколько копий) дополни­
тельную функцию /(хп, хп ), которая принимает значение 1, если хп = хп и О в
противном случае. Одна такая функция затем может быть поглощена каждым из
потенциалов, содержащих хп. Тогда суммирование по Хп будет содержать только
одно слагаемое, в котором Хп = хп .
Предположим теперь, что мы хотим вычислить совместное распределение
р(хп_ 1 , хп) для двух соседних узлов на цепочке. Это похоже на вычисление мар­
гинального распределения для одного узла, за исключением того, что теперь

есть две переменные, которые не суммируются. Исходя из фактов, которые бу­


дут доказаны позже (с;н. упра:нс11е11ие 8.15), необходимое совместное распреде­
ление можно записать в виде

(8.58)

Таким образом, мы можем получить совместные распределения по всем набо­


рам переменных в каждой из функций потенциала сразу после завершения переда­
чи сообщений, необходимых для получения маргинальных распределений.
Это полезный результат, потому что на практике мы можем использовать па­
раметрические формы для функций потенциала клики или, что эквивалентно,
для условных распределений на ориентированном графе. Чтобы узнать парамет-
8.4. Алгоритм max-sum 531

ры этих функций потенциала в ситуациях, когда наблюдаются не все перемен­


ные, мы можем использовать ЕМ-ш~горитм, и оказывается, что локальные сов­
местные распределения клик, обусловленные любыми наблюдаемыми данными,
являются именно тем, что необходимо на этапе Е (см. главу 9). Мы рассмотрим
некоторые примеры этого подробно в главе 13.

8.4.2. Деревья
Мы видели, что точный вывод на графе, содержащем цепочку узлов, можно
эффективно выполнить за времени, линейное по количеству узлов, используя
алгоритм, который можно интерпретировать в терминах сообщений, передавае­
мых по цепочке. В более общем плане вывод можно эффективно выполнить с
использованием локального сообщения, передаваемого по более широкому
классу графов, называемых деревьями. В частности, мы в скором времени обоб­
щим вышеприведенный формализм сообщения для цепей, чтобы сформулиро­
вать ш~горитм sum-product (sum-product algorithm), который обеспечивает эф­
фективный способ для точного вывода в древовидных графах.
В случае неориентированного графа дерево определяется как граф, в котором
существует один и только один путь между любой парой узлов. Следовательно,
такие графы не имеют циклов. В случае ориентированных графов дерево опреде­
ляется таким образом, что существует один узел, называемый корнем, который не
имеет родительских узлов, а все остальные узлы имеют один родительский узел.

Если мы преобразуем направленное дерево в неориентированный граф, то увидим,


что этап морализации не будет добавлять никаких связей, поскольку все узлы
имеют не более одного родительского узла, и, как следствие, соответствующий
морализированный граф будет неориентированным деревом. Примеры неориен­
тированных и ориентированных деревьев показаны на рис. 8.39, а, б. Обратите
внимание на то, что распределение, представленное в виде ориентированного де­

рева, можно легко преобразовать в распределение, представленное неориентиро­


ванным деревом, и наоборот (см. упраж·nеиие 8.18).
Если в ориентированном графе есть узлы с более чем одним родительским
узлом, но между любыми двумя узлами остается только один путь (игнорируя
направление стрелок), то граф называется полидеревом (polytree), как показано
на рис. 8.39, в. Такой граф будет иметь более одного узла без родительских уз­
лов, и, кроме того, соответствующий морализированный неориентированный

граф будет иметь петли.


532 ГЛАВА 8. ГРАФОВЫЕ МОДЕЛИ

а) б) в)

Рис. 8.39. Примеры ;~ревовидных графов, демонстрирующие неориентированное

дерево (а), ориентированное дерево (6) и ориентированное полидсрсво (в)

8.4.3. Фактор-графы
Алгоритм sum-product, который мы опишем в следующем разделе, применя­
ется к неориентированным и ориентированным деревьям, а также к полидеревь­

ям. Его можно привести к особенно простому и универсальному виду, если вве­
сти в рассмотрение новый вид графа - фактор-граф (Frey, 1998; Kschischnang
et а/" 2001 ).
Как ориентированные, так и неориентированные графы позволяют выразить
глобальную функцию нескольких переменных как произведение множителей
над подмножествами этих переменных. Фактор-графы делают это разложение
явным, вводя в дополнение к узлам, представляющим переменные, узлы для са­

мих сомножителей. Они также позволяют более подробно описывать детали


факторизации.
Запишем совместное распределение по множеству переменных в виде произ­

ведения сомножителей:

р(х)= Пfs(x.), (8.59)

где xs обозначает подмножество переменных. Для удобства будем обозначать


отдельные переменные через х;, однако, как и ранее, они могут содержать груп­

пы переменных (таких, как векторы или матрицы). Каждый множитель.fs являет­


ся функцией соответствующего множества переменных Х 5 •
Ориентированные графы, факторизация которых определяется формулой
(8.5), представляют собой частные случаи (8.59), в которых сомножители.fs(хs)
являются локальными условными распределениями. Аналогично неориентиро­

ванные графы, заданные формулой (8.39), являются частным случаем, когда


сомножители являются функциями потенциала максимальных клик (нормиру­
ющий коэффициент 1/Z можно рассматривать как сомножитель, определенный
на пустом множестве переменных).
8.4. Алгоритм max-sum 533

В фактор-графе есть узлы (обозначенные, как обычно, кружочками) для каж­


дой переменной, участвующей в распределении, как зто было в случае ориенти­
рованных и неориентированных графов. В нем также есть дополнительные узлы
(изображаемые маленькими квадратиками) для каждого сомножителя fs(xs) в
совместном распределении . Наконец, есть неориентированные связи, соединя­
ющие каждый узел сомножителя со всеми узлами переменных, от которых зави­

сит этот множитель. Рассмотрим, например, распределение, которое выражается


в терминах факторизации:

(8 .60)

Оно может быть представлено в виде фактор-графа, показанного на рис. 8.40.


Заметим, что в нем существуют два сомножителя, fa{x 1, х2 ) и fь(х 1 , х2 ), которые
определены над одним и тем же множеством переменных. На неориентирован­
ном графе произведение двух таких сомножителей просто объединялось бы в
одну и ту же функцию потенциала клики. Аналогично сомножители fc(x 2, х3 ) и
fd(x 3) можно объединить в одну функцию потенциала по х 2 и х 3 • Тем не менее
фактор-граф сохраняет такие сомножители в явном виде и поэтому способен пе­
редавать более подробную информацию о лежащей в его основе факторизации.

Рис. 8.40. Прим ер фактор - граф а, соотв етствующего факторизации (8 .60)

Фактор-графы называются двудольными, поскольку они состоят из узлов


двух разных видов, и все звенья соединяют узлы противоположного типа. В об­
щем случае фактор-графы всегда можно представить как два ряда узлов (узлы
переменных вверху и узлы сомножителей внизу) со связями между рядами, как
показано на рис . 8.40. Однако, как мы вскоре увидим, в некоторых ситуациях

более удобными могут оказаться другие способы представления графа, напри­


мер, когда фактор-граф получается из ориентированного или неориентированно­
го графа.
Если нам дано распределение, которое выражается через неориентированный
граф, то мы можем легко преобразовать его в фактор-граф. Для этого мы создаем
534 ГЛАВА 8. ГРАФОВЫЕ МОДЕЛИ

узлы переменных, соответствующие узлам исходного неориентированного гра­

фа, а затем создаем дополнительные узлы сомножителей, соответствующие мак­


симальным кликам Xs. Затем сомножители fs(xs) устанавливаются равными
функциям потенциала клики. Обратите внимание на то, что могут существовать
несколько разных фактор-графов, соответствующих одному и тому же неориен­
тированному графу (рис. 8.41).

а) б) в)

Рис. 8.41. Неориентированный граф с единственной функцией потенциала клики

lfl(X 1, Хъ х 3 ) (а). Фактор-граф с сомножителемf{х 1 , х 2 , х 3 ) = lfl(X 1, х 2 , х 3 ), представляющий


то же распределение, что и неориентированный граф (6). Другой фактор-граф,

представляющий то же самое распределение, сомножители которого удовлетворяют

условиюfа(х 1 , х 2 , х 3 )fь(х 2 , х 3 ) = ljl(x 1, х 2 , х 3 ) (в)

Аналогично, чтобы преобразовать ориентированный граф в фактор-граф, мы со­


здаем в фактор-графе узлы переменных, соответствующие узлам ориентированно­
го графа, затем создаем узлы сомножителей, соответствующие условным распреде­
лениям, и наконец, добавляем соответствующие связи. Как и прежде, одному и то­
му же ориентированному графу могут соответствовать несколько фактор-графов.
Преобразование ориентированного графа в фактор-граф показано на рис. 8.42.

а) б) в)

Рис. 8.42. Ориентированный граф с факторизанией p(x 1)p(x2 )p(x 3 lx 1, х 2 ) (а). Фактор-граф,

представляющий то же распределение, что и ориентированный граф, сомножитель

которого удовлетворяет условиюf{х 1 , х 2 , х 3 ) = p(x 1)p(x2)p(x3lx 1, х2 ) (6). Еще один фактор­


граф, представляющий то же самое распределение с множителями.fа(х 1 ) = р(х 1 ),
.fi,(x2) = р(х2) иJ;.(х1, Xz, Х3) = р(хзlх1, Xz) (в)
8.4. Алгоритм max-sum 535

Мы уже отметили важность древовидных графов для эффективного вывода.


Если мы возьмем направленное или неориентированное дерево и преобразуем
его в фактор-граф, то результат снова будет деревом (иначе говоря, фактор-граф
не будет иметь циклов, и любые два узла будет связывать один и только один
путь). В случае ориентированного полидерева преобразование в неориентиро­
ванный граф приводит к появлению циклов из-за шага морализации, тогда как
преобразование в фактор-граф снова приводит к дереву, показанному на
рис. 8.43. Фактически при преобразовании ориентированного графа в фактор­
граф локальные циклы, возникающие из-за связей, соединяющих родительские
узлы, можно удалить, определив соответствующий сомножитель, как показано

на рис. 8.44.

а) б) в)

Рис. 8.43. Ориентированное полидерево (а). Результат преобразования полидерева в

неориентированный граф, показывающий создание циклов (6). Резул ьтат

преобразования полидерева в фактор-граф, сохраняющий древовидную структуру (в)

а) б)

Рис. 8.44. Фрагмент ориентированного графа, имеющего локальный цикл (а).

Преобразование во фрагмент фактор-графа, имеющего древовидную структуру,

в которой.f(х 1 , х2 , х3 ) = p(x 1)p(x2lx1)p(x3lx1, х2) (б)


536 ГЛАВА 8. ГРАФОВЫЕ МОДЕЛИ

Мы видели, что несколько разных фактор-графов могут представлять один и


тот же ориентированный или неориентированный граф. Это позволяет точнее
отображать вид факторизации. На рис. 8.45 приведен пример полного неориенти­
рованного графа вместе с двумя разными фактор-графами. На рис. 8.44, б, сов­
местное распределение задается общим видом р(х) = f(x 1, х2 , х3 ), а на рис. 8.44, в,
оно задается более конкретной факторизацией р(х) =fa(x 1, х 2 )fь(х 1 , x 3)fc(x2 , х3 ).
Следует подчеркнуть, что факторизация на рис. 8.44, в, не соответствует никаким
свойствам условной независимости.

8.4.4. Алгоритм sum-product


Теперь мы будем использовать фактор-граф для получения мощного класса
эффективных и точных алгоритмов вывода, применимых к древовидным гра­
фам. Здесь мы остановимся на проблеме вычисления локальных маргинальных
распределений над узлами или подмножествами узлов, что приведет нас к алго­
ритму sum-product. Позже мы модифицируем этот метод для поиска наиболее
вероятного состояния, сформулировав алгоритм max-sum.
Также мы будем предполагать, что все переменные в модели дискретны, и по­
этому маргинализация соответствует суммированию. Однако этот подход одина­
ково применим к линейно-гауссовским моделям, и в этом случае маргинализация

подразумевает интегрирование. Мы подробно рассмотрим соответствующий при­


мер, когда будем обсуждать линейные динамические системы (см. раздел 13.3).
Существует алгоритм для точного вывода на ориентированных графах без
петель, известный как алгоритм распространения доверия (Pearl, 1988;
Lauritzen, Spiegelhalter, 1988), который является частным случаем алгоритма
sum-product. Здесь мы рассматриваем только алгоритм sum-product, потому что
его проще выводить и применять. Кроме того, он носит более общий характер.
Будем считать, что исходный граф является неориентированным деревом,
или ориентированным деревом, или полидеревом, так что соответствующий
фактор-граф имеет древовидную структуру. Сначала преобразуем исходный
граф в фактор-граф, чтобы работать как с ориентированными, так и неориенти­
рованными моделями. Наша цель - использовать графы для достижения двух
целей: 1) получить эффективный, точный алгоритм вывода маргинальных рас­
пределений; 2) обеспечить эффективное распределение вычислений в ситуациях,
когда требуется несколько маргинальных распределений.
8.4. Алгоритм max-sum 537

Х3

а) б) в)

Рис. 8.45. Полный неориентированный граф (а). Два фактор-графа, каждый из которых

соответствует первому неориентированному графу (6) и (в)

Начнем с вычисления маргинального распределения р(х) для конкретного узла


переменной х. Пока будем предполагать, что все переменные являются латентны­
ми. Позже мы увидим, как модифицировать алгоритм для учета свидетельств, со­
ответствующих наблюдаемым переменным. По определению маргинальное про­
изведение получается путем суммирования совместного распределения по всем

переменным, кроме х, так что

p(x)=Lp(x), (8.61)
х\х

где х\х обозначает множество х, из которого исключена переменная х. Идея со­


стоит в том, чтобы заменить р(х) на фактор-граф (8.59), а затем поменять места­

ми суммы и произведения, получив эффективный алгоритм. Рассмотрим фраг­


мент графа, показанный на рис. 8.46, в котором древовидная структура графа
позволяет разделить сомножители в совместном распределении на группы, одна

из которых объединяет все узлы сомножителей, являющиеся соседями узла х.


Совместное распределение можно записать в виде произведения

р(х)= П F,(x,Xs), (8.62)


sene(x)

где ne(x) обозначает множество узлов сомножителей, которые являются соседя­


ми узла х, а Х, обозначает множество всех переменных в поддереве, соединен­
ных с узлом переменной х через узел сомножителей fs, а Fs(x, }(,) представляет

собой произведение всех сомножителей в группе, связанных с сомножителемfs.


Подставляя (8.62) в (8.61) и меняя местами суммы и произведения, получим:

р(х)= П [LF.(x,Xs)]=
sene(x) Х, (8.63)
= П µf,-_.x(x).
sene(x)
538 ГЛАВА 8. ГРАФОВЫЕ МОДЕЛИ

Рис. 8.46. Фрагмент фактор-графа, иллюстрирующий

вычисление маргинального распределения р(х)

Здесь мы ввели множество функций, определяемых формулой

µf,-н (х) = LF.(x,X.), (8.64)


х,

которые можно рассматривать как сообщения от узлов сомножителей fs к узлу


переменной х. Мы видим, что требуемое маргинальное распределение р(х) зада­
ется произведением всех входящих сообщений, поступающих в узел х.
Чтобы вычислить эти сообщения, снова обратимся к рис. 8.46 и отметим, что
каждый сомножитель Fs(x, Х,) описывается фактор-(под)графом, поэтому сам
может быть факторизован. В частности, можно записать:

(8.65)

где для удобства мы обозначили переменные, связанные с сомножителемfs, в до­


полнение к х, через х 1 , ••• ,хм. Эта факторизация показана на рис. 8.47. Заметим, что
{х, х 1 , ••• ,хм} - это множество переменных, от которых зависит сомножитель fs,
поэтому его также можно обозначить как xs, используя обозначение (8.59).

Рис. 8.47. Факторизация нодграфа, связанного с узлом сомножителя/;


8.4. Алгоритм max-sum 539

Подставляя (8.65) в (8.64), получим:

µf,-н(x)=L···Lfs(x,xp····xм) П [LGт(хт,Хsт)]=
х1 хм mene(/, ) \х Х,т (8.66)
= L···Lfs (х,Хр .. "Хм) П µxm---)fs (хт),
х1 хм mene(f, ) \ х

где ne(f.) обозначает множество узлов переменных, которые являются соседями


узла сомножителяfs, а ne(f.) \ х обозначает то же множество, но с удаленным уз­
лом х. Здесь мы определили следующие сообщения от узлов переменных к уз­
лам сомножителей:

µx"---)fs (хт) = L Gm (Хт ,Xsm ). (8.67)


х...,

Таким образом, мы представили два различных вида сообщений: µ1---)х(х), кото­


рые идут от узлов сомножителей к узлам переменных, и µх---)1 (х), которые идут
от узлов переменных к узлам сомножителей. В каждом случае сообщения, пе­
редаваемые по связи, всегда являются функцией переменной, связанной с узлом
переменной, к которому подключается связь.
Результат (8.66) говорит о том, что для вычисления сообщения, отправленно­
го узлом сомножителя в узел переменной вдоль соединяющей их связи, необхо­
димо вычислить произведение входящих сообщений по всем другим связям,
входящим в фактор-узел, умножить на коэффициент, связанный с этим узлом, а
затем выполнить маргинализацию по всем переменным, связанным с входящими

сообщениями (рис. 8.47). Важно отметить, что узел сомножителя может отпра­
вить сообщение в узел переменной после того, как он получил входящие сооб­
щения от всех других соседних узлов переменных.

Рис. 8.48. Вычисление сообщения , отправленного

узлом переменной в соседний узел сомножителя


540 ГЛАВА 8. ГРАФОВЫЕ МОДЕЛИ

Наконец, выведем выражение для вычисления сообщений от узлов перемен­


ных к узлам сомножителей, опять-таки, используя факторизацию (под)графа. На
рис. 8.48 видно, что член Gт(Хт, Х..т), связанный с узлом хт, задается произведе­
нием членов F1 (хт, Хiт), каждый из которых связан с одним из узлов сомножите­
лей.fz, связанным с узлом Хт (исключая узелf. ):

Gт (хт, Xsm ) = П Fz (хт, Х,т ), (8.68)


iene(xт)\fs

где произведение вычисляется по всем соседям узла хт, за исключением узла fs.
Заметим, что каждый из сомножителей F1 (хт, Хiт) представляет собой поддерево
исходного графа точно такого же типа, как и в (8.62). Подставляя (8.68) в (8.67),
получим:

µxm~f, (х)= П [LFz(xт,X1m)]=


/ene(xт)\f, Х1т (8.69)
П µft~xm (хт),
/ene(xт)\f,

где мы использовали определение (8.64) сообщений, передаваемых из узлов


сомножителей в узлы переменных. Таким образом, чтобы вычислить сообщение,
отправленное узлом переменной в соседний узел сомножителя вдоль соединяю­

щей их связи, вычисляем произведение входящих сообщений по всем другим


связям. Обратите внимание на то, что любой узел переменной, который имеет
только двух соседей, не выполняет вычислений, а просто передает сообщения
без изменений. Кроме того, мы отмечаем, что узел переменной может оmрав­
лять сообщение в узел сомножителя после того, как он получил входящие сооб­
щения от всех других соседних узлов сомножителей.

Напомним, что наша цель состоит в том, чтобы вычислить маргинальное рас­
пределение для узла переменной х и что это маргинальное распределение зада­
ется произведением входящих сообщений по всем связям, направленным в этот
узел. Каждое из этих сообщений можно вычислить рекурсивно по другим сооб­
щениям. Чтобы начать эту рекурсию, мы можем рассматривать узел х как корень
дерева и начинать с листовых узлов. Из определения (8.69) видно, что если ли­
стовой узел является узлом переменной, то сообщение, которое оно отправляет
по его единственной связи, задается формулой

(8.70)
8.4. Алгоритм max-sum 541

как показано на рис. 8.49, а. Аналогично, если листовой узел является узлом
сомножителя, то из (8.66) следует, что отправленное сообщение должно иметь вид

(8.71)
как показано на рис . 8.49, б.

µх-+/х) = 1 µ:<-+/х) = f(x)

хо-==-/ / --==ох
а) б)

Рис. 8.49. Алгоритм sum- protiuct начинается с сообщений,

отправленных листовыми узнами, которые зависят от того ,

является л и листовой узел узл ом псремсн11ой (а) или узл ом сомножителя (б)

На этом этапе стоит остановиться и сделать краткий обзор описанной выше


конкретной версии алгоритма sum-product для вычисления маргинального рас­
пределения р(х) . Он начинается с интерпретации узла переменной х как корня
фактор-графа и инициирования сообщений в листах графа с использованием
(8 .70) и (8.71). Затем этапы передачи сообщения (8.66) и (8.69) повторяются ре­
курсивно, пока сообщения не будут распространены вдоль каждой связи, а кор­
невой узел не получит сообщения от всех своих соседей. Каждый узел может
отправить сообщение в корень после получения сообщений от всех своих других
соседей. После того как корневой узел получил сообщения от всех своих сосе­
дей, требуемое маргинальное распределение можно вычислить, используя (8.63).
Мы проиллюстрируем этот процесс в ближайшее время.
Чтобы доказать, что каждый узел всегда будет получать достаточное количе­
ство сообщений, чтобы иметь возможность самому отправлять сообщения, мож­
но использовать простую индукцию. Очевидно, что для графа, содержащего
корневой узел переменной, связанный непосредственно с несколькими узлами
сомножителей, алгоритм тривиально включает отправку сообщений вида (8.71)
непосредственно из листьев в корень. Теперь представим себе процесс создания
общего графа путем поочередного добавления узлов и предположим, что для
некоторого определенного графа имеется корректный алгоритм . Когда добавля­
ется еще один узел (переменной или сомножителя), его можно подключить
только по одной связи, потому что общий граф должен оставаться деревом, и
поэтому новый узел будет листовым. Следовательно, он отправляет сообщение
узлу, с которым связан, который, в свою очередь, будет принимать все необхо­

димые ему сообщения, чтобы отправлять свое собственное сообщение в корень,


поэтому мы получили корректный алгоритм, и доказательство завершено.
542 ГЛАВА 8. ГРАФОВЪIЕ МОДЕЛИ

Предположим теперь, что мы хотим найти маргинальное распределение для


каждого узла переменной в графе. Это можно сделать, выполнив вышеуказанный
алгоритм заново для каждого такого узла. Однако это бьшо бы очень расточитель­
но, поскольку многие из требуемых вычислений бьши бы повторены. Мы можем
получить гораздо более эффективный алгоритм sum-product путем перекрытия ал­
горитмов для передачи нескольких сообщений. Произвольно выберем любой узел
(переменной или сомножителя) и назначим его корнем. Будем распространять со­
общения от листьев до корня, как и ранее. На этом этапе корневой узел получит
сообщения от всех своих соседей, поэтому он сам может отправлять сообщения
всем своим соседям. Они, в свою очередь, будут получать сообщения от всех сво­
их соседей и поэтому могут отправлять сообщения по связям, удаляющимся от
корня, и т.д. Таким образом, сообщения передаются от корня до самого листа. К
этому моменту сообщения будут передаваться в обоих направлениях по каждой
связи в графе, и каждый узел получит сообщение от всех своих соседей. Применяя
простую индукцию, легко проверить корректность этого протокола передачи со­

общений (см. упражиение 8.20). Поскольку каждый узел переменной будет по­
лучать сообщения от всех своих соседей, мы можем легко вычислить маргиналь­
ное распределение для каждой переменной на графе. Количество сообщений, ко­
торые должны бьnъ вычислены, задается удвоенным количеством связей на графе
и поэтому включает только в два раза больше вычислений, связанных с поиском
одного маргинального распределения. Для сравнения: если бы мы вьmолнили ал­
горитм sum-product отдельно для каждого узла, то количество вычислений увели­
чивалось бы квадратично в зависимости от размера графа. Обратите внимание на
то, что этот алгоритм фактически не зависит от того, какой узел бьш назначен кор­
невым, и на самом деле понятие отдельного узла, имеющего особый статус, было
введено только как удобный способ объяснить протокол передачи сообщений.
Далее предположим, что мы хотим найти маргинальные распределения p(xs),
связанные с множествами переменных, принадлежащими каждому из сомножи­

телей. Применяя аргументацию, аналогичную вышеприведенной, легко видеть,


что маргинальное распределение, связанное с сомножителем, определяется про­

изведением сообщений, поступающих в узел сомножителей, и локальным


сомножителем в этом узле (см. упраNснение 8.21):

p(xs)=fs(xs) П µx;--tf,(x;), (8.72)


iene(fs)

совершенно аналогично маргинальным распределениям в узлах переменных. Если


сомножители являются параметризованными функциями и мы хотим узнать зна­
чения параметров с помощью ЕМ-алгоритма, то эти маргинальные распределе-
8.4. Алгоритм max-sum 543

ния - именно те величины, которые нам нужно вычислить на шаге Е, как мы уви­
дим, когда будем обсуждать скрытую марковскую модель в главе 13.
Как мы видели, сообщение, отправленное узлом переменной в узел сомножи­
телей, является произведением входящих сообщений, поступающих по другим
связям. Мы можем, если захотим, представить алгоритм sum-product в несколь­
ко ином виде, исключив сообщения из узлов переменных в узлы сомножителей
и рассматривая сообщения, отправленные сомножителями. Это легче всего уви­
деть на примере, представленном на рис. 8.50. До сих пор мы пренебрегали нор­
мировкой. Если фактор-граф был получен из ориентированного графа, то сов­
местное распределение уже было правильно нормировано, и поэтому марги­
нальные распределения, полученные с помощью алгоритма sum-product, будут
правильно нормированы аналогичным образом. Однако, если бы мы начали с
неориентированного графа, то в общем случае получили бы неизвестный коэф­
фициент нормировки 1/Z. Как и в примере с простой цепью на рис. 8.38, эту
проблему легко решить, работая с ненормированной версией совместного рас­
пределения р(х), где р =jj(x)/Z. Сначала мы выполняем алгоритм sum-
product, чтобы найти соответствующие ненормированные маргинальные распре­

деления p(xi). Затем коэффициент 1/Z легко получается путем нормировки лю­

бого из этих маргинальных распределений, и это является эффективным с точки


зрения вычислений, поскольку нормировка выполняется по одной переменной, а
не по всему множеству переменных, что потребовалось бы для непосредствен­
ной нормировки р(х).

Рис. 8.50. Алгоритм sшn-product можно рассматривать исключительно в терминах

сообщений, отправленных узлами сомножителей в друтие узлы сомножителей. В этом

примере исходящее сообщение, отображаемое синей стрелкой, получается путем

перемножения всех входящих сообщений, обозначенных зелеными стрелками,

умножения результата на сомножитель fx и маргинализации по переменным х 1 и х 2


544 ГЛАВА 8. ГРАФОВЫЕ МОДЕЛИ

На данном этапе полезно рассмотреть простой пример, демонстрирующий ра­


боту алгоритма sum-product. На рис. 8.51 показан простой четырехузловой фак­
тор-граф, ненормированное совместное распределение которого дается формулой

(8.73)

Рис. 8.51 . Простой фактор-граф, ислолиусмый для иллюстрации алгоритма sum- product

Чтобы применить алгоритм sum-product к этому графу, обозначим узел х3 как


корень. В этом случае в дереве есть два листовых узла: х 1 и х4 . Начиная с листо­
вых узлов, получаем следующую последовательность из шести сообщений:

µxi-+fa (xi)=1, (8.74)


µf.-+xz (х2)= Lfa(x"x2), (8.75)
Х\

µx4-+fc (x4)=l, (8.76)

µfc-+x 2 (х2)= Lfc(x2,X4), (8.77)


Х4

µх2 -+!ь ( Х2) = µf. -+xz ( Х2 )µfc-+xz ( Х2 ), (8.78)

µfь-+хз ( Хз) =Lfь (Х2,Хз )µх2 -+fь ( Х2 ). (8.79)


xz

Направление потока этих сообщений показано на рис. 8.52. Завершив распро­


странение сообщений, можно распространять сообщения от корневого узла до
листовых узлов:

µх3-+fь ( Х3) =l, (8.80)

µ!ь-+х2 ( Х2) = Lfь (Х2 ,Х3 ), (8.81)


Х3

(8.82)
8.4. Алгоритм max-sum 545

µf.-tx 1 { Х1) =Lfa (Х1 ,Х2 )µxz-tfa ( Х2 ), (8.83)


xz

µxz-tfc ( Х2)=µ fa-tX2 ( Х2) µ fь-txz ( Х2)' (8.84)

µfc-tЧ ( Х4) =Lh (Х2 ,Х4 )µx2-tfc { Х2 ). (8.85)


xz

Рис. 8.52. Поток сообщений для алгоритма sum-product, примененного к графу,

изображенному на рис. 8.51: от листовых узлов х 1 и х 4 к корневому узлу х 3 (а);

от корневого узла к листовым узлам (6)

В каждом направлении по каждой связи прошло одно сообщение, и теперь


можно вычислить маргинальные распределения. Сначала проверим, что марги­
нальное распределение р(х 2 ) задается правильным выражением. Используя (8.63)
и подставляя сообщения, на основе приведенных выше результатов получим:

р( Х2) = µf.-н2 ( Х2 )µJь-tx2 ( Х2 )µfc-tX2 ( Х2) =

=[ Р· (х1.х2) ][~fь (х"х,)][р; (х,,х,)] =


(8.86)
=LLLfa (х1,х2)fь (х2,хз)fс (х2,х4) =

=LLL.P(x),

что и требовалось доказать.


До сих пор мы предполагали, что все переменные на графе скрыты. В боль­
шинстве практических приложений будет наблюдаться подмножество перемен­
ных, и мы хотим вычислить апостериорные распределения, обусловленные эти­
ми наблюдениями. Наблюдаемые узлы легко обрабатываются в рамках алгорит­
ма sum-product следующим образом. Предположим, мы разбиваем вектор х на
546 ГЛАВА 8. ГРАФОВЫЕ МОДЕЛИ

латентные переменные h и наблюдаемые переменные v, а наблюдаемое значе­


ние v v. Тогда мы просто умножим совместное распределение
обозначается как
р(х) на П I(v;, v;), где I(v, v) = 1, если v = v, и !( v, v) =О в противном случае.

Это прои~ведение соответствует распределению р ( h, v = v) и, следовательно,


является ненормированным вариантом р ( hl v = v) . Выполнив алгоритм sum-
product, мы можем эффективно вычислить апостериорное маргинальное распре­
деление р ( h; 1v = v) с точностью до коэффициента нормировки, значение кото­
рого можно легко найти с помощью локального вычисления. Затем любые сум­
мы по переменным в v сворачиваются в один член.

В этом разделе мы предположили, что имеем дело с дискретными перемен­

ными. Однако ни в графовом подходе, ни в вероятностном построении алгорит­


ма sum-product нет ничего специфического для дискретных переменных. Для
непрерывных переменных суммирование просто заменяется интегрированием.

Далее мы приведем пример алгоритма sum-product, применяемого к графу ли­


нейно-гауссовских переменных при рассмотрении линейных динамических си­

стем (с.'Н. раздел 13.3).

8.4.S. Алгоритм max-sum


Алгоритм sum-product позволяет эффективно вычислять маргинальное рас­
пределение над компонентными переменными по совместному распределению

р(х), выраженному как фактор-граф. Две другие типичные задачи - найти


наиболее вероятные значения переменных и величину соответствующей вероят­
ности. Их можно решить с помощью алгоритма тах-sит, который можно рас­
сматривать как приложение динамического программирования в контексте гра­
фовых моделей (Cormen et а/" 2001).
Наивным решением задачи поиска значений латентной переменной с высокой
вероятностью было бы применение алгоритма sum-product для получения мар­
гинальных распределений р(х;) для каждой переменной, а затем найти для каж-
• v
дого маргинального распределения значение Х; , которое является точкои мак-

симума маргинального распределения. Тем не менее это дало бы набор значе­


ний, которые являются наиболее вероятными по отдельности. На практике
обычно необходимо найти набор значений, которые имеют наибольшую сов­
местную вероятность, иначе говоря, вектор xmax, который максимизирует сов­
местное распределение, так что

xmax = argmaxp(x), (8.87)


х
8.4. Алгоритм max-sum 547

для которого соответствующее значение совместной вероятности задается вы­

ражением

(8.88)

вб
о щем случае вектор х
max
не совпадает с на
б
ором значении
v•
xi , что легко

показать на простом примере. Рассмотрим совместное распределение р(х, у) над


двумя бинарными переменными х, у Е {О, 1}, приведенными в табл. 8.1. Сов­
местное распределение максимизируется значениями х = 1 и у = О, что соответ­

ствует значению 0,4. Однако маргинальное распределение для р(х), полученное


суммированием по обоим значениям у, определяется равенствами р(х = О) = 0,6
и р(х = 1) = 0,4, а маргинальное распределение для у задается равенствами
р(у =О)= 0,7 и р(у = 1) = 0,3, и поэтому маргинальное распределение достигает

максимума в точке х = О и у= О, что соответствует значению 0,3 для совместного


распределения. На самом деле нетрудно привести примеры, для которых множе­

ство индивидуально наиболее вероятных значений имеет нулевую вероятность


при совместном распределении (см. ynpaJ1meщ1e 8.27).

Таблица 8. 1. Пример совместного распределения по двум бинарным пере­


менным, для которых максимум совместного распределения достигается для

разных значений переменных в отличие от максимумов двух маргинальных


распределений

х=О x=I
у=О 0,3 0,4
y=I 0,3 0,0

Итак, мы ищем эффективный алгоритм для нахождения вектора х, который


максимизирует совместное распределение р(х), что позволит получить значение
совместного распределения в точке максимума. Чтобы решить вторую из этих
задач, мы выпишем оператор max через его компоненты:

maxp(x) = max".maxp(x), (8.89)


Х Х\ Хм

где М- общее количество переменных, а затем подставим р(х), используя его


разложение на сомножители. При выводе алгоритма sum-product мы воспользо­

вались дистрибутивным законом (8.53) для умножения. Здесь мы используем


аналогичный закон для оператора max:

max(ab, ас)= а тах(Ь, с), (8.90)


548 ГЛАВА 8. ГРАФОВЫЕ МОДЕЛИ

который имеет место, если а~ О (что всегда будет иметь место для сомножите­
лей в графовой модели). Это позволяет поменять местами произведение и опера­
тор максимума.

Рассмотрим сначала простой пример цепочки узлов, описываемой (8.49). Вы­


числение максимальной вероятности можно записать как

Как и при вычислении маргинальных распределений, мы видим, что обмен


операций максимума и произведения приводит к гораздо более эффективному
вычислению и легко интерпретируется в терминах сообщений, переданных от
узла xN назад по цепочке на узел х 1 .

Подставив выражение (8.59) для разложения фактор-графа в (8.89) и снова


поменяв местами операции максимума и произведения, мы можем легко обоб­
щить этот результат на произвольные древовидные графы. Структура этого вы­
числения идентична структуре алгоритма sum-product, поэтому мы можем пере­
вести эти результаты в настоящий контекст. В частности, предположим, что мы
назначаем конкретный узел переменной корнем графа. Затем начинаем распро­
странение множества сообщений внутрь от листьев дерева к этому корню, при
этом каждый узел отправляет свое сообщение в корень после получения всех
входящих сообщений от других своих соседей. Окончательная максимизация
выполняется над произведением всех сообщений, поступающих в корневой узел,
что дает максимальное значение для р(х). Это можно назвать алгоритмом max-
product, который идентичен алгоритму sum-product, за исключением того, что
суммы заменяются операцией максимума. Обратите внимание, что на этом этапе
сообщения оmравляются из листьев в корень, но не в другом направлении.

На практике произведения множества небольших вероятностей могут приво­


дить к потере значимости, поэтому удобно работать с логарифмом совместного
распределения. Логарифм является монотонной функцией, так что если а > Ь, то
ln а > 1n Ь, и, следовательно, оператор max и функция логарифма являются взаи­
мозаменяемыми, так что

(8.91)

Дистрибутивное свойство сохраняется, потому что


8.4. Алгоритм max-sum 549

max(a + Ь, а+ с)= а+ max(b, с). (8.92)

Таким образом, логарифмирование приводит к замене произведений в алго­


ритме max-product суммами, поэтому мы получаем алгоритм max-sum. Из ре­
зультатов (8.66) и (8.69), полученных ранее для алгоритма sum-product, мы лег­
ко можем записать алгоритм max-sum в терминах передачи сообщения путем
замены сумм на максимум и произведений на суммы логарифмов:

µ1 _н(х)= тах [lnf(x,x1 "",xм )+ L µхт~f(хт)],


х1 "."хм mene(f )lx
(8.93)

µнf (х) = L
/ene(x)lf
µfi~x (х). (8.94)

Начальные сообщения, отправленные листовыми узлами, получаются по анало­


гии с (8.70) и (8.71) и задаются формулами

µx~J(x) =О, (8.95)


µ1~Ах) = lnf(x), (8.96)

тогда как в корневом узле максимальную вероятность можно вычислить по ана­

логии с (8.63), используя формулу

(8.97)

До сих пор мы видели, как найти максимум совместного распределения, рас­


пространяя сообщения от листьев до произвольно выбранного корневого узла.
Результат будет таким же, независимо от того, какой узел выбран в качестве
корня. Теперь перейдем ко второй задаче нахождения конфигурации перемен­
ных, при которой совместное распределение достигает этого максимального
значения. До сих пор мы отправляли сообщения от листьев к корню. Процесс
вычисления (8.97) также даст значение xmax для наиболее вероятного значения
переменной корневого узла, определяемого формулой

xmax =argmax[
х
L µf,-н(х)].
sene(x)
(8.98)

На данном этапе можно просто продолжить алгоритм передачи сообщений и от­


править сообщения от корня обратно в листья, используя (8.93) и (8.94), а затем
применить (8.98) ко всем оставшимся узлам переменных. Однако, поскольку мы
550 ГЛАВА 8. ГРАФОВЫЕ МОДЕЛИ

теперь находим максимум, а не суммируем, возможно, существует несколько

конфигураций х, приводящих к максимальному значению для р(х) . В таких слу­


чаях эта стратегия может потерпеть неудачу, поскольку отдельные значения пе­

ременных, полученные путем максимизации произведения сообщений на каж­


дом узле, принадлежат к разным максимизирующим конфигурациям, что дает
общую конфигурацию, которая больше не соответствует максимуму.
Задачу можно решить путем принятия несколько иного типа сообщения, пе­
редаваемого от корневого узла к листьям. Чтобы увидеть, как это работает, вер­
немся к простому примеру цепи из N переменных х 1 , ""хм каждый из которых
имеет К состояний, соответствующих графу, показанному на рис. 8.38. Предпо­
ложим, что узел xN является корневым. Затем в первой фазе мы распространяем
сообщения из листового узла х 1 на корневой узел, используя

k = 1[J
о

k = З

п - 2 п - 1 п п +1
Рис. 8.53. Решетчатая диаграмма, явно показывающая К возможных состояний (по

одному на строку) для каждой из переменных х" в цепной модели. На этом рисунке

К= 3. Стрелка показывает направление передачи сообщения в аJiгоритме max-product.


Для каждого состояния k каждой переменной х" (соответствующей столб цу /1

диаграммы) функция ф(х") определяет единственное состояние в анриорной переменной ,

обозначенное черными линиями. Два 11ути через решетку соответствуют

конфигурациям , которые дают глобальный максимум совместно1'О распределения

вероятностей , и нюбой из них можно найти, 11росJ1едив по черным линиям в обратном

направлении по отношению к стрелке


8.4. Алrоритм max-sum 551

которые следуют из применения (8.94) и (8.93) к этому конкретному графу. Ис­


ходное сообщение, отправленное из листового узла, имеет вид

(8.99)

Тогда наиболее вероятное значение для xN задается выражением

xmax =argmax[µfN-1,N--.xN (xN )]. (8.100)


XN

Теперь нужно определить состояния предыдущих переменных, которые соответ­


ствуют одной и той же максимизирующей конфигурации. Это можно сделать, от­
слеживая, какие значения переменных приводят к максимальному состоянию каж­

дой переменной, иначе говоря, сохраняя величины, заданные формулой

Ф( хп) = argmax[ lnfп-1,n ( хп-1•хп) + µХп-1--.fп-1,п ( хп-1) ]. (8.101)


Xn-1

Для того чтобы лучше понять, что происходит, полезно представить цепочку
переменных в виде решетчатой диаграммы (lattice, или trellis), как показано на
рис. 8.53. Обратите внимание, что это не вероятностная графовая модель, по­
скольку узлы представляют собой отдельные состояния переменных, а каждая

переменная соответствует столбцу таких состояний на диаграмме. Для каждого


состояния данной переменной существует уникальное состояние априорной пе­
ременной, которая максимизирует вероятность (связки разбиваются либо систе­
матически, либо случайным образом), что соответствует функции ф(хп), задан­
ной формулой (8.101), и это указано линиями, соединяющими узлы. Как только
мы узнаем наиболее вероятное значение конечного узла хм мы можем перейти
по связи назад, чтобы найти наиболее вероятное состояние узла xN-l и т.д" назад
к исходному узлу х 1 • Эта процедура соответствует распространению сообщения
вниз по цепочке с помощью формулы

(8.102)

и называется поиском с возвратом (back-tracking). Обратите внимание на то, что


могут существовать несколько значений Хп_ 1 , которые дают максимальное значе­
ние в (8.1О1 ). Если мы выберем одно из этих значений при поиске с возвратом,
то получим конфигурацию, обеспечивающую глобальный максимум.
На рис. 8.53 мы указали два пути, каждый из которых предположительно со­
ответствует глобальному максимуму совместного распределения вероятностей.
Если значения k = 2 и k = 3 являются возможными значениями х';ах то, начиная ,
552 ГЛАВА 8. ГРАФОВЫЕ МОДЕЛИ

с любого состояния и проходя по черным линиям, соответствующим итерациям


(8.102), мы получим корректную конфигурацию глобального максимума. Но ес­
ли бы мы выполнили прямой ход передачи сообщения max-sum с последующим
обратным ходом и затем применили (8.98) отдельно к каждому узлу, то могли
бы закончить выбор некоторых состояний из одного пути, а других - из друго­
го, так что общая конфигурация не обеспечивала бы глобальный максимум. Мы
видим, что вместо этого необходимо следить за максимизирующими состояния­
ми во время прямого хода с использованием функций ф(хп), а затем использовать
поиск с возвратом для поиска согласованного решения.

Теперь должно быть ясно, как выполнить расширение общего фактор-графа с


древовидной структурой. Если сообщение отправляется из фактор-узла f в узел
переменной х, то с помощью (8.93) выполняется максимизация по всем другим
переменным узлам х 1 , ""хм, которые являются соседями этого фактор-узла. Вы­
полняя эту максимизацию, мы сохраняем запись о том, при каких значениях пе­

ременных х 1 , ""хм достигается максимум. Затем на этапе поиска с возвратом,


найдя Хmш мы можем использовать эти сохраненные значения для назначения
согласованных максимизирующих состояний х;""" "."х;;х. Если фактор-граф
является деревом, то алгоритм max-sum и поиск с возвратом дают точную мак­

симальную конфигурацию для переменных. Важным применением этого метода


является поиск наиболее вероятной последовательности латентных состояний в
скрытой марковской модели, и в этом случае он известен как алгоритм Витерби
(с.<И. ра1l)ел 13.2).
Как и в случае алгоритма sum-product, включение свидетельств в виде
наблюдаемых переменных не составляет труда. Значения наблюдаемых пере­
менных фиксируются, а над оставшимися латентными переменными выполня­
ется максимизация. Это можно показать формально, включив тождественную
функцию для наблюдаемых переменных в фактор-функции, как это было сдела­
но для алгоритма sum-product. Интересно сравнить алгоритм max-sum с алго­
ритмом последовательных условных мод (ICM), описанным ранее. Каждый шаг
в алгоритме ICM проще с вычислительной точки зрения, поскольку сообщения,
которые передаются от одного узла к следующему, содержат одно значение, со­

стоящее из нового состояния узла, для которого условное распределение макси­

мизировано. Алгоритм max-sum является более сложным, так как сообщения


являются функциями переменных узла х и, следовательно, содержат набор К
значений для каждого возможного состояния х. Однако, в отличие от алгоритма

max-sum, алгоритм ICM не может найти глобальный максимум даже для древо­
видных графов.
8.4. Алгоритм max-sum 553

8.4.6. Точный вывод в общих графах


Алгоритмы sum-product и max-sum обеспечивают эффективные и точные ре­
шения задач вывода в древовидных графах. Однако для многих практических
приложений приходится иметь дело с графами, имеющими петли.
Метод передачи сообщений можно обобщить на произвольные топологии
графов, что дает точную процедуру вывода, известную как алгоритм дерева со­
членений (Lauritzen, Spiegelhalter, 1988; Jordan, 2007). Здесь мы кратко расска­
жем о его ключевых шагах. Это описание предназначено не для подробного ана­
лиза алгоритма, а скорее для того, чтобы охарактеризовать его различные этапы.
Если отправной точкой является ориентированный граф, то сначала он преобра­
зуется в неориентированный граф с помощью морализации. Если же выполне­
ние алгоритма начинается с неориентированного графа, то этот шаг не требует­
ся. Затем граф триангулируется, что предполагает поиск циклов без хорд, со­
держащих четыре или более узла, и добавление дополнительных связей для
устранения таких циклов без хорд. Например, граф, представленный на
рис. 8.36, имеет связь без хорды A-C-B-D-A и поэтому она должна быть заме­
нена связью между узлами А и В или С и D. Обратите внимание на то, что сов­

местное распределение для получаемого триангулированного графа все еще


определяется произведением тех же функций потенциала, но теперь они рас­
сматриваются как функции над расширенными наборами переменных. Затем
триангулированный граф используется для построения нового древовидного не­
ориентированного графа, называемого деревом сочленений Uunction tree ), узлы

которого соответствуют максимальным кликам триангулированного графа и


связи которого соединяют пары клик, имеющих общие переменные. Выбор та­
ких пар клик для соединения делается так, чтобы найти максимальное остовное
дерево, определенное следующим образом. Из всех возможных деревьев, связы­
вающих клики, выбирается то, для которого вес дерева наибольший, где вес свя­
зи - это количество узлов, общих для двух клик, которые она соединяет, а вес
дерева - это сумма весов его связей. В результате этапа триангуляции получен­

ное дерево удовлетворяет свойству текущих пересечений (running intersection


property), которое означает, что если переменная содержится в двух кликах, то

она также должна содержаться в каждой клике на пути, который их связывает.


Это гарантирует, что вывод о переменных будет согласован по графу. Наконец,
к этому дереву сочленений теперь можно применить двухэтапный алгоритм пе­
редачи сообщений, по существу эквивалентный алгоритму sum-product, чтобы
найти маргинальное и условные распределения. Хотя алгоритм дерева сочлене-
554 ГЛАВА 8. ГРАФОВЫЕ МОДЕЛИ

ний выглядит сложнее, в его основе лежит простая идея, которую мы уже ис­
пользовали для обеспечения свойств факторизации распределения, чтобы можно
бьmо переставлять суммы и произведения для осуществления частичного сум­
мирования, тем самым избегая необходимости работать напрямую с совместным
распределением. Роль дерева сочленений заключается в обеспечении точного и
эффективного способа организации этих вычислений. Следует подчеркнуть, что
это достигается с помощью чисто графовых операций!
Дерево сочленений для произвольных графов является точным и эффектив­
ным в том смысле, что для данного графа вообще не существует более дешевого
с вычислительной точки зрения способа. К сожалению, алгоритм должен рабо­
тать с совместными распределениями в каждом узле (каждый из которых соот­

ветствует клике триангулированного графа), поэтому вычислительная стоимость


алгоритма определяется количеством переменных в наибольшей клике и в слу­
чае дискретных переменных будет экспоненциально расти с увеличением их ко­
личества. Важным понятием является древесная ширина (treewidth) (Bodlaender,
1993), которая определяется по количеству переменных в наибольшой клике.
Фактически она на единицу меньше размера наибольшей клики, чтобы древес­
ная ширина дерева была равна единице. Поскольку в общем случае могут суще­
ствовать несколько разных деревьев сочленений, которые можно построить из
заданного начального графа, древесная ширина определяется деревом сочлене­
ний, для которого наибольшая клика имеет меньше всего переменных. Если дре­
весная ширина исходного графа велика, то алгоритм дерева сочленений стано­
вится нецелесообразным.

8.4.7. Циклическое распространение доверия

Для многих проблем, представляющих практический интерес, нецелесооб­


разно использовать точный вывод, поэтому нужно использовать эффективные
методы аппроксимации. Важный класс таких аппроксимаций, которые в широ­
ком смысле можно назвать вариационными методами, будет подробно рассмот­
рен в главе 10. В дополнение к этим детерминированным подходам предлагается
широкий спектр методов случайного выбора, также называемых методами
Монте-Карло, основанных на стохастическом численном выборе из генераль­
ных совокупностей с заданными распределениями, которые будут подробно об­

суждаться в главе 11.


Здесь мы рассмотрим один простой подход к приближенному выводу в гра­
фах с циклами, который основан непосредственно на предыдущем обсуждении
точного вывода в деревьях. Идея состоит в том, чтобы применить алгоритм sum-
8.4. Алгоритм max-sum 555

product, даже если нет гарантии, что он даст хорошие результаты. Этот подход
известен как циклическое распространение доверия (Frey и МасКау, 1998) и яв­
ляется приемлемым потому, что правила передачи сообщений (8.66) и (8.69) для
алгоритма sum-product являются чисто локальными. Однако, поскольку граф те­
перь имеет циклы, информация может многократно передаваться по графу. Для
некоторых моделей алгоритм будет сходиться, а для других - нет.
Для того чтобы применить этот подход, необходимо определить расписание
передачи сообщений. Предположим, что в один момент времени по любой связи и
в любом заданном направлении передается одно сообщение. Каждое сообщение,
отправленное с узла, заменяет любое предыдущее сообщение, отправленное в том
же направлении по одной и той же связи, и само зависит только от самых послед­
них сообщений, полученных этим узлом на предьщущих этапах алгоритма.

Мы видели, что сообщение можно отправить по связи, идущей из узла, только


если все остальные сообщения бьmи получены этим узлом по другим связям. По­
скольку на графе есть петли, возникает вопрос: как инициировать алгоритм пере­
дачи сообщений? Чтобы решить эту проблему, предполагаем, что в самом начале
по каждой связи в каждом направлении передается начальное сообщение, задан­
ное единичной функцией. После этого каждый узел может отправлять сообщение.
В настоящее время сушествует множество приемлемых способов организации
расписания передачи сообщений. Например, лавинное расписание (flooding
schedule) подразумевает одновременную передачу сообщений по каждой связи в
обоих направлениях на каждом временном шаге, тогда как расписания, в которых
сообщения передаются по очереди, называются последовательными (serial
schedules).
Следуя Кschischnang et а/. (2001), будем говорить, что узел а (переменной или
сомножителя) имеет ожидающее сообщение для передачи по связи с узлом Ь, если
узел а получил какое-либо сообщение по любой из своих других связей, поскольку
последний раз он отправил сообщение на узел Ь. Таким образом, когда узел полу­
чает сообщение по одной из своих связей, он создает ожидающие сообщения на
всех его других связях. Необходимо отправлять только ожидающие сообщения,
поскольку другие сообщения дублируют предыдущее сообщение по той же связи.
Для графов, имеющих древовидную структуру, любое расписание, отправляющее
только ожидающие сообщения, в конечном итоге прекратится, как только сообще­
ние пройдет в каждом направлении по каждой связи (см. упра:ж11е11ие 8.29). На
данный момент никаких ожидающих сообщений нет, а произведение полученных
сообщений по каждой переменной дает точное маргинальное распределение. Од­
нако в графах, имеющих петли, алгоритм никогда не может заканчиваться, потому
556 ГЛАВА 8. ГРАФОВЫЕ МОДЕЛИ

что в них всегда могут существовать ожидающие сообщения, хотя на практике


обычно обнаруживается, что для большинства приложений они сходятся в разум­
ные сроки. Как только алгоритм сошелся или бьш остановлен, если сходимость не
наблюдается, (приблизительные) локальные маргинальные распределения можно
вычислить с помощью произведения последних принятых входящих сообщений в
каждом узле переменной или сомножителя на каждой связи.
В некоторых приложениях циклический алгоритм распространения доверия
может давать плохие результаты, тогда как в других может оказаться очень эф­
фективным. В частности, современные алгоритмы для декодирования некоторых
видов кодов с коррекцией ошибок эквивалентны циклическому распростране­
нию доверия (Gallager, 1963; Вепоu et а/., 1993; McEliece et а/., 1998; МасКау
and Neal, 1999, Frey, 1998).

8.4.8. Изучение структуры графа


В нашем рассуждении о выводах в графовых моделях мы предположили, что
структура графа известна и фиксирована. Тем не менее существует также инте­
рес к выходу за пределы проблемы вывода и изучению самой структуры графа
на основе данных (Friedman and Koller, 2003). Это требует определения про­
странства возможных структур, а также меры, которую можно использовать для

оценки каждой структуры.

С байесовской точки зрения мы в идеале хотели бы вычислить апостериорное


распределение по структурам графов и сделать прогнозы путем усреднения по
этому распределению. Если у нас есть априорное распределение р(т) над гра­
фами, индексированными с помощью индекса т, то апостериорное распределе­
ние задается выражением

p(mlD) ocp(m)p(Vlm), (8.103)

где V- наблюдаемый набор данных. Затем обоснованность модели p(Vlm) поз­


воляет оценить каждую модель. Однако оценка обоснованности включает мар­
гинализацию по латентным переменным и для многих моделей представляет со­
бой сложную вычислительную задачу.

Изучение пространства структур также может быть проблематичным. По­


скольку количество различных структур графов растет экспоненциально с уве­
личением количества узлов, часто приходится прибегать к эвристике, чтобы
найти хороших кандидатов.
Упражнения 557

Упражнения

8.1. (*) WWW Маргинализируя переменные по порядку, покажите, что представ­


ление (8.5) для совместного распределения ориентированного графа норми­
ровано корректно, если каждое из условных распределений нормировано.

8.2. (*) WWW Покажите, что свойство отсутствия ориентированных циклов в


ориентированном графе следует из утверждения, что существует упорядо­
ченная нумерация узлов, такая, что для каждого узла нет связей, идущих к
узлу с меньшим номером.

8.3. (**)Рассмотрим три бинарные переменные, а, Ь, с е{О, 1}, имеющие сов­


местное распределение, приведенное в табл. 8.2. Покажите с помощью пря­
мых вычислений, что это распределение обладает следующим свойством: а
и Ь маргинально зависят друг от друга, т.е. р(а, Ь) * р(а)р(Ь), но становятся
независимыми при фиксированном с, так что р(а, blc) = p(alc)p(blc) при
с=Оис=l.

Таблица 8.2. Совместное распределение по трем бинарным переменным

а ь с р(а, Ь, с)
о о о 0,192
о о 1 0,144
о о 0,048
о 1 1 0,216
1 о о 0,192
1 о 1 0,064
1 о 0,048
1 1 0,096

8.4. (**) Вычислите распределения р(а), p(blc) и p(cla), соответствующие сов­


местному распределению, приведенному в табл. 8.2. Отсюда видно, что
р(а, Ь, с)= p(a)p(cla)p(blc). Нарисуйте соответствующий ориентирован­
ный граф.

8.5. (*) WWW Нарисуйте ориентированную вероятностную графовую модель,


соответствующую методу релевантных векторов, описываемому форму­
лами (7.79) и (7.80).
8.6. (*) Для модели, показанной на рис. 8.13, мы видели, что с помощью логисти­

ческого сигмоидального представления (8.1 О) количество параметров, необ­

ходимых для задания условного распределения p(Ylx 1, ""хм), где xie {О, 1},
может быть уменьшено с 2м до М + 1. Альтернативное представление
(Pearl, 1988) задается формулой
558 ГЛАВА 8. ГРАФОВЫЕ МОДЕЛИ

Р(У = 1lх1 , ... ,Хм) =1-(1-µ0 ) П (1- µ; )х;, (8.104)


i=I

где параметры О~µ;~ 1, i =О,"" М представляют вероятности р(х; = 1), а


µ0 - дополнительные параметры, удовлетворяющие условию О ~ IJo ~ 1.
Условное распределение (8.104) известно как зашумленное ИЛИ. Покажи­
те, что его можно интерпретировать как "мягкую" (вероятностную) форму
логической функции ИЛИ (т.е. как функцию, которая выдает у= 1 всякий
раз, когда хотя бы одно из значений Х; равно единице). Обсудите интер­
претацию параметров Jli.
8.7. (**)Используя рекуррентные соотношения (8.15) и (8.16), покажите, что ма­
тематическое ожидание и ковариация совместного распределения для графа,
показанного на рис. 8.14, задаются соответственно формулами (8.17) и
(8.18).
8.8. (*) WWW Покажите, что из а l l Ь, cld следует а l l bld.
8.9. (*) WWW Используя критерий d-разделения, покажите, что условное распре­
деление для узла х в ориентированном графе, обусловленное всеми узлами
марковского покрытия, не зависит от остальных переменных на графе.

8.1 О. (*) Рассмотрим ориентированный граф, показанный на рис. 8.54, в кото­


ром не наблюдается ни одна из переменных. Покажите, что а l l Ь 1 0.
Предположим теперь, что переменная d наблюдается. Покажите, что в об­
щем случае а _Jl.. Ь 1 d.

а ь

Рис. 8.54. Пример графовой модели, используемой для изучения

свойств условной независимости пути типа "голова к голове" а-с-Ь,

когда наблюдается потомок узла с, а именно узел d


Упражнения 559

8.11. (**)Рассмотрим пример автомобильной топливной системы, показанной


на рис.8.21, и предположим, что мы не следим за состоянием топливного
датчика G, а получаем информацию от водителя D, который сообщает
нам его показания. Его отчет состоит в том, что датчик показывает либо
полный бак, D = 1, либо пустой, D =О. Наш водитель немного ненадеж­

ный, что выражается через следующие вероятности:

p(D = 1 G = 1) = 0,9;
1 (8.105)
p(D =О 1G=О)=0,9. (8.106)
Предположим, что водитель сообщает, что топливный датчик показывает

пустой бак, иначе говоря, мы наблюдаем D = О. Вычислите вероятность


того, что бак пуст, учитывая только это наблюдение. Аналогичным обра­
зом вычислите соответствующую вероятность при условии, что аккумуля­

тор пуст, и обратите внимание, что во втором случае вероятность снижа­


ется. Обсудите интуитивную интерпретацию этого результата и сопо­
ставьте результат с рис. 8.54.
8.12. (*) WWW Покажите, что существуют ~(M-l)/2 отдельных неориентированных
графов над множеством М различных случайных величин. Нарисуйте во­
семь возможностей для случая М = 3.
8.13. (*)Рассмотрим использование алгоритма последовательных условных мод
(ICM) для минимизации энергетической функции, заданной формулой
(8.42). Запишите выражение для разности значений энергии, связанных с

двумя состояниями конкретной переменной х1 , при условии, что все

остальные переменные фиксированы, и покажите, что она зависит только


от величин, локальных по отношению к xJ в графе.

8.14. (*) Рассмотрим частный случай энергетической функции, заданный фор­


мулой (8.42), в которой коэффициенты Р= h =О. Покажите, что наиболее
вероятная конфигурация латентных переменных задается равенством

xi = Yi для всех i.
8.15. (**) WWW Покажите, что совместное распределение р(хп_ 1 , хп) для двух сосед­
них узлов на графе, показанном на рис. 8.38, задается выражением вида

(8.58).
8.16. (**)Рассмотрим задачу вычисленияр(хпlхN) для графа, показанного на рис.
8.38, для всех узлов пе {1, "" N - 1}. Покажите, что для эффективного ре­
шения этой задачи можно использовать алгоритм передачи сообщений,
560 ГЛАВА 8. ГРАФОВЫЕ МОДЕЛИ

рассмотренный в разделе 8.4.1, и обсудите, какие сообщения модифици­


рованы и каким образом.

8.17. (**) Рассмотрим граф, показанный на рис. 8.38, имеющий N=5 узлов, в
которых наблюдаются узлы х 3 и х 5 • Используйте d-разделение, чтобы по­
казать, что х 2 Jl х 5 1 х3 • Покажите, что если для вычисления p(x2 lx3 , х 5 )
применяется алгоритм передачи сообщений из раздела 8. 4.1, то результат
не будет зависеть от значения х 5 •

8.18. (**) WWW Покажите, что распределение, представленное ориентированным

деревом, можно тривиально записать как эквивалентное распределение по

соответствующему неориентированному дереву. Также покажите, что


распределение, выраженное неориентированным деревом, путем соответ­

ствующей нормировки потенциалов клики, можно представить в виде


ориентированного дерева. Вычислите количество различных ориентиро­

ванных деревьев, которые можно построить из заданного неориентиро­

ванного дерева.

8.19. (**)Примените алгоритм sum-product из раздела 8.4.4 к модели цепи уз­


лов, рассмотренной в разделе 8.4.1, и покажите, что результаты (8.54),
(8.55) и (8.57) представляют собой частный случай.

8.20. (*) WWW Рассмотрим протокол передачи сообщений для алгоритма sum-
product на древовидном фактор-графе, в котором сообщения сначала рас­
пространяются от листьев до произвольно выбранного корневого узла, а
затем от корневого узла до листьев. Используя доказательство по индук­

ции, покажите, что сообщения могут передаваться в таком порядке, что на


каждом шаге каждый узел, который должен отправить сообщение, заранее
получает все входящие сообщения, необходимые для построения своих
исходящих сообщений.

8.21. (**) WWW Покажите, что маргинальные распределения p(xs) над множе­
ствами переменных х" ассоциированные с каждым из сомножителей.fs(хs)
в графе сомножителей, можно найти, сначала выполнив алгоритм переда­

чи сообщений sum-product, а затем вычислив требуемые маргинальные


распределения, используя (8.72).
8.22. (*) Рассмотрите древовидный фактор-граф, в котором данное подмноже­
ство узлов переменных образует связный подграф (т.е. любой узел пере­
менной из подмножества соединен, по меньшей мере, с одним из других
узлов переменных через единственный узел сомножителя). Покажите, как
Упражнения 561

алгоритм sum-product можно использовать для вычисления маргинального


распределения по этому подмножеству.

8.23. (**) WWW В разделе 8.4.4 мы показали, что маргинальное распределение


р(х;) для узла переменной х; в фактор-графе задается произведением сооб­
щений, поступающих на этот узел из соседних узлов сомножителей в
форме (8.63). Покажите, что маргинальное распределение р(х;) также мож­
но записать как произведение входящего сообщения вдоль любой из свя­
зей с исходящим сообщением по одной и той же связи.

8.24. (**)Покажите, что маргинальное распределение переменных Xs в сомно­


жителе.fs(хs) в фактор-графе с древовидной структурой после выполнения
алгоритма передачи сообщений sum-product можно записать в виде (8. 72)
как произведение сообщений, поступающих на узел сомножителя по всем
его связям, умноженное на локальный сомножитель/(хs).

8.25. (**)С помощью формулы (8.86) мы проверили, что алгоритм sum-product,


выполненный на графе на рис. 8.51 с узлом х3 , обозначенным как корневой
узел, дает корректное маргинальное распределение для х2 • Покажите, что
маргинальное распределение, полученное для х 1 и х 3 , также является мар­

гинальным Аналогичным образом покажите, что использование результа­


та (8. 72) после выполнения алгоритма sum-product на этом графе дает
корректное совместное распределение для х 1 и х 2 •

8.26. (*) Рассмотрим фактор-граф древовидной структуры над дискретными пе­


ременными и предположим, что мы хотим вычислить совместное распре­

деление р(х 0 , хь), связанное с двумя переменными х0 и хь, которые не отно­


сятся к общему сомножителю. Определите процедуру использования ал­

горитма sum-product для вычисления этого совместного распределения, в


котором одна из переменных последовательно фиксируется на каждом из
ее допустимых значений.

8.27. (**)Рассмотрим две дискретные переменные х и у, каждая из которых


имеет три возможных состояния, например х, у Е {О, 1, 2}. Постройте сов­
местное распределение р(х, у) над этими переменными, обладающее тем
свойством, что значение х, максимизирующее маргинальное распределе­
ние р(х), вместе со значением у, которое максимизирует маргинальное
распределение р(у), имеет нулевую вероятность при совместном распреде­

лении, т.е. р(х,у)=О.


562 ГЛАВА 8. ГРАФОВЫЕ МОДЕЛИ

8.28. (**) WWW В разделе 8.4. 7 определена концепция ожидающего сообщения в


алгоритме sum-product для фактор-графа. Покажите, что если граф имеет
один или несколько циклов, то всегда будет существовать хотя бы одно
ожидающее сообщение, независимо от того, как долго работает алгоритм.

8.29. (**) WWW Покажите, что если алгоритм sum-product выполняется на фак­
тор-графе с древовидной структурой (без циклов), то после оmравки ко­
нечного количества сообщений ожидающих сообщений не будет.
9

Если мы определяем совместное распределение по наблюдаемым и латент­


ным переменным, то соответствующее распределение исключительно наблю­
даемых переменных получается с помощью маргинализации. Это позволяет
выражать относительно сложные маргинальные распределения по наблюдае­
мым переменным в терминах более удобных совместных распределений по
расширенному пространству наблюдаемых и латентных переменных. Таким
образом, введение латентных переменных позволяет создавать сложные рас­
пределения из более простых компонентов. В этой главе будет показано, что
смешанные распределения, такие как смесь нормальных распределений, об­
суждаемая в разделе 2.3.9, можно интерпретировать в терминах дискретных
латентных переменных. Непрерывные латентные переменные будут рассмот­
рены в главе 12.
Помимо создания основы для построения более сложных распределений ве­
роятностей, модели смесей также могут использоваться для кластеризации дан-
564 ГЛАВА 9. СМЕСИ РАСПРЕДЕЛЕНИЙ И ЕМ-АЛГОРИТМ

ных. Поэтому начнем обсуждение смесей распределений, рассмотрев задачу по­


иска кластеров в множестве точек с помощью детерминированного метода,

называемого алгоритмом К-средних (Lloyd, 1982) (см. раздел 9.1). Затем введем
в смеси распределений латентные переменные. При этом дискретные латентные

переменные можно интерпретировать как разделение точек по конкретным ком­

понентам смеси (см. раздел 9.2). Распространенным методом поиска оценок


максимального правдоподобия в моделях с латентными переменными является
ЕМ-алгоритм (Expectation-Maximization - ЕМ). Сначала мы будем использо­
вать распределение смеси нормальных распределений для неформального обос­
нования ЕМ-алгоритма, а затем дадим более тщательное изложение, основанное
на латентных переменных (см. раздел 9.3). Мы увидим, что алгоритм К-средних
соответствует конкретному детерминированному варианту ЕМ-алгоритма, при­
мененному к смесям нормальных распределений (см. раздел 9.4). Наконец, мы
обсудим ЕМ-алгоритм с более общей точки зрения.
Смеси нормальных распределений широко используются в области интеллек­
туального анализа данных, распознавания образов, машинного обучения и ста­
тистического анализа. Во многих приложениях их параметры определяются по

принципу максимального правдоподобия, как правило, с использованием ЕМ­


алгоритма. Однако у метода максимального правдоподобия есть существенные
ограничения, и в главе 1О описано элегантное байесовское решение этой про­
блемы с использованием методов вариационного вывода. Это требует неболь­
ших дополнительных вычислений по сравнению с ЕМ-алгоритмом, устраняет
основные недостатки метода максимального правдоподобия, а также позволяет
автоматически определять количество компонентов в смеси.

9.1. Кластеризация по методу К-средних

Начнем с задачи идентификации групп, или кластеров точек в многомерном


пространстве. Предположим, у нас есть множество данных {х 1 , "" xN}, состоя­
щее из N наблюдений случайной переменной х в D-мерном евклидовом про­
странстве. Наша цель - разбить множество данных на некоторое количество
кластеров К. Пока будем предполагать, что значение К задано. Интуитивно мы
можем рассматривать кластер как группу точек, попарные расстояния между ко­

торыми малы по сравнению с расстояниями до точек вне кластера. Мы можем

формализовать это понятие, сначала введя множество D-мерных векторов µk, где
k = 1, ".,К, в котором µk - прототип, связанный с k-м кластером. Как мы вскоре
увидим, векторы µk можно интерпретировать как центры кластеров. Наша цель
9.1. Кластеризация по методу К-средних 565

состоит в том, чтобы разделить точки по кластерам, а также найти набор векто­
ров {µk}, таких что сумма квадратов расстояний каждой точки до ее ближайше­
го вектора µk является минимальной.

Введем некоторые обозначения для описания разделения точек по кластерам.


Для каждой точки хп вводится соответствующий набор бинарных индикаторных

переменных rnk е{О, 1}, где k= 1, ""К, указывающих, какому из кластеров К


назначается точка Хт так что, если точка Хп присваивается кластеру k, то rnk = 1 и
rпj =О для} f. k. Это называется схемой кодирования 1 из К. Затем определим це­

левую функцию, которую иногда называют мерой искажения (distortion


measure ), определяемой формулой

(9.1)

которая представляет собой сумму квадратов расстояний каждой точки до ее


назначенного вектора µk. Наша цель - найти числа {rпk} и векторы {µk}, мини­

мизирующие функцию J. Мы можем сделать это с помощью итерационной про­


цедуры, в которой каждая итерация включает в себя два последовательных эта­
па, соответствующих последовательной оптимизации rnk и µk. Сначала выберем
начальные значения для µk. Затем на первом этапе минимизируем J по rnk• со­

храняя вектор µk фиксированным. На втором этапе минимизируем J по µk, со­

храняя rпk фиксированным. Затем эта двухэтапная оптимизация повторяется до


выполнения критерия сходимости. Мы увидим, что эти два этапа обновления rпk
и µk соответствуют этапам Е (expectation) и М (maximization) ЕМ-алгоритма, и
чтобы подчеркнуть это, будем использовать термины Е- и М-шаг в контексте ал­
горитма К-средних (см. раздел 9.4).
Рассмотрим сначала определение rпk· Поскольку функция J в (9.1) является

линейной функцией от rnk• эту оптимизацию можно легко выполнить, получив


решение в замкнутом виде. Слагаемые с различными п являются независимыми,

поэтому мы можем выполнять оптимизацию для каждого п отдельно, выбирая


rnk равным единице для любого значения k, которое дает минимальное значение

llxn - µk 11 • Иначе говоря, мы просто присваиваем п-ю точку ближайшему центру


2

кластера. Более формально зто можно выразить так:

rnk -
-{1, если k = argminllxn -µjll 2 ,
} (9.2)
О в противном случае.
566 ГЛАВА 9. СМЕСИ РАСПРЕДЕЛЕНИЙ И ЕМ-АЛГОРИТМ

Теперь рассмотрим оптимизацию µk с фиксированными rпk· Целевая функция


J является квадратичной функцией от µk, и ее можно минимизировать, прирав­
няв ее производную по µk к нулю:

N
2:~::Гпк(хп -µк)=О. (9.3)
п~I

Это уравнение легко решить относительно µk:

(9.4)
п

Знаменатель в этом выражении равен количеству точек, назначенных класте­

ру k, поэтому этот результат имеет простую интерпретацию, а именно: µk - это


центр масс для всех точек х"' назначенных кластеру k. По этой причине эта про­
цедура называется алгоритмом К-средних.
Два этапа перераспределения точек по кластерам и повторного вычисления
центров масс кластеров поочередно повторяются до тех пор, пока не произойдет

дальнейшее перераспределение (или до тех пор, пока не будет превышено мак­


симальное количество итераций). Поскольку на каждом этапе значение целевой
функции J уменьшается, алгоритм сходится. Однако он может сходиться к ло­
кальному, а не глобальному минимуму J (см. упражнеиие 9.1). Свойства схо­
димости алгоритма К-средних были изучены в MacQueen (1967).
Алгоритм К-средних проиллюстрирован с использованием множества дан­

ных "Старый служака" на рис. 9 .1. Для удобства мы выполнили линейное мас­
штабирование данных, известное как стандартизация, так что каждая из пере­
менных имеет нулевое математическое ожидание и единичное стандартное от­

клонение. В этом примере мы выбрали К= 2, поэтому в этом случае присвоение


каждой точки ближайшему центру кластера эквивалентно классификации точек
относительно прямой, перпендикулярной отрезку, соединяющему центры масс

кластеров, и проходящей через его середину. График целевой функции J, задан­


ный формулой (9 .1) для примера "Старый служака'', показан на рис. 9 .2. Обра­
тите внимание на то, что мы сознательно выбрали плохие начальные значения
для центров масс кластеров, чтобы алгоритм делал хотя бы несколько шагов,
пока не сойдется. На практике лучше было бы выбрать центры кластеров µk из
случайного подмножества К данных. Также стоит отметить, что сам алгоритм
9.1. Кластеризация по методу К-средних 567

К-средних часто используется для инициализации параметров в смеси нормаль­


ных распределений перед применением ЕМ-алгоритма (l-:м. раздел 9.2.2).

2 а) 2 б) 2 в)

:Jlii
~?JI·
о о о
"l!x,"\o.
-2 -2
~·"'
-2
-2 о 2 -2 о 2 -2 о 2

о
г)

:Jlii
·:x:\t~·
2

о
д)

~".
.. ;\о.
..Jli·
2

о • •
." ...

W.... - ....
W:_·· •
-2
-2

о 2
-2
-2

о 2
-2
-2 "·"' о 2

2 ж) 2 з) 2 И)

..Jli· ..Jli·
о

-2
-2
·.;\о.

-....

~".
о 2
о

-2
-2 о 2
о

-2
-2
• ~-.·
..;":\о .
....
о 2

Рис. 9.1. Алгоритма К-средних с использованием стандартизированного множества

данных "Старый служака". Зеленые точки обозначают набор данных в двумерном

евклидовом пространстве. Исходные варианты для центров µ 1 и µ 2 показаны красным и

синим крестиками соответственно (а). На первом Е-шаге каждая точка назначается либо

красному, либо синему кластеру, в соответствии с тем, который из центров масс

кластеров оказывается ближе . Это эквивалентно классификации точек относительно

прямой, перпендикулярной отрезку, соединяющему цеюры масс кластеров и

проходящей через его середину, показанной пурпурной линией (6). На следующем

М-шаге каждый центр масс кластера повторно вычисляется как центр масс точек,

на:шаченных соответствующему кластеру (вJ. Последовательные Е- и М-шаги до

окончательной сходимости алгоритма (г-·и)


568 ГЛАВА 9. СМЕСИ РАСПРЕДЕЛЕНИЙ И ЕМ-АЛГОРИТМ

о
1000

500
о

о
о о о о о
о
2 3 4

Рис. 9.2. График целевой функции J, заданной формулой (9.1) после каждого Е-шага
(синие точки) и М-шага (красные точки) алгоритма К-средних для примера, показанного

на рис. 9.1. Алгоритм сходится после третьего М-шага, и последующий цикл Е- и М-шагов

не производит никаю1х изменениii ни в ювначениях , ни в векторах прототипов

Прямая реализация алгоритма К-средних, описанная выше, может быть отно­


сительно медленной, поскольку на каждом Е-шаге необходимо вычислить ев­
клидово расстояние между каждым вектором прототипа и каждой точкой дан­
ных. Для ускорения алгоритма К-средних были предложены различные схемы,
некоторые из которых основаны на предварительном вычислении структуры

данных, такой как дерево, в котором соседние точки находятся в одном и том же

поддереве (Ramasubramanian and Paliwal, 1990; Moore, 2000). В других подходах


используется неравенство треугольника для расстояний, что позволяет избежать
ненужных вычислений (Hodgson, 1998; Elkan, 2003).
Выше мы рассмотрели пакетную версию К-средних, в которой для обновле­
ния векторов прототипов используется все множество данных. Применяя проце­
дуру Роббинса-Монро к задаче нахождения корней функции регрессии, задан­
ной производными функции J в формуле
(9.1) поµ"' мы также можем получить
стохастический последовательный алгоритм (MacQueen, 1967) (см. раздел 2.3.5).
Это приводит к последовательному обновлению, в котором для каждой точки хп
мы по очереди обновляем ближайший прототип µ"' используя формулу
(см. упражиение 9.2)
µ knew =µold
k
+ 71 (
'fn xn
_ µold )
k ' (9.5)

где 17п - параметр скорости обучения, который, как правило, делается монотон­
но уменьшающимся по мере увеличения количества точек.

Алгоритм К-средних основан на использовании квадрата евклидова расстояния

в качестве меры несходства между точкой и вектором прототипа. Это не только


ограничивает тип данных, которые можно рассматривать (это бьmо бы неприем-
9.1. Кластеризация по методу К-средних 569

лемо для случаев, когда некоторые или все переменные представляют собой кате­
гориальные метки, например) (см. раздел 2. 3. 7), но также может делать процедуру
определения кластера неустойчивой по отношению к выбросам. Мы можем обоб­
щить алгоритм К-средних, введя более общую меру несходства V(x, х') между
двумя векторами х и х', а затем минимизируя следующую меру искажения:
N К

1 = L:~)пk V(xп,µk ), (9.6)


n=I k=I

которая приводит к шtгоритму К-медоидов. Е-шаг снова подразумевает назначе­


ние каждой точки кластеру, для которого несходство с соответствующим прото­

типом является минимальным среди заданных кластерных прототипов µk. Слож­


ность вычислений по этому алгоритму имеет порядок О(КN), как в случае стан­
дартного алгоритма К-средних. При выборе общей меры несходства М-шаг
потенциально более сложен, чем в алгоритме К-средних, и поэтому прототип каж­
дого кластера обычно полагают равным одному из векторов исходных данных,
назначенных этому кластеру, поскольку это позволяет реализовать алгоритм при

любом выборе меры несходства V(·"), если ее можно легко вычислить. Таким об­
разом, М-шаг для каждого кластера k подразумевает дискретный поиск по точ­
кам Nk, назначенным этому кластеру, что требует о( н;) вычислений V(-").
Одной из примечательных особенностей алгоритма К-средних является то, что
на каждой итерации каждая точка назначается одному и только одному из класте­

ров. В то время как некоторые точки могут быть намного ближе к конкретному
центру масс µk, чем к любому другому центру, могут быть другие точки, которые
расположены примерно на полпути между центрами масс кластеров. В последнем
случае неясно, является ли жесткое назначение ближайшему кластеру правильным
решением. В следующем разделе мы увидим, что, применяя вероятностный подход,
мы получаем "мягкие" присвоения точек кластерам таким образом, который отра­
жает уровень неопределенности в отношении наиболее подходящего назначения.
Эта вероятностная формулировка имеет многочисленные преимушества.

9.1.1. Сегментация и сжатие изображений

В качестве иллюстрации применения алгоритма К-средних рассмотрим связан­


ные задачи сегментации и сжатия изображений. Целью сегментации является раз­
биение изображения на области, каждая из которых имеет достаточно однородный
внешний вид или соответствует объектам или частям объектов (Forsyth and
Ponce, 2003). Каждый пиксель изображения представляет собой точку в трехмер­
ном пространстве, содержащую интенсивности красного, синего и зеленого кана-
570 ГЛАВА 9. СМЕСИ РАСПРЕДЕЛЕНИЙ И ЕМ-АЛГОРИТМ

лов, и ашоритм сегме1Пации обрабатывает каждый пикселъ изображения как от­


дельную точку. Заметим, что, строго говоря, это пространство не является евклидо­
вым, поскольку mпенсивности каналов ограничены mпервалом [О, 1]. Тем не менее
мы можем без труда применить ашоритм К-средних. Мы проиллюстрируем сходи­
мость ашоритма К-средних для mобого конкреnюго значения К путем повторного
рисования изображения с заменой каждого вектора пикселя триrтетом интенсивно­
сти {R, G, В} заданного центра масс µk, к которому этот пиксель бьш отнесен. Ре­
зультаты для различных значений К показаны на рис. 9.3. Мы видим, что при за­
данном значении К ашоритм создает изображение, используя палитру, состоящую
только из К цветов. Следует подчеркнуть, что такое использование ашоритма К­
средних не является особенно сложным подходом к сегментации изображения, не в
последнюю очередь потому, что он не учитъ1вает пространственную близость раз­
ных пикселей. Проблема сегментации изображения в общем случае чрезвычайно
сложна и остается предметом активных исследований, а здесь вводится для иллю­
страции поведения ашоритма К-средних.

к =2 К =З К= 10 Исходное изображение

Рис. 9.3. Два примера применения алгоритма К-средних для сегментации изображения,

показывающие начальные изображения вместе с сегментами К-средних, полученными с

использованием различных значений К. Они также иллюстрируют использование

векторного квантования для сжатия данных, в котором меньш ие значения К дают более

высокое сжатие за счет ухудшения качества изображения


9.1. Кластеризация по методу К-средних 571

Можно также использовать результат алгоритма кластеризации для сжатия

данных. Важно различать сжатие данных без потерь, цель которого состоит в
том, чтобы иметь возможность точно восстанавливать исходные данные из сжа­
того представления и сжатие данных с потерями, при котором мы допускаем
некоторые ошибки в восстановлении в обмен на более высокие уровни сжатия
по сравнению со сжатием без потерь. Мы можем применить алгоритм К-средних
к задаче сжатия данных с потерями следующим образом. Для каждой из N точек
сохраняем только значение k кластера, которому она назначена, а также сохра­
няем значения К кластерных центров масс µk, для которых обычно требуется
значительно меньше данных, если выбрать К« N. Затем каждая точка аппрок­
симируется ее ближайшим центром µk. Новые точки можно сжать аналогичным
образом, сначала найдя ближайший µk> а затем сохраняя метку k вместо исход­
ного вектора данных. Эту структуру часто называют векторным квантованием,

а векторы µk - векторами кодовой книги.


Описанная выше задача сегментации изображения также иллюстрирует ис­
пользование кластеризации для сжатия данных. Предположим, исходное изоб­
ражение имеет N пикселей, содержащих значения {R, G, В}, каждый из которых
хранится с8 битами точности. Тогда для передачи всего изображения напрямую
потребуется 24N бит. Теперь предположим, что сначала мы выполняем алгоритм
К-средних, а затем вместо передачи исходных векторов, содержащих интенсив­

ности пикселей, передаем номер ближайшего вектора µk. Поскольку существует


К таких векторов, для этого требуется log 2 К бит на пиксель. Мы также должны
передать К векторов кодовых книг µk, для которых требуется 24К бит, поэтому
общее количество бит, необходимых для передачи изображения, равно
24К + Nlog 2 К (с округлением до ближайшего целого числа). Исходное изобра­
жение, показанное на рис.9.3, имеет 240 х 180 = 43200 пикселей и поэтому тре­
бует прямой передачи 24 · 43200 = 1036800 бит. Для сравнения: передача сжа­
тых изображений требует 43248 бит (К= 2), 86472 бит (К= 3) и 173040 бит
(К= 10) соответственно. Они представляют собой коэффициенты сжатия по
сравнению с исходным изображением 4,2, 8,3 и 16,7% соответственно. Мы ви­
дим, что существует компромисс между степенью сжатия и качеством изобра­
жения. Наша цель в этом примере - проиллюстрировать алгоритм К-средних.
Если бы мы стремились создать хороший алгоритм для сжатия изображений, то­
гда было бы полезнее рассмотреть небольшие блоки соседних пикселей, напри­
мер 5 х 5, и тем самым использовать корреляции, существующие в естественных

изображениях между соседними пикселями.


572 ГЛАВА 9. СМЕСИ РАСПРЕДЕЛЕНИЙ И ЕМ-АЛГОРИТМ

9.2. Смеси нормальных распределений

В разделе 2.3. 9 мы обосновали модель смеси нормальных распределений как


простую линейную суперпозицию нормально распределенных компонентов,

направленную на создание более богатого класса моделей плотности, чем одно


нормальное распределение. Перейдем теперь к формулировке смесей нормаль­
ных распределений в терминах дискретных латентных переменных. Это даст
нам более глубокое понимание этого важного распределения, а также послужит
мотивом для создания ЕМ-алгоритма.
Напомним из (2.188), что смесь нормальных распределений можно записать в
виде линейной суперпозиции нормальных распределений в виде

р(х)= LяkN(xlµk,I:k)· (9.7)


k=I
Введем К-мерную бинарную случайную переменную z, имеющую представ­
ление 1 из К, в котором конкретный элемент zk равен единице, а все остальные
элементы равны нулю. Следовательно, значения zk удовлетворяют условиям zk е
{О, 1} и Lzk =1 и существует К возможных состояний вектора z, в зависимости
k
от того, какой именно элемент не равен нулю. Мы будем определять совместное
распределение р(х, z) через маргинальное распределение p(z) и условное рас­
пределение p(xl z), соответствующие графической модели, представленной на
рис. 9.4. Маргинальное распределение по z задается в терминах коэффициентов
смешивания Л"k, таких, что

p(zk = 1) = Л"k,
где параметры {rtк} должны удовлетворять условиям

о ~ Jl"k ~ 1 (9.8)
и

Iяk =i (9.9)
k=I

для того, чтобы быть допустимыми вероятностями. Поскольку вектор z исполь­


зует представление 1 из К, можем также записать это распределение в виде

Р ( z) = П я;k . (9.10)
k=I
9.1. Кластеризация по методу К-средних 573

Рис. 9.4. Графическое представление модели смеси, в которой

совместное распрс,•1слснис выражается в виде р(х, z) = p(z)p(xl z)

Аналогично условное распределение х, заданное для z, является нормальным:


p(xlzk = 1) = N(xlµk, Lk)

и может быть записано в виде

p(xlz) = П N(xlµk,1:k )zk. (9.11)


k=I

Совместное распределение задается выражением p(z)p(xl z), а маргинальное


распределение х получается суммированием совместного распределения по

всем возможным состояниям z (см. упра.итение 9.3):


к

р(х)= LP(z)p(xlz)= L1ikN(xlµk,1:k), (9.12)


z k=l

где мы использовали формулы (9 .1 О) и (9 .11 ). Таким образом, маргинальное


распределение х является смесью нормальных распределений вида (9.7). Если у
нас есть несколько наблюдений х 1 , ""хм то, поскольку мы представили марги­
нальное распределение в виде р ( х) = L р ( х, z) , то для любой наблюдаемой
11:
точки Хп существует соответствующая латентная переменная Zn.

Итак, мы получили эквивалентную формулировку смеси нормальных распре­


делений с явной латентной переменной. Казалось бы, мы немногого добились.
Однако теперь мы можем работать с совместным распределением р(х, z) вместо
маргинального распределения р(х), что приведет к значительным упрощениям, в
первую очередь благодаря внедрению ЕМ-алгоритма.
Другой величиной, которая будет играть важную роль, является условная ве­
роятность z при заданном х. Мы будем использовать y(zk) для обозначения
p(zk = 1lx), значение которого можно найти, используя теорему Байеса:
574 ГЛАВА 9. СМЕСИ РАСПРЕДЕЛЕНИЙ И ЕМ-АЛГОРИТМ

r (zk ) -= р (zk -1
_ Iх )-- к
p(zk =l)p(xlzk =1) _
-
I р ( z1 = 1) р ( xl z1 = 1)
J=l
(9.13)
JrkN ( xlµk ,I:k)
к

L1Z"1N( xlµ1,I:1)
J=l

Мы будем рассматривать JZ"k как априорную вероятность zk = 1, а величину y(zk)


как соответствующую апостериорную вероятность при наблюдении х. Как мы
увидим далее, величину y(zk) также можно рассматривать как ответствен­
ность, которую компонент k несет за "объяснение" наблюдения х.
Для генерации случайных выборок, распределенных по модели смеси нор­
мальных распределений, можно использовать метод случайного выбора (см. раз­
дел 8.1.2). Для этого сначала сгенерируем значение для z, которое обозначим z,
из генеральной совокупности с маргинальным распределением p(z), а затем сге­
нерируем значение для х из генеральной совокупности с условным распределе­

нием p(xl z). Методы случайного выбора из генеральных совокупностей, име­


ющих стандартные распределения, обсуждаются в главе 11. Мы можем извле­
кать выборки из генеральной совокупности с совместным распределением
р(х, z) путем рисования точек с соответствующими значениями х, а затем их
окрашивания в соответствии со значением z, иначе говоря, в соответствии с тем,

какой нормально распределенный компонент бьm использован для их генерации


(рис. 9.5, а). Аналогично выборки из генеральной совокупности с маргинальным

распределением р(х) получаются путем извлечения выборок из генеральной со­


вокупности с совместным распределением и игнорирования значений z. Они
показаны на рис. 9.5, б, с помощью рисования значений х без каких-либо цвет­
ных меток.

Мы также можем использовать этот искусственный набор данных, чтобы по­


казать ответственность компонентов, вычисляя для каждой точки апостериор­
ную вероятность каждого компонента в распределении смеси, из которого был
создан этот набор данных. В частности, мы можем представить значение ответ­
ственности, связанной с точкой данных Хт нарисовав соответствующую точку с
использованием пропорций красных, синих и зеленых чернил, заданных величи­

нами y(zпk) для k= 1, 2, 3, соответственно, как показано на рис. 9.5, в. Так,


например, точка, для которой у(zп 1 ) = 1, будет окрашена в красный цвет, тогда
как точка, для которой у(zп 2 ) = у(zпз) = 0,5, будет окрашена равными пропорция-
9.1. Кластеризация по методу К-средних 575

ми синих и зеленых чернил, в результате чего станет бирюзовой. Сравните это с


рис. 9.5, а, где точки были помечены с использованием истинной идентичности
компонента, из которого они были сгенерированы.

а) б) в)
." ."
0,5
;l;..Af~··
. ......
·~
0,5 0,5

·-!f···
•s ••
i,•
о о о

о 0,5 о 0,5 о 0,5

Рис. 9.5. Пример 500 точек, взятых из смеси трех нормально распределенных

компонентов, показанных на рис. 2.23. Выборки генеральной совокупности

с совместным распределением p(z)p(xl z), в котором три состояния z, соответствующие


трем компонентам смеси, изображены красным, зеленым и синим цветами (а).

Соответствующие выборки из генеральной совокупности с маргинальным

распределением р(х), которое получается простым игнорированием значений z


и рисованием значений х (6). Множество данных в случае (а) называется полным, тогда

как в случае (6) - неполным. Те же выборки, в которых цвета представляют значения

ответстве1111остu y(z"*), связанные с точкой х", полученной путем построения

соответствующей точки с использованием пропорций красных, синих и зеленых чернил,

соответствующих значениям y(z"") для k = 1, 2, 3

9.2.1. Максимальное правдоподобие


Предположим, у нас есть множество данных наблюдения {х 1 ,"., xN} и мы хо­
тим смоделировать эти данные, используя смесь нормальных распределений. Этот
набор данных можно представить как матрицу Х размерностью N х D, в которой
п-я строка задается вектором х~. Аналогично соответствующие латентные пере­
менные будут обозначаться матрицей Z размерностью N х К со строками z~ . Если
предположить, что точки независимо одна от другой бьши извлечены из генераль­
ной совокупности с указанным распределением, то можно выразить модель смеси

нормально распределенных компонентов для этого множества независимых оди­

наково распределенных данных с помощью графа, показанного на рис. 9.6. Из


(9.7) следует, что логарифмическая функция правдоподобия задается формулой

lnp(Xlя,µ,1:) =~ln{~1l'kN( xnlµk,1:k)} (9.14)


576 ГЛАВА 9. СМЕСИ РАСПРЕДЕЛЕНИЙ И ЕМ-АЛГОРИТМ

Рис. 9.6. Графическое представление модели смеси нормальных

распределений для набора из N независимых одинаково распределенных точек {х"}

с соответствующими латентными точками {z"}, где п = 1, ... , N

Прежде чем рассуждать, как максимизировать эту функцию, стоит подчерк­


нуть, что существует большая проблема, связанная с методом максимального
правдоподобия в отношении смесей нормальных распределений из-за наличия
особенностей. Для простоты рассмотрим смесь нормальных распределений,
компоненты которой имеют ковариационные матрицы, заданные формулой
I:k = cтil, где 1 - единичная матрица, хотя выводы будут сделаны для общих
ковариационных матриц. Предположим, что один из компонентов смеси, ска­

жем, j-й компонент, имеет математическое ожидание µ1, точно равное одной из
точек, так что µ1 = Хп для некоторого значения п. Затем эта точка вносит вклад в

функцию правдоподобия вида

N{хпlхп,ст~I)= l 112 ID. (9.15)


( 21l') ст1

Если мы рассмотрим предел при ст1 ~ О, то увидим, что этот член стремится к
бесконечности, поэтому логарифмическая функция правдоподобия также стре­
мится к бесконечности. Таким образом, максимизация логарифмической функ­
ции правдоподобия не является корректной задачей, поскольку такие особенно­
сти всегда будут присутствовать и возникать всякий раз, когда одна из нормаль­
но распределенных компонент коллапсирует в конкретную точку. Напомним,

что эта проблема не возникала в случае одного нормального распределения.


Чтобы понять различие, обратите внимание на то, что если одно нормальное
распределение коллапсирует в точку, то в функции правдоподобия появляются
множители, возникающие за счет других точек, и они будут стремиться к нулю
экспоненциально быстро, давая общую вероятность, равную нулю, а не беско­
нечности. Однако, если у нас есть (по крайней мере) два компонента в смеси,
один из компонентов может иметь конечную дисперсию и, следовательно,

назначать конечную вероятность всем точкам исходных данных, в то время как


9.1. Кластеризация по методу К-средних 577

другой компонент может сжиматься в одну конкретную точку и тем самым спо­

собствовать бесконечному увеличению слагаемого в логарифмической функции


правдоподобия (рис. 9.7). Эти особенности представляют собой еще один при­
мер серьезного переобучения, которое может возникать при использовании ме­
тода максимального правдоподобия . Мы еще увидим, что эта трудность не воз­
никает, если мы примем байесовский подход. Однако на данный момент отме­
тим, что, применяя метод максимального правдоподобия к смеси нормальных
распределений, мы должны предпринять меры, чтобы избежать таких патологи­
ческих решений и вместо этого искать локальные максимумы функции правдо­
подобия, которые хорошо себя ведут (с.+1. раздел 10.1). Мы можем надеяться из­
бежать таких особенностей с помощью подходящих эвристик. Например, если
нормально распределенный компонент сжимается в точку, его математическому
ожиданию можно присвоить случайно выбранное значение, а ковариации - до­
статочно большое значение, и продолжить оптимизацию .

р(х)

Рис. 9.7. Особенности функции правдоподобия для смесей нормальных

распределений. Сравните ее со случаем одного нормального распределения,

показанным на рис. 1.14, в котором не возникает никаких особенностей

Еще одна проблема при поиске решений с максимальным правдоподобием


возникает из-за того, что для любого заданного решения максимального правдо­
подобия смесь К компонентов будет иметь К! эквивалентных решений, соответ­
ствующих К! способам присвоения К наборов параметров К компонентам. Ина­
че говоря, для любой заданной (невырожденной) точки в пространстве значений
параметра будут существовать еще К! - 1 дополнительных точек, которые по­
рождают точно такое же распределение. Эта проблема известна как идентифи­
цируемость (Casella and Berger, 2002) и является важной, когда мы хотим интер­
претировать значения параметров, обнаруженные моделью . Эта проблема рас­
сматривается в главе 12 при обсуждении моделей, имеющих непрерывные
578 ГЛАВА 9. СМЕСИ РАСПРЕДЕЛЕНИЙ И ЕМ-АЛГОРИТМ

латентные переменные. Однако для поиска хорошей модели плотности это не

имеет значения, потому что любое из эквивалентных решений столь же хоро­


шее, как и любое другое.
Максимизация логарифмической функции правдоподобия (9.14) для смеси
нормальных распределений оказывается более сложной задачей, чем для случая

одного нормального распределения. Трудность возникает из-за наличия сумми­


рования по k, которое появляется внутри логарифма в формуле (9.14), так что
логарифм больше не действует непосредственно на нормальное распределение.
Если мы приравняем производные логарифмической функции правдоподобия к
нулю, то, как мы увидим в ближайшее время, больше не получим решение в за­
мкнутом виде.

Один из подходов заключается в применении градиентных методов оптими­

зации (Fletcher, 1987; Nocedal and Wright, 1999; Bishop and Nabney, 2008). Хотя
градиентные методы эффективны и действительно играют важную роль для
нейронных сетей, моделирующих смеси плотностей (см. главу 5), мы рассмот­
рим альтернативный подход, известный как ЕМ-алгоритм, который широко

применяется и лежит в основе вариационных методов вывода, обсуждаемых в


главе 10.

9.2.2. ЕМ-алгоритм для смесей нормальных распределений

Существует элегантный и мощный метод поиска решений с максимальным


правдоподобием для моделей с латентными переменными - ЕМ-алгоритм
(Dempster et al., 1977; McLachlan and Кrishnan, 1997). Позже будет дано общее
описание ЕМ-алгоритма и показано, как его можно обобщить, чтобы получить
теорию вариационного вывода (сон. разде.:1 10.1). Вначале мы неформально
обоснуем ЕМ-алгоритм в контексте смеси нормальных распределений. Однако
подчеркнем, что ЕМ-алгоритм имеет широкую сферу применения, и, действи­
тельно, его можно встретить в контексте различных моделей, описанных в кни­
ге. Начнем с записи условий, которые должны выполняться для максимума

функции правдоподобия. Приравнивая к нулю производные от lnp(Xlяµ, I:)


в (9.14) по математическим ожиданиям µk нормально распределенных компо­
нентов, получим

(9.16)

j
9.1. Кластеризация по методу К-средних 579

где мы использовали представление нормального распределения в виде (2.43).


Обратите внимание, что апостериорные вероятности, или уровни ответственно­
сти, заданные в (9.13), появляются справа совершенно естественно. Умножая на
матрицу 1:k, которую мы считаем невырожденной, и меняя порядок суммирова­
ния, получим

(9.17)

где мы ввели обозначение


N
Nk = LY(zпk ). (9.18)
n=l

Мы можем интерпретировать величину Nk как фактическое количество точек,

назначенных кластеру k. Обратите внимание на форму этого решения. Мы ви­


дим, что математическое ожидание µk для k-го нормально распределенного ком­
понента определяется путем вычисления взвешенного среднего значения по

всем точкам из множества данных, в которых весовой коэффициент для точки х"
задается апостериорной вероятностью y(zпk) того, что за генерирование Хп несет
ответственность компонент k.
Если приравнять к нулю производную от ln p(XI я,µ, 1:) по 1:k и следовать
аналогичной линии рассуждений, используя метод максимального правдоподо­
бия для ковариационной матрицы одного нормального распределения, то полу­
чим формулу (с.-и. раздел 2.3.4)

1 N Т
I:k = Nk ~y(zпk)(x" -µk)(хп -µk) , (9.19)

которая имеет тот же вид, что и соответствующий результат для одного нор­

мального распределения, аппроксимирующего исходное множество данных, но

при этом снова каждая точка данных получает вес, равный соответствующей

апостериорной вероятности, а знаменатель равен фактическому количеству то­


чек, связанных с соответствующим компонентом.

Наконец, мы максимизируем 1n р (Х 1 я. µ, 1:) по коэффициентам смешивания tr k·


Здесь мы должны учесть ограничение (9.9), которое требует, чтобы сумма коэф­
фициентов смешивания была равна единице (см. прилоJ1се11ия Д). Это можно
обеспечить с помощью метода множителей Лагранжа и максимизации величины

(9.20)
580 ГЛАВА 9. СМЕСИ РАСПРЕДЕЛЕНИЙ И ЕМ-АЛГОРИТМ

которая приводит к равенству

~ N(xп[µk,~k)
0= L.J +Л (9.21)
n=I L7r1N( хп[µ1 ,~ 1 ) '
j

где мы снова видим появление ответственности. Если мы теперь умножим обе ча­

сти этого равенства на trk и просуммируем по k, используя ограничение (9.9), то


найдем Л = -N. Используя это для исключения Л и переставляя слагаемые, получим
Nk
trk = li' (9.22)

так что коэффициент смешивания для k-го компонента определяется средней от­
ветственностью, которую этот компонент несет за объяснение точек.
Следует подчеркнуть, что результаты (9.17), (9.19) и (9.22) не являются ре­
шением в замкнутой форме для параметров смеси, поскольку ответственность
у(zпд сложным образом зависит от этих параметров (9.13). Однако эти результа-
ты позволяют создать простую итерационную схему для решения задачи макси­

мального правдоподобия, которая, как мы увидим, оказывается вариантом ЕМ­


алгоритма для частного случая смеси нормальных распределений. Сначала вы­
берем начальные значения для математических ожиданий, ковариаций и коэф­
фициентов смешивания. Затем будем чередовать два шага обновления, которые
будем называть Е- и М-шагом, по причинам, которые станут очевидными в бли­
жайшее время. На Е-шаге мы используем текущие значения параметров для
оценки апостериорных вероятностей, или уровней ответственности, заданных
формулой (9.13). Затем мы используем эти вероятности на М-шаге для уточне­
ния математических ожиданий, ковариаций и коэффициентов смешивания с ис­
пользованием результатов (9 .17), (9 .19) и (9 .22). Заметим, что при этом мы сна­
чала вычисляем новые математические ожидания, используя (9 .1 7), а затем ис­

пользуем эти новые значения, чтобы найти ко вариации, используя (9 .19),


в соответствии с результатом для одного нормального распределения. Мы пока­
жем, что каждое обновление параметров, полученных на Е-шаге, за которым
следует М-шаг, гарантирует увеличение логарифмической функции логарифма
правдоподобия (см. раздел 9.4). На практике алгоритм считается сходящимся,
если изменение логарифмической функции правдоподобия (т.е. параметров) па­
дает ниже некоторого порогового значения. Мы проиллюстрируем ЕМ-алгоритм
для смеси двух нормальных распределений, примененных к стандартизирован­
ному набору данных "Старый служака", показанному на рис. 9.8. Здесь исполь­
зуется смесь двух нормальных распределений, причем центры масс инициализи­
руются теми же значениями, что и в алгоритме К-средних на рис. 9.1, а матрицы
9.1. Кластеризация по методу К-средних 581

точности инициализируются матрицей, пропорциональной единичной матрице.


На рис. 9.8, а, зеленым цветом отображены точки вместе с начальной конфигу­
рацией смеси, в которой один контур стандартного отклонения для двух нор­
мально распределенных компонентов показан в виде синего и красного кругов.

На рис . 9.8, б, показан результат первого Е-шага. На нем каждая точка изобра­
жена с использованием доли синих чернил, равной апостериорной вероятности
того, что она была сгенерирована с помощью синего компонента, при соответ­
ствующей доли красных чернил, заданной апостериорной вероятностью того,

что точка сгенерирована с помощью красного компонента. Таким образом, точки,


которые имеют значительную вероятность принадлежности к одному из класте­

ров, выглядят фиолетовыми. Ситуация после первого М-шаrа показана на


рис. 9.8, в. Как видим, математическое ожидание синего нормального распреде­
ленного компонента переместилось в центр масс множества данных, взвешенный
по вероятности того, что каждая точка принадлежит синему кластеру, т.е. оно пе­

реместилось в центр масс точек, изображенных синим цветом. Точно так же кова­
риация синего нормально распределенного компонента равна ковариации точек,

изображенных синим цветом. Аналогичные результаты сохраняются для красного


компонента. На рис. 9.8, г, д и е, показаны результаты после 2, 5 и 20 полных ЕМ­
циклов соответственно. На рис. 9.8, е, алгоритм близок к сходимости.

2 2 2

о O.:f.
L= 1

-2
о

-2
__:=~·о о

-2
-2 о а) 2 -2 о б) 2 -2 о в) 2

2
L=2
2
L=5
2
L =20
·'f""
.
о о о
• ::r;J.
а.;_.

.,!1.·.""t.
:r;}~-'
-2
-2 о г) 2
-2
-2 о д) 2
-2
-2 "'" о е) 2

Рис. 9.8. ЕМ-алгоритм с использованием множества данных "Старый служака" для

иллюстрании алгоритма К-средних на рис . 9.1. Подробности см . в тексте


582 ГЛАВА 9. СМЕСИ РАСПРЕДЕЛЕНИЙ И ЕМ-АЛГОРИТМ

Обратите внимание на то, что ЕМ-алгоритм требует гораздо больше итераций


для достижения (приблизительной) сходимости по сравнению с алгоритмом
К-средних и что для каждого цикла требуется значительно больше вычислений.
Поэтому обычно сначала выполняют алгоритм К-средних, чтобы найти подхо­
дящую инициализацию для смеси нормальных распределений, которая затем

адаптируется с использованием ЕМ-алгоритма. Ковариационные матрицы мож­


но легко инициализировать выборкой ковариаций кластеров, найденных алго­
ритмом К-средних, а коэффициенты смешивания можно приравнять к долям то­
чек, назначенных соответствующим кластерам. Как и в градиентных подходах
к максимизации логарифмической функции правдоподобия, необходимо исполь­
зовать методы, позволяющие избежать особенностей функции правдоподобия, в
которых нормально распределенный компонент коллапсирует в конкретную точ­

ку. Следует подчеркнуть, что, как правило, существует множество локальных мак­

симумов логарифмической функции правдоподобия и ЕМ-алгоритм не гарантиру­


ет самый большой из этих максимумов. Поскольку ЕМ-алгоритм для смесей нор­
мальных распределений играет настолько важную роль, мы приводим его ниже.

ЕМ-алгоритм для смесей нормальных распределений

Для смеси нормальных распределений цель состоит в том, чтобы максимизиро­


вать функцию правдоподобия по параметрам (включая математические ожида­
ния и ковариации компонентов и коэффициенть1 смешивания).

1. Инициализируем математические ожидания µk, ковариации ~k и коэф­


фициенты смешивания 1Z'k и вычисляем начальное значение логарифми­
ческой функции правдоподобия.

2. Е-шаr. Вычисляем уровни ответственности, используя текущие значе­

ния параметров:

- 1Z'kN(xnlµk,I:k)
r ( znk ) - к . (9.23)
L1Z'1N(xnlµ1,I:J)
j=I

3. М-шаг. Уточняем параметры с использованием текущих уровней от-


ветственности:

(9.24)
9.1. Кластеризация по методу К-средних 583

где

(9.27)
n=I

4. Вычисляем логарифмическую функцию правдоподобия:

lnp(Xlµ,1:,n) = ~ln{~JТkN( xnlµk,1:k)} (9.28)

и проверяем сходимость либо параметров, либо логарифмической


функции правдоподобия. Если критерий сходимости не выполняется,
возвращаемся к шагу 2.

9.3. Альтернативный вариант ЕМ-алгоритма

В этом разделе мы представляем альтернативный взгляд на ЕМ-алгоритм,


подчеркивающий ключевую роль, которую играют латентные переменные. Мы

обсудим этот подход прежде всего в абстрактной постановке, а затем рассмот­


рим еще раз случай смесей нормальных распределений.

Целью ЕМ-алгоритма является поиск решений с помощью метода макси­

мального правдоподобия для моделей, имеющих латентные переменные. Мно­


жество всех наблюдаемых данных обозначим матрицей Х, в которой п-я строка
представляет собой вектор х~ , и аналогично обозначим множество всех латент­
ных переменных матрицей Z с соответствующей строкой z~ . Множество всех
параметров модели обозначается через О, поэтому логарифмическая функция
правдоподобия определяется формулой

р х1 о) = 1n { ~ р ( х, z1 о)}.
1n ( (9.29)

Заметим, что наше обсуждение также относится к непрерывным латентным пе­


ременным. Для этого достаточно просто заменить суммы по Z интегралами.

Главное наблюдение заключается в том, что суммирование по латентным пе­


ременным появляется внутри логарифма. Даже если совместное распределение
р(Х, ZI О) принадлежит экспоненциальному семейству, маргинальное распреде-
584 ГЛАВА 9. СМЕСИ РАСПРЕДЕЛЕНИЙ И ЕМ-АЛГОРИТМ

ление p(XI 8) ему не принадлежит из-за наличия суммирования. Наличие сумми­


рования не позволяет логарифму действовать непосредственно на совместное
распределение, что приводит к сложным выражениям при вычислении макси­

мального правдоподобия.
Предположим теперь, что для каждого наблюдения в матрице Х нам было со­
общено соответствующее значение латентной переменной Z. Мы будем назы­
вать множество {Х, Z} полным ммжеством данных, а фактические наблюдае­
мые данные Х - неполными (рис. 9.5). Для полного множества данных лога­
рифмическая функция правдоподобия принимает простой вид ln р(Х, ZI 8), и мы
будем предполагать, что максимизация этой логарифмической функции правдо­
подобия на основе полного множества данных не представляет труда.
На практике, однако, у нас нет полного множества данных {Х, Z}, а есть
только неполные данные Х. Наше знание значений латентных переменных в
матрице Z задается только апостериорным распределением p(ZIX, 8). Посколь­
ку мы не можем использовать логарифмическую функцию правдоподобия для
полных данных, мы вычисляем ее математическое ожидание при апостериорном

распределении латентной переменной, что соответствует (как мы увидим) Е­

шагу ЕМ-алгоритма. На апостериорном М-шаге мы максимизируем это ожида­


ние. Если текущую оценку параметров обозначить через 8°1d, то пара последова­
тельных Е- и М-шагов порождает уточненную оценку 8" w. Алгоритм инициали­
0

зируется путем выбора некоторого начального значения для параметров 80• Ис­
пользование ожидания может показаться несколько произвольным. Однако мы
увидим обоснование этого выбора, когда изложим более глубокий анализ ЕМ­
алгоритма в разделе9.4.
На Е-шаге мы используем текущие значения параметров 8°1d, чтобы найти
апостериорное распределение латентных переменных p(ZIX, 8°1d). Затем будем
использовать это апостериорное распределение, чтобы найти математическое
ожидание логарифмической функции правдоподобия на основе полного множе­
ства данных для некоторого общего значения параметра 8. Это ожидание, обо­
значенное через Q(O, 8°1d), задается формулой

Q (о, ootd ) = I р ( z1х, oold ) ln р (х, z 10). (9.30)


z

На М-шаге мы определяем пересмотренную оценку параметра d' 0


w, максими­

зируя эту функцию:


onew =arg ~ах Q ( 8' oold). (9.31)
9.1. Кластеризация по методу К-средних 585

Заметим, что в определении Q(8, 8°1d) логарифм действует непосредственно на


совместное распределение р(Х, ZI 8), поэтому соответствующая максимизация
на М-шаге будет, по предположению, выполнимой.
Ниже приведен общий ЕМ-алгоритм. Он, как будет показано ниже, обладает
тем свойством, что каждый ЕМ-цикл увеличивает логарифмическую функцию
правдоподобия на основе неполных данных (если он уже не нашел локальный
максимум) (см. раздел 9.4).

Общий ЕМ-алгоритм

По заданному совместному распределению р(Х, ZI 8) наблюдаемых перемен­


ных Х и латентных переменных Z при фиксированных параметрах 8 макси­
мизировать функцию правдоподобия p(XI 8) относительно 8.
1. Выбираем начальные значения параметров 8° 1d.
2. Е-шаr. Вычисляемр(ZIХ, 8°1d).
3. М-шаr. Вычисляем enew при условиях

8new = arg max Q ( 8, 8old), (9.32)


(J

где

Q( 8,8° d) = LP( z1x,8° d)lnp(X,Zl8).


1 1 (9.33)
z
4. Проверяем сходимость либо логарифмической функции правдоподо­
бия, либо значений параметров. Если критерий сходимости не вы­
полняется, то

(9.34)
и вернуться к шагу 2.

ЕМ-алгоритм также может быть использован для поиска МАР (максимальных


апостериорных) решений для моделей, в которых задано априорное распределение

параметров р(8) (см. упраж11е1111е 9.4). В этом случае Е-шаг остается таким же,
как в случае с максимальным правдоподобием, тогда как на М-шаге максимизиро­
ванная величина определяется как Q(8, 8°1d) + 1np(8). Подходящие варианты для
априорного распределения исключают особенности, показанные на рис. 9.7.
Здесь мы рассмотрели использование ЕМ-алгоритма для максимизации
функции правдоподобия при наличии дискретных латентных переменных. Од-
586 ГЛАВА 9. СМЕСИ РАСПРЕДЕЛЕНИЙ И ЕМ-АЛГОРИТМ

нако он также может применяться, когда ненаблюдаемые переменные соответ­


ствуют отсутствующим значениям в наборе данных. Распределение наблюдае­
мых значений получается путем совместного распределения всех переменных и

маргинализации над отсутствующими. Затем ЕМ-алгоритм можно использовать


для максимизации соответствующей функции правдоподобия. Пример примене­
ния этого метода в контексте анализа главных компонентов приведен на

рис. 12.11. Это будет корректной процедурой, если значения данных будут от­
сутствовать по случайным причинам, т.е. механизм, вызывающий пропуск зна­

чения, не зависит от ненаблюдаемых значений. Во многих ситуациях это не так,


например, если датчик не может показать значение, когда измеряемая величина

превышает некоторый порог.

9.3.1. Еще раз о смесях нормальных распределений

Теперь рассмотрим применение ЕМ-алгоритма, учитывающего латентные


переменные, к конкретному случаю смеси нормальных распределений. Напом­
ним, что наша цель состоит в максимизации логарифмической функции правдо­
подобия (9 .14), которая вычисляется с использованием наблюдаемого множества

данных Х, и мы видели, что это сложнее, чем для одного нормального распреде­

ления из-за наличия суммирования по k, которое происходит в логарифме.


Предположим, что в дополнение к наблюдаемому множеству данных Х также
были даны значения соответствующих дискретных переменных Z. Напомним,
что на рис. 9.5, а, показано полное множество данных (т.е. множество, включа­
ющее в себя метки, показывающие, какой компонент сгенерировал какую точ­

ку), а на рис. 9.5, б, показан соответствующий неполный набор данных. Графо­


вая модель для полных данных приведена на рис. 9.9.

Рис. 9.9. Граф, аналогичный показанном у на рис. 9.6,


который отличается тем, что теперь мы предполагаем ,

что наблюдаются дискретные переменные z," а также переменные х 11


9.1. Кластеризация по методу К-средних 587

Рассмотрим задачу максимизации вероятности для полного множества дан­

ных {Х, Z}. Из (9.10) и (9.11) следует, что эта функция правдоподобия принима­
ет вид
N К

p(X,Zlµ,1:,я) = ПП л;•* N( xnlµk,1:k )z•*' (9.35)


n=l k=l

где Znk обозначает k-ю компоненту вектора z •. Взяв логарифм, получим

N К

lnp(X,Zlµ,1:,tr) =
n=l k=l
{
L~:Zпk lnлk + lnN( xnlµk,1:k) }. (9.36)

Сравнение с логарифмической функцией правдоподобия (9.14) для неполного


множества данных показывает, что суммирование по k и логарифмирование вза­
имозаменяемы. Логарифм теперь действует непосредственно на нормальное
распределение, которое само является членом экспоненциального семейства.
Неудивительно, что это приводит к гораздо более простому решению задачи
максимального правдоподобия, как будет показано сейчас. Рассмотрим сначала
максимизацию по математическим ожиданиям и ковариациям. Поскольку z. яв­
ляется К-мерным вектором, в котором все элементы равны нулю, за исключени­

ем одного элемента, равного единице, логарифмическая функция правдоподобия


для полных данных представляет собой просто сумму К независимых вкладов,
по одному для каждого компонента смеси. Таким образом, максимизация по ма­
тематическому ожиданию или ковариации является точно такой же, как для од­
ного нормального распределения, кроме того, что она включает только подмно­

жество точек, которые назначены этому компоненту. Для максимизации по ко­

эффициентам смешивания заметим, что они связаны для разных значений k в


силу ограничения на их сумму (9.9). Как и прежде, его можно выполнить с по­
мощью метода множителей Лагранжа:

(9.37)

так что коэффициенты смешивания равны долям точек, назначенных соответ­


ствующим компонентам.

Таким образом, логарифмическая функция правдоподобия для полного мно­


жества данных может быть тривиально максимизирована в замкнутой форме. На
практике, однако, мы не имеем значений латентных переменных, поэтому, как
уже говорилось, рассматриваем математическое ожидание логарифмической
функции правдоподобия для полного множества данных с учетом апостериорно-
588 ГЛАВА 9. СМЕСИ РАСПРЕДЕЛЕНИЙ И ЕМ-АЛГОРИТМ

го распределения латентных переменных. Используя (9.10) и (9.11) вместе с тео­


ремой Байеса, мы видим, что это апостериорное распределение имеет вид

N К

p(ZIX,µ,1;,я) ос ПП[ 1ftN( xnlµk,1;k )J"* · (9.38)


n=I k=I
Следовательно, оно факторизуется по п, так что при известном апостериорном
распределении векторы {zп} являются независимыми (см. упра.жнение 9.5). Это
легко проверить, проанализировав ориентированный граф, показанный на
рис. 9.6 (см. раздел 8.2), и используя критерий d-разделения. Математическое
ожидание индикаторной переменной znk при этом апостериорном распределении
задается выражением

~:ZпkП[ 1fk,N(xnlµk'•1;k' )J"k'


IE(z ]=~'·~* __k' _ _ _ _ _ __
nk LП[я1N(xnlµJ,1;k)Jnj
Znj j (9.39)
= KtrkN(xnlµk,1;k) = r(zпk ),
LtrJN( xnlµJ,1;J)
J=I
которое представляет собой ответственность компонента k за точку хп. Таким
образом, математическое ожидание логарифмической функции правдоподобия
для полного множества данных имеет вид

N К

IEz [ lnp(X,Zlµ,1;,я)J = LLY(znk ){lntrk + lnN(xnlµk,1;k )} . (9.40)


n=I k=I
Теперь можно действовать следующим образом. Сначала выберем некоторые
начальные значения для параметров µ old , "t'old
""' и 1f old и используем их для вычис-

ления ответственности (Е-шаг). Затем зафиксируем ответственность каждого


компонента и максимизируем (9.40) по µk, :Ek и trk (М-шаг). Это приводит к pe-
шениям в замкнутом виде для µ new "t'new
, ""' и tr new
, заданным
ф
ормулами
{9. l ?) ,
(9.19) и (9.22), как и прежде (с.и. упраж11е11ие 9.8). Это именно ЕМ-алгоритм для
смесей, полученный ранее. Мы подробно рассмотрим роль ожидаемой логариф­
мической функции правдоподобия для полного множества данных в разделе 9.4,
когда дадим доказательство сходимости ЕМ-алгоритма.
9.1. Кластеризация по методу К-средних 589

9.3.2. Связь с аnгоритмом К-средних

Сравнение алгоритма К-средних с ЕМ-алгоритмом для смесей нормальных

распределений показывает, что между ними существует большое сходство. В то


время как алгоритм К-средних выполняет жесткое присвоение точек кластерам,
при котором каждая точка однозначно связана с одним кластером, ЕМ-алгоритм
делает мягкое назначение на основе апостериорных вероятностей. Фактически
мы можем получить алгоритм К-средних как частный случай ЕМ-алгоритма для
смесей нормальных распределений следующим образом.
Рассмотрим смесь нормальных распределений, в которой ковариационные
матрицы компонентов смеси задаются параметром sl, где в- дисперсия, общая
для всех компонентов, а 1- единичная матрица, так что

(9.41)

Рассмотрим теперь ЕМ-алгоритм для смеси К нормальных распределений

этого вида, в котором мы рассматриваем в как фиксированную константу вместо


параметра, подлежащего уточнению. Из (9.13) следует, что апостериорные ве­
роятности, или ответственность для конкретной точки хп задаются выражением

(9.42)

Если мы рассмотрим предел при &~О, то увидим, что член в знаменателе,

для которого величина llxn - µ 1 1 2 является наименьшей, будет стремиться к ну­


лю наиболее медленно, и, следовательно, уровни ответственности y(zпk) для точ­

ки хп равны нулю, за исключением члена j, для которого ответственность у(zп)

стремится к единице. Заметим, что это выполняется независимо от значений Яю

если ни один из як не равен нулю. Таким образом, в этом пределе мы получаем


жесткое распределение точек по кластерам, как и в алгоритме К-средних, так что

y(zпk) ~ rnk• где rnk определяется формулой (9.2). Таким образом, каждая точка
назначается кластеру, имеющему самое близкий центр массы.

Таким образом, уравнение для µk, заданное формулой (9.17) в ЕМ-алгоритме,


сводится к результату (9.4) в алгоритме К-средних. Заметим, что формула уточ­
нения коэффициентов смешивания (9.22) переопределяет значение яk равным
590 ГЛАВА 9. СМЕСИ РАСПРЕДЕЛЕНИЙ И ЕМ-АЛГОРИТМ

доле точек, назначенных кластеру k, хотя эти параметры больше не играют ак­
тивной роли в алгоритме.

Наконец, в пределе при с ~ О ожидаемая логарифмическая функция правдо­


подобия для полного множества данных, заданная формулой (9.40), принимает
вид (см. упращ:иеиие 9.1 /)

(9.43)

Следовательно, в этом пределе максимизация ожидаемой логарифмической


функции правдоподобия для полного набора данных эквивалентна минимизации
меры искажения J в алгоритме К-средних, заданной формулой (9 .1 ).
Обратите внимание на то, что алгоритм К-средних вычисляет не ковариации
кластеров, а только сам кластер. Сложная формулировка смеси нормальных рас­
пределений с общими ковариационными матрицами, известная как эллиптиче­
ский шzгоритм К-средних, была рассмотрена в (Sung and Poggio, 1994).

9.3.3. Смеси распределений Бернулли


До сих пор в этой главе мы рассматривали распределение непрерывных слу­

чайных величин, описываемых смесями нормальных распределений. В качестве


дополнительного примера моделирования смеси и для иллюстрации ЕМ­
алгоритма в другом контексте обсудим теперь смеси дискретных бинарных пе­
ременных, описываемых распределениями Бернулли. Эта модель также известна
как аншzиз латентного класса (Lazarsfeld and Henry, 1968; McLachlan and
Peel, 2000). Помимо практического значения, обсуждение смесей Бернулли так­
же заложит основу для рассмотрения латентных марковских моделей над дис­

кретными переменными (см. раздел 13.2).


Рассмотрим множество D бинарных переменных х;, где i = 1, "" D, каждое из
которых определяется распределением Бернулли с параметром µ ;, так что
D
p(xlµ)= nµixi (1-µ;)1-\ (9.44)
i=l

где х = (х 1 , "" хv)т иµ= (µ1, "" µv)т. Мы видим, что отдельные переменные Х;
независимы при фиксированном µ. Легко видеть, что математическое ожидание
и ковариация этого распределения задаются формулами

IE[x] = µ, (9.45)
cov[x] = diag{µ;(l-µ;}. (9.46)
9.1. Кластеризация по методу К-средних 591

Теперь рассмотрим конечную смесь этих распределений, заданную формулой

р( хlµ,я) = Iяkp(xlµk ), (9.47)


k=I
гдеµ= {µ1, ... ,µк}, я= {я1, ... ,Як} и

(9.48)

Математическое ожидание и ковариация распределения этой смеси задаются

выражениями (см. ynpaJ1me11 ие 9.12)


к

JE[ х] =Iяkµk, (9.49)


k=I
cov[ х] = fk=I яk {I:k + µkµJ}-lE[ х ]JE[ х ]т, (9.50)

где :Ek = diag{µk;(l- µk;)}. Поскольку ковариационная матрица cov[x] уже не яв­
ляется диагональной, распределение смеси может отражать корреляции между

переменными, в отличие от отдельного распределения Бернулли.

Если задано множество данных Х = {х 1 , •• " xN}, то логарифмическая функция


правдоподобия для этой модели задается формулой

(9.51)

Снова мы видим появление суммирования внутри логарифма, так что решение


задачи максимального правдоподобия уже не имеет замкнутой формы.
Теперь сформулируем ЕМ-алгоритм для максимизации функции правдопо­
добия для смеси распределений Бернулли. Для этого сначала введем явную ла­
тентную переменную z, связанную с каждым экземпляром х. Как и в случае
смеси нормальных распределений, z = (z 1, ... , zк)т является бинарной К-мерной
переменной, имеющей единственную компоненту, равную единице, причем все
остальные компоненты равны нулю. Тогда мы можем записать условное распре­

деление х с учетом латентной переменной:

p(xlz,µ)= Пp(xlµk)zk' (9.52)


k=I
592 ГЛАВА 9. СМЕСИ РАСПРЕДЕЛЕНИЙ И ЕМ-АЛГОРИТМ

в то время как априорное распределение для латентных переменных такое же,

как и для смеси нормальных распределений, так что

р( zlя) = Пя:k. (9.53)


k=I
Если мы перемножим p(xl z, µ) и p(zlя), а затем маргинализируем его по z,
то получим (9.47) (см. упражиение 9.14).
Чтобы сформулировать ЕМ-алгоритм, сначала запишем логарифмическую
функцию правдоподобия для полного множества данных, которая задается фор­
мулой
N К

lnp(X,Zlµ,я) = I:~:>пk {lntrk +


n=I k=I
D
(9.54)
+L[ Xni lnµki + (1-xni )ln(l- µki)J,
i=I
где Х = {хп} и Z= {zп}. Затем вычислим математическое ожидание логарифми­
ческой функции правдоподобия для полного множества данных относительно
апостериорного распределения латентных переменных:

N К

E[Inp(X,Zlµ,я)J= LLY(zпk){1ntrk +
n=I k=I
D
(9.55)
+L[ Хп; 1nµki + (1-xni )ln(l- µki)J,
i=l

где y(zпk) = E[zпk] - это апостериорная вероятность, или ответственность компо­


нента k по отношению к заданной точке хп. На Е-шаге ответственность вычисля­
ется с использованием теоремы Байеса:

(9.56)
trkp(xnlµk)
к

L1i1P( xnlµJ)
j=I
Если мы рассмотрим сумму поп в (9.55), то увидим, что ответственность по­
является только в двух слагаемых, которые могут быть записаны как
9.1. Кластеризация по методу К-средних 593

N
Nk = :Lr(zпk ), (9.57)
n=I

(9.58)

где Nk- фактическое количество точек, связанных с компонентом k. На М-шаге


мы максимизируем ожидаемую логарифмическую функцию правдоподобия для
полного множества данных по параметрам µk и я. Если мы приравняем к нулю
производную функции (9.55) по µk и поменяем порядок суммирования, то полу­
чим (см. упраж11е11ие 9.15)
(9.59)

Мы видим, что в результате математическое ожидание компонента k будет рав­


но средневзвешенному значению с весовыми коэффициентами, равными уров­
ням ответственности, которые компонент k несет за точки. Для максимизации по

яk нужно ввести множитель Лагранжа, чтобы учесть ограничение LЯk =1. Вы-
k
полняя действия, аналогичные действиям, предусмотренным в модели смеси
нормальных распределений, получим (с.м. упра;нс11е11ие 9.16)

яk = Nk
N, (9.60)

что представляется интуитивно разумным результатом, согласно которому ко­

эффициент смешивания для компонента k определяется фактической долей то­


чек во множестве данных, которые объясняются этим компонентом.
Заметим, что в отличие от смеси нормальных распределений, здесь нет ника­

ких особенностей, в которых функция правдоподобия уходит в бесконечность.


Это можно увидеть, обратив внимание на то, что функция правдоподобия огра­
ничена сверху, потому что О ~p(xпlµk) ~ 1 (c,w. упражиеиие 9.17). Сушествуют
особенности, при которых функция правдоподобия обращается в нуль, но они не
будут найдены ЕМ-алгоритмом, если он не будет инициализирован патологиче­
ской исходной точкой, поскольку ЕМ-алгоритм всегда увеличивает значение
функции правдоподобия, пока не будет найден локальный максимум (см. раз­
дел 9.4). Мы проиллюстрируем модель смеси Бернулли, показанную на
рис. 9.1 О, используя ее для моделирования рукописных цифр. Здесь изображения
цифр были преобразованы в бинарные векторы, установив все элементы, значе­
ния которых превышают 0,5, равными единице, а остальные элементы - нулю.
Теперь сопоставим набор данных из N = 600 таких цифр, включая цифры "2'',
594 ГЛАВА 9. СМЕСИ РАСПРЕДЕЛЕНИЙ И ЕМ-АЛГОРИТМ

"3" и "4" со смесью К= 3 распределений Бернулли, выполнив 10 итераций ЕМ­


алгоритма. Коэффициенты смешивания были инициализированы до !Ct = 1 /К,
а параметры µkJ равны случайным значениям, выбранным равномерно из диапа­
зона(0,25; 0,75), а затем нормированным для удовлетворения ограничения
LµkJ =1. Мы видим, что смесь из трех распределений Бернулли может найти
j
три кластера в наборе данных, соответствующих различным цифрам.

Рис. 9.10. Модель смеси Бернулли, в верхнем ряду которой показаны примеры из

заданных цифр, установленных после преобразования значений пикселей из шкалы

серого в двоичный с использованием порога 0,5. В нижнем ряду первые три

изображения показывают параметры р ki для каждого из трех компонентов в смеси.

Для сравнения мы также аппроксимируем то же множество данных, используя

однократное многомерное распределение Бернулли, опять же используя метод

максимального правдоподобия . Это означает усреднение счетчиков в каждом пикселе.

Результат показан справа в нижнем ряду

Сопряженное априорное распределение параметров распределения Бернулли


определяется бета-распределением . Как мы уже видели, априорное бета­
распределение эквивалентно введению дополнительных фактических наблюде­
ний х (см. раздел 2.1.1). Аналогичным образом мы можем ввести априорные
распределения в смесь распределений Бернулли и использовать ЕМ-алгоритм
для максимизации апостериорных вероятностных распределений (см. упражне­
ние 9.18).
Можно непосредственно расширить анализ смесей Бернулли на случай мно­
гочленных переменных, имеющих М > 2 состояний, используя дискретное рас­
пределение (2.26) (см. упраж11ение 9.19). Как и прежде, при желании мы можем
ввести априорные распределения Дирихле по параметрам модели.
9.1. Кластеризация по методу К-средних 595

9.3.4. ЕМ-алгоритм для байесовской линейной регрессии


В качестве третьего примера применения ЕМ-алгоритма вернемся к аппрок­

симации обоснованности для байесовской линейной регрессии. В разделе 3.5.2


мы получили формулу для гиперпараметров а и /3 путем вычисления обосно­
ванности, а затем приравняли производные полученных выражений к нулю. Рас­
смотрим теперь альтернативный подход к нахождению гиперпараметров а и /3 с
помощью ЕМ-алгоритма. Напомним, что наша цель - максимизировать обос­
нованность p(tl а,/!), заданную формулой (3.77) по а и /3. Поскольку вектор па­
раметров w был маргинализирован, мы можем рассматривать его как латентную
переменную и, следовательно, оптимизировать эту функцию маргинального
правдоподобия с использованием ЕМ-алгоритма. На Е-шаге мы вычисляем апо­
стериорное распределение w, задавая текущую настройку параметров а и j3, а за­

тем используем его, чтобы найти математическое ожидание логарифмической


функции правдоподобия. На М-шаге максимизируем эту величину по а и f3. Мы
уже вывели апостериорное распределение w, заданное формулой (3.49). Тогда
логарифмическая функция правдоподобия при полном множестве данных опре­
деляется так:

lnp(t, wla, /J) = lnp(tlw, /J) + lnp(wla), (9.61)

где вероятность p(tlw, /3) и априорная вероятность p(wl а) задаются соответ­


ственно соотношениями (3.10) и (3.52). Вычисляя математическое ожидание

апостериорного распределения w, получим

(9.62)

Приравнивая производную по а к нулю, получим формулу для М-шага (см. упра­


ж11е11ие 9.20):

(9.63)

Аналогичный результат выполняется для fЗ(см. упра;щ11ение 9.21).


Эта формула несколько отличается от соответствующего результата (3.92),
полученного путем прямого вычисления функции обоснованности. Однако обе
формулы связаны с вычислением и обращением (или спектральным разложени-
596 ГЛАВА 9. СМЕСИ РАСПРЕДЕЛЕНИЙ И ЕМ-АЛГОРИТМ

ем) матрицы МхМ и, следовательно, будут иметь сравнимую вычислительную


сложность на каждой итерации.
Эти два подхода к определению а должны, конечно, приводить к одному и

тому же результату (при условии, что они находят один и тот же локальный
максимум обоснованности). Это можно проверить, заметив сначала, что величи­
на у определяется формулой

м 1
у=М -a'L--=M-aTr(Sн ). (9.64)
i=t А; +а

В стационарной точке функции обоснованности формула (3 .92) выполняется ав­


томатически, следовательно, мы можем подставить ее в выражение для у.

am1mн =у =М -aTr(Sн). (9.65)

Решая это уравнение относительно а, получаем формулу (9.63), что точно сов­
падает с формулой уточнения в ЕМ-алгоритме.
В качестве заключительного примера рассмотрим тесно связанную модель, а

именно метод релевантных векторов для регрессии, рассмотренный в разде­


ле 7.2.1. Там мы использовали прямую максимизацию маргинального правдопо­

добия, чтобы получить формулы для уточнения гиперпараметров а и f3. Здесь


мы рассмотрим альтернативный подход, в котором вектор весов w рассматрива­
ется в качестве латентной переменной и применяется ЕМ-алгоритм. Е-шаг
включает в себя поиск апостериорного распределения по весам, который описы­
вается формулой (7.81). На М-шаге мы максимизируем математическое ожида­
ние логарифмической функции правдоподобия

Е. [ ln {p(tlX, w,f3)p( wla )} J, (9.66)

где математическое ожидание определяется относительно апостериорного рас­

пределения, вычисленного с использованием предыдущих значений параметров.

Чтобы вычислить новые значения параметров, максимизизируем логарифмиче­


скую функцию правдоподобия по а и /3 (см. упраж11е11ие 9.22):
(9.67)

(9.68)
9.1. Кластеризация по методу К-средних 597

Эти формулы эквивалентны формулам, полученным с помощью непосред­


ственной максимизации (см. ynpaJ1cue11ue 9.23).

9.4. ЕМ-аnrоритм в целом

Алгоритм expectation-maximization, или ЕМ-алгоритм, является общим мето­

дом нахождения оценок максимального правдоподобия для вероятностных мо­


делей, имеющих латентные переменные (Dempster et al., 1977; McLachlan and
Кrishnan, 1997). Здесь излагается самый общий подход к ЕМ-алгоритму и доказы­
вается, что ЕМ-алгоритм, полученный эвристически в разделах 9.2 и 9.3 для сме­

сей нормальных распределений, действительно максимизирует функцию правдо­


подобия (Csiszar and Tusnady, 1984; Hathaway, 1986; Neal and Hinton, 1999). Наша
дискуссия также послужит основой для описания концепции вариационного вы­
вода (см. раздел 10.1).
Рассмотрим вероятностную модель, в которой все наблюдаемые переменные
обозначим через Х и все латентные переменные - через Z. Совместное распре­

деление р(Х, ZI 8) определяется набором параметров, обозначенных через 8.


Наша цель - максимизировать функцию правдоподобия, заданную выражением

p(Xl8) =LP(X,Zl8). (9.69)


z

Мы предполагаем, что переменные из множества Z являются дискретными,


хотя обсуждение никак не изменится, если множество Z содержит непрерывные
переменные или комбинацию дискретных и непрерывных переменных, а сумми­
рование заменяется интегрированием по мере необходимости.
Допустим, непосредственная оптимизация p(XI 8) слишком сложна, а оmими­

зация функции правдоподобия при полном множестве данных р(Х, ZI 8) значи­


тельно проще. Введем распределение q(Z), определенное по латентным перемен­
ным, и заметим, что для любого выбора q(Z) выполняется следующее разложение:

ln p(XI 8) = L(q, 8) + КL(qliP ), (9.70)


где

(9.71)

(9.72)
598 ГЛАВА 9. СМЕСИ РАСПРЕДЕЛЕНИЙ И ЕМ-АЛГОРИТМ

Заметим, что L(q, 0) является функционалом (см. приложеиие !), зависящим от


распределения q(Z), и функцией, зависящей от параметров О. Необходимо тща­
тельно изучить формы выражений (9.71) и (9.72) и, в частности, отметить, что
они различаются по знаку, а также что L(q, О) содержит совместное распределе­
ние Х и Z, а КL(qllP) - условное распределение Z при фиксированном Х. Для
проверки разложения (9.70) сначала воспользуемся правилом умножения веро­
ятностей (с,11. упражиеиие 9.14):
lnp(X, ZIO) = lnp(ZIX, 0) + lnp(XIO), (9.73)
которое подставим затем в выражение для L(q, О). Заметив, что q(Z) является
нормированным распределением, сумма которого равна единице, получаем два

члена, один из которых аннулирует КL(qllP), а другой дает искомую логарифми­


ческую функцию правдоподобия ln p(XI О).
Из формулы (9.72) следует, что КL(qllP) является дивергенцией Кульбака­
Лейблера между q(Z) и апостериорным распределением p(ZIX, О). Напомним, что
дивергенция Кульбака-Лейблера удовлетворяет условию КL(qilP) ~О, а равенство
достигается, если только если
q(Z) = p(ZIX, О) (см. раздел 1.6.1). Следовательно,
из формулы (9.70) следует, что [,(q, О)~ lnp(XIO), иначе говоря, L(q, О) является
нижней оценкой lnp(XI О). Разложение (9.70) приведено на рис. 9.11 .
.,
КL(qllP)

'

.c(q, O) lnp(XIO)

Рис. 9.11. Разложение , заданное формулой (9.70), которое выполняется

для любого распределения q(Z). Поскольку дивергенция Кульбака--Лсйблера

удовлетворяет условию KL(q llP) ~О , величина [(q , {})является 11иж11ей грашщей


логарифмической функнии правдоподобия ln p(XI {})

ЕМ-алгоритм представляет собой двухэтапный итерационный метод оптими­


зации для нахождения решений с высоким правдоподобием. Мы можем исполь­
зовать разложение (9.70) для определения ЕМ-алгоритма и продемонстрировать,
что он действительно максимизирует логарифмическую функцию правдоподо-
9.1. Кластеризация по методу К-средних 599

бия. Предположим, что текущее значение вектора параметров равно 8°1d. На Е­


шаге нижняя грань l(q,8°1d) максимизируется относительно q(Z), сохраняя век-
тор
(} оld ф иксированным. р ешение v
этои задачи максимизации легко наити, заме-
v

тив, что значение ln p(XI 8°1d) не зависит от q(Z), поэтому наибольшее значение
l(q, 8°1d) достигается, когда дивергенция Кульбака-Лейблера обращается в нуль,
иначе говоря, когда q(Z) равно апостериорному распределению p(ZIX, (}°1d).
В этом случае нижняя граница будет равна логарифмической функции правдо­
подобия, как показано на рис. 9.12.
КL(qllp) =О ----.---""!r-----..---

---- --- .

Рис. 9.12. Е-шаг ЕМ-алгоритма. Рас11рс;1слснис q устанавливается равным


апостериорному распределению для текущих значений параметра 0° 1d, заставляя
нижнюю границу двигаться до значения лоп1рифмичсской функции правдоподобия, при

этом дивергенция Кульбака -Лсйблера исчс·!аст

На следующем М-шаге распределение q(Z) фиксируется и нижняя грань


!(q, 8°1d) максимизируется относительно 8, чтобы получить новое значение f11ew.
Это приведет к увеличению нижней границы {, (если она еще не достигла мак­

симума), что неизбежно приведет к увеличению соответствующей логарифмиче­


ской функции правдоподобия. Поскольку распределение q определяется с ис­
пользованием старых, а не новых значений параметров и удерживается фикси­
рованным во время М-шага, оно не будет равно новому апостериорному
распределению p(ZIX, f11ew) и дивергенция Кульбака-Лейблера будет ненулевой.
Следовательно, увеличение логарифмической функции правдоподобия превы­
шает увеличение нижней границы, как показано на рис. 9.13. Если подставить

q(Z) = p(ZIX, 8°1d) в (9.71), то после Е-шага нижняя грань примет вид

l( q,8) = LP( z1x,8°1d )lnp(X,Zl8)- LP( ZIX,8°1d )lnp(ZIX,8°1d) =


z z (9.74)
=Q( 8,8°1d) + const,
600 ГЛАВА 9. СМЕСИ РАСПРЕДЕЛЕНИЙ И ЕМ-АЛГОРИТМ

где константа является энтропией распределения q и поэтому не зависит от 8.


Таким образом, величина, максимизируемая на М-шаге, - это математическое
ожидание логарифмической функции правдоподобия при полном множестве
данных, как мы видели ранее в случае смеси нормальных распределений. Заме­
тим, что переменная 8, по которой выполняется оптимизация, появляется только
внутри логарифма. Если совместное распределение p(Z, XI 8) содержит член
экспоненциального семейства ИJШ произведение таких членов, то логарифм ан­
нулирует экспоненту и приведет к М-шагу, который будет намного проще, чем
максимизация соответствующей логарифмической функции правдоподобия при
неполном множестве данных p(XI 8).

КL(qllP)

lnp(Xl8° 0 ~

Рис. 9.13. М-шаг ЕМ-алгоритма. Распре;1,еление q(Z) удерживается фиксированным, а


нижняя граница L(q, {}) максимизируется по отношению к вектору параметров О, чтобы
дать новое значение {)псw. Поскольку дивергенция Кульбака-Лейблера является
неотрицательной, это приводит к то:-.1у, что логарифмическая вероятность lп p(XI {))
возрастает, по крайней мере, так же, как и нижняя граница

Работу ЕМ-алгоритма также можно рассмотреть в пространстве параметров,

как схематически показано на рис. 9.14. Здесь красная кривая изображает лога­
рифмическую функцию правдоподобия (при неполных данных), значение которой
мы хотим максимизировать. Начнем с некоторого начального значения параметра

8°1d и на первом Е-шаге оценим апостериорное распределение по латентным пе­


ременным, что приводит к нижней границе L,(q, 8°1d), значение которой равно
логарифмической функции правдоподобия при векторе 8°1d (показано синей
кривой). Граница соприкасается с логарифмической функцией правдоподобия
при 8°1d, так что обе кривые имеют одинаковый градиент (см. упраж11е11ие 9.25).
9.1. Кластеризация по методу К-средних 601

Эта оценка является вогнутой функцией, имеющей единственный максимум


(для компонентов смеси из экспоненциального семейства). На М-шаге граница
максимизируется, давая значение ffew, что дает большее значение логарифмиче­
ской функции правдоподобия, чем при векторе 8°1d. Последующий Е-шаг строит
границу, которая является касательной при ffew (показано зеленой кривой).

o o\d o new

Рис. 9.14. ЕМ-алгоритм подразумевает поочередное вычисл ение нижней границы

логарифмической функции правдоподобия для текущих :тачений параметров с

последующей максимизаuией этой границы для получения новых значений параметров .

Подробности см. в тексте

В частном случае независимых, одинаково распределенных данных множе­


ство Х содержит N Z будет содержать N соответствую­
точек {х"}, а множество
щих латентных переменных {zп}, где п = 1, "" N. Из предположения о независи­
мости следует, что p(X,Z)= Пр(х",z"), и, выполняя маргинализацию по {zп},
имеем р(Х) =ПР( х"). Исп~льзуя правила сложения и умножения вероятно-
"
стей, мы видим, что апостериорная вероятность, которая вычисляется на Е-шаге,
принимает вид

p(X,ZIB)
p(ZIX,8) = L р (x,zo 1 )
(9.75)
z
602 ГЛАВА 9. СМЕСИ РАСПРЕДЕЛЕНИЙ И ЕМ-АЛГОРИТМ

Следовательно, апостериорное распределение также факторизуется по п. В слу­


чае смеси нормальных распределений это говорит о том, что ответственность,
которую каждый из компонентов смеси несет за конкретную точку Хп данных,

зависит только от значения Хп и параметров (}компонентов смеси, а не от других


точек.

Мы видели, что как Е-, так и М-шаги ЕМ-алгоритма увеличивают значение


корректно определенной границы логарифмической функции правдоподобия и
что полный цикл ЕМ-алгоритма изменяет параметры модели таким образом,
чтобы увеличить логарифмическую функцию правдоподобия (если она еще не
достигла максимума, и в этом случае параметры остаются неизменными).
ЕМ-алгоритм также можно использовать для максимизации апостериорного

распределения р( OIX) для моделей, в которые мы ввели априорное распределе­


ние р(8) по параметрам. Для этого заметим, что p(OIX) = р(О, Х)/р(Х) и, следа-
вательно,

lnp(OIX) = 1np(O, X)- lnp(X). (9.76)


Используя разложение (9.70), имеем

lnp(OIX) = L(q,O) + КL(ql[p) + lnp(O)- lnp(X) ~

~ L(q, О)+ lnp(O) - lnp(X), (9.77)

где ln р(Х) - константа. Мы можем снова оптимизировать правую часть попе­

ременно по q и 8. Оптимизация по q приводит к тем же формулам Е-шага, что и


в стандартном ЕМ-алгоритме, поскольку q появляется только в l,(q, 8). Форму­
лы М-шага модифицируются путем введения члена с априорным распределени­

ем lnp(O), который обычно требует лишь малой модификации стандартных


формул М-шага.
ЕМ-алгоритм разбивает потенциально сложную задачу максимизации функ­
ции правдоподобия на два этапа: Е- и М-шаг, каждый из которых часто проще

выполнять. Тем не менее для сложных моделей может оказаться, что либо Е­
шаг, либо М-шаг, либо оба остаются сложно выполнимыми. Это приводит к
двум возможным обобщениям ЕМ-алгоритма следующим образом.
Задачу трудновыполнимого М-шага решает обобщенный ЕМ-алгоритм
(Generalized ЕМ - GEM). Вместо стремления максимизировать L(q, 8) по (}
он изменяет параметры таким образом, чтобы просто увеличить его значение.
Как и прежде, поскольку l,(q, 8) является нижней границей логарифмической
функции правдоподобия, каждый полный ЕМ-цикл GЕМ-алгоритма гарантиро­
ванно увеличивает значение логарифмической функции правдоподобия (если
9.1. Кластеризация по методу К-средних 603

параметры уже не соответствуют локальному максимуму). Одним из способов


использования GЕМ-алгоритма было бы использование на М-шаге одной из
нелинейных стратегий оптимизации, таких как метод сопряженных градиен­

тов. Еще одна форма GЕМ-алгоритма, известная как алгоритм условной мак­
симизации математического ожидания, или ЕСМ-алгоритм (Expectation Con-
ditional Maximization - ЕСМ), включает в себя выполнение нескольких опти­
мизаций с ограничениями на каждом М-шаге (Meng and RuЬin, 1993).
Например, параметры можно разбить на группы, а М-шаг - на несколько эта­
пов, каждый из которых включает в себя оптимизацию одного из подмножеств
при фиксированном дополнении.
Аналогичным образом можно обобщить Е-шаг ЕМ-алгоритма, выполнив ча­
стичную, а не полную, оптимизацию [,(q, fJ) относительно q(Z) (Neal and Hinton,
1999). Как мы видели, для любого заданного значения (}существует единствен­
ный максимум [,(q, О) по q(Z), который соответствует апостериорному распре­
делению q8 (Z) = p(ZIX, О) и для этого выбора q(Z) оценка l,(q, (}) равна лога­
рифмической функции правдоподобия ln p(XI О). Из этого следует, что любой
алгоритм, сходящийся к глобальному максимуму l,(q, О), найдет значение(}, ко­
торое также является глобальным максимумом логарифмической функции прав­
доподобия ln p(XI О). Если р(Х,ZI О) является непрерывной функцией от (}, то в
силу непрерывности любой локальный максимум l,(q, fJ) также будет локаль­
ным максимумом ln p(XI О).
Рассмотрим случай N независимых точек х 1 , "" xN с соответствующими ла­
тентными переменными z 1" "" zN. В таком случае совместное распределение
р(Х, ZI О) факторизуется по точкам, и эта структура может быть использована в
последовательной версии ЕМ-алгоритма, в которой на каждом ЕМ-цикле точки

обрабатываются только по одной. На Е-шаге, вместо того чтобы перераспреде­


лять ответственность за все точки, мы заново вычисляем ответственность за од­

ну точку. Может показаться, что последующий М-шаг потребует вычисления,


включающего ответственность за все точки. Однако, если компоненты смеси яв­
ляются членами экспоненциального семейства, ответственность вводится только
с помощью простой достаточной статистики и их можно эффективно уточнять.
Рассмотрим, например, случай смеси нормальных распределений и предполо­
жим, что мы обновляем точку т, в которой соответствующие старые и новые
значения ответственности обозначаются y 01 d(Zтk) и rnew(Zmк)· На М-шаге требуе­
мая достаточная статистика может обновляться постепенно. Например, для ма­
тематического ожидания достаточная статистика определяется формулами (9.17)
и (9.18), из которых получаем (с.и. у11ра.ите11ия 9.26)
604 ГЛАВА 9. СМЕСИ РАСПРЕДЕЛЕНИЙ И ЕМ-АЛГОРИТМ

µ new =µold + ( rnew (zmk ) - r 01d ( zmk )J(x -µo\d) (9.78)


k k Nnew т k
k

вместе с

(9.79)

Соответствующие результаты для ковариаций и коэффициентов смешивания


аналогичны.

Таким образом, Е- и М-шаг занимают фиксированное время, которое не зави­


сит от общего количества точек. Поскольку параметры пересматриваются после
каждой точки, а не до тех пор, пока не будет обработан весь набор данных, эта по­
следовательная версия может сходиться быстрее, чем пакетная. Каждый Е- или
М-шаг в этом последовательном алгоритме увеличивает значение l,(q, 0), и, как
было показано выше, если алгоритм сходится к локальному (или глобальному)
максимуму l,(q, 8), это будет соответствовать локальному (или глобальному)
максимуму логарифмической функции правдоподобия ln p(XI 8).

Упражнения

9.1. (*) WWW Рассмотрим алгоритм К-средних, описанный в разделе 9.1. Пока­
жите, что из-за наличия конечного числа возможных назначений для набо­
ра дискретных индикаторных переменных rnk и факта, что для каждого та­
кого назначения существует единственный оптимум по {µk}, алгоритм
К-средних должен сходиться после конечного количества итераций.

9.2. (*) Примените процедуру последовательного оценивания Роббинса­


Монро, описанную в разделе 2.3.5, к проблеме нахождения корней функ­
ции регрессии, заданной производными от J в формуле (9.1) относитель­
но µk. Покажите, что это приводит к стохастическому алгоритму К-сред­

них, в котором для каждой точки Xn ближайший прототип µk обновляется


с использованием (9.5).
9.3. (*) WWW Рассмотрим смесь нормальных распределений, в которой марги­
нальное распределение p(z) для латентной переменной задается формулой
(9.10), а условное распределение p(xlz) для наблюдаемой переменной­
формулой (9.11). Покажите, что маргинальное распределение р(х), полу­
ченное суммированием p(z)p(xl z) по всем возможным значениям z, явля­
ется смесью нормальных распределений вида (9.7).
9.1. Кластеризация по методу К-средних 605

9.4. (*)Предположим, мы хотим использовать ЕМ-алгоритм для максимизации


апостериорного распределения по параметрам p(BIX) для модели, содер­
жащей латентные переменные, где Х - наблюдаемый набор данных. По­

кажите, что Е-шаг остается таким же, как и в случае максимального прав­
доподобия, тогда как на М-шаге максимизированная величина задается
суммой Q(8, 8°1d) + 1np(8), где Q(8, 8°1d) определяется по формуле (9.30).
9.5. Рассмотрим ориентированный граф, описывающий смесь нормальных

распределений и показанный на рис. 9.6. Используя критерий d-


разделения, описанный в разделе 8.2, покажите, что апостериорное рас­

пределение латентных переменных факторизуется по различным точкам


данных, так что

N
Р( z1x,µ.~,1Z') =ПР( zn lxn,µ,~,1Z' ). (9.80)
n=I

9.6. (**)Рассмотрим частный случай смеси нормальных распределений, в ко­


торой ковариационные матрицы 1:k всех элементов одинаковы и равны 1:.
Выведите формулы ЕМ-алгоритма для максимизации функции правдопо­
добия в такой модели.

9.7. (*) WWW Убедитесь, что максимизация логарифмической функции правдо­


подобия при полном множестве данных (9.36) для смеси нормальных рас­

пределений приводит к тому, что математические ожидания и ковариации

каждого компонента независимо аппроксимируются по соответствующей

группе точек, а коэффициенты смешивания задаются количеством точек в


каждой группе.

9.8. (*) WWW Покажите, что если мы максимизируем (9.40) по µk, сохраняя
фиксированными уровни ответственности y(zпk), то получим решение в
замкнутой форме, заданное формулой (9.17).
9.9. (*)Покажите, что если мы максимизируем (9.40) по I:k и ffк, сохраняя фик­
сированными уровни ответственности y(zпk), то получим решения в за­
мкнутой форме, заданные формулами (9.19) и (9.22).
9.10. (**)Рассмотрим модель плотности, заданную смесью распределений смеси
к

р(х)= Ltrkp(xjk) (9.81)


k=I

и предположим, что вектор х разбивается на две части так, что х =(ха, хь).
Покажите, что условная плотность р(хьlха) сама является смесью распре-
606 ГЛАВА 9. СМЕСИ РАСПРЕДЕЛЕНИЙ И ЕМ-АЛГОРИТМ

делений, и найдите выражения для коэффициентов смешивания и плотно­


стей компонентов.

9.11. (*)В разделе 9.3.2 мы нашли связь между алгоритмом К-средних и ЕМ­
алгоритмом для смесей нормальных распределений, рассмотрев модель

смеси, в которой все компоненты имеют ковариацию cl. Покажите, что в


пределе при Е _, О максимизация математического ожидания логарифми­
ческой функции правдоподобия для этой модели, заданной формулой
(9.40), эквивалентна минимизации меры искажения J для алгоритма К­
средних, заданной формулой (9.1).
9.12. (*) WWW Рассмотрим распределение смеси вида
к

р( х) = L7rkp( xlk) (9.82),


k=I

где элементы х могут быть дискретными, или непрерывными, или их ком­


бинацией. Обозначим математическое ожидание и ковариацию распределе­
ния p(xlk) как J.4 и ~k соответственно. Покажите, что математическое ожида­
ние и ковариация смеси распределений задаются формулами (9.49) и (9.50).
9.13. (**) Используя формулы для уточнения в ЕМ-алгоритме, покажите, что
смесь распределений Бернулли с ее параметрами, заданными значениями,

соответствующими максимуму функции правдоподобия, обладает тем


свойством, что

1 N
E[x]=- Lxn =х. (9.83)
N n=I

Отсюда следует, что если параметры этой модели инициализированы так,


что все компоненты имеют одно и то же математическое ожидание µk =µ
при k= 1, ".,К, то ЕМ-алгоритм сходится после одной итерации при лю­
бом выборе начальных коэффициентов смешивания, и что это решение
обладает свойством µk = х . Заметим, что эта модель представляет собой
вырожденный случай смеси, в которой все компоненты идентичны, и на

практике мы стараемся избегать таких решений, используя соответствую­


щую инициализацию.

9.14. (*)Рассмотрим совместное распределение латентных и наблюдаемых пе­


ременных для распределения Бернулли, полученных путем перемножения
распределенияр(хlz, µ),заданного формулой (9.52), и распределенияр(zlm.
заданного формулой (9.53). Покажите, что если мы маргинализируем это
совместное распределение по z, то получим выражение (9.47).
9.1. Кластеризация по методу К-средних 607

9.15. (*) WWW Покажите, что если мы максимизируем математическое ожидание


логарифмическое функции правдоподобия с полным множеством данных
(9.55) для смеси распределений Бернулли относительно µk, то получим

формулу М-шага (9.59).


9.16. (*)Покажите, что если мы максимизируем математическое ожидание ло­
гарифмической функции правдоподобия с полным множеством данных
(9.55) для смеси распределений Бернулли относительно коэффициентов
смешения ;rk, используя метод множителей Лагранжа для учета ограниче­

ния, наложенного на их сумму, то получим формулу М-шага (9.60).


9.17. (*) WWW Покажите, что вследствие ограничения О $p(xпlµk) $ 1 для дис­
кретной переменной Хп логарифмическая функция правдоподобия для
смеси распределений Бернулли при неполном множестве данных ограни­
чена сверху, и, следовательно, у нее нет особых точек, в которых вероят­
ность уходит в бесконечность.

9.18. (**) Рассмотрим модель смеси Бернулли, которая обсуждалась в разде­


ле 9.3.3, вместе с априорным распределением p(µklak, bk) по каждому из
векторов параметров µk, заданному бета-распределением (2.13), и априор­
ным распределением Дирихле р(яlа), заданным формулой (2.38). Выведи­
те ЕМ-алгоритм для максимизации апостериорной вероятности р(µ, яlХ).

9.19. (**)Рассмотрим D-мерную переменную х, каждый из компонентов i кото­


рой сам является мультиномиальной случайной величиной степени М, так

что х является бинарным вектором с компонентами xiJ, где i = 1, ... , D и

j = 1, ... , М, при условии, что LX!I =1 для всех i. Предположим, что pac-
J
пределение этих переменных описывается смесью дискретных мультино-

миальных распределений, рассмотренных в разделе 2.2, так что


к

Р( х) =L1Z"kP( xlµk)' (9.84)


k=I

где

D М

p(xlµk)= ппµ:t. (9.85)


1=1 J=l

µkiJ представляют собой вероятности p(xu = llµk) и должны


Параметры
удовлетворять условию О$ µkiJ $ 1 вместе с ограничением LµkiJ =1 для
всех значений k и i. Учитывая наблюдаемый набор даннL1х {хп}, где
п = 1, ... , N, получите формулы Е- и М-шагов ЕМ-алгоритма для оптимиза-
608 ГЛАВА 9. СМЕСИ РАСПРЕДЕЛЕНИЙ И ЕМ-АЛГОРИТМ

ции коэффициентов смешивания :тk и компонентных параметров µkiJ этого


распределения с помощью метода максимального правдоподобия.

9.20. (*) WWW Покажите, что максимизация математического ожидания лога­


рифмической функции правдоподобия при полном наборе данных (9.62)
для байесовской линейной регрессионной модели приводит к М-шагу
(9.63) для а.

9.21. (**) Используя концепцию обоснованности модели из раздела 3.5, выве­


дите формулы уточнения на М-шаге для параметра f3 в байесовской ли­
нейной регрессионной модели, аналогичный результату (9.63) для а.

9.22. (**)Используя максимизацию математического ожидания логарифмической


функции правдоподобия при полном множестве данных, определенной по
формуле (9.66), выведите формулы М-шага (9.67) и (9.68) для уточнения ги­
перпараметров регрессионного метода релевантных векторов.

9.23. (**) WWW В разделе 7.2.1 мы использовали непосредственную максимиза­


цию маргинального правдоподобия, чтобы получить формулы (7.87) и
(7.88) для уточнения значений гиперпараметров а и /3 для регрессионного
метода релевантных векторов. Аналогичным образом в разделе 9.3.4 мы
использовали ЕМ-алгоритм для максимизации того же маргинального
правдоподобия по формулам (9.67) и (9.68). Покажите, что эти два набора
формул формально эквивалентны.

9.24. (*)Проверьте соотношение (9.70), в котором L(q, 8) и KL(qllP) определя­


ются по формулам (9.71) и (9.72) соответственно.
9.25. (*) WWW Покажите, что нижняя грань L(q, 8), заданная формулой (9.71)
при q(Z) = p(ZIX,8°1d), имеет тот же градиент по 8, что и логарифмическая
функция правдоподобия 1п p(XI {}) в точке (} = (J°1d.
9.26. (*) WWW Рассмотрим последовательную версию ЕМ-алгоритма для смеси
нормальных распределений, в которой уровни ответственности пересчи­
тываются только для конкретной точки Xm. Используя формулы М-шага
(9.17) и (9.18), получите результаты (9.78) и (9.79) для обновления матема­
тических ожиданий компонентов.

9.27. (**)Выведите формулы М-шага для обновления ковариационных матриц


и коэффициентов смешивания в смеси нормальных распределений, в ко­
торых уровни ответственности обновляются постепенно, аналогично ре­
зультату (9.78) для обновления математических ожиданий.
10

Главным предназначением вероятностных моделей является оценивание апо­

стериорного распределения p(ZIX) латентных переменных Z с учетом наблюда­


емых (видимых) переменных Х и математических ожиданий, вычисленных по
этому распределению. Модель может также содержать некоторые детерминиро­

ванные параметры, которые мы пока оставляем неявными, или же быть чисто


байесовской моделью, в которой заданы априорные распределения всех неиз­
вестных параметров, входящих в множество латентных переменных, обозначае­
мых вектором Z. Например, в ЕМ-алгоритме необходимо оценить математиче­
ское ожидание логарифмической функции правдоподобия для полных данных с
учетом апостериорного распределения латентных переменных. Для многих мо­
делей, представляющих практический интерес, невозможно оценить апостери­

орное распределение или вычислить математические ожидания по этому рас­

пределению. Это может быть связано с тем, что размерность пространства ла­
тентных переменных слишком велика или апостериорное распределение имеет
610 ГЛАВА 10. ПРИБЛИЖЕННЫЙ ВЫВОД

очень сложную форму, для которой математические ожидания невозможно вы­


числить аналитически. В случае непрерывных переменных требуемые интегра­
лы могут не иметь аналитической замкнутой формы, а размерность пространства
и сложность подынтегрального выражения могут делать невозможным числен­

ное интегрирование. Для дискретных переменных маргинализация означает

суммирование по всем возможным конфигурациям латентных переменных, и,


хотя это всегда возможно в принципе, на практике часто оказывается, что коли­

чество латентных состояний чрезвычайно велико и поэтому точное вычисление


является чрезмерно дорогостоящим.

В таких ситуациях следует использовать приближенные схемы, которые раз­


деляются на два класса, в зависимости от того, лежат ли в их основе стохастиче­

ские или детерминированные аппроксимации. Стохастические методы, такие как


методы Монте-Карло с цепями Маркова, описанные в главе 11, позволили ши­
роко использовать байесовские методы во многих областях. Как правило, при
бесконечных вычислительных ресурсах они могут генерировать точные резуль­
таты, а приближение возникает из-за использования конечного объема процес­
сорного времени. На практике методы выбора могут оказаться требовательными
к вычислительным ресурсам, часто ограничивая их использование для задач не­

большого масштаба. Кроме того, может быть трудно узнать, генерирует ли схе­
ма выбора независимые выборки из генеральной совокупности с требуемым
распределением.

В этой главе мы введем ряд детерминированных приближенных схем, неко­


торые из которых хорошо масштабируются для крупных приложений. Они ос­
нованы на аналитических приближениях к апостериорному распределению,
например, предполагая, что оно факторизуется определенным образом или име­
ет определенную параметрическую форму, например нормальную. Таким обра­
зом, они никогда не смогут генерировать точные результаты, поэтому их силь­

ные и слабые стороны дополняют сильные стороны методов выбора.


В разделе 4.4 обсуждалась аппроксимация Лапласа, основанная на локальной
гауссовской аппроксимации моды (т.е. максимума) распределения. Теперь мы
перейдем к семейству методов аппроксимации, называемых методами вариаци­
онного вывода или вариационными байесовскими методами, которые использу­
ют более глобальные критерии и получили широкое применение. В заключение
будет кратко описан альтернативный вариационный подход, известный как рас­
пространение ожидания.
10.1. Вариационный вывод 611

10.1. Вариационный вывод

Вариационные методы берут свое начало в XVIII веке с работ Эйлера, Ла­

гранжа и других математиков по вариационному исчислению. Стандартный ма­


тематический анализ связан с нахождением производных от функций. Мы мо­
жем рассматривать функцию как отображение, которое принимает в качестве
аргумента значение переменной и возвращает в качестве результата значение

этой функции. Производная функции описывает, как изменяется результат при


бесконечно малых изменениях аргумента. Аналогично можно определить функ­
ционал как отображение, которое принимает в качестве аргумента функцию
и возвращает в качестве результата значение этого функционала. Примером мо­
жет служить энтропия Н [р ], которая принимает в качестве аргумента распреде­
ление вероятности р(х) и возвращает величину

Н[р] =-J p(x)lnp(x)dx. (10.1)

Мы можем ввести понятие производной функционала, которое выражает, как из­


меняется значение функционала в ответ на бесконечно малые изменения входной
функции (Feynman et а/., 1964). Правила вариационного исчисления отражают
правила стандартного математического анализа и обсуждаются в прило.щеиии Г.
Мноmе задачи можно выразить в виде задачи оптимизации, в которой оптимизи­
руемая величина является функционалом. Решение получается путем изучения
всех возможных входных функций, чтобы найти ту, которая максимизирует или
минимизирует функционал. Вариационные методы имеют широкое применение и
включают такие области, как методы конечных элемешов (Kapur, 1989) и метод
максимума энтропии (Schwarz, 1988).
Хотя вариационные методы не носят приближенного характера, они, есте­
ственно, допускают поиск приближенных решений. Это делается путем ограни­
чения диапазона функций, над которыми выполняется оптимизация, например,
рассматривая только квадратичные функции или функции, составленные из ли­
нейных комбинаций фиксированных базисных функций, в которых могут варьи­
роваться только коэффициенты линейной комбинации. В случае приложений к
вероятностному выводу ограничение может, например, принимать форму пред­
положений о факторизации (Jordan et al., 1999; Jaakkola, 2001).
Теперь рассмотрим более подробно, как понятие вариационной оптимизации
может быть применено к проблеме вывода. Предположим, есть полностью байе­
совская модель, в которой все параметры имеют известные априорные распре­
деления. Модель также может иметь латентные переменные и параметры, мно-
612 ГЛАВА 10. ПРИБЛИЖЕННЫЙ ВЫВОД

жество которых будем обозначать через Z. Аналогично мы обозначаем множе­


ство всех наблюдаемых переменных через Х. Например, мы могли бы иметь N
независимых одинаково распределенных величин, для которых Х = {х 1 , •• " xN}
и Z = {z 1, "" zN}· Вероятностная модель определяет совместное распределение
р(Х,Z), и наша цель - найти аппроксимацию апостериорного распределения
p(ZIX) и свидетельство в пользу модели р(Х). Как и при обсуждении
ЕМ-алгоритма, мы можем разложить логарифм маргинальной вероятности, ис­
пользуя формулу

(10.2)
где

L:(q)= f q(Z)ln{p~7~f )}dZ, (10.3)

КL(ф)=-f q(Z)ln{p;~~~)}dz (10.4)

Это отличается от ЕМ-алгоритма только тем, что вектор параметров О больше не


появляется, поскольку параметры теперь являются стохастическими перемен­

ными и включаются в множество Z. Так как в этой главе основное внимание


уделяется непрерывным переменным, в формулировке этого разложения мы ис­
пользовали интегрирование, а не суммирование. Однако анализ не изменяется,
если некоторые или все переменные дискретны. В этом случае просто следует
по мере необходимости заменять интегрирование суммированием. Как и ранее,
мы можем максимизировать нижнюю границу функционала l,(q) с помощью оп­
тимизации по распределению q(Z), что эквивалентно минимизации дивергенции
Кульбака-Лейблера. Если мы допустим любой возможный выбор для q(Z), то
максимальная нижняя граница возникает, когда дивергенция Кульбака­
Лейблера исчезает, т.е. когда распределение q(Z) совпадает с апостериорным
распределением p(ZIX). Однако мы будем предполагать, что модель такова, что
работа с истинным апостериорным распределением невозможна.
Таким образом, мы рассматриваем лишь ограниченное семейство распреде­
лений q(Z), а затем ищем член этого семейства, на котором достигается мини­
мум дивергенции Кульбака-Лейблера. Наша цель- правильно ограничить это
семейство, чтобы оно включало только приемлемые распределения и в то же
время было достаточно богатым и гибким, обеспечивая хорошее приближение к
истинному апостериорному распределению. Важно подчеркнуть, что ограниче­
ние накладывается исключительно на приемлемость, и в соответствии с этим

требованием мы должны использовать как можно более богатое семейство ап-


10.1. Вариационный вывод 613

проксимирующих распределений. В частности, использование очень гибких


распределений не порождает переобучение, а позволяет нам лучше приблизить
истинное апостериорное распределение .

Одним из способов ограничить семейство аппроксимирующих распределений


является использование параметрического распределения q (Z OJ ), определяемого
1

набором параметров OJ. В этом случае нижняя граница L,(q) становится функцией

от OJ, и мы можем использовать стандарmые методы нелинейной оптимизации

для определения оптимальных значений параметров. Пример такого подхода, в


котором вариационное распределение является нормальным и оптимизировано по

его математическому ожиданию и дисперсии, приведен на рис. 10.1.


40

О , !\
30

0,6
20
0,4

10
0,2

о
2 - 1 о 2 3 4 - 1 о 2 3 4

Рис. 10.1. Иллюстрация вариационной аппроксимации на примере , рассмотренном на

рис . 4.14. На левом графике показаны исхоююс распределение (желтый цвет), а также

аппроксимация Лапласа (красный цвет) и вариационная аппроксимация (зеленый цвет),

а на правом графике показаны отрицательные логарифмы соответствующих кривых

10.1.1. Факторизованные распредеnения

Здесь мы рассмотрим альтернативный способ ограничения семейства распре­


делений q(Z). Предположим, мы разбиваем множество Z на непересекающиеся
группы, которые обозначим через Z;, где i = 1, .. " М. Затем предположим, что
распределение q факторизуется относительно этих групп, так что
м

q { Z) = П q; { Z; ). (10.5)
i=I

Следует подчеркнуть, что мы не делаем никаких дальнейших предположений


о распределении. В частности, мы не ограничиваем функциональные формы от­
дельных множителей q;(Z;). Эта факторизованная форма вариационного вывода
соответствует приближенному подходу, известному в физике под названием
теория среднего поля (Parisi, 1988).
614 ГЛАВА 10. ПРИБЛИЖЕННЫЙ ВЫВОД

Среди всех распределений q(Z), имеющих вид (10.5), мы теперь ищем такое
распределение, для которого нижняя грань L:,(q) является наибольшей. По этой
причине мы хотим выполнить свободную (вариационную) оптимизацию l:,(q) по
всем распределениям q;(Z;), оптимизируя функционал по каждому из множите­
лей поочередно. Для этого сначала подставим (10.5) в (10.3), а затем проанали­
зируем зависимость от одного из множителей qj(Z1). Обозначая q1(Z1) как q1, что­
бы не усложнять обозначения, получим

i:,( q) = fI!q; { ln p(X,Z)- ~lnq; }dz =


= Jq1 { lnp(X,Z) JJ q,dZ, }dZ1 ~J q1 1nq1dZ1 +const = (10.6)

= J lnp(X,Z )dz -J
q1 1 1 q1 lnq1dZ1 +const,

где мы определили новое распределение р {Х, Z 1 ) соотношением

lnp(X,Z1 ) = Е;" 1 [Inp(X,z)]+ const. (10.7)

Здесь обозначение Е;" 1 [".) обозначает математическое ожидание по


q-распределениям по всем переменным Z; для i * j, так что
llil;"j [Inp(X,Z)] = f1np(X,z)n q;dZ;.
'"J
(10.8)

Леонард Эйлер
1707-1783
Эйлер - швейцарский математик и физик, который
работал в Санкт-Петербурге и Берлине и считается од­
ним из величайших математиков всех времен. Он, без­
условно, самый плодовитый, и его работы составляют
75 томов. В частности, он сформулировал современную
теорию функций, разработал (вместе с Лагранжем) вари­
ационное исчисление и открыл формулу i" = -1, которая
связывает четыре наиболее важных числа в математике. В последние семна­
дцать лет жизни он почти полностью ослеп и все же получил почти полови­

ну своих результатов именно в этот период.


10.1. Вариационный вывод 615

Предположим теперь, что мы сохраняем множество {q; ;'1} фиксированным и

максимизируем ,C(q) в формуле (10.6) по всем возможным формам распределения

q1(Z1). Это легко сделать, если признать, что формула (10.6) является отрицатель­

ной дивергенцией Кульбака-Лейблера между qj(Z) и .P(X,Z1 ). Таким образом,


максимизация (10.6) эквивалентна минимизации дивергенции Кулъбака­

Лейблера, а минимум возникает, когда q1 ( Z 1 ) =р (Х, Z 1 ). Таким образом, полу-

чаем общее выражение для оmимального решения qj ( Z 1 ) , заданное формулой

ln qj (Z 1 ) = IE;" 1 [ln p(X,Z) + const. J (10.9)

На изучение формы этого решения стоит потратить некоторое время, по­


скольку оно служит основой для применения вариационных методов. Оно гово­
рит о том, что логарифм оптимального решения для множителя q1 получается
путем вычисления логарифма совместного распределения по всем латентным
и видимым переменным и апостериорного математического ожидания по всем

другим множителям {q;} для i *}.


Постоянное слагаемое в формуле (10.9) задается нормированием распределе-

ния q; (Z 1) . Таким образом, если взять экспоненту обеих сторон и нормировать,


то получим

На практике удобнее работать с формой (10.9), а затем (при необходимости)


восстанавливать константу нормировки путем проверки. Это станет ясно из по­

следующих примеров.

Система уравнений (10.9) для j = 1, "" М представляет собой набор условий


согласованности для максимума нижней границы функционала при ограничени­
ях факторизации. Однако она не имеет явного решения, потому что выражение в

правой части ( 10.9) для оптимального q~ ( Z 1 ) зависит от математических ожи-


даний, вычисленных по другим множителям q;(Z;) для i *j. Поэтому мы будем
искать подходящее решение, сначала инициализируя все множители q;(Z;) соот­
ветствующим образом, а затем циклически перемещаясь по множителям и заме­
няя каждый из них по очереди уточненной оценкой, заданной правой ча­
стью (10.9), вычисленной с использованием текущих оценок для всех других
616 ГЛАВА 10. ПРИБЛИЖЕННЫЙ ВЫВОД

множителей. Сходимость гарантируется, потому что граница является выпуклой


по каждому из множителей q;(Z;) (Boyd и Vandenberghe, 2004).

10.1.2. Свойства факторизованных аппроксимаций

Наш подход к вариационному выводу основан на факторизованной аппрок­


симации истинного апостериорного распределения. Рассмотрим задачу аппрок­

симации общего распределения факторизованным распределением. Начнем с


обсуждения задачи аппроксимации нормального распределения с помощью фак­
торизованного нормального распределения, что даст полезную информацию о
типах неточностей, появляющихся при использовании факторизованных ап­
проксимаций. Рассмотрим нормальное распределение p(z) = N(zlµ, л- 1 ) над
двумя коррелированными переменными z = (z 1, z2), в которых математическое
ожидание и точность имеют вид

(10.10)

где Л 21 = Л 12 из-за симметрии матрицы точности. Предположим теперь, что мы


хотим аппроксимировать это распределение, используя факторизованное нор­

мальное распределение вида q(z) = q 1(z 1)q2(z 2). Сначала применим общий ре­
зультат (10.9), чтобы найти выражение для оптимального множителя q; (z 1 ).

При этом следует отметить, что в правой части нужно сохранить только те чле­
ны, которые имеют некоторую функциональную зависимость от z 1, потому что

все остальные члены могут быть поглощены константой нормировки. Таким об­
разом, имеем

Inq; (z1 ) = 1Ez2 [Inp(z)J + const =

=1Ez2 [-~(z -µ1 ) 2 Л -(z1 -µ


1 11 1 )Л 12 (z 2 -µ 2 )]+const = (10.11)

= __!_ z~ Л 11 + z1 µ..Л 11 - z 1 Л 12 ( IE [z 2 ] - µ 2 ) + const.


2
Далее заметим, что правая часть этого выражения является квадратичной функ­

цией от z 1, поэтому можно идентифицировать q•(z 1) как нормальное распределе­


ние. Следует подчеркнуть, что мы не предполагали, что распределение q(z;) яв­

ляется нормальным, а получили этот результат путем вариационной оптимиза­

ции дивергенции Кульбака-Лейблера по всем возможным распределениям q(z;).


Заметим также, что нам не нужно рассматривать постоянное слагаемое в форму-
10.1. Вариационный вывод 617

ле (10.9) явно, так как оно представляет собой константу нормировки, которую
при необходимости можно найти в конце вычислений путем проверки. Исполь­
зуя метод выделения полного квадрата, мы можем определить математическое

ожидание и точность этого нормального распределения (см. раздел 2.3.1):

(10.12)

где

(10.13)

Из условия симметрии следует, что распределение q; (z 2) также является нор­


мальным и может быть записано как

(10.14)

в котором

(10.15)

Заметим, что эти решения связаны, так что q*(z 1) зависит от математических
ожиданий, вычисленных по q"(z2 ), и наоборот. Мы решаем эту проблему, рас­
сматривая вариационные решения уравнений повторной оценки и перебирая пе­
ременные по очереди, уточняя их до тех пор, пока не будет удовлетворен не­

который критерий сходимости. Вскоре будет представлен пример этого про­


цесса, а пока отметим, что задача достаточно проста и ее решение можно

найти в замкнутой форме. В частности, поскольку E[z 1] = т 1 и E[z2] = т 2 , мы


видим, что два уравнения вьmолняются, если взять E[z 1] = µ 1 и E[z2] = µ 2, и нетруд­

но показать, что оно является единственным решением при условии, что распре­

деление не сингулярное (см. упра;щ11е11ие 10.2) Этот результат показан на

рис. 10.2, а. Мы видим, что математическое ожидание определено правильно, но


дисперсия q(z) зависит от направления наименьшей дисперсиир(z), а дисперсия
вдоль ортогонального направления значительно недооценена. В целом фактори­
зованное вариационное приближение порождает слишком компактные аппрок­
симации апостериорного распределения.

Для сравнения предположим, что мы минимизировали обратную диверген­

цию Кульбака-Лейблера КL(pllq). Как мы увидим, эта форма дивергенции


Кульбака-Лейблера используется в альтернативном подходе приближенного
вывода, называемом распространением ожидания (см. раздел 1 О. 7) Поэтому мы

рассматриваем общую задачу минимизации КL(pllq) при условии, что q(Z) явля-
618 ГЛАВА 10. ПРИБЛИЖЕННЫЙ ВЫВОД

ется факторизованной аппроксимацией вида (10.5). Тогда дивергенция Кульба­


ка-Лейблера может быть записана в виде

(10.16)

где постоянное слагаемое - это энтропия p(Z) и, следовательно, не зависит от


q(Z). Теперь можно легко выполнить оптимизацию по каждому из множите­

лей qj(Zj) с использованием множителей Лагранжа (см. упражнеиие 10.3):

q; (zj) = fp(Z)Jl dZ; = p(Zj ).


•~}
(10.17)

Z2 Z2

0,5 @) 0,5

о
о 0,5 Z1 0,5 Z1
а) б)

Рис. 10.2. Сравнение двух альтернативных форм дивергенции Кульбака--Лейблера.

Зеленые контуры соответствуют одному, двум и трем стандартным отклонениям для

коррелированного нормального распределения p{z) по двум переменным z 1 и z 2,


а красные контуры представляют собой соответствующие уровни для

аппроксимирующего распределения q(z) по тем же переменным, представляющего


собой произведение двух независимых одномерных нормальных распредел ений,

параметры которых получаются путем минимизации дивергенции Кульбака-Лейблера

KL(q l!P) (а) и обратной дивергенции Кульбака-Лейблера КL(p f lq) (6)

В этом случае мы находим, что оптимальное решение для qj(Zj) задается со­
ответствующим маргинальным распределением p(Z). Обратите внимание на то,
что это решение имеет замкнутую форму и поэтому не требует итерации.
Для того чтобы применить этот результат к иллюстративному примеру нор­
мального распределения p(z) над вектором z, можно использовать форму­
лу (2.98), что дает результат, показанный на рис. 10.2, б. Мы видим, что матема­
тическое ожидание аппроксимации снова является правильным, но значительная

масса вероятности распределена в областях пространства переменных, которые


имеют очень низкую вероятность.
10.1. Вариационный вывод 619

Различие между этими двумя результатами можно понять, заметив, что области
пространства Z, где значение p(Z) близко к нулю, а значение q(Z) не близко к ну­
лю, дают большой положительный вклад в дивергенцию Кульбака-Лейблера:

КL(q/lp)=-J q(Z)ln{ :i~i }dZ (10.18)

Таким образом, минимизация этой формы дивергенции Кульбака-Лейблера


приводит к распределениям q(Z), которые избегают областей, в которых p(Z)
мало. Напротив, дивергенция Кульбака-Лейблера KL(pllq) минимизируется рас­

пределениями q(Z), отличными от нуля в областях, где p(Z) отлично от нуля.

а) б) в)

Рис. 10.3. Еще одно сравнение двух альтернативных форм дивергенции Кульбака­

Лейблера : а) синие контуры показывают бимодальное распределение p(Z), заданное

смесью двух нормальных распределений, а красные соответствуют единственному

нормальному распределению q(Z), которое наилучшим образом аппроксимирует p(Z)

в смысле минимизации дивергенции Кульбака-Лейблера KL(pllq); 6) как и в а), но

теперь красные контуры соответствуют нормальному распределению q(Z), найденному

путем численной минимизации дивергенции Кульбака-Лейблера KL(q!IP ); в) как и в 6),


но с указанием другого локального минимума дивергенции Кульбака-Лейблера

Мы можем лучше понять различия в поведении двух дивергенций Кульбака­


Лейблера, если рассмотрим аппроксимацию многомодального распределения
одномодальным (см. рис. 10.3). В практических приложениях истинное апосте­
риорное распределение часто оказывается многомодальным, причем большая
часть апостериорной массы сосредоточена в нескольких относительно неболь­
ших областях пространства параметров. Эти множественные моды могут возни­
кать вследствие неидентифицируемости в пространстве латентных параметров
или из-за сложной нелинейной зависимости от параметров. Оба типа многомо­

дальности встречались в главе 9в контексте смесей нормальных распределений,


620 ГЛАВА 10. ПРИБЛИЖЕННЫЙ ВЫВОД

где они проявлялись в виде множественных максимумов функции правдоподо­


бия, и вариационный метод, основанный на минимизации КL(qllp), будет стре­
миться найти одну из этих мод. Напротив, если бы мы минимизировали
КL(pllq), полученные аппроксимации будут усредняться по всем модам и в кон­
тексте модели смесей приведут к плохим прогностическим распределениям (по­
скольку среднее значение двух достаточно точных значений параметров обычно
само по себе не является достаточно точным). С помощью дивергенции КL(pllq)
можно определить полезную процедуру вывода, но для этого требуется совсем
другой подход, который будет подробно рассмотрен при обсуждении метода
распространения ожидания (с.<И. раздел 10. 7).
Две формы дивергенции Кульбака-Лейблера являются членами альфа-семейст­
ва дивергенций (Ali and Silvey, 1966; Amari, 1985; Minka, 2005), определяемых
формулой

(10.19)

где --оо < а<+ оо - непрерывный параметр. Дивергенция Кульбака-Лейблера


КL(pllq) соответствует пределу при а~ 1, тогда как дивергенция КL(qllP) соот­
ветствует пределу при а~-1. Для всех значений а выполняется условие
Da(pllq) ~О, равенство достигается тогда и только тогда, когда р(х) = q(x). Пусть
р(х)- фиксированное распределение, и мы минимизируем Da<Pllq) относительно
некоторого набора распределений q (х). Тогда при а~ -1 дивергенция обращается
в нуль, так что при любых значениях х, для которых р(х) =О, выполняется условие
q(x) =О, и обычно распределение q(x) будет недооценивать носитель р(х) и стре­
миться искать моду с наибольшей массой. И наоборот, при а ~ -1 дивергенция не
обращается в нуль, так что при значениях х, для которых р(х) >О, выполняется
условие q(x) >О, и обычно распределение q(x) будет растягиваться, чтобы покрыть
все р(х) и переоценивать носитель р(х). При а= О получаем симметричную дивер­
генцию, линейно связанную с расстоянием Хеллингера, заданным формулой

(10.20)

Квадратный корень из расстояния ХеллИЮ'ера является корректной метрикой.

10.1.3. Пример: одномерное нормальное распределение

Рассмотрим теперь факторизованное вариационное приближение с использо­


ванием нормального распределения по одной переменной х (МасКау, 2003).
10.1. Вариационный вывод 621

Наша цель - вывести апостериорное распределение для математического ожи­


дания µ и точности т по заданному множеству V = {х 1 , "., xN} наблюдаемых
значений х, которые независимо друг от друга извлечены из генеральной сово­
купности с нормальным распределением. Функция правдоподобия определяется
формулой

(10.21)

Введем теперь сопряженные априорные распределения для µ и т, заданные

формулами
р(µl т) = N(µlµo, Р.-о т)- 1 ), (10.22)
р(т) = Gam(тla 0 , Ьо), (10.23)

где Gam( тlа 0 , Ь 0 ) - гамма-распределение, определяемое формулой (2.146). Вме­

сте эти распределения представляют собой гамма-нормальное сопряженное


априорное распределение (см. раздел 2.3.6).
Для этой простой задачи апостериорное распределение можно найти точно, и
оно также принимает форму нормального гамма-распределения (см. у11раж11е­
ние 2.44). Однако для целей обучения мы рассмотрим факторизованное вариа­
ционное приближение к апостериорному распределению, заданное формулой

(10.24)

Обратите внимание, что истинное апостериорное распределение не факторизу­


ется таким образом. Оптимальные коэффициенты qµ(µ) и qт(т) можно получить
из общего результата (10.9) следующим образом. Для qµ(µ) имеем

lnq: (µ) = Ет [ lnp( VIµ, т) J+ ln р(µlт) + const =


(10.25)

Выделяя полный квадрат относительно µ, мы видим, что qµ(µ) является нор­

мальным распределением N(µlµN,Л.N 1 ) с математическим ожиданием и точно­


стью, определяемой формулами (см. упражие11ие 10. 7)

(10.26)

(10.27)
622 ГЛАВА 10. ПРИБЛИЖЕННЫЙ ВЫВОД

Заметим, что при N ~ оо это дает результат, совпадающий с результатом метода

максимального правдоподобия, в котором µN = х, а точность является беско­


нечной.
Аналогично оптимальное решение для множителя qт( •)задается формулой

Inq; = JEµ [ lnp(VIµ,•) + lnp(µI• )] + lnp( •) + const =


N 1
=(а 0 -1) ln • - Ь0 • + -
2
ln • + -2 ln • - (10.28)

-~JEµ
2
[f (xn -
n;I
µ )2 + ~ (µ- µ 2
0) ] + const,

и, следовательно, qт( •)является гамма-распределением Gam(тlaм bN) с парамет­


рами

N+l
aN =ао+--, (10.29)
2

(10.30)

И снова это решение проявляет ожидаемое поведение при N ~ оо (см. упра:'1с-


11е11ие 10.8).
Следует подчеркнуть, что мы не предполагали этих конкретных функцио­
нальных форм для оптимальных распределений qµ(µ) и qт( •). Они возникли
естественным образом из структуры функции правдоподобия и соответствую­
щих сопряженных априорных распределений (c~t. раздел 10.4.1)
Таким образом, мы имеем выражения для оптимальных распределений qµ{µ)
и q т( т), каждое из которых зависит от моментов, вычисленных по отношению
к другому распределению. Поэтому один из возможных подходов к поиску ре­

шения состоит в том, чтобы сделать первоначальное предположение, скажем, о


моменте JE[µ], и использовать его для пересчета распределения qµ(µ). Учитывая
это пересмотренное распределение, мы можем извлечь искомые моменты JE(µ]
и JE(µ 2] и использовать их для пересчета распределения qт(т) и т.д. Поскольку
пространство латентных переменных для этого примера является только дву­

мерным, мы можем проиллюстрировать вариационное приближение к апостери­


орному распределению, построив контуры как истинного апостериорного, так

и факторизованного приближения (рис. 10.4).


10.1. Вариационный вывод 623

о о
-1 о
µ -1 о µ
2 2
В) Г)

r r

о
-1
~ о
µ о
-1 о µ

Рис. 10.4. Вариационный вывод для м11тематического ожидания µи точности r


одномерного нормального распределения. Контуры истинного апостериорного

распределения р ( µ, rlD) показаны зеленым цветом; контуры начального

факторизованного приближения q" ( µ) q rCr) пока:1аны синим цветом (а); после

уточнения множителя q1,(µ) (6); после уточнения множителя q ,( r) (в); контуры

оптимального факторизованноrо приближения, к которым сходится итерационная

схема, показаны красным цветом (г)

В общем, нам нужно использовать итеративный подход, такой, как этот, что­
бы найти оптимальное факторизованное апостериорное распределение. Однако в
очень простом примере, который мы здесь рассматриваем, существует возмож­
ность найти явное решение, решая одновременно уравнения для оптимальных

множителей qµ(µ) и q r( r). Прежде чем это сделать, мы можем упростить выра­
жения, рассмотрев широкие неинформативные априорные распределения, в ко­
торых µ 0 = а 0 = Ь 0 = А. 0 = О. Хотя эти значения параметров соответствуют непри­
емлемым априорным распределениям, мы видим, что апостериорное распреде­

ление все еще четко определено. Используя стандартный результат l!Щ r] = aN/ bN
для математического ожидания гамма-распределения вместе с (10.29) и (10.30)
(см. приложе11ие В), имеем

1
-[-]=JE 1 N
[ -:2)хп-µ) 2] =-_
N (- _
х 2 -2х1Е[µ]+1Е [ µ 2 J) • (10.31)
1Е t' N + 1 n=I N- 1
624 ГЛАВА 10. ПРИБЛИЖЕННЫЙ ВЫВОД

Тогда, используя (10.26) и (10.27), получим моменты первого и второго порядка


распределения q µ (µ) в виде

(10.32)

Теперь можно заменить эти моменты на (10.31 ), а затем решить уравнение отно­
сительно !Е[ т] ( с.м. упражиеиие 1О.9 ), чтобы получить выражение

_1_=(х2 -х2)=
IE( т)
(10.33)
=_!_
N п=t
I (хп -х(
Исчерпывающее описание теории байесовского вывода для нормального рас­
пределения, включая обсуждение его преимуществ над методом максимальной
правдоподобности, см. в Minka (1998).

10.1.4. Сравнение моделей


Помимо осуществления вывода по латентным переменным Z, мы также можем
сравнить набор моделей-кандидатов, помеченных индексом т, и получить апри­
орные вероятности р(т). Наша цель состоит в том, чтобы затем приблизить апо­
стериорные вероятностир(тlХ), где Х- наблюдаемые данные. Это немного бо­
лее сложная ситуация, чем рассмотренная до сих пор, потому что разные модели

могут иметь разную структуру и разную размерность латентных переменных Z.


Таким образом, мы не можем просто рассмотреть факторизованное приближе­
ние q(Z)q(m), и вместо этого следует признать, что апостериорное распределе­
ние над Z должно быть обусловлено индексом т, поэтому мы должны рассмот­
реть распределение q(Z, т) = q(Zlm)q(m). Можно легко проверить следующее
разложение по этому вариационному распределению (см. ynpaJ1c11e11ue 10.10):

p(Z,mlX) }
lnp(X) =.С- ~~q(Zlm )q(m)ln {q(Zlm )q(m) , (10.34)

где .С- нижняя оценка на lnp(X) и задается формулой

L = н:ч(Zlm)q(m)lnЦ~f~~(2)} (10.35)

Здесь мы предполагаем, что переменные из множества Z являются дискретными,


но тот же анализ применяется к непрерывным латентным переменным при уело-
10.2. Иллюстрация: вариационная смесь нормальных распределений 625

вин замены сумм на интегрирование. Мы можем максимизировать .Ст по отноше­


нию к распределению q(m) с использованием множителя Лагранжа (см. упраж·-
11е1111е / 0.11):
q(m) ос р(т)ехр(.Ст), (10.36)
где

4п = Lq(Z 1 m)ln{p(Z,XI т)}·


z q(Zlm)
Однако, если мы максимизируем .С относительно q(Zlm), то выяснится, что ре­
шения для разных т связаны, как и ожидалось, потому что они обусловлены ин­
дексом т. Вместо этого сначала оптимизируем каждое из распределений q(Zlm)
путем оптимизации (10.35) или, что равнозначно, оптимизации .Ст, а затем опре­
делим q(m), используя (10.36). После нормализации результирующие значения
для q(m) могут использоваться для выбора или осреднения модели обычным
способом.

10.2. Иллюстрация: вариационная смесь


нормальных распределений

Вернемся к обсуждению смеси нормальных распределений и применим ме­


тод вариационного вывода, разработанный в предьщущем разделе. Это послу­
жит хорошей иллюстрацией применения вариационных методов, а также проде­
монстрирует, как байесовский подход изящно устраняет многие трудности, свя­
занные с методом максимального правдоподобия (Attias, 1999Ь ). Читателю
предлагается подробно изучить этот пример, поскольку он дает много информа­
ции о практическом применении вариационных методов. Многие байесовские
модели, соответствующие гораздо более сложным распределениям, могут быть
получены путем прямого расширения и обобщения этого анализа.
Нашей отправной точкой является функция правдоподобия для смеси нор­
мальных распределений, показанная на рис. 9.6. Для каждого наблюдения xn
имеем соответствующую латентную переменную zm содержащую двоичный
вектор 1-из-К с элементами Znk для k = 1, "., К. Как и ранее, обозначаем множе­
ство наблюдаемых данных через Х = {х 1 , "., xN}, а множество латентных пере­
менных - через Z = {z 1, .", zN}. Из (9.10) следует, что, учитывая коэффициенты
смешения tr, условное распределение Z можно записать в виде
N К

Р( Zltr) = ПП 1r;•k · (10.37)


n=I k=I
626 ГЛАВА 10. ПРИБЛИЖЕННЫЙ ВЫВОД

Аналогично из (9.11) следует, что, учитывая латентные переменные и параметры


компонента, условное распределение наблюдаемых векторов данных можно за­
писать в виде

(10.38)

гдеµ= {µk} иЛ = {Лk}· Обратите внимание на то, что мы работаем с матрицами


точности, а не с ковариационными матрицами, поскольку это несколько упро­

щает математические выкладки. Затем вводим априорные распределения по па­


раметрам µ, Л и rr. Анализ значительно упрощается, если мы используем со­
пряженные априорные распределения. Поэтому выбираем распределение Дири­
хле по коэффициентам смешивания rr (см. раздел 10.4.1):
к

p(rr) = Dir(nla0 ) = С(ао)П 1rf0 - 1, (10.39)


k=I

где для симметрии мы выбрали один и тот же параметр СХ() для каждого из ком­
понентов, а С( а 0 ) - константа нормировки распределения Дирихле, определяе­
мая формулой (Б.23) (с.и. раздел 2.2.1). Как мы видели, параметр а 0 можно ин­
терпретировать как эффективное априорное количество наблюдений, связанных
с каждым компонентом смеси. Если значение а0 невелико, то на апостериорное
распределение будут в основном влиять данные, а не априорное распределение.

Аналогично вводится независимое априорное распределение Гаусса­


Уишарта, определяющее математическое ожидание и точность каждого нор­

мально распределенного компонента:

р(µ,А) = р(µIА)р(Л) =
(10.40)
= ТТ N(µklmo,(PoAk )- 1 )w(лklWo, vo ),
k=I

потому что это представляет собой сопряженное априорное распределение, ко­


гда и математическое ожидание, и точность неизвестны. Как правило, по сооб­
ражениям симметрии мы выбирали m 0 =О (см. раздел 2.3.6).
Полученная модель может быть представлена в виде ориентированного гра­
фа, показанного на рис. 10.5. Заметим, что существует связь от Л доµ, так как
дисперсия распределения поµ в (10.40) является функцией от Л.
10.2. Иллюстрация: вариационная смесь нормальных распределений 627

Рис. 10.5. Налравленный ацикл ический граф , представляющий

байс с ов с кую с месь нормальных распределений, в которой прямоутольник

обоз начает набор, состоящий ю N н езависимых одинаково

распределенных наблюдений. Здесьµ обо:шачает {µk}, а Л - {Л*}

Этот пример наглядно показывает различия между латентными переменными


и параметрами . Переменные, такие как Zni которые появляются внутри прямо­
угольника, рассматриваются как латентные, потому что количество таких пере­

менных растет с увеличением размера множества данных. Напротив, количество

переменных, таких как µ, которые находятся за пределами прямоугольника,

фиксировано и не зависит от размера множества данных, и поэтому эти пере­


менные рассматриваются как параметры . Однако с точки зрения графовых мо­
делей принципиального различия между ними нет.

10.2. 1. Вариационное распределение

Чтобы сформулировать вариационную трактовку этой модели, запишем сов­


местное распределение всех случайных величин, которое задается формулой

р(Х, Z, tr, µ, Л) = p(XJZ, µ, Л)p(Zltr)p(tr)p(µIЛ)p(Л), (10.41)


в которой множители бьши определены ранее. Читателю полезно самостоятель­
но убедиться, что это разложение действительно соответствует вероятностной
графовой модели, показанной на рис . 10.5. Заметим, что наблюдаемыми являют­
ся только переменные Х = {х 1 , ... , xN}.
Рассмотрим теперь вариационное распределение, которое разделяет латент­
ные переменные и параметры так, что

q(Z, tr, µ, Л) = q(Z)q(tr, µ, Л). (10.42)


Примечательно, что это единственное предположение, которое необходимо
сделать для того, чтобы получить практичное решение байесовской модели, ос­
нованной на смеси распределений . В частности, функциональная форма множи­
телей q(Z) и q(tr, µ, Л) будет определяться автоматически путем оптимизации
вариационного распределения. Заметим, что в формуле в (10.41) мы опускаем
628 ГЛАВА 10. ПРИБЛИЖЕННЫЙ ВЫВОД

индексы как на q-, так и нар-распределениях и для различения разных распре­

делений полагаемся на аргументы.

Соответствующие уравнения последовательного обновления для этих мно­


жителей можно легко получить, используя общий результат (10.9). Рассмотрим
вывод уравнения обновления для множителя q(Z). Логарифм оптимизированно­
го множителя задается формулой

ln q*(Z) = lffiп;µ,Л[lnp(X, Z, tr, µ, Л)] + const. (10.43)


Воспользуемся теперь разложением (10.41). Заметим, что нас интересует
только функциональная зависимость правой части от переменной Z. Таким об­
разом, любые члены, не зависящие от Z, могут быть поглощены константой ад­
дитивной нормировки:

ln q"(Z) = E"[lnp(Zltr)] + Eµ,Л[lnp(XIZ,µ, Л)] + const. (10.44)

Подставляя два условных распределения в правую часть и снова абсорбируя лю­


бые члены, не зависящие от Z, в постоянном слагаемом, имеем:
N К

lnq*(Z)= L::~~:Zп1clnPnk +const, (10.45)


n=I k=I

где

lnpпk =lffi[ln7rk]+_!_E[1nlA1cl]- Dln(27r)-


2 2 (10.46)
-klffiµk,Ak [(хп -µk)T Л1с(хп -µk)].
где D - размерность переменной х. Взяв экспоненту от обеих сторон (10.45),
получим

N К

q* (z) ос ППР:t
n=I k=I
· (10.47)

Выполняя нормировку этого распределения и отмечая, что для каждого зна­

чения п величины Znk являются двоичными и их сумма равна единице по всем

значениям k, получим (см. упражнеи ие 10.12)


N К

q*(Z)oc ППr:;*, (10.48)


n=I k=I

где

(10.49)
10.2. Иллюстрация: вариационная смесь нормальных распределений 629

Итак, оптимальное решение для множителя q(Z) принимает ту же функцио­


нальную форму, что и априорное распределение p(Zl.n'). Заметим, что поскольку
Рпk задается экспонентой действительной величины, величины rnk будут неотри­
цательными, а их сумма будет равна единице, как и требуется.
Для дискретного распределения q*(Z) получим стандартный результат:

(10.50)

из которого видно, что величины rпk играют роль ответственностей. Заметим, что
оптимальное решение для q*(Z) зависит от моментов, вычисленных по распре­
делениям других переменных, и поэтому вариационные уравнения обновления
снова оказываются связанными и должны решаться итеративно.

На данном этапе удобно определить три статистики множества наблюдаемых


значений, вычисленных с помощью ответственностей:
N

Nk = Lrnk• (10.51)
n=I

(10.52)

(10.53)

Они аналогичны величинам, оцениваемым в алгоритме максимального прав­


доподобия для смеси нормальных распределений.
Теперь рассмотрим множитель q(tr, µ, Л) в вариационном апостериорном
распределении. Снова используя общий результат (10.9), имеем:

1nq (я,µ,А) =lnp(я)+ Llnp(µk,Ak )+ Ez [lnp(Zlя)J +


0

k=I (10.54)
К N
+LLJE[ znk ]lnN( xnlµk,AJ; +const. 1)

k=I n=I
Правая часть этого выражения распадается на сумму членов, включающих

только я вместе с членами, содержащими толькоµ и Л, что означает, что вариа­


ционное апостериорное распределение q(tr, µ,А) факторизуется: q(я)q(µ, Л).
Кроме того, сами члены, содержащие µ и Л, содержат сумму из k слагаемых,
включающих µk и лk, что приводит к дальнейшей факторизации:
630 ГЛАВА 10. ПРИБЛИЖЕННЫЙ ВЫВОД

q(я,µ,Л) = q(я) П q(µk,Ak ). (10.55)


k=l

Выделяя в правой части (10.54) члены, зависящие от я, имеем

К К N
lnq* (я)= (а0 -1) ~)nJl'k + L~>nk ln Jl'k + const, (10.56)
k=l k=l n=I

где мы использовали формулу (10.50). Беря экспоненту от обеих частей, выясня­


ем, что q*(я)- это распределение Дирихле

q*(я) = Dir(яl а), (10.57)

где а имеет компоненты ak, заданные формулой

ak= ао + Nk. (10.58)


В заключение отметим, что вариационное апостериорное распределение

q •(µk, Лk) не факторизуется в произведение маргинальных распределений, но


мы всегда можем использовать правило умножения вероятностей, чтобы запи­
сать его в виде q*(µk, Лk) = q*(µklЛk)q*(Лk)· Эти два множителя можно найти,
проверив (10.54) и подсчитав те члены, которые включаютµ и А. Как и ожи­
далось, результат является распределением Гаусса-Уишарта и задается форму­
лой (см. упраж11е11ие 10.13)

(10.59)

(10.60)

(10.61)

(10.62)

(10.63)
Эти уравнения аналогичны уравнениям М-шага ЕМ-алгоритма для поиска
максимума правдоподобия смеси нормальных распределений. Мы видим, что
вычисления, которые должны выполняться для уточнения вариационного апо­

стериорного распределения по параметрам модели, включают в себя вычисление


тех же сумм по набору данных, которые возникают в методе максимального
правдоподобия.
10.2. Иллюстрация: вариационная смесь нормальных распределений 631

Для выполнения этого вариационного М-шага понадобятся математические


ожидания E[zпk] = rпk• представляющие ответственности. Они получаются путем
нормализации величин Рпk• заданных формулой (10.46). Это выражение включа­
ет в себя математические ожидания относительно вариационных распределений
параметров, и их легко вычислить (см. упраж:1tе11ие 10.14):

Eµk,лk [(хп -µk)т Лk(хп -µk)]=


(10.64)
= D/J; + vk ( хп - mk) т W* ( хп - mk),
1

lnAk = E[InlAk 1] = ~\f/( vk +2l-i) +Dln2+1n1wk1, (10.65)

1nffk =E[lnяk]=\fl(ak)-\fl(a), (10.66)

где мы ввели определения Л.k и ffk, а \f/O - дигамма-функция, определенная


формулой (Б.25), где а= _Lak. Результаты (10.65) и (10.66) следуют из стан­
k

дартных свойств распределений Уишарта и Дирихле (c.w. прило.J1се11ие Б).

Если мы подставим (10.64}--(10.66) в (10.46) и воспользуемся формулой (10.49),


то получим следующий результат для ответственностей:

(10.67)

Обратите внимание на сходство с соответствующим результатом для ответ­


ственностей в ЕМ-алгоритме с максимальным правдоподобием, которые, исходя
из (9.13), можно записать в виде

(10.68)

где мы использовали точность вместо ковариации, чтобы подчеркнуть сходство


с формулой (10.67).
Таким образом, оптимизация вариационного апостериорного распределения
включает в себя циклическое выполнение двух этапов, аналогичных шагам ЕМ­
алгоритма. В вариационном эквиваленте Е-шага мы используем текущие распре­
деления по параметрам модели для оценки моментов в (10.64), (10.65) и (10.66) и,

следовательно, оцениваем E[zпk] = rnk· Затем в последующем вариационном экви­


валенте М-шага мы фиксируем эти ответственности и используем их для повтор­
ного вычисления вариационного распределения по параметрам с исполъзовани-
632 ГЛАВА 10. ПРИБЛИЖЕННЫЙ ВЫВОД

ем (10.57) и (10.59). В каждом случае мы видим, что вариационное апостериорное


распределение имеет ту же функциональную форму, что и соответствующий мно­
житель в совместном распределении (10.41 ). Это общий результат, который следу­
ет из выбора сопряженных распределений (см. разде.r1 10.4.1).
На рис. 10.6 показаны результаты применения этого подхода к масштабиро­
ванному набору данных о гейзере "Старый служака" для смеси нормальных рас­
пределений, имеющей К= 6 компонентов. Мы видим, что после завершения
процесса остаются только два компонента, для которых ожидаемые значения ко­

эффициентов смешивания численно отличаются от их априорных значений.


Этот эффект можно понять качественно с точки зрения автоматического ком­
промисса, существующего в байесовской модели между подгонкой данных и
сложностью модели, при которой компенсация сложности возникает благодаря
компонентам, параметры которых отклоняются от их априорных значений

(см. раздел 3.4). Компоненты, несущие принципиальную ответственность за


объяснение точек данных, имеют rnk::::: О и, следовательно, Nk::::: О. Из (10.58) вид­
но, что ak::::: а 0 , а из (10.60)-(10.63) следует, что другие параметры возвращаются
к своим априорным значениям. В принципе, такие компоненты слабо прибли­
жаются к точкам данных, но для широких априорных распределений этот эффект
слишком мал, чтобы его можно бьmо обнаружить численно. Для вариационной
модели смеси нормальных распределений ожидаемые значения коэффициентов
смешения в апостериорном распределении задаются формулой (см. упраж­
иение 10.15)

(10.69)

Рассмотрим компонент, для которого Nk::::: О и ak ::::: а 0 . Если априорное рас­


пределение широкое, так что а 0 ~О, то JE[яk] ~О и компонент не играет ника­
кой роли в модели, тогда как если априорное распределение жестко ограничива­
ет коэффициенты смешивания так, что а 0 ~ оо, то JE[яk] ~ 1 /К.
На рис. 10.6 показано, что априорным распределением по коэффициентам
смешивания является распределение Дирихле вида (10.39). Напомним, что из
рис. 2.5 следует, что при а 0 < 1 априорные распределения приводят к решениям, в
которых некоторые из коэффициентов смешивания равны нулю. Рис. 10.6 был по­
лучен с использованием а 0 = 10~3 и демонстрирует два компонента, имеющие
ненулевые коэффициенты смешивания. Если вместо этого выбрать а 0 = 1, то по­
лучим три компонента с ненулевыми коэффициентами смешивания, а для а 0 = 1О
все шесть компонентов имеют ненулевые коэффициенть1 смешивания.
10.2. Иллюстрация: вариационная смесь нормальных распределений 633

15

60 120

Рис. 10.6. Вариационная байесовская смес1, К = 6 нормальных распределений,

примененная к набору данных о гейзере "Старый служака", в которой эллипсы

обозначают уровни плотности вероятности, соответствующие одному стандартному

отклонению для каждого из компонентов, а интенсивность красного цвета внутри

каждого эллипса соответствует среднему значению коэффициента смешивания для

каждого компонента . Число в верхнем левом у глу каждой диаграммы показывает

количество итераций вариационного вывода. Компоненты, ожидаемый коэффициент

смешения которых численно не отличим от нуля , не нанесены на рисунок

Как мы видели, существует близкое сходство между вариационным решени­


ем для байесовской смеси нормальных распределений и ЕМ-алгоритмом. Дей­
ствительно, при N ~ оо байесовское решение сводится к ЕМ-алгоритму. Для лю­
бых наборов данных, кроме очень малых, высокая вычислительная стоимость
вариационного алгоритма для смесей нормальных распределений возникает из­

за вычисления ответственности, а также вычисления и обращения ковариацион­


ных матриц по взвешенным данным. Эти вычисления связаны именно с теми ве­
личинами, которые возникают в ЕМ-алгоритме, и поэтому использование байе­
совского подхода по сравнению с традиционным методом максимального прав­

доподобия дает мало вычислительных преимуществ. Однако у вариационного


метода есть друтие существенные преимущества. Прежде всего, особенности,
634 ГЛАВА 10. ПРИБЛИЖЕННЫЙ ВЫВОД

возникающие в методе максимального правдоподобия, когда нормальный ком­


понент коллапсирует в конкретной точке, в байесовском подходе отсутствуют.
Действительно, эти особенности удаляются, если мы используем априорное рас­
пределение, а затем используем МАР-оценку вместо оценки максимального
правдоподобия. Кроме того, переобучение не возникнет, если мы выберем
большое количество К компонентов в смеси (см. рис. 10.6). Наконец, вариаци­

онный метод открывает возможность определения оптимального количества


компонентов в смеси, не прибегая к таким методам, как перекрестная проверка
(см. раздел 10.2.4).

10.2.2. Вариационная нижняя граница

Мы также можем непосредственно оценить нижнюю границу (10.3) для этой

модели. На практике полезно следить за этой границей во время уточнения, что­

бы проверить сходимость. Это также позволит проверить правильность как ма­


тематических выражений, так и их программных реализаций, поскольку на каж­
дом этапе итеративной процедуры уточнения значение этой границы не должно

уменьшаться. Используя конечные разности, мы можем обеспечить еще более


глубокую проверку правильности как математического вывода уравнений для
уточнения границы, так и их программной реализации, чтобы убедиться в том,
что каждое уточнение действительно дает (ограниченный) максимум границы
(Svensen and Bishop, 2004).
Для вариационной смеси нормальных распределений нижняя грань (10.3) за­

дается формулой

.С= Lfff
z
q ( Z,n,µ,A) Z,n,µ, ~)} dn dµ dA =
1n{ рq(~,Z,n,µ,A
= E[ln p(X,Z,n,µ,A )J-E[lnq(Z,n,µ,A )] = (10.70)

= Е[ lnp(XjZ,µ,л)] + Е[ lnp(Zln)] + E[lnp(n)] + E[lnp(µ,л)]­


-E[lnq(Z)]-E[lnq( 1r )]-E[lnq(µ,л)],
где, чтобы не усложнять обозначения, мы опустили надстрочный индекс на
q-распределениях вместе с индексами операторов математического ожидания,

поскольку каждое математическое ожидание берется по всем случайным вели­


чинам в его аргументе (см. упраJкнеиие 10.16). Все члены в этой оценке легко

вычисляются и приводят к следующим результатам:


10.2. Иллюстрация: вариационная смесь нормальных распределений 635

IE[ lnp(XIZ,µ,л)J =_.!__ f


2 k=I
Nk {InЛk -D/3; 1 -vk Tr(Sk Wk )-
(10.71)
-vk (xk -mk )т Wk (xk -mk )-Dln(21i)},
N К

в[ lnp(Zlп-)] = L~>nk lnffk, (10.72)


n=I k=I
к

IE [ ln р ( п-)] = ln С (а0 ) +(а0 -1) L ln ffk , (10.73)


k=I
1 к D/3,
IE[lnp(µ,л)]=-L{Dln(/30 /21i)+lnAk--0 -
2 k=I pk
-fЗovk (mk -то )т wk (mk -mo )} + KlnB(Wo, Vo) + (10.74)

N К

IE[lnq(Z)] = LLrnk lnrnk• (10.75)


n=I k=I
к

IE[lnq(п-)]= L(ak -l)lnffk +lnC(a), (10.76)


k=I

IE[lnq(µ,л)] = fk=I {!1nлk


2
+ D 1n(Pk )- D -H[q(Ak )J}.
2 21l' 2
(10.77)

где D - размерность векторах, H[q(Лk)] - энтропия распределения Уишарта,


заданная формулой (Б.82), а коэффициенты С(а) и B(W, v) определяются фор­
мулами (Б.23) и (Б. 79) соответственно. Заметим, что члены, содержащие мате­
матические ожидания логарифмов q-распределений, представляют собой отри­
цательную энтропию этих распределений. При вычислении нижней границы
выполняются некоторые упрощения и перестановки членов при суммировании,

но мы сохранили эти выражения для удобства понимания.


Наконец, стоит отметить, что нижняя граница обеспечивает альтернативный
подход для получения вариационных уравнений уточнения оценок, полученных
в разделе 10.2.1. Для этого мы используем тот факт, что, поскольку модель име­
ет сопряженные априорные распределения, функциональная форма множителей
в вариационном апостериорном распределении известна, а именно дискретная

для Z, Дирихле для п- и Гаусса-Уишарта для (µk, Лk). Предполагая общие пара­
метрические формы для этих распределений, мы можем получить форму ниж­
ней границы в зависимости от параметров распределений. Максимизируя оценку
636 ГЛАВА 10. ПРИБЛИЖЕННЫЙ ВЫВОД

по этим параметрам, получаем необходимые уравнения уточнения (см. упраж­


нение 10.18).

10.2.3. Прогностическая плотность

В приложениях байесовской смеси нормальных распределений нас часто ин­


тересует прогностическая плотность вероятности нового значения наблюдаемой
переменной х . С этим наблюдением связана соответствующая латентная пере­
менная z. В таком случае прогностическая плотность определяется формулой
р ( xl х) = Lz fff р ( xl z, µ, л )Р ( zl н) р ( н, µ, AI х) dн dµ dЛ, (10.78)

где р(н, µ, ЛIХ)- (неизвестное) истинное апостериорное распределение пара­


метров. Используя формулы (10.37) и (10.38), мы можем сначала выполнить
суммирование по z, чтобы получить выражение
к

p(xlx) =Ifff яkN( xlµk,л;' )р(н,µ,ЛIХ)dнdµdЛ. (10.79)


k=I

Поскольку оставшиеся интегралы неразрешимы, мы приближаем прогностиче­


скую плотность, заменяя истинное апостериорное распределение р(н, µ, ЛIХ)
его вариационной аппроксимацией q(н)q(µ, Л), чтобы получить следующее вы­
ражение:

p(xlX) = Ifff яkN( xlµk,л;' )q(н)q(µk,лk )dнdµkdлk, (10.80)


k=I

где мы использовали факторизацию (10.55) и в каждом члене неявно исключили


из интегрирования все переменные *
{µ1, А1 } при j k. Остальные интегралы те­
перь можно выразить аналитически в виде смеси t-распределений Стьюдента
(см. упражиеиие 10.19):

(10.81)

в которой k-й компонент имеет математическое ожидание тk, а точность задает­


ся выражением

(10.82)
10.2. Иллюстрация: вариационная смесь нормальных распределений 637

в котором величина vk задается формулой (10.63). Когда размер N множества


данных велик, прогностическое распределение (10.81) сводится к смеси нор­
мальных распределений (см. упра.псиение J(J.20).

10.2.4. Определение количества компонентов

Мы видели, что вариационную нижнюю границу можно использовать для

вычисления апостериорного распределения по числу К компонентов в смеси


распределений (см. ра.1дел 10.1.4). Однако есть одна тонкость, которую необхо­
димо решить. Для любого набора заданных параметров в смеси нормальных
распределений (за исключением особых вырожденных случаев) будут существо­
вать друтие параметры, для которых плотность по наблюдаемым переменным
будет идентичной. Эти значения параметров различаются только друтой марки­
ровкой компонентов. Например, рассмотрим смесь двух нормальных распреде­
лений и одну наблюдаемую переменную х, в которой параметры имеют значе­

ния п 1 =а, п2 = Ь, µ 1 =с, µ 2 = d, о- 1 = е, о-2 =f Тогда значения параметров п1 = Ь,


~ = а, µ 1 = с, µ 2 = d, о-1 = е, а2 =f, в которых выполнена перестановка двух ком­
понентов, в силу симметрии приведут к тому же значению р(х). Если у нас есть
модель смеси, содержащая К компонентов, то каждый набор параметра будет чле­
ном семейства, содержащего К! эквивалентных наборов значений (см. упраж:­
не1111е 10.21).
В контексте метода максимального правдоподобия эта избыточность не име­
ет значения, поскольку алгоритм оптимизации параметров (например, ЕМ­
алгоритм) в зависимости от их начальных значений находит одно конкретное

решение, а друтие эквивалентные решения не играют никакой роли. Однако в


байесовской трактовке мы маргинализируем все возможные значения парамет­
ров. На рис. 10.3 показано, что если истинное апостериорное распределение яв­

ляется многомодальным, то вариационный вывод, основанный на минимизации


дивергенции Кульбака-Лейблера КL(qllp), будет стремиться аппроксимировать
распределение в окрестности одной из мод и игнорировать остальные. Посколь­
ку эквивалентные моды имеют эквивалентную прогностическую плотность, это

не имеет никакого значения, если мы рассматриваем модель, имеющую опреде­

ленное количество компонентов К. Если же мы хотим сравнивать разные значе­


ния К, то должны учитывать эту многомодальность. Простым приближенным
решением является добавление к нижней границы величины ln К! при ее исполь­
зовании для сравнения моделей и усреднения (см. упра:ж:11е11ие 10.22).
На рис. 1О.7 показан график нижней границы, учитывающий коэффициент
многомодальности в зависимости от количества компонентов К для набора дан-
638 ГЛАВА 10. ПРИБЛИЖЕННЫЙ ВЫВОД

ных о гейзере Старый Служака. Следует еще раз подчеркнуть, что метод макси­
мального правдоподобия приведет к значениям функции правдоподобия, кото­
рые монотонно возрастают с увеличением К (при условии, что вырожденные
решения были устранены, а эффекты локальных максимумов компенсированы),
и поэтому не может быть использован для определения соответствующей слож­
ности модели. Напротив, байесовский вывод автоматически гарантирует ком­
промисс между сложностью модели и подгонкой данных (см. раздел 3.4).

--
p(VIК)
- - Н-·


·Н

-
2 3 4 5 6
к

Рис. 10.7. График вариационной нижней границы[, по сравнению с количеством


компонентов К в смеси нормальных компонентов для данных о гейзере Старый

Служака, показывающий отчетливый пик при К= 2 компонентах. Для каждого значения

К модель обучается в ходе 100 различных случайных запусков, а результаты показаны

символами +, нанесенными с небольшими случайными горизонтальными

возмущениями, чтобы их можно различить. Обратите внимание на то, что некоторые

решения находят субоптимальные локальные максимумы, но это случается нечасто

Такой подход к определению параметра К требует обучения и сравнения ряда


моделей, имеющих разные значения К. Альтернативный подход к определению
подходящего значения для параметра К состоит в том, чтобы рассматривать ко­
эффициенты смешивания я в качестве параметров и делать точечные оценки их
значений, максимизируя нижнюю границу (Corduneanu and Bishop, 2001) отно­
сительно tr, вместо того, чтобы вычислять распределение вероятности по ним,
10.2. Иллюстрация: вариационная смесь нормальных распределений 639

как в полностью байесовском подходе. Это приводит к следующему уравнению


уточнения оценок (см. упра;нсиение 10.23):
1 N
тrk = - Irпk• (10.83)
N n=I

и эта максимизация чередуется с вариационными уточнениями для

q-распределения по оставшимся параметрам. Компоненты, которые обеспечи­


вают недостаточный вклад в объяснение данных, будут иметь коэффициенты
смешивания, обращающиеся в нуль во время оптимизации, и поэтому они эф­
фективно исключаются из модели путем автоматического определения реле­
вантности. Это позволяет сделать единый тренировочный прогон, который
начинается с относительно большого начального значения К и позволяет уда­
лять излишние компоненты из модели. Причины разреженности при оптимиза­
ции по гиперпараметрам подробно обсуждаются в контексте метода релевант­
ных векторов (ot. раздел 7.2.2).

10.2.5. Индуцированные факторизации

При выводе вариационных уравнений уточнения смеси нормальных распре­


делений мы предполагали конкретную факторизацию вариационного апостери­
орного распределения, заданного формулой (10.42). Однако оптимальные реше­
ния для различных множителей демонстрируют дополнительную факторизацию.
В частности, решение для q•(µ, Л) задается произведением независимого рас­
пределения q•(µk, Ak) по каждому из k компонентов смеси, тогда как вариаци­
онное апостериорное распределение q•(Z) по латентным переменным, заданное
формулой (10.48), раскладывается на независимое распределение q•(zп) для
каждого наблюдения п (заметим, что оно не факторизуется по k, поскольку для
каждого значения п сумма величин Znk по k равна единице). Эти дополнительные
факторизации являются следствием взаимодействия предполагаемой факториза­
ции и свойств условной независимости истинного распределения, как показано

на ориентированном графе (см. рис. 10.5).


Мы будем ссылаться на эти дополнительные факторизации как на индуциро­
ванные, потому что они возникают из-за взаимодействия факторизации, приня­

той в вариационном апостериорном распределении, и условий условной незави­


симости истинного совместного распределения. При численной реализации ва­

риационного подхода важно учитывать такие дополнительные факторизации.

Например, было бы очень неэффективно поддерживать матрицу полной точно-


640 ГЛАВА 10. ПРИБЛИЖЕННЫЙ ВЫВОД

сти для нормального распределения по набору переменных, если оптимальная

форма для этого распределения всегда имеет диагональную матрицу точности


(соответствующую факторизации по отдельным переменным, описываемым
этим нормальным распределением).

Такие индуцированные факторизации можно легко обнаружить, используя


простой графический тест, основанный на d-разделении, следующим образом.
Разделим латентные переменные на три непересекающиеся группы А, В и С. За­
тем предположим, что существует факторизация между С и оставшимися ла­
тентными переменными, так что

q(A, В, С)= q(A, B)q(C). (10.84)


Используя общий результат (10.9) и правило умножения вероятностей, мы
видим, что оптимальное решение для q(A, В) задается формулой

ln q*(A, В)= Ec[lnp(X, А, В, С)]+ const =

= Ec[lnp(A, BIX, С)]+ const. (10.85)

Теперь проверим, будет ли это результирующее решение факторизоваться


между А и В, т.е. выполняется ли равенство q*(A, В)= q*(A)q*(B). Это произой­
дет, если и только если ln р(А, BIX, С)= ln p(AIX, С) + ln p(BIX, С), т.е. если
выполняется отношение условной независимости

AJlB IX, с. (10.86)


Мы можем проверить, действительно ли это соотношение выполняется для лю­

бого выбора А и В, используя критерий d-разделения.

Чтобы проиллюстрировать это, рассмотрим снова байесовскую смесь нор­


мальных распределений, представленную ориентированным графом на рис. 10.5,
в которой мы принимаем вариационную факторизацию, заданную форму­

лой (10.42). Мы сразу видим, что вариационное апостериорное распределение по


параметрам должно раскладываться между я и остальными параметрами µ и Л,

поскольку все пути, соединяющие узел я с узлами µ или Л, должны проходить


через один из узлов zn, каждый из которых находится в условном множестве для

нашего теста на условную независимость и относится к типу "голова к хвосту"

по отношению к этим путям.


10.3. Вариационная линейная регрессия 641

10.3. Вариационная nинейная реrрессия


В качестве второй иллюстрации вариационного вывода вернемся к байесов­
ской линейной регрессионной модели из раздела 3.3. В рамках вычисления сви­
детельств в пользу моделей мы аппроксимировали интегралы по а и fJ, вычисляя
точечные оценки, полученных путем максимизации логарифмической функции
маргинального правдоподобия. Полностью байесовский подход подразумевает
интегрирование и по гиперпараметрам, и по параметрам. Хотя точное интегри­

рование невозможно, мы можем использовать вариационные методы, чтобы


найти приемлемое приближение. Чтобы упростить обсуждение, предположим,
что параметр точности шума /3 известен и зафиксирован на его истинном значе­
нии, хотя этот подход легко расширяется и на распределение по f3 (СJИ. упраж­
неи ие 10.26). Для модели линейной регрессии вариационный подход оказывает­
ся эквивалентным структуре свидетельств. Тем не менее он представляет собой
хорошее упражнение в использовании вариационных методов, а также заклады­

вает основу для вариационного подхода к байесовской логистической регрессии


в разделе 10.6.
Напомним, что функция правдоподобия для wи априорное распределение по w
задаются формулой

N
p(tlw)= ПN(tпlwтфп,/3- 1 ), (10.87)
n=I

p(wla) = N( wlo,a- 11), (10.88)

где Фп = ф(хп). Введем априорное распределение по а. Из раздела 2.3.6 мы зна­


ем, что сопряженное априорное распределение для точности нормального рас­

пределения задается гамма-распределением, и поэтому выбираем

р(а) = Gam(alao, Ьо), (10.89)

где Gam(-1·") определяется формулой (Б.26). Таким образом, совместное распре­


деление всех переменных задается формулой

p(t, w, а) = p(tlw)p(wl а)р( а). (10.90)

Это можно представить как ориентированную графическую модель, как по­

казано на рис. 10.8.


642 ГЛАВА 10. ПРИБЛИЖЕННЫЙ ВЫВОД

fJ
----lf-"4

Рис. 10.8. Вероятностная графовая модель, представляющая совместное

распределение (10.90) для байесовской линейной регрессионной модели

10.3.1. Вариационное распределение

Наша первая цель - найти приближение к апостериорному распределению


p(w, alt). Для этого воспользуемся вариационным подходом из раздела 10.1 с
вариационным апостериорным распределением, заданным факторизованным
выражением

q(w, а)= q(w)q(a). (10.91)

Мы можем найти уравнения для уточнения множителей в этом распределении,


используя общий результат (10.9). Напомним, что для каждого множителя бе­
рется логарифм совместного распределения по всем переменным, а затем сред­
нее значение по переменным, не входящим в этот множитель. Рассмотрим сна­

чала распределение по а. Сохраняя только те члены, которые имеют функцио­


нальную зависимость от а, получим

ln q • (а) =ln р (а) + Е" [ ln р ( wl а) J+ const =


(10.92)
=(а0 -1)Ina-b0a+ ~ Ina- ~ Е[ wтw J+const.
Это логарифм гамма-распределения, поэтому, выделяя коэффициенты при а

и ln а, получим
(10.93)
где

м
aN =ао +-, (10.94)
2

bN =Ь0 +~J&[ Wт'W]. (10.95)


10.3. Вариационная линейная регрессия 643

Аналогично можно найти вариационное уравнение для уточнения апостери­

орного распределения по w. Снова, используя общий результат (10.9) и сохраняя

только те члены, которые имеют функциональную зависимость от w, имеем

ln q•(w) = lnp(tlw) + Ea(lnp(wl а))+ const = (10.96)


/J N 2 1
=--L:{wт~ -tп} --E[a]wтw+const= (10.97)
2 n=I 2
=-~wт (Е[а )1 + fЗФтФ )w + /JwтФтt + const. (10.98)

Поскольку это квадратичная форма, распределение q•(w) является нормаль­


ным, поэтому можно вьщелить квадрат обычным способом для определения ма­
тематического ожидания и ковариации:

(10.99)
где

тN= fJSNФтt (10.100)


SN= (E[a]I + /ЗФтФ)- 1 • (10.101)

Обратите внимание на близкое сходство с апостериорным распределением (3.52),


полученным, когда а рассматривалось как фиксированный параметр. Различие в
том, что здесь а заменяется его математическим ожиданием Е[ а] при вариаци­
онном распределении. По этой причине мы решили использовать одни и те же

обозначения для ковариационной матрицы SN в обоих случаях.


Используя стандартные результаты (Б.27)-(Б.39), мы можем получить иско­
мые моменты следующим образом:

Е[а] = аN!Ьм (10.102)

Е[ww т] =mNm1 + SN. (10.103)

Вычисление вариационного апостериорного распределения начинается с иници­

ализации параметров одного из распределений q(w) или q(a), а затем сводится к


поочередному вычислению этих множителей, пока не будет удовлетворен под­
ходящий критерий сходимости (обычно указанный в терминах нижней границы,
которая будет рассмотрена в ближайшее время).
Поучительно связать вариационное решение с решением, найденным с исполь­

зованием свидетельств в разделе 3.5. Для этого рассмотрим случай а0 = Ь 0 =О, со­
ответствующий пределу бесконечно широкого априорного распределения над а.
644 ГЛАВА 10. ПРИБЛИЖЕННЫЙ ВЫВОД

Тогда математическое ожидание вариационного апостериорного распределения

q(a) задается формулой

E(a]=aN= М/2 = т М . (10.104)


bN Е[ wтw J/2 mNmN + Tr(SN)

Сравнение с (9.63) показывает, что в этой особенно простой модели вариаци­


онный подход дает точно такое же выражение, как и максимизация функции
свидетельств с использованием ЕМ-алгоритма, за исключением того, что точеч­

ная оценка для а заменяется ее математическим ожиданием. Поскольку распре­


деление q(w) зависит от q(a) только через математическое ожидание Е[а], для
бесконечно широкого априорного распределения оба подхода дадут одинаковые
результаты.

10.3.2. Прогностическое распределение


В этой модели прогностическое распределение по t при фиксированных но­
вых входных данных х легко вычисляется с использованием нормального вари­

ационного апостериорного распределения параметров:

р ( tl х, t) = Jр ( tl х, w) р ( wl t) dw == (}
== Jp(tlx,w)q(w)dw=
(10.105)
= J N(tlwтф(x),p-I )N(wlmN,SN )dw =
= N(tlm~ф( х ),ст 2 (х) ),
где мы оценили интеграл, воспользовавшись результатом (2.115) для линейно­
гауссовской модели. Здесь дисперсия, зависящая от входных данных, задается
формулой

(10.106)

Заметим, что это выражение имеет тот же вид, что и результат (3.59), получен­
ный при фиксированном а, за исключением того, что теперь в определении SN
появляется математическое ожидание Е[ а].

10.3.3. Нижняя граница

Другим по важности фактором является нижняя граница [,, определяемая


формулой
10.3. Вариационная линейная реrрессия 645

l,(q) = IE[lnp(w, а, t)] -IE[ln q(w, а)]=

= IEw[lnp(tlw] + IE.,a[lnp(wla)] + IEa[lnp(a)]-

- IEa[ln q(w)]. - IE[ln q(a)]. (10.107)

Оценка различных членов проста и основана на результатах, полученных в


предыдущих главах (см. упра.щ11е11ие 10.27):

E[lnp(tlw)J = N lni!__ P tтt+ Рm1Фтt-


• 2 27r 2 (10.108)
-~ тr[ ФTФ(mNm1 +SN )].
IE[!np( wla )]
•.а
=- М2 ln21r + М2 (V!(aN )-1nbN )-
(10.109)
- aN [ m1mN +Tr(SN )].
2bN
1Е [ 1n р (а) 1 = а0 ln Ь0 + ( а0 - 1) [ l/f (а N ) - 1n ЬN ] -

(10.110)
-Ь aN -1nГ(а )
о ь о '
N

1 м
-IE[lnq(w)J. =11nlSNl+2[l+ln21r], (10.111)

-IE[lnq( а )1 = lnГ( aN )-( aN -1)1/f ( aN )-1nbN + aN. (10.112)

На рис. 10.9 показан график зависимости нижней границы [,(q) от степени


полиномиальной модели для искусственного набора данных, созданного с по­
мощью полинома третьей степени. Здесь априорные параметры были установ­
лены равными а 0 = Ь 0 = О, что соответствует неинформативному априорному
распределению р( а) ос 1/ а, которое является равномерным по ln а, как описано в
разделе 2.3. 6. Как мы видели в разделе J(J. I, величина [, представляет собой
нижнюю границу логарифмической функции маргинального правдоподобия
lnp(tlМ) для этой модели. Если мы сопоставим равные априорные вероятности
р(М) с разными значениями М, то сможем интерпретировать [, как приближение
к вероятности апостериорной модели p(Mlt). Таким образом, вариационный ме­
тод присваивает наивысшую вероятность модели с параметром М = 3. Этот ре­
зу ль тат следует противопоставить результату метода максимального правдопо­

добия, который присваивает все меньшую остаточную ошибку моделям возрас­


тающей сложности до тех пор, пока остаточная ошибка не станет равной нулю,
646 ГЛАВА 10. ПРИБЛИЖЕННЫЙ ВЫВОД

что приведет к тому, что максимальное правдоподобие будет приписано сильно


переобученным моделям.

3 5 7 9

Рис. 10.9. График 3ависимости нижней границы[, от порядка полинома М для


полиномиальной модели, в которой множество из 1О точек генерируется с помощью

полинома третьей степени на интервале (-5, 5) с добавлением нормально

распределенного шума, имеющего дисперсию, равную 0,09. Значение этой границы даст

логарифм вероятности модели, и нижняя граница достигает пика при М = 3, что

соответствует истинной модели, no которой был со·щан набор данных

10.4. Экспоненциальное семейство распределений


В главе 2 мы обсудили важную роль семейства экспоненциальных распреде­
лений и их сопряженных априорных распределений. Для многих моделей, рас­

смотренных в этой книге, правдоподобие при полных данных извлекается из


экспоненциального семейства. Однако в общем случае функция маргинального
правдоподобия для наблюдаемых данных не принадлежит этому семейству.

Например, в смеси нормальных распределений совместное распределение


наблюдений Хп и соответствующих латентных переменных Zn является членом
экспоненциального семейства, тогда как маргинальное распределение хп являет­

ся смесью нормальных распределений и, следовательно, не принадлежит экспо­


ненциальному семейству.

До сих пор мы разделяли переменные в модели на наблюдаемые и латентные.


Теперь проведем дополнительное различие между латентными переменными,

обозначенными буквой Z, и параметрами, обозначенными IJ, где параметры счи­


таются интенсивными (т.е. их количество фиксировано и не зависит от размера
набора данных), тогда как латентные переменные являются экстенсивными
10.4. Экспоненциальное семейство распределений 647

(т.е. их количество растет с увеличением размера набора данных). Например, в


смеси нормальных распределений индикаторные переменные Ztn (которые опре­
деляют, какой компонент k отвечает за генерирование точки данных хп) пред­
ставляют собой латентные переменные, тогда как математические ожидания µk,
точности Лk и пропорции смешивания rrk являются параметрами.
Рассмотрим случай независимых одинаково распределенных данных. Обо­

значим значения данных через Х = {хп}, где п = 1, "" N, с соответствующими ла­


тентными переменными Z = { zп}. Предположим теперь, что совместное распре­
деление наблюдаемых и латентных переменных является членом экспоненци­
ального семейства, параметризованным натуральными параметрами Т/, так что

N
p(X,ZIТJ) = П h{ Х" ,zn )g(ТJ )exp{ТJTU{ xn,zn )}. (10.113)
n=\

Мы также будем использовать сопряженное априорное распределение для Т/,


которое можно записать в виде

(10.114)

Напомним, что сопряженное априорное распределение можно интерпретировать

как априорное количество наблюдений v0, которые все имеют значение Zo для век­
тора u. Теперь рассмотрим вариационное распределение, которое факторизуется
между латентными переменными и параметрами, так что q(Z, Т/) = q(Z)q(ТJ). Ис­
поm,зуя общий резуm,тат (10.9), получим следующее выражение:

lnq• (Z) = JE'I [ lnp(X,ZIТJ )] + const =


N . (10.115)
= L {ln h{ Хп ,zn) + 1Е[ Т/т ]u( хп ,z" )} + const.
n=I

Таким образом, это выражение раскладывается в сумму независимых членов,


по одному для каждого значения п, и, следовательно, решение для q•(z) будет
факторизовано по п так, что q• (Z) = П q" (zп). Это пример индуцированной
п

факторизации. Взяв экспоненту от обеих сторон, имеем (см. раздел 10.2.5):

(10.116)

где коэффициент нормировки был восстановлен путем сравнения со стандарт­


ной формой для экспоненциального семейства.
Аналогично для вариационного распределения по параметрам имеем
648 ГЛАВА 10. ПРИБЛИЖЕННЫЙ ВЫВОД

ln q•(Т/) = lnp(71lv0, Zo) +Ez[lnp(X, ZI 71)]) + const = (10.117)


N
= v0 lng(71)+ v0 Т/т Zo + L {Ing(71) + 71тЕz. [ u(xп,zn )]} + const. (10.118)
п=1

Снова взяв экспоненту от обеих сторон и вновь проверив коэффициент нор­


мировки, имеем

(10.119)

где мы определили величины

(10.120)
N
VNZN =VoZo + LEz. [ u(xп,zп)J. (10.121)
n=I

Заметим, что решения для q•(zп) и q•(71) связаны, поэтому вычислим их итератив­
но с помощью двух.этапной процедуры. На вариационном Е-шаге мы вычисляем

математическое ожидание достаточной статистики E[u(x"' zп)] с использованием


текущего апостериорного распределения q(zп) по латентным переменным и ис­
пользуем его для вычисления уточненного апостериорного распределения q(71) по
параметрам. На следующем вариационном М-шаге мы используем это пересмот­

ренное параметрическое апостериорное распределение, чтобы найти математиче-


т
ское ожидание естественных параметров Е[71 ], что приводит к уточненному вари-
ационному распределению по латентным переменным.

10.4.1. Передача вариационного сообщения


Мы рассмотрели применение вариационных методов на конкретной модели -
байесовской смеси нормальных распределений. Эта модель может быть описана
ориентированным графом, показанным на рис. 10.5. Здесь мы рассмотрим более
общее использование вариационных методов для моделей, описываемых ориенти­

рованными графами, и получим ряд широко применимых результатов.


Совместное распределение, соответствующее ориентированному графу, мо­
жет быть записано с использованием разложения

р(х)= Пр(х;IРа;), (10.122)

где х; обозначает переменную (или переменные), связанную с узлом i, ара; обо­


значает набор родительских узлов, соответствующий узлу i. Заметим, что Х; мо­
жет быть скрытой или наблюдаемой переменной. Теперь рассмотрим вариаци-
10.4. Экспоненциальное семейство распределений 649

онное приближение, в котором предполагается, что распределение q(x) факто­


ризуется относительно х;, так что

(10.123)

Заметим, что у наблюдаемых узлов в вариационном распределении нет множи­


теля q(x;). Подставим теперь (10.122) в общий результат (10.9) и получим

lnq; (xJ) =E;"J [ ~lnp( x;IPa;)] + const. (10.124)

Любые члены в правой части, не зависящие от х/, могут быть поглощены посто­
янным слагаемым. Фактически единственными членами, которые зависят от х/,

являются условное распределение для х1 , заданное вероятностью p(x1 ipR_i), и лю­


бые другие условные распределения, для которых узел х1 принадлежит условно­
му множеству. По определению эти условные распределения соответствуют до­

черним узлам узла) и поэтому также зависят от сородителей дочерних узлов, т.е.
от других родителей дочерних узлов, кроме самого узла х1 . Множество всех уз­

лов, от которых зависит qj (х1), соответствует марковскому покрытию узла х1 ,


показанному на рис. 8.26. Таким образом, обновление множителей в вариацион­
ном апостериорном распределении представляет собой локальные вычисления
на графе. Это позволяет построить программное обеспечение общего назначения
для вариационного вывода, в котором форму модели заранее указывать не тре­
буется (Bishop et al., 2003).
Если теперь ограничиться моделью, в которой все условные распределения

имеют сопряженно-экспоненциальную структуру, то процедура вариационного

обновления может быть представлена в терминах алгоритма передачи локаль­


ных сообщений (Winn and Bishop, 2005). В частности, распределение, связанное
с конкретным узлом, может быть обновлено после того, как этот узел получит
сообщения от всех его родительских и дочерних узлов. Это, в свою очередь,
требует, чтобы дочерние узлы уже получили сообщения от своих партнеров.
Оценка нижней границы также может быть упрощена, поскольку многие из тре­
буемых величин вычисляются как часть схемы передачи сообщений. Эта рас­
пределенная передача сообщений имеет хорошие масштабирующие свойства и
отлично подходит для больших сетей.
650 ГЛАВА 10. ПРИБЛИЖЕННЫЙ ВЫВОД

10.5. Локальные вариационные методы

Вариационный метод, обсуждаемый в разделах 10.1 и 10.2, можно рассмат­


ривать в качестве глобального, поскольку он непосредственно ищет приближе­
ние к полному апостериорному распределению по всем случайным величинам.
Альтернативный локальный подход включает поиск границ функций над от­
дельными переменными или группами переменных в модели. Например, мы

могли бы искать оценку условного распределения p(ylx), которая сама по себе


является одним из множителей в гораздо большей вероятностной модели, задан­
ной ориентированным графом. Целью введения границы является упрощение
полученного распределения. Это локальное приближение может быть примене­
но к нескольким переменным по очереди, пока не будет достигнуто приемлемое
приближение, и в разделе 1О.6.1 будет представлен практический пример этого
подхода в контексте логистической регрессии. Здесь мы сосредоточимся на раз­
работке концепции самих границ.
Мы уже видели в обсуждении дивергенции Кульбака-Лейблера, что выпук­
лость функции логарифма сыграла ключевую роль в разработке концепции ниж­
ней границы в рамках глобального вариационного подхода. Мы определили
(строго) выпуклую функцию как функцию, для которой каждая хорда лежит над
ее графиком (c..w. раздел 1.6.1). Выпуклость также играет центральную роль в
локальном вариационном методе. Заметим, что наше обсуждение в равной мере
относится к вогнутым функциям, если заменить минимум на максимум, а ниж­
нюю границу на верхнюю.

Начнем с рассмотрения простого примера, а именно функции f(x) = ехр(-х),


которая является выпуклой функцией от х и показана на рис. 10.1 О, слева. Наша
цель- приблизить функцию f(x) более простой функцией, в частности, линей­
ной функцией от х. На рис. 10.1 О показано, что эта линейная функция будет
нижней границей f(x), если она соответствует касательной прямой. Мы можем
получить касательную прямую у(х) при определенном значении х, например
х = q, выполнив разложение Тейлора первого порядка:
у(х) = f(q) + f'(q)(x -q), (10.125)
так что у(х) с равенством при х = q. В данном примере рассматривается
5:,f(x)
функцияf(х) = ехр(-х), поэтому получаем касательную прямую в виде
у(х) = exp(-q) - exp(-q)(x - q), (10.126)
10.5. Локальные вариационные методы 651

которая является линейной функцией, параметризованной числом q. Для со­


гласованности с последующим обсуждением введем обозначение 77 = -exp(-q),
чтобы

у(х, 77) = 77х - 77 + 77 ln(-77). (10.127)

Рис. 10.10. Слева красная кривая соответствует функции ехр(-х), а синяя линия -
касательной прямой при х = .;, определяемой формулой (10.125) при .; = 1. Эта прямая
имеет наклон 17 = .f'(~ = -ехр( - ~ . Обратите внимание на то , что любая друтая

касательная прямая, например, показанная зеленым цветом, будет иметь меньшее

значение у при х = .;. Справа приведен соответствующий график функции 11.; -g( 11), где

g( 11) задается формулой ( 10.131 ), в зависимости от 17 для .; = 1, где максимум

соответствует 17 '~ -ехр ( -- ~ = - 1/е

Различные значения 77 соответствуют различным касательным прямым, и по­


скольку все такие прямые являются нижними границами функции, имеем: f(x) ~
~у(х, 77). Таким образом, функцию можно записать в виде

f (х) =max {77х-77 + 77ln(-77 )} .


А
(10.128)

Нам удалось аппроксимировать выпуклую функцию f(x) более простой ли­


нейной функцией у(х, 77). И для этого мы ввели вариационный параметр 77, а для
получения самой узкой границы должны выполнить оптимизацию по 77.
Мы можем сформулировать этот подход более широко, используя понятие вы­
пуклой двойственности (Rockafellar, 1972; Jordan et al., 1999). Рассмотрим выпук­
лую функцию f(x), показанную на рис. 10.11, слева. В этом примере функция 77х
является нижней границей функцииf(х), но это не лучшая нижняя граница, кото­
рая может бьrrь достигнута линейной функцией, имеющей наклон 77, поскольку
самая узкая грань задается касательной прямой. Запишем уравнение касательной

прямой, имеющей наклон 77, как 77х - g( 77), где (отрицательное) смещение g( 77) яв-
652 ГЛАВА 10. ПРИБЛИЖЕННЫЙ ВЫВОД

но зависит от наклона касательной 7/· Чтобы определить смещение, прямую необ­


ходимо переместить вертикально на величину, равную наименьшему вертикаль­

ному расстоянию между прямой и функцией (см. рис. 10.11):

g ( Т/) =-min {f (х )- Т/Х} =


х
(10.129)
=max{'lx- /(х)}.
х

у
\ у

f(x)
-g(17)

х х

Рис. 10.11. На левом графике красная кривая соответствует выпуклой функции/(х),

а синяя прямая представляет собой линейную функцию qx, которая является нижней

границей функции.f(х), поскольку.f(х) > qx для всех х. При заданном значении

наклона Г/ точка контакта касательной прямой, имеющей тот же наклон, определяется

путем минимизации по х разности (обозначенной зелеными пунктирными линиями),

определяемой функциейf(х) - Т/Х. Это определяет двойственную функцию g(q), которая


соответствует (отрицательному) смещению касательной прямой с наклоном Г/

Теперь, вместо того чтобы фиксировать Т/ и варьировать х, рассмотрим конкрет­


ную точку х, а затем будем регулировать 7/, пока касательная прямая не будет
касаться этой конкретной точки х. Поскольку значение у касательной прямой
при данном конкретном х достигает максимума, когда это значение совпадает с

его точкой контакта, имеем

f(x) = max{'lx- g(Т/ )}. (10.130)


'7

Мы видим, что функцииf(х) и g(Т/) играют двойственную роль и связаны со­


отношениями (10.129) и (10.130).
Применим эти соотношения двойственности к нашему простому примеру
f(x) = ехр(-х). Из (10.129) следует, что максимизирующее значение х задается
величиной q= -ln ( 7/), и обратной подстановкой получаем сопряженную функ­
цию g(Т/) в виде
(10.131)
10.5. Локальные вариационные методы 653

как было показано ранее. Функция 17q-g(17) при q= 1 показана на рис. 10.10,
справа. В качестве проверки можем подставить ( 10.131) в ( 10.130), что дает мак­

симизирующее значение 17 = -ехр(-х), а обратная подстановка восстанавливает


исходную функциюf(х) = ехр(-х).
Для вогнутых функций можно следовать аналогичным рассуждениям для по­
лучения верхних оценок, в которых максимум заменяется на минимум, так что

f(x) = min{17x- g(17 )}, (10.132)


1J

g(17)=min{17x- f(x)}. (10.133)


х

Если интересующая функция не является выпуклой (или вогнутой), то мы не


можем непосредственно применить вышеописанный метод, чтобы получить
оценку. Однако мы можем сначала найти обратимые преобразования либо
функции, либо ее аргумента, которые меняют ее на выпуклую, а затем вычис­
лить сопряженную функцию и преобразовать к исходным переменным.
Важным примером, который часто встречается при распознавании образов,

является логистическая сигмоидальная функция, определяемая формулой

1
ст(х)=--. (10.134)
1+е-х

Эта функция не является ни выпуклой, ни вогнутой. Однако, если мы возьмем ее


логарифм, то получим функцию, которая является вогнутой, что легко прове­
рить, найдя вторую производную (см. упражне11ие 10.30). Из (10.133) следует,

что соответствующая сопряженная функция принимает вид

g(17) = min{'lx- f (х)} =-17ln17-(l-17 )ln(l-17) (10.135)


х

и представляет собой функцию энтропии для бинарной переменной, которая при­


нимает значение 1с вероятностью 17 (с.м. npwumceuue Б). Используя (10.132), по­

лучим верхнюю границу логарифма логистической сигмоиды:

ln ст(х) ~ 17х - g( 17), (10.136)

а взяв экспоненту, получим верхнюю границу самой логистической сигмоиды:

ст(х) ~ ехр(17х- g(17)), (10.137)

которая показана на рис. 10.12, слева, при двух значениях 17.


Мы можем также получить оценку снизу для сигмоиды, имеющую функцио­
нальную форму нормального распределения. Для этого, следуя Jaakkola and Jor-
654 ГЛАВА 10. ПРИБЛИЖЕННЫЙ ВЫВОД

dan (2000), выполним преобразования как входной переменной, так и самой

функции. Сначала возьмем логарифм логистической функции и разложим его


так, чтобы выполнялось соотношение

ln а(х) = -ln(l + е-х) = -ln {е-х12 (ех12+е-х12 >)} =


= х!2 - ln(ex12 + е-х/2 ). (10.138)
Заметим теперь, что функция/(х) = -ln(ex12 + е-х12 ) является выпуклой функцией
2 v v
от переменнои х , что снова можно проверить, наидя вторую производную

(см. упражнение 10.31). Это приводит к нижней оценке дляf(х), являющейся ли­
нейной функцией от х2, сопряженная функция которой определяется формулой

(10.139)

Условие стационарности приводит к уравнению

dx d l х
0=77- dx2 dxf(x)=77+ 4х th2. (10.140)

Если обозначить значение х, соответствующее точке контакта касательной пря­


мой для конкретного значения 71, через q, то получим
1 ; 1 [ a(q)--
71=--th-=-- 1] =-Л(q) (10.141)
4q 2 2; 2 '
где А. положим равным -77 для согласования с работами Jaakkola and Jordan (2000).
Вместо того чтобы думать о Л как о вариационном параметре, мы можем поз­
волить q играть эту роль, поскольку это приводит к более простым выражениям
для сопряженной функции, которая задается формулой

g(Л(q)) = Л(q)q2 - f(q) = Л(q)q 2 + ln(eq12 + e-q12 ). (10.142)


Следовательно, оценку f(x) можно записать в виде
2 2
f(x) ~ Л(q)х - g(Л(q)) = -Л(q)х + Л(q)q2 - ln(e q/2 + е-q/2 ). (10.143)
После этого граница сигмоиды принимает вид

а(х) ~ a(q)exp{(x - q)/2-A(q)(x2-q 2)}, (10.144)


где Л(q) определяется формулой (10.141). Эта оценка показана на правом графике
на рис. 10.12. Данная оценка имеет вид экспоненты квадратичной функции от х,
что будет полезно при поиске гауссовских представлений апостериорных распре­
делений, определенных через логистические сигмоиды (см. раздел 4.5). Логисти­
ческая сигмоида часто возникает в вероятностных моделях с бинарными перемен­
ными, потому что это функция, которая преобразует логарифм отношения шансов
10.5. Локальные вариационные методы 655

в апостериорную вероятность. Соответствующее преобразование для многоклас­


сового распределения задается в разде.11е 4.3 функцией softmax. К сожалению,
нижняя граница, полученная здесь для логистической сигмоиды, прямо не распро­

страняется на softmax. В работе Gibbs ( 1997) предложен метод построения нор­


мального распределения, которое предположительно считается границей (хотя
строгое доказательство не приведено) и может быть использовано для применения
локальных вариационных методов к многоклассовым задачам.

Рис. 10.12. Слева красным цветом показана логистическая сигмоида ст(х), определяемая

по формуле ( 10.134), вместе с двумя примерами зкспоненциалыюй верхней

границы (10.137), показанной синим нветом. Справа красным цветом показана

логистическая сигмоида, а синим ··· · нижняя граница ( 10.144), имеющая

функциональную форму нормального рас11ре11еле11ия. Здесь параметр i; = 2,5 ,


а оценка точна при х = i; 11 х = .. i;, обозн:~чснных пунктирными зелеными линиями

Пример использования локальных вариационных границ приведен в разде­


ле 10.6.1. На данный момент, однако, поучительно рассмотреть в общих чертах,
как эти границы могут быть использованы. Предположим, мы хотим вычислить
интеграл вида

/= fcт(a)p(a)da, (10.145)

где а(а)- лоrистическая сигмоида; р(а)- нормальная плотность вероятности.


Такие интегралы возникают в байесовских моделях, когда, например, мы хотим
оценить прогностическое распределение, и в этом случае р(а) представляет со­

бой распределение апостериорных параметров. Поскольку интеграл аналитиче­


ски неразрешимый, мы используем вариационную оценку (10.144), которую за­

пишем в виде а(а) ~f(a, i;), где i;- вариационный параметр. Интеграл теперь
становится произведением двух экспоненциально-квадратичных функций и по­
этому может быть вычислен аналитически, чтобы дать оценку /:
656 ГЛАВА 10. ПРИБЛИЖЕННЫЙ ВЫВОД

/ '?. Jf (а,.;)р( а )da = F( .;). (10.146)

Теперь у нас есть свобода выбора вариационного параметра .;, что мы и делаем,
вычисляя значение .;•, которое максимизирует функцию F( .;). Результирующее
значение F( .;•) представляет собой самую узкую границу в этом семействе границ
и может быть использовано в качестве приближения к интегралу/. Однако эта оп­
тимизированная оценка будет в общем случае неточна. Хотя оценку а(а) '?.f(a, .;)
на логистической сигмоиде можно точно оптимизировать, требуемый выбор для .;
зависит от значения а, так что оценка является точной для одного значения а. По­
скольку величина F( .;) получается интегрированием по всем значениям а, значе­
ние.;° представляет собой компромисс, взвешенный по распределению р(а).

10.6. Вариационная лоrистическая реrрессия

Теперь мы проиллюстрируем использование локальных вариационных мето­

дов, вернувшись к байесовской модели логистической регрессии, изученной в раз­


деле 4.5. Там мы сосредоточились на использовании аппроксимации Лапласа, в то
время как здесь рассматриваем вариационный подход, основанный на подходе

Jaakkola and Jordan (2000). Как и метод Лапласа, он также приводит к гауссовской
аппроксимации апостериорного распределения. Однако большая гибкость вариа­
ционного приближения приводит к повышению точности по сравнению с методом
Лапласа. Кроме того (в отличие от метода Лапласа), вариационный подход опти­
мизирует четко определенную целевую функцию, заданную строгой оценкой мо­
дельных данных. Логистическая регрессия также рассматривалась Dybowski and
Roberts (2005) с байесовской точки зрения с использованием методов выбора
Монте-Карло.

10.6.1. Вариационное апостериорное распределение

Здесь мы будем использовать вариационное приближение, основанное на ло­


кальных оценках, введенных в разделе 10.5. Это позволяет использовать функ­
цию правдоподобия для логистической регрессии, определяемой логистической

сигмоидой, которая аппроксимируется экспонентой квадратичной формы. По­


этому снова удобно выбрать сопряженный гауссовский вид формы (4.140). На
данный момент мы будем рассматривать гиперпараметры m0 и S0 как фиксиро­
ванные константы. В разделе 1О.6.3 будет показано, как вариационный форма­
лизм может быть распространен на случай, когда существуют неизвестные ги­
перпараметры, значения которых должны быть выведены из данных.
10.6. Вариационная логистическая регрессия 657

В вариационной структуре мы стремимся максимизировать нижнюю границу

маргинального правдоподобия. Для байесовской модели логистической регрес­


сии маргинальное правдоподобие имеет вид

(10.147)

Прежде всего отметим, что условное распределение для t можно записать в

виде

p(tlw)=o-(a) 1 {1-о-(а)} 1 - 1 =
1 )t (1 1 )1-t =
=( 1+ е -а - 1+ е -а
(10.148)

где а= wт ф. Чтобы получить оценку снизу для p(t), используем вариационную


нижнюю границу на логистической сигмоиде, заданную формулой (10.144), ко­
торую мы воспроизведем здесь для удобства:

o-(z) ~ о-( q)exp {(z - q) / 2 - Л( q)(z2-q 2)}, (10.149)


где

Л(q)=-1
2;
[o-(q)-.!_]·
2
(10.150)

Следовательно, можно записать

(10.151)

Заметим, что поскольку эта оценка применяется к каждому из членов функции


правдоподобия по отдельности, существует вариационный параметр qm соответ­
ствующий каждому наблюдению обучающего набора ( Фт tп). Используя а = wт ф
и умножая на априорное распределение, получим следующую оценку совмест­

ного распределения t и w
p(t, w) = p(t lw)p(w) ~ h(w, ,;)p(w), (10.152)

где ,; обозначает множество {qп} вариационных параметров и

N
h( w,,;) =По-( fп )ехр{wт ф,,tп -( Wт ф,, + qn )/2-
n=I (10.153)
658 ГЛАВА 10. ПРИБЛИЖЕННЫЙ ВЫВОД

Оценка точного апостериорного распределения потребовала бы нормировки левой


части этого неравенства. Поскольку это невозможно, вместо этого мы работаем с
правой частью. Обратите внимание на то, что функция в правой части не может
быть интерпретирована как плотность вероятности, потому что она не нормирова­
на. Однако, если ее нормировать, чтобы создать вариационное апостериорное рас­
пределение q(w), она больше не будет представлять собой оценку. Поскольку
функция логарифма монотонно возрастает, из неравенства А ~В следует ln А ~
ln В. Это дает нижнюю оценку логарифма совместного распределения t и w вида
N
ln {Р( tjw )Р( W)} ~ ln Р( W) + L {Ina( qn) + Wт Фпtп -
n=I
(10.154)

После подстановки этого выражения в формулу для априорного распределения


p(w) правая часть этого неравенства становится функцией от w:

-~(w-m 0 )т 8 01 (w-m 0 )+
N (10.155)
+L {wтt(tп -1/2)-J.(qп)wт (t()w} + const.
n=I

Это квадратичная функция от w, поэтому мы можем получить соответствую­


щее вариационное приближение к апостериорному распределению путем иден­
тификации линейного и квадратичного членов по w, дающей гауссовский вид
вариационного апостериорного распределения:

(10.156)
где

тн =Sн(s 0 1 m 0 + ~(tп -1/2)t} (10.157)

N
s-;) =S() 1 +2Lл(;п)ttт. (10.158)
n=I

Как и в случае аппроксимации Лапласа, мы снова получили гауссовское при­

ближение к апостериорному распределению. Однако дополнительная гибкость,


обеспечиваемая вариационными параметрами {qп}, приводит к повышению точ­
ности в приближении (Jaakkola and Jordan, 2000).
Здесь мы рассмотрели контекст обучения, в котором все обучающие данные
доступны сразу. Однако байесовские методы по своей сути хорошо подходят
10.6. Вариационная логнстнческая регрессия 659

для последовательного обучения, в котором данные обрабатываются по одному,


а затем отбрасываются. Формулировка этого вариационного подхода для после­
довательного случая проста (с..м. упраJк11е1111е 10.32).
Заметим, что оценка, заданная (10.149), применима только к задаче с двумя
классами, и поэтому этот подход непосредственно не обобщается на задачи
классификации с К> 2 классов. Альтернативная оценка для многоклассового
случая была изучена в работе Gibbs (1997).

10.6.2. Оптимизация вариационных параметров

Теперь мы имеем нормированную гауссовскую аппроксимацию апостериор­

ного распределения, которое используем в ближайшее время для оценки прогно­


стического распределения для новых точек. Однако сначала необходимо опре­
делить вариационные параметры {qп}, максимизируя нижнюю границу марги­
нального правдоподобия.
Для этого подставим неравенство (10.152) обратно в маргинальное правдопо­
добие и получим

J
lnp(t) = ln р( tlw )Р( w "ylw ~ ln Jh( w,~)p( w )dw = J:,( ~). (10.159)

Как и при оптимизации гиперпараметра а в линейной регрессионной модели


из раздела 3.5, существуют два подхода к определению параметров qn. В первом
подходе мы обращаем внимание на то, что функция[,(~) определяется интегри­
рованием по w, поэтому мы можем рассматривать w как латентную переменную

и применять ЕМ-алгоритм. Во втором подходе мы интегрируем по w аналитиче­


ски, а затем выполняем прямую максимизацию по ~· Начнем с рассмотрения
подхода, основанного на ЕМ-алгоритме.

ЕМ-алгоритм начинается с выбора некоторых начальных значений для пара­


метров {qп}, которые мы в совокупности обозначим через ~old. На шаге Е ЕМ­
алгоритма мы используем эти значения параметров для нахождения апостери­

орного распределения по w, которое дается формулой (10.156). На М-шаге мы


максимизируем математическое ожидание логарифмической функции правдо­
подобия при полных данных, которое задается формулой

Q(~, ~old) = Щln {h(w, ~)p(w)} ], (10.160)

где математическое ожидание вычисляется относительно апостериорного рас­

пределения q(w), вычисленного с использованием параметров ~old. Отмечая, что


p(w) не зависит от~ и подставляя для h(w, ~),получим
660 ГЛАВА 10. ПРИБЛИЖЕННЫЙ ВЫВОД

N
Q( ~,~old) =L {lncт{ q" )- q"/2-Л( qn )( (Е[ wwт]t - q;)} + const, (10.161)
n=I

где слагаемое const обозначает члены, не зависящие от~· Теперь приравняем к


нулю производную по ;". Алгебраические преобразования на основе определе­
ний функций ст(;) и Л(;) приводят к следующему результату:

(10.162)

Заметим теперь, что Л'(~ является монотонной функцией от q при q~ О и что


благодаря симметрии границы относительно точки q= О можно без потери общ­
ности ограничиться рассмотрением неотрицательных значений q. Таким обра­
зом, Л'( ~ -:!- О, и мы получаем следующие уравнения для уточнения оценок
(см. упраж11е11ие 10.33)

(10.163)

где мы использовали формулу (10.156).


Итак, сформулируем ЕМ-алгоритм для нахождения вариационного апостери-
орного распределения. с начала инициализируем вариационные параметры "~ .
На Е-шаге мы оцениваем апостериорное распределение по w, заданное форму­
лой (10.156), в которой математическое ожидание и ковариация определяются
формулами (10.157) и (10.158). На М-шаге используем это вариационное апо­
стериорное распределение для вычисления нового значения ~. заданного фор­
мулой (10.163). Шаги Е и М повторяются до тех пор, пока не будет удовлетво­
рен подходящий критерий сходимости, что на практике обычно требует лишь
нескольких итераций.
Альтернативный подход к получению уравнений уточнения параметров ~ ос­
нован на том факте, что в интеграле по w в определении (10.159) нижней границы
,С(~ подынтегральное выражение имеет гауссовскую форму, поэтому интеграл
можно вычислить аналитически. Вычислив интеграл, мы можем дифференциро­
вать по q". Оказывается, это приводит к точно таким же уравнениям уточнения,
как и ЕМ-алгоритм, заданный формулой (10.163) (см. упраж11е11ие 10.34).
Как мы уже подчеркивали, при применении вариационных методов полезно

иметь возможность оценить нижнюю границу ,С(~, заданную формулой (10.159).


Интегрирование по w можно выполнить аналитически, заметив, что p(w) является
нормальным распределением, а h(w, ~ - показателем квадратичной функции
от w. Таким образом, выделяя квадрат и используя стандартный результат для ко-
10.6. Вариационная логистнческая регрессия 661

эффициента нормировки нормального распределения, можно получить решение


в замкнутой форме, которое принимает вид (01. упраж11е11ие 10.35)

(10.164)

Этот вариационный подход также может быть применен к ситуациям, в кото­


рых данные поступают последовательно (Jaakkola and Jordan, 2000). В этом случае
мы сохраняем нормальное апостериорное распределение по w, которое инициали­

зируется с использованием априорного распределения p(w). По мере поступления


каждой новой точки апостериорное распределение уточняется с помощью грани­

цы (10.151) и нормировки .
Прогностическое распределение получается маргинализацией по апостериор­

ному распределению и принимает тот же вид, что и аппроксимация Лапласа,


описанная в разделе 4.5.2. На рис. 10.13 показаны вариационные прогностиче­
ские распределения для искусственного набора данных. Этот пример дает инте­
ресное представление о концепции "большого зазора'', которая обсуждалась
в разделе 7.1 и имеет качественно сходное поведение с байесовским решением.

6 6
4 4

~t\
2 2

о о хх
х х

-2 -2
о
-4 -4

-6 -6
-4 -2 о 2 4 -4 -2 о 2 4

Рис. 10.13. Байесовский подход к логистической регрессии для простого линейно

разделимого набора данных . На графике слева показано прогностическое

распределение , полученное с помощью вариационного вывода . Мы видим, что граница

решения лежит примерно посредине между кластерами точек данных и контуры

прогностического распределения выходят за пределы данных, отражая большую

неопределенность в классификации таких областей. На графике справа показаны

границы решения, соответствующие пяти вариантам векторного параметра w,


выведенным из апостериорного распределения p(w[t)
662 ГЛАВА 10. ПРИБЛИЖЕННЫЙ ВЫВОД

10.6.3. Вывод rиперпараметров


До сих пор мы рассматривали гиперпараметр а в априорном распределении

как известную константу. Теперь расширим байесовскую модель логистической

регрессии, чтобы можно было вывести значение этого параметра из набора дан­
ных. Это можно сделать путем объединения глобальных и локальных вариаци­
онных приближений, чтобы вычислять нижнюю границу маргинального прав­
доподобия на каждом этапе. Такой комбинированный подход был принят в ра­
боте Bishop and Svensen (2003) в контексте байесовского подхода к
моделированию иерархической смеси экспертов.
В частности, снова рассмотрим простейшее изотропное нормальное распре­

деление вида

p(wla) =N(wlO, а- 1 1). (10.165)

Наш анализ легко распространяется на более общие нормальные априорные


распределения, например, если мы хотим связать другой гиперпараметр с раз­
ными подмножествами параметров w1. Как обычно, рассмотрим сопряженное
априорное распределение гиперпараметра а в виде гамма-распределения:

р(а) = Gam(ala0, Ьо), (10.166)


зависящего от констант а 0 и Ь 0 •
Маргинальное правдоподобие для этой модели теперь принимает вид

p(t) = Jf p(w,a,t)dwda, (10.167)

где совместное распределение задается формулой

p(w, а, t) = p(tlw)p(wla)p(a). (10.168)


Теперь мы сталкиваемся с задачей интегрирования по wи а, не имеющей анали­

тического решения, которую будем решать, используя как локальный, так и гло­
бальный вариационные подходы к той же модели.
Сначала введем вариационное распределение q(w, а), а затем применим раз­
ложение (10.2), которое в этом случае примет вид

lnp(t) = l:,(q) + KL(qllp), (10.169)

где нижняя грань .C(q) и дивергенция Кульбака-Лейблера КL(qllP) определяют­


ся формулами

(10.170)
10.6. Вариационная логистическая регрессия 663

(10.171)

На этом этапе нижняя грань l,(q) все еще не может быть представлена в ана­
литическом виде из-за формы множителя правдоподобия p(tlw). Поэтому вы­

числяем локальную вариационную границу для каждого из логистических сиг­

моидальных множителей, как и ранее. Это позволяет использовать неравен­


ство (10.152) и вычислить нижнюю границу L(q), которая одновременно будет
нижней границей логарифмической функции маргинального правдоподобия:

ln р( t) ~ [,( q) ~ .ё( q,~) =

-ff ( ) {h(w,~)p(wla)p(a)}
- q w,a ln {
q w,a
) dwda.
(10.172)

Далее предполагаем, что вариационное распределение факторизуется между


параметрами и гиперпараметрами, так что

q(w, а)= q(w)q(a). (10.173)

С этой факторизацией мы можем обратиться к общему результату (10.9), что­


бы найти выражения для оптимальных множителей. Рассмотрим сначала рас­
пределение q(w). Отбрасывая члены, не зависящие от w, имеем

lnq( w) = JEa [ln{ h{ w,~)} р( wla )р( а) J+ const =


= lnh( w,~) + JEa [ lnp( wla) J+ const.
Подставляя ln h(w, ~), используя формулу (10.153), и lnp(wla), используя
формулу ( 10.165), получим:
JE[a] N
lnq{w)=---wтw+ L{(tп -1/2)wт9ti-Л{qп)wт9ti9tiтw}+const.
2 n=l

Мы видим, что это квадратичная функция от w, поэтому решение для q(w)


будет гауссовским. Выделяя квадрат обычным способом, получим

(10.174)
где

N
"f./JµN = L(tп -1/2)ft, (10.175)
n=l
664 ГЛАВА 10. ПРИБЛИЖЕННЫЙ ВЫВОД

N
r.-;J = Е[ а ]l + 2L,1_( qn М1 Фпт · (10.176)
n=I

Аналогично оптимальное решение для множителя q( а) получается из выра­


жения

J
lnq( а)= JE" [ lnp( wla) + lnp( а)+ const.

Подставляя вместо ln p(wl а) формулу (10.165), а вместо 1np(a) - (10.166), по­


лучим

Это логарифм гамма-распределения, поэтому

(10.177)

где

м
aN =ао +-, (10.178)
2

Ьн =Ьо +~JE" [ "т"]. (10.179)

Нам также необходимо оптимизировать вариационные параметры ;т и это


также достигается путем максимизации нижней границы .ё( q,~). Опуская усло­
вия, не зависящие от~' и интегрируя по а, имеем

J
.ё(q,~)= q(w)lnh(w,~)dw+const. (10.180)

Заметим, что это имеет тот же вид, что и (10.160), поэтому мы снова можем
обратиться к нашему предыдущему результату (10.163), который может быть
получен путем прямой оптимизации функции маргинального правдоподобия,
приводящей к уравнению уточнения вида

(10.181)

Мы получили формулы для итерационного приближения величин q(w), q(a)


и ~, и после подходящих инициализаций можем циклически перебирать эти ве­
личины, уточняя каждый по очереди. Необходимые моменты вычисляются по
формулам (см. npuщmce11ue Б).
10.7. Распространение ожидания 665

IE[a] = aN, (10.182)


bN
IE[ WWT] =I:N + µNµ1. (10.183)

10.7. Распространение ожидания


Мы завершаем эту главу обсуждением альтернативной формы детерминиро­
ванного приближенного вывода под названием распространение ожидания (ex-
pectation propagation), или ЕР (Minka, 2001а; Minka, 2001Ь). Как и в случае вари­
ационных методов Байеса, обсуждаемых до сих пор, этот метод также основан
на минимизации дивергенции Кульбака-Лейблера, но теперь в обратной форме,
что позволяет получить аппроксимацию с совершенно другими свойствами.
Рассмотрим задачу минимизации дивергенции КL(pllq) по q(z), когда p(z)
является фиксированным распределением, а q(z) является членом экспоненци­
ального семейства, т.е. исходя из (2.194), его можно записать в виде

q(z) = h(z)g(17)exp{17тu(z)}. (10.184)

В качестве функции от 1J дивергенцию Кульбака-Лейблера можно записать в

следующем виде:

(10.185)

где постоянные члены не зависят от естественных параметров 1/. Мы можем ми­

нимизировать КL(pllq) в этом семействе распределений, приравняв к нулю гра­


диент по 11:
(10.186)

Однако в формуле (2.226) мы уже видели, что отрицательный градиент lng(ТJ)


задается математическим ожиданием u(z) при распределении q(z). Приравнивая

эти два результата, получим:

(10.187)

Мы видим, что оптимальное решение соответствует математическому ожида­

нию достаточной статистики. Так, например, если q(z) является нормальным

распределением N(ziµ, I), то мы минимизируем дивергенцию Кульбака­


Лейблера, полагая математическое ожиданиеµ распределения q(z) равным ма­
тематическому ожиданию распределения p(z), а ковариацию I - равной кова-
666 ГЛАВА 10. ПРИБЛИЖЕННЫЙ ВЫВОД

риации распределения p(z). Это иногда называют сопоставлением моментов.


Пример такого согласования приведен на рис. 10.3, а.
Теперь мы используем этот результат для получения практического алгорит­

ма для приближенного вывода. Для многих вероятностных моделей совместное


распределение данных 'D и латентных переменных (включая параметры) О со­
держит произведение множителей в виде

p(D,O) = П.t; (О). (10.188)

Такое согласование может возникнуть, например, в модели для независимых

одинаково распределенных данных, в которых каждой точке хп соответствует

коэффициент fп( О)= р(хпl О), а также множитель fo( О)= р( О), соответствующий
априорному распределению. В более общем плане это применимо и к любой мо­
дели, определяемой ориентированным вероятностным графом, в котором каж­

дый фактор является условным распределением, соответствующим одному из


узлов, или неориентированным графом, в котором каждый фактор является кли­
кой. Мы заинтересованы в оценке апостериорного распределения p(Ol'D) для
предсказания, а также свидетельства в пользу модели p('D) для сравнения моде­
лей. Из (10.188) следует, что апостериорное распределение задается формулой

(10.189)

а свидетельство в пользу модели вычисляется по формуле

p(D) = JJff; (O)dO. (10.190)

Здесь мы рассматриваем непрерывные переменные, но следующее обсуждение


в равной степени относится к дискретным переменным с учетом замены mпегра­
лов суммами. Предположим, что маргинализация по О наряду с маргинализацией
по апостериорному распределению, требуемой для предсказания, неразрешима
в аналитическом виде, так что требуется некоторая форма аппроксимации.
Распространение ожидания основано на аппроксимации апостериорного рас­

пределения, которое также задается произведением множителей:

1п
q ( (}) = z -
. /; ((} ),
1
(10.191)

в котором каждый сомножитель J; ((}) в аппроксимации соответствует одному из


множителей f;(O) в истинном апостериорном распределении (10.189), а коэф-
10.7. Распространение ожидания 667

фициент 1/ Z - константа нормировки, необходимая для обеспечения того, чтобы


(10.191) бьт равным единице. Чтобы получить практический
интеграл левой части
ашоритм, необходимо каким-то образом ограничить множители J; (О), и, в част­
ности, будем считать, что они взяты из экспоненциального семейства. Следова­
тельно, произведение множителей будет также принадлежать экспоненциальному

семейству и поэтому может быть описано конечным набором достаточных стати­


стик. Например, если каждый из сомножителей J; (О) является нормальным рас­
пределением, то общая аппроксимация q(O) также является нормальной.
В идеале мы хотели бы определить сомножители J; (О), минимизируя дивер­
генцию Кульбака-Лейблера между истинным апостериорным и приближением,
заданную формулой

(10.192)

Обратите внимание на то, что это обратная форма дивергенции Кульбака­


Лейблера по сравнению с той, которая используется в вариационном вьmоде.
В общем, эта минимизация будет неразрешимой в аналитическом виде, посколь­
ку КL-дивергенция включает усреднение по отношению к истинному распреде­
лению. В грубом приближении мы могли бы свести к минимуму КL­

дивергенции между соответствующими парами множителей f; (О) и J; (О) . Это


гораздо проще, и к тому же алгоритм не является итеративным. Однако, по­
скольку каждый сомножитель аппроксимируется по отдельности, их произведе­

ние может дать плохую аппроксимацию.

Алгоритм распространения ожидания дает гораздо лучшее приближение, оп­


тимизируя каждый множитель по очереди с учетом всех остальных множителей.
Этот алгоритм начинается с инициализации множителей J; (О), а затем цикли­
чески уточняет их по очереди. Это напоминает уточнение множителей в вариа­
ционном байесовском методе, рассмотренном ранее. Предположим, мы хотим

1
уточнить множитель 1 (О). Сначала удалим этот множитель из произведения,
получив П J; (О) . Концептуально мы теперь определим уточненную форму
множите~ 1]; (О) , гарантируя, что произведение
qnew (О) ос 11 (О)ПJ; (О) (10.193)
i'#j

будет как можно ближе к произведению


668 ГЛАВА 10. ПРИБЛИЖЕННЫЙ ВЫВОД

f1(8)П};(8), (10.194)
i>'l

в котором мы фиксируем все множители J; (8) при i "#}. Это гарантирует, что
аппроксимация является наиболее точной в областях с высокой апостериорной
вероятностью, определяемой остальными множителями. Мы увидим пример
этого эффекта, когда применим метод распространения ожидания к задаче о по-

мехах. Сначала удалим коэффициент ~ ( 8) из текущей аппроксимации при­


ближения апостериорного распределения, определив ненормированное распре­
деление (см. раздел 1О. 7.1):

'1(8)= q(8) (10.195)


q
!1- ( 8 ) .
,.
Заметим, что вместо этого можно вычислить q 1 ( 8) из произведения множителей
i "# }, хотя на практике деление, как правило, выполнить проще. В сочетании с

сомножителем./j( 8) получаем распределение

;_f1(8)q' 1(8), (10.196)


}

где Z1 - константа нормировки, заданная формулой

f/
Z1 = 1(8)q 11 (8)d8. (10.197)

Теперь определим уточненный сомножитель ] 1 ( 8) путем минимизации ди­


вергенции К ульбака-Лейблера:

КL[Jj(O~:'i(O) q~"(O)} (10.198)

Это не представляет сложностей, потому что аппроксимирующее распределение

qnew(8) принадлежит экспоненциальному семейству, поэтому мы можем сослаться


на результат (10.187), который говорит о том, что параметры qnew(8) получаются
путем сопоставления математических ожиданий достаточных статистик с соответ­
ствующими моментами (10.196). Будем считать, что это выполнимая операция.
Например, если мы выберем q(8) как нормальное распределение N(81µ, 1:), тоµ
задается равным математическому ожиданию (ненормированного) распределения
\.
fj( O)q 1 ( 8), а 1: - равной его ковариации. В принципе, нетрудно получить требу-
емые математические ожидания для любого члена экспоненциального семейства
при условии, что его можно нормировать, поскольку ожидаемая статистика может
1О.7. Распространение ожидания 669

бъrrъ связана с производными коэффициента нормировки, как указано в (2.226).


ЕР-аппроксимация показана на рис. 10.14.

0,8
30
0,6
20
0,4
10
0,2

о
-2 -1 о 2 3 4 -1 о

Рис. 10.14. Аппроксимация , полученная с помощью метода распространения ожидания

с использованием нормального распределения из примера, рассмотренного

на рис. 4.14 и 10.1 . Слева на графике покюано исходное распределение (желтый цвет),

а также аппроксимация Лапласа (красный цвет), глобальная вариационная

аппроксимация (зеленый цвет) и ЕР-аппроксимация (синий цвет), а справа на графике

показаны соответствующие отрицательные логарифмы распределений.

Обратите внимание на то, что ЕР-распределение шире, чем вариационный вывод,

вследствие различной формы КL-дивергенции

Из (10.193) видно, что уточненный множитель ] 1 (О) можно найти, взяв q0 ew(O)
и разделив его на остальные множители так, что

(10.199)

где мы использовали формулу (10.195). Коэффициент К определяется с помо­


'
щью умножения обеих частей равенства ( 10.199) на q 1.(О) и интегрирования:

K=fJ1 (0)q'1 (0)d0, (10.200)

где мы использовали тот факт, что распределение qnew(O) нормировано. Следо­


вательно, значение К можно найти, сопоставляя моменты нулевого порядка :

(10.201)

Объединив это равенство с (10.197), получим, что К= Z1 и, следовательно, его

можно найти, вычислив интеграл в (10.197).


На практике выполняются несколько итераций по совокупности сомножите­
лей, по очереди уточняющие каждый сомножитель . Затем апостериорное рас­

пределение р( 01 V) аппроксимируется с использованием ( 10.191 ), а свидетель-


670 ГЛАВА 10. ПРИБЛИЖЕННЫЙ ВЫВОД

ство в пользу модели p(V) можно аппроксимировать, используя (10.190), заме­


нив множители f;( 8) их приближениями J; {О) .

Распространение ожиданий

Нам дано совместное распределение по наблюдаемым данным V и стохасти­


ческие переменные (J в виде произведения множителей

p(V,0)= ПJ;(О), (10.202)

и мы хотим аппроксимировать апостериорное распределение p(OIV) распре­


делением вида

zj
-
q ( (J) = -1 п J; ((J ). (10.203)

Мы также хотим аппроксимировать свидетельства в пользу модели p(V).

1. Инициализировать все аппроксимирующие множители J; (О) .


2. Инициализировать апостериорное приближение, установив

q ( (J) ос п J; ((J ). (10.204)

3. Пока процесс не сойдется:

а) Выбрать коэффициент J; (О) для уточнения.


б) Удалить J; ((J) из апостериорной части путем деления:
'i(O)= q(O) (10.205)
q fj- ( (J ) .
в) Вычислить новое апостериорное распределение, установив достаточ­

ные статистики (моменты) qnew(O) равными значениям q11(0)Jj(O),


включая оценку константы нормировки:

(10.206)

r) Вычислить и сохранить новый сомножитель:

(10.207)

4. Вычислить аппроксимацию свидетельства в пользу модели:

p(V) = fПJ; (O)dO. (10.208)


j
10.7. Распространение ожидания 671

Специальный вариант метода ЕР, извесrnый как фильтрация предполагаемой


плотности (Assumed Density Filtering - ADF) или сопоставление моментов (Мау­
Ьесk, 1982; Lauritzen, 1992; Boyen and Koller, 1998; Opper and Winther, 1999), полу­
чают путем инициализации единицей всех аппроксимирующих множигелей, кроме

первого, а затем поочередного уточнения всех сомножителей. Фильтрация предпо­


лагаемой плотности может быть удобной для онлайнового обучения, при котором
точки поступают последовательно, и нам нужно провести обучение на каждой из
ЮfХ, а затем отбросить, прежде чем рассматривать следующую точку. Однако в па­
кетном режиме у нас есть возможность многократно использовать точки, добиваясь
большей точности, и именно эта идея используется в методе распространения ожи­

дания. Кроме того, если мы применим ADF к пакетным данным, то результаты бу­
дут иметь нежелательную зависимость от (произвольного) порядка, в котором бу­
дут учитываться точки. Эгот недостаток метод ЕР также может преодолеть.
Одним из недостатков распространения ожидания является то, что нет гарантии

сходимости итераций. Однако для приближений q(fJ) в экспоненциальном семей­


стве, если итерации сходятся, результирующее решение будет стационарной точкой
конкретной энергетической функции (Мinka, 2001а), хотя каждая итерация метода
ЕР не обязательно уменьшает значение этой энергетической функции. Эго проти­
воречит вариационному байесовскому методу, который итеративно максимизирует
нижнюю границу логарифмической функции маргинального правдоподобия и га­
рантирует, что каждая итерация не уменьшает оценку. Можно оптимизировать

функцию стоимости метода ЕР напрямую, и в этом случае сходимость гарантиру­


ется, хотя результирующие алгоритмы могут оказаться медленнее и сложнее.

Другое различие между вариационным байесовским подходом и методом ЕР


возникает из-за формы КL-дивергенции, которая минимизируется двумя алгорит­
мами, причем первый минимизирует КL(qllp), а второй- КL(pllq). Как мы виде­
JШ на рис. 10.3, для многомодальных распределений р(8) минимизация КL(pllq)
может привести к плохим приближениям. В частности, если метод ЕР применяет­
ся к смесям, то результаты не являются разумными, потому что аппроксимация

пытается захватить все моды апостериорного распределения. Напротив, в моделях


логистического типа метод ЕР оказывается лучше локальных вариационных мето­

дов и аппроксимации Лапласа (Кuss and Rasmussen, 2006).

10.7.1. Пример: задача о помехах

Следуя Minka (2001 Ь ), проиллюстрируем алгоритм ЕР на простом примере,


цель которого - вывести математическое ожидание 8 многомерного нормального
распределения над переменной х, учитывая набор наблюдений, извлеченных из
672 ГЛАВА 10. ПРИБЛИЖЕННЫЙ ВЫВОД

генеральной совокупности с этим распределением. Чтобы сделать эту задачу более


интересной, наблюдения встроены в фоновый шум, который сам также имеет
нормальное распределение (рис. 10.15). Таким образом, распределение наблюдае­
мых значений х представляет собой смесь нормальных распределений:

р(х, 8) = (1 - w)N(xl 8, 1) + wN(xlO, al), (10.209)

где w- доля фонового шума, которая предполагается известной. Априорное


распределение по 8 предполагается нормальным:
р(8) = N(810, Ы), (10.210)

а значения параметров а = 1О, Ь= и


w = 0,5 выбираются в соответствии с
100
Minka (2001а). Совместное распределение N наблюдений V = {х 1 , "., xN} и 8 за­
дается формулой
N
p(V,8) = р(8)Пр(хпl8), (10.211)
n=I

N
поэтому апостериорное распределение содержит смесь 2 нормальных компо-
нентов. Таким образом, вычислительная сложность решения этой задачи возрас­
тает экспоненциально с увеличением размера набора данных, поэтому ее точное
решение трудно достижимо даже для умеренно больших N.

-5 о о 5 х 10

Рис. 10.15. Задача о шуме для размерности пространства данных D = 1. Точки обучающих

данных, обозначенные крестиками, взяты из смеси двух нормальных компонентов,

показанных красным и зеленым цветами. Цель состоит в том, чтобы вывести

математическое ожидание зеленого гауссового компонента из наблюдаемых данных


10.7. Распространение ожидания 673

Чтобы применить метод ЕР к задаче о шуме, сначала определим коэффици­


енты .fo(O) = р(О) и fп(О) = р(хпl О). Затем выберем аппроксимирующее распре­
деление из экспоненциального семейства, и для этого примера удобно выбрать
сферическое нормальное распределение:

q( 0) = N( Olm, vl). (10.212)

Таким образом, фактор-аппроксимации будут иметь вид экспоненциально­

квадратичных функций вида

(10.213)

где п = 1, "" N, и положим ] 0 (О) равным априорному распределению р(О). За­


метим, что использование распределения N(OI" ·)не означает, что правая часть
является корректно определенной плотностью нормального распределения (на
самом деле, как мы увидим, параметр дисперсии vn может быть отрицательным).
Это просто удобное сокращенное обозначение. Приближения (О), при ln
п = 1, "" N, можно инициализировать единицей, соответствующей значениям
sn = (21lVп) 012 , vn ~ оо и m,, =О, где D- размерность переменной х и, следова­
тельно, 8. Поэтому начальный q(O), определенный (10.191), равен предыдущему.
Затем мы итерационно уточняем коэффициенты, принимая один сомножи­
тель fп (О) за раз и применяя формулы (10.205)-(10.207). Обратите внимание на
то, что не нужно уточнять / 0 (О), потому что уточнение по методу ЕР оставит его
без изменений (см. упраж11е1111е 10.37). Здесь мы лишь приводим результаты и
предоставляем читателям самостоятельно разобраться в деталях.
Сначала удалим текущую оценку ln
(О) из q( О) с помощью деления, используя
(10.205), чтобы получить распределение q1n(O), которое имеет математическое
ожидание и обратную дисперсию, заданные формулами (слt. упраж11е1111е 10.38)

m1n =m+v 1nv-п 1 (m-m)


п '
(10.214)
\п )-l _ -1 _ -1
(V -V Vn . (10.215)

Затем оценим константу нормировки Zm используя (10.206), и получим

(10.216)

Аналогично вычисляем математическое ожидание и дисперсию распределения


qnew ( (}) путем нахождения математического ожидания и дисперсии q\п( O)f,. (О)
(см. упраж11е11ие 10.39):
674 ГЛАВА 10. ПРИБЛИЖЕННЫЙ ВЫВОД

\п
mnew = т\п + р _v_(x -т'п) (10.217)
п v'n + 1 п ,
\п 2 v1" 1 х т \п 2
vnew =v'" -р _v
( )
__ +p (1-р) ( ) ll
п - 11
(10.218)
п \п
v+
l п п 1 )2
Dv"+l
( '
где величина

(10.219)

имеет простую интерпретацию - это вероятность того, что точка хп не является

шумом. Затем мы используем формулу (10.207) для вычисления уточненного


множителя fп (О) , параметры которого задаются формулами

v~I =(vnew(-(v'"(, (10.220)

тп -_ m\п + (Vn + V\п)(V\п)-1(mnew _ m\п) , (10.221)


zn (10.222)

Этот процесс уточнения повторяется до тех пор, пока не будет выполнен


подходящий критерий завершения, например, пока максимальное изменение

значений параметров, возникающих в результате полного перебора всех множи­


телей, не станет меньше некоторого порогового значения. Наконец, использу­

ем (10.208) для вычисления аппроксимации свидетельства в пользу модели:

(10.223)

где

(mnew) Т mnew
B=---'---- (10.224)
v

Примеры аппроксимации сомножителей в задаче о шуме с одномерным про­


странством параметров (} показаны на рис. 10.16. Заметим, что аппроксимации
сомножителей могут иметь бесконечные или даже отрицательные значения для
параметра "дисперсии" vn. Они просто соответствуют аппроксимациям, которые
выгнуты вверх, а не вниз, что не обязательно является проблемой, если общее
приближенное апостериорное распределение q(O) имеет положительную дис­
персию. Результаты сравнения эффективности метода ЕР, вариационного байе-
10.7. Распространение ожидания 675

совского подхода (теории среднего поля) и аппроксимации Лапласа на примере


задачи о шуме показаны на рис. 10.17.

-5 о 5 () 10 -5 о 5 () 10

Рис. 10.16. Примеры аппроксимации конкретных множитслеi-1 для одномерной версии

1адачи о шуме: кривая/11 (0) показана синим цветом; ]~(О) - красным; q1 11 (и) -
1еле11ым . Заметим, ЧТО текущая форма распределения q 1 11 (0) определяет диапазон, на
котором / 11 (О) будет хорошей аппроксимацией_(,, (О)

Апостериорное математическое ожидание Свидетельство

10°

~

s
3
о
10-~
~ ··~"""'""'"
Лаплас
ба нес
~

s
3
о
10-200

10-202
l"'''щ"''"'
Лаплас
бай се

10-204 ~~------~--~
104 106 104 J06
ФЛОПЫ ФЛОПЫ

Рис. 10.17. Сравнение распространения ожидания , вариационного вывода

и аппроксимации Лапласа на примере задачи о шуме. Слева показана

ошибка пропюзируемого математического ожидания в зависимости от количества

операций с плавающей запятой , а справа пока3а~1ы соответствующие

ре·1ультаты для свидетельства в пользу модели

10.7.2. Распространение ожидания на графах

До сих пор в обсуждении основ метода ЕР мы допускали, что множители/;(8)


в распределении р( 8) являются функциями всех компонентов 8. Такое же пред­
положение мы делали относительно аппроксимирующих множителей J(8) в
аппроксимирующем распределении q(8). Теперь рассмотрим ситуации, в кото-
676 ГЛАВА 10. ПРИБЛИЖЕННЫЙ ВЫВОД

рых множители зависят только от подмножеств переменных. Такие ограничения

удобно выразить с использованием структуры вероятностных графовых моделей,


описанных в главе 8. Здесь мы используем представление факторного графа, по­
скольку оно охватывает как ориентированные, так и неориентированные графики.
Рассмотрим случай, когда аппроксимирующее распределение полностью
факторизуется, и покажем, что в этом случае распространение ожидания сводит­
ся к циклическому распространению убеждения (Minka, 2001а). Для начала по­
кажем это в контексте простого примера, а затем рассмотрим общий случай.
Прежде всего напомним формулу (10.17), из которой следует, что если свести
к минимуму дивергенцию Кульбака-Лейблера КL(pjjq) относительно фактори­
зованного распределения q, то оптимальное решение для каждого сомножителя

является соответствующим маргинальным распределением р.

Теперь рассмотрим фактор-граф, показанный на рис. 10.18, слева, который


бьша введен ранее в контексте алгоритма sum-product. Совместное распределе­
ние представляется в виде (c.w. раздел 8.4.4).
р(х) =fa(X1, Х2)fь(Х2, X3)fc(X2, Х4). (10.225)
Будем искать приближение q(x), которое имеет такую же факторизацию, так что
(10.226)

Обратите внимание на то, что константы нормализации не указаны. Их мож­


но восстановить в конце вычислений путем локальной нормировки, как это
обычно делается при распространении убеждения. Предположим теперь, что мы
ограничиваемся приближениями, в которых сами множители факторизуются по
отдельным переменным:

(10.227)

что соответствует фактор-диаграмме, показанной на рис. 10.18, справа. Поскольку


отдельные множители факторизуются, общее распределение q(x) само по себе
полностью факторизуется. Теперь применим алгоритм ЕР, используя полностью
факторизованное приближение. Предположим, мы инициализировали все множи­
(
тели и решили выбрать коэффициент fь х2 , х3 ) = fы ( х2 ) fьз ( х3 ) . Сначала удалим
этот множитель из аппроксимирующего распределения, чтобы получить

(10.228)

затем умножим его на точный множитель fь(х 2 , х3 ) и получим

р(х) = q 1 ь (х).fь (х2 ,х3 ) = lai (x1)Ja 2 (x 2)J;, 2 (x2 )J;, 4 (х4 ).fь (х2 ,х3 ).(10.229)
10.7. Распространение ожидания 677

Х3

ю
fьз

Рис. 10.18. Простой фактор-граф из рис. 8.5 l, воспроизведенный для удобства (слева),

и соответствующая факторизованная аппроксимация (справа)

Теперь найдем qnew(x), минимизируя дивергенцию Кульбака-Лейблера


КL{.Pllqnew) . Результат, как отмечалось выше, состоит в том, что qnew(z) содер­
жит произведение сомножителей, по одному для каждой переменной Х;, причем
каждый сомножитель задается соответствующим маргинальным распределением
р (х). Эти четыре маргинальных распределения задаются формулами

ft(x1)ocla1(x1), (10.230)
Р (Х2) ос la2 ( Xz) fc2 ( Xz) Lfь (Х2' Хз ), (10.231)
Х3

(10.232)

(10.233)

а распределение qnew(х ) получается путем умножения этих маргинальных рас-

пределений . Мы видим, что единственные сомножители в q(x), которые меня-

ются при уточнении lь ( х2 , х3 ), - это те, которые включают аргументы функ­


ции fь, а именно: х2 и х3 • Чтобы получить уточненный множитель
- - - new \Ь
fь (х2 ,х3 ) = fы (х2 ).fь 3 (х3 ), делим q (х) на q (х):

J;, 2 ( х2 ) ос Lfь (х2 ,х3 ), (10.234)

fьз (Хз) ос L {fь ( Х2' Хз) la2 ( Х2) fc2 ( Х2)} · (10.235)
Xz

Эти сообщения, полученные с использованием распространения убеждения, при

котором сообщения от узлов переменных до узлов сомножителей бьmи заверну­

ты в сообщениях от узлов множителей к узлам переменных (с.м. раздел 8.4.4).


678 ГЛАВА 10. ПРИБЛИЖЕННЫЙ ВЫВОД

В частности, 1Ь2 (х2 ) соответствует сообщению µ fь-н2 ( х2 ), отправленному уз­


лом сомножителя fь в узел переменной х 2 , и задается формулой (8.81). Анало­

гично, если подставить (8.78) в (8.79), получим формулу (10.235), в кото­

рой la 2( х2 ) соответствует сообщению µ!а -н2 ( х2 ) , а lc 2( х2 ) - сообщению


(
µ fc--tx 2 ( х2 ), что приводит к сообщению lьз х3 ) , которое соответствует сообще­
нию µ fь--tхз ( Хз) ·
Этот результат немного отличается от стандартного распространения убеж-
дения тем, что сообщения передаются в обоих направлениях одновременно. Мы
можем легко изменить процедуру ЕР, чтобы создать стандартную форму алго­
ритма sum-product, уточняя только один из множителей за один раз. Например,
( (
если уточнить только lьз х3 ) , то lы х2 ) по определению не изменяется,
(
а уточненная версия lьз х3 ) снова задается формулой (10.235). Если мы уточня­
ем только одно слагаемое за один раз, то можем выбрать порядок, в котором
уточнения выполняются по своему усмотрению. В частности, для древовидного
графа можно следовать схеме двухпроходного уточнения, соответствующей стан­
дартному расписанию распространения убеждения, что приведет к точному выво­
ду маргинальных распределений переменных и сомножителей. Инициализация
коэффициентов аппроксимации в этом случае несущественна.
Теперь рассмотрим общий фактор-граф, соответствующий распределению

(10.236)

где 8; - подмножество переменных, связанных с сомножителем f;. Мы аппрок­


симируем его, используя полностью факторизованное распределение вида

q( 8) ос ПП];k (вk ), (10.231)


k

где 8k соответствует отдельному узлу переменной. Предположим, что мы хотим


уточнить конкретный член lJI (81 ) ,
фиксируя все остальные члены. Сначала
1
удалим член 1 ( 81 ) из q( 8) и получим
q' 1 ( 8) ос ПП];k (вk ), (10.238)
i"#l k

а затем умножим на точный сомножительfj(8). Чтобы определить уточненный


член 111 ( 81 ) , нужно лишь рассмотреть функциональную зависимость от 81, по­
этому просто найдем соответствующее маргинальное распределение q:
qv(8)fj(8). (10.239)
10.7. Распространение ожидания 679

С точностью до некоторой мультипликативной константы это связано с вычис­


лением маргинального распределения Jj(81), умноженного на все члены из мно-
1.
жества q J ( 8), которые являются функциями всех переменных из этого множе-
ства. Члены, соответствующие другим множителям для i -:;; j в числителе и зна-
1.
менателе, после деления на q J ( 8) сократятся. Поэтому получим

Jjl ((Jl) ос ~
От~/ E8j
tA (Jj )ППlkт ((Jm ).
k m#f
(10.240)

В этом выражении можно распознать правило sum-product, в котором сообще­

ния от узлов переменных до узлов множителей были устранены, как показано


на рис. 8.50. Величина соответствует сообщению которое узел сомножителя j
отправляет в узел переменной т, а произведение по k в (10.240) производится по

всем множителям, зависящим от переменных Вт, которые имеют переменные


(кроме переменной Bt) вместе с множителем Jj(81). Иначе говоря, чтобы вычис­
лить сообщение, исходящее из узла сомножителя, умножаем произведение всех
сообщений, входящих в другие узлы множителей, на их локальный сомножи­
тель, а затем маргинализируем.

Таким образом, алгоритм sum-product оказывается частным случаем распро­


странения ожидания, если мы используем аппроксимирующее распределение,

которое полностью факторизуется. Это говорит о том, что для достижения более
высокой точности можно использовать более гибкие аппроксимирующие рас­
пределения, соответствующие частично несвязным графам. Другое обобщение
состоит в объединении сомножителей/1 (0;) в множества и одновременном уточ­
нении всех множителей из одного множества на каждой итерации. Оба этих
подхода могут привести к улучшению точности (Minka, 2001 Ь). В целом про­

блема выбора наилучшего сочетания группировки и разъединения является от­


крытой.
Мы видели, что передача вариационных сообщений и распространение ожи­
дания оптимизируют две разные формы дивергенции Кульбака-Лейблера. В ра­
боте Minka (2005) показано, что широкий спектр алгоритмов передачи сообще­
ний может быть получен из общего подхода, включающего минимизацию чле­
нов альфа-семейства дивергенций, заданных формулой (10.19). К ним относятся
передача вариационных сообщений, распространение циклического убеждения и
распространение ожидания, а также ряд других алгоритмов, которые из-за недо­

статочного места не обсуждаются здесь, такие как передача сообщений с пере­


взвешиванием дерева (Wainwright et al., 2005), дробное распространение убеж­
дения (Wiegerinck and Heskes, 2003) и степенной ЕР (Minka, 2004).
680 ГЛАВА 10. ПРИБЛИЖЕННЫЙ ВЫВОД

Упражнения

10.1. (*) WWW Убедитесь, что логарифмическое маргинальное распределение


наблюдаемых данных ln р(Х) можно разложить на два члена в виде
(10.2), где l,(q) задается формулой (10.3), а КL(qllp)- формулой (10.4).
10.2. (*) Используйте свойства E[z 1] = т1 и JE[z2] = т 2 для решения системы
уравнений (10.13) и (10.15) и покажите, что если исходное распределение
p(z) невырожденное, то единственное решение для математического
ожидания сомножителей в аппроксимационном распределении задается
формулами JE[z 1] = µ 1 и JE[z2] = ~·
10.3. (**) WWW Рассмотрим факторизованное вариационное распределение q(Z)
вида (10.5). Используя метод множителей Лагранжа, убедитесь в том, что
минимизация дивергенции Кульбака-Лейблера КL(pllq) по одному из
множителей q ;(Z;) при фиксированных остальных сомножителях приво­
дит к решению (10.17).
10.4. (**)Предположим, р(х)- некоторое фиксированное распределение, ко­
торое мы хотим аппроксимировать, используя нормальное распределение

q(x) = N(xlµ, 1:). Записывая форму КL-дивергенции КL(pllq) для нор­


мального распределения q(x) и дифференцируя, покажите, что миними­
зация КL(pllq) поµ и 1: приводит к тому, чтоµ задается математическим
ожиданием х прир(х), а 1: задается ковариацией.

10.5. (**) WWW Рассмотрим модель, в которой множество всех латентных стоха­
стических переменных, обозначаемых совместно через Z, содержит некото­
рые латентные переменные z вместе с некоторыми параметрами модели (J

Предположим, мы используем вариационное распределение, которое раз­


деляет латентные переменные и параметры так, что q(z, О)= q,(z)q 8 (0),
причем распределение q 8 ( О) аппроксимируется точечной оценкой вида
qo(fJ) = д(~00 ), где 00 - вектор свободных параметров. Покажите, что
вариационная оптимизация этого факторизованного распределения эквива­
лентна ЕМ-алгоритму, в котором Е-шаг оптимизирует q,(z), а М-шаг мак­
симизирует математическое ожидание логарифмического апостериорного
распределения Опо 00 при полных данных.
10.6. (**)Альфа-семейство дивергенций определяется формулой (10.19). Пока­
жите, что дивергенция Кульбака-Лейблера КL(pllq) соответствует случаю
а ~ 1. Это можно сделать, записав р 8 = ехр( с ln р) = 1 + с 1n р + О( с\
а затем перейдя к пределу при с~О. Аналогично покажите, что КL(qllP)
соответствует случаю а ~ -1.
Упражнения 681

10.7. (**)Рассмотрим задачу о выводе математического ожидания и точности


одномерного нормального распределения с использованием факторизо­
ванного вариационного приближения, рассмотренного в разделе 10.1.3.
Покажите, что множитель qµ(µ) является нормальным распределением
вида с математическим ожиданием и точностью, определяемыми форму­
лами (10.26) и (10.27) соответственно. Аналогично покажите, что множи­
тель qr('r) является гамма-распределением вида Gam(тlaм Ьн) с парамет­
рами, заданными формулами (10.29) и (10.30).

10.8. (*) Рассмотрим вариационное апостериорное распределение для точности


одномерного нормального распределения, параметры которого заданы

формулами (10.29) и (10.30). Используя стандартные результаты для мате­


матического ожидания и дисперсии гамма-распределения, заданные фор­
мулами (Б.27) и (Б.28), покажите, что если мы допустим, что N ~ оо, то

данное вариационное апостериорное распределение имеет математическое

ожидание, определяемое обратной оценкой максимального правдоподобия


для дисперсии данных и дисперсией, которая стремится к нулю.

10.9. (**)Используя стандартный результат JE[ т] = анlЬн для математического


ожидания гамма-распределения вместе с формулами (10.26), (10.27),
(10.29) и (10.30), получите результат (10.33) для обратной величины ма­
тематического ожидания точности в факторизованном вариационном
подходе к одномерному нормальному распределению.

10.10. (*) WWW Выведите разложение, заданное формулой (10.34), которое ис­

пользуется для нахождения приближенных апостериорных распределе­


ний над моделями с использованием вариационного вывода.

10.11. (**) WWW Используя метод множителей Лагранжа для выполнения усло­
вия нормированности распределения q(m), покажите, что максимум ниж­
ней границы (10.35) задается формулой (10.36).

10.12. (**)Исходя из совместного распределения (10.41) и применяя общий ре­


зультат (10.9), покажите, что оптимальное вариационное распределение
q (Z) по латентным переменным для байесовской смеси нормальных рас­
0

пределений задается формулой (10.48), проверяя шаги, указанные в тексте.

10.13. (**) WWW Опираясь на формулу (10.54), получите результат (10.59) для
оптимального вариационного апостериорного распределения над µk и Лk
в байесовской смеси нормальных распределений и, как следствие, про­
верьте формулы (10.60)-(10.63) для параметров этого распределения.

10.14. (**)Используя распределение (10.59), проверьте результат (10.64).


682 ГЛАВА 10. ПРИБЛИЖЕННЫЙ ВЫВОД

10.15. (*) Используя результат (Б.17), покажите, что математическое ожидание


коэффициентов смешивания в вариационной смеси нормальных распре­
делений задается формулой ( 10.69).
10.16. (**) WWW Проверьте результаты (10.71) и (10.72) для первых двух членов
в нижней оценке вариационной модели смеси нормальных распределе­
ний в формуле (10.70).
10.17. (***)Подтвердите результаты (10.73)--{10.77) для остальных членов в ниж­
ней границе вариационной модели смеси нормальных распределений в
формуле (10.70).
10.18. (***)В этом упражнении мы получим уравнения вариационного уточне­
ния для модели смеси нормальных распределений путем прямого диффе­
ренцирования нижней границы. Для этого предположим, что вариационное

распределение имеет факторизацию, определяемую формулами (10.42)


и (10.55), с коэффициентами, определяемыми формулами (10.48), (10.57) и
(10.59). Подставьте их в (10.70) и, как следствие, получите оценку снизу
в зависимости от параметров вариационного распределения. Затем, мак­
симизируя оценку по этим параметрам, выведите уравнения для уточне­

ния сомножителей в вариационном распределении и покажите, что они


совпадают с сомножителями из раздела 10.2. 1.
10.19. (**)Выведите результат (10.81) для прогностического распределения при
вариационном подходе к байесовской смеси нормальных распределений.

10.20. (**) WWW В этом упражнении исследуется вариационное байесовское реше­


ние для смеси нормальных распределений, когда размер множества данных

N велик. Покажите, что оно сводится (как и следовало ожидать) к решению


максимального правдоподобия на основе ЕМ-алгоритма, полученного в
главе 9. Обратите внимание, что для выполнения этого упражнения могут
использоваться результаты из приложеиия Б. Сначала покажите, что апо­
стериорное распределение q•(Ak) точности имеет резкий пик в окрестности
точки максимального правдоподобия. Сделайте то же самое для апостери­
орного распределения математического ожидания q•(µklAk). Затем рас­
смотрите апостериорное распределение q•(rr) для коэффициентов смеши­
вания и покажите, что оно также имеет резкий пик в окрестности точки

максимального правдоподобия. Аналогичным образом покажите, что от­


ветственности становятся равными соответствующим максимальным зна­

чениям функции правдоподобия при больших N, используя следующий


асимптотический результат для дигамма-функции при больших х:
Упражнения 683

V/(X) = ln Х + 0(1 / Х). (10.241)


Наконец, используя (10.80), покажите, что при больших N прогностиче­
ское распределение становится смесью нормальных распределений.

10.21. (*)Покажите, что количество эквивалентных значений параметров из-за

взаимных симметрий в модели смеси с К компонентами равно К!.

10.22. (**)Мы видели, что каждая мода апостериорного распределения в смеси


нормальных распределений является членом семейства, состоящего из К!
эквивалентных мод. Предположим, что результатом выполнения алго­
ритма вариационного вывода является приближенное апостериорное рас­
пределение q, локализованное в окрестности одной из мод. Затем мы мо­
жем аппроксимировать полное апостериорное распределение как смесь

К! q-распределений, центрированных относительно каждой моды и име­


ющих равные коэффициенты смешения. Покажите, что если мы допу­
стим пренебрежимо малое перекрытие между компонентами q-смеси, то

полученная нижняя граница будет отличаться от нижней границы для


распределения одного компонента q дополнительным слагаемым ln К!.
10.23. (**) WWW Рассмотрим вариационную модель смеси нормальных распреде­
лений, в которой нет априорного распределения по коэффициентам сме­
шивания {.1l"k}. Вместо этого коэффициенты смешивания рассматриваются
как параметры, значения которых должны быть найдены путем максими­
зации вариационной нижней границы функции логарифмической марги­
нального правдоподобия. Покажите, что максимизация этой нижней гра­
ницы по коэффициентам смешивания с помощью множителей Лагранжа,
гарантирующих, что сумма коэффициентов смешивания равна единице,
приводит к результату (10.83). Заметим, что нет необходимости рассматри­
вать все члены в нижней границе, а только те, которые зависят от {trk}·
10.24. (**) WWW В разделе 10.2 мы видели, что сингулярности, возникающие при
использовании максимального правдоподобия в моделях смесей нор­
мальных распределений, в байесовском подходе не возникают. Обсудите,
возникли бы такие сингулярности, если бы байесовская модель использо­
вала максимальную апостериорную оценку (МАР) ).
10.25. (**)Вариационный подход к байесовской смеси нормальных распреде­
лений, рассмотренный в разделе 10.2, использовал факторизованное при­
ближение (10.5) к апостериорному распределению. Как мы видели на
рис. 10.2, факторизованное предположение приводит к недооценке дис-
684 ГЛАВА 10. ПРИБЛИЖЕННЫЙ ВЫВОД

персии апостериорного распределения для определенных направлений в


пространстве параметров. Обсудите качественное влияние этого факта на
вариационное приближение свидетельства в пользу модели и покажите,
как этот эффект будет меняться в зависимости от количества компонен­
тов в смеси. Объясните, будет ли вариационная смесь нормальных рас­
пределений склоняться к недооценке или переоценке оптимального ко­

личества компонентов.

10.26. (***)Расширьте вариационный подход на байесовскую линейную регрес­


сию, включив гипераприорное гамма-распределение Gam(f3lc0 , d0 ) над /3 и
примените его, предполагая факторизованное вариационное распределение
вида q(w)q(a)q(/3). Выведите уравнения вариационного уточнения для
трех множителей в вариационном распределении, а также получите выра­
жение для нижней границы и прогностического распределения.

10.27. (**)Используя формулы, приведенные в прило;жении Б, покажите, что


вариационная нижняя граница для регрессионной модели с линейными
базисными функциями, может быть записана в виде (10.107) с различны­
ми членами, определяемыми формулами (10.108}-{10.112).
10.28. (***)Перепишите модель байесовской смеси нормальных распределе­
ний, введенную в разделе 10.2, как сопряженную модель из экспоненци­

ального семейства, как описано в разделе 10.4. Затем для получения кон­
кретных результатов (10.48), (10.57) и (10.59) используйте общие резуль­
таты (10.115) и (10.119).
10.29. (*) WWW Покажите, что функцияf(х) = lnx вогнута при О < х < оо, вычисляя
ее вторую производную. Определите форму двойной функции
g( 17),
определяемую (10.133), и проверьте, что минимизация функции 17x-g(17)
по 17 согласно (10.132) действительно восстанавливает функцию lnx.

10.30. (*) Вычислив вторую производную, покажите, что логарифм логистиче­


ской функции f(x) = -ln(l + е-х) является вогнутой функцией. Выведите
вариационную верхнюю границу (10.137) непосредственно, выполнив
разложение Тейлора логарифма логистической функции первого порядка
в окрестности точки х = ;.

10.31. Найдя вторую производную по х, покажите, что функцияf(х) = -ln(ex12 +


+ -х/2) v ф v Т
е является вогнутом ункциеи от х. еперь рассмотрите вторую

производную по переменной х 2 и, как следствие, покажите, что она явля­

ется выпуклой функцией от х2 • Постройте графикf(х) в зависимости от х


Упражнения 685

и х 2 • Выведите нижнюю границу (10.144) для логистической сигмоидаль­


ной функции, непосредственно выполнив разложение в ряд Тейлора пер­
вого порядка функцииf(х) по переменной х 2 с центром в значении 2• q
10.32. (**) WWW Рассмотрите вариационную трактовку логистической регрессии
с последовательным обучением, в которой точки поступают по одной, и
каждая точка должна обрабатываться и отбрасываться до прибытия сле­
дующей точки. Покажите, что гауссовскую аппроксимацию апостериор­
ного распределения можно построить за счет использования нижней гра­

ницы ( 10.151 ), в которой распределение инициализируется с использова­


нием априорного распределения и после поступления очередной точки

оптимизируется соответствующий вариационный параметр qn.


10.33. (*) Дифференцируя величину Q(~, ~old), определенную (10.161) по вариа­
ционному параметру qm покажите, что уравнение уточнения для qn для
байесовской модели логистической регрессии задается формулой (10.163).
10.34. (**)В этом упражнении мы выводим уравнения для уточнения вариаци­
онных параметров ~ в байесовской логистической регрессионной модели
из раздела 4. 5 путем прямой максимизации нижней границы, заданной
формулой (10.164). Для этого приравняйте производную от ,С(~) относи­
тельно ~к нулю, используя результат (3.117) для производной логарифма
определителя вместе с выражениями (10.157) и (10.158), определяющими
математическое ожидание и ковариацию вариационного апостериорного

распределения q(w).
10.35. (**)Выведите результат (10.164) для нижней оценки ,С(~) в вариационной
модели логистической регрессии. Это проще всего сделать, заменив вы­
ражения для нормального априорного распределения q(w) = N(wlmo, S0)
вместе с нижней оценкой h(w, ~) функции правдоподобия в интегра­
ле (10.159), который определяет ,С(~). Затем соберите члены, зависящие
от w, в экспоненте и выделите полный квадрат, чтобы получить гауссов­
ский интеграл, который затем можно вычислить, применяя стандартный
результат для коэффициента нормировки многомерного нормального
распределения. Наконец, возьмите логарифм, чтобы получить (10.164).
10.36. (**) Рассмотрите схему аппроксимации ADF, рассмотренную в разде­

ле 1О.7, и покажите, что включение множителя fj( 8) приводит к уточне­

нию свидетельства в пользу модели в виде

P1(V) == Р1-1 (V)~, (10.242)


686 ГЛАВА 10. ПРИБЛИЖЕННЫЙ ВЫВОД

где ~ - коэффициент нормировки, определяемый формулой (10.197).


Применяя этот результат рекурсивно и инициализируяр 0 ('D) = 1, получите
результат

(10.243)

10.37. (*) WWW Рассмотрите алгоритм распространения ожидания из разде­


ла 1 О. 7 и предположите, что один из множителей fo( 8) в определении
(10.188) имеет ту же экспоненциальную функциональную форму, что и
аппроксимирующее распределение q( 8). Покажите, что если коэффици­
ент инициализирован как fo( 8), то уточнение коэффициента по методу
ЕР оставляет его неизменным. Эта ситуация обычно возникает, когда од­
ним из множителей является априорное распределение р( 8), поэтому мы
видим, что априорный множитель может быть включен только один раз и
не нуждается в уточнении.

10.38. (***)В этом и следующем упражнениях мы проверим результаты (10.214}-


(10.224) для алгоритма распространения ожидания, примененного к задаче
о шуме. Начните с использования формулы деления (10.205), чтобы полу­
чить выражения (10.214) и (10.215), выделив квадрат в экспоненте для
определения математического ожидания и дисперсии. Кроме того, покажи­
те, что константа нормировки Zn для задачи о шуме задается формулой
(10.216). Это можно сделать, используя общий результат (2.115).
10.39. (***)Покажите, что математическое ожидание и дисперсия распределе­
ния qnew(8) для метода ЕР, примененного к задаче о шуме, задаются фор­
мулами (10.217) и (10.218). Для этого сначала докажите следующие ре­
зультаты для математических ожиданий 8 и 88т при qnew(8):

(10.244)

(10.245)

а затем воспользуйтесь результатом (10.216) для Zn. Затем докажите ре­


зультаты (10.220}-(10.222), используя (10.207) и выделяя полный квадрат
в экспоненте. Наконец, воспользуйтесь формулой (10.208), чтобы полу­
чить результат (10.223).
11

Для большинства вероятностных моделей, представляющих практический


интерес, точный вывод невозможен, поэтому необходимо прибегнуть к некото­
рой форме аппроксимации. В главе 10 мы обсудили алгоритмы логического вы­
вода, основанные на детерминированных приближениях, которые включают та­
кие методы, как вариационный байесовский метод и распространение ожидания .
В настоящей главе будут рассмотрены приближенные методы вывода, основан­
ные на числовом выборе, также известные как методы Монте-Карло.
Хотя для некоторых приложений апостериорное распределение по ненаблю­
даемым переменным представляет непосредственный интерес, в большинстве
ситуаций апостериорное распределение требуется в первую очередь для оценки
математических ожиданий, например, для прогнозирования. По этой причине
фундаментальная проблема, которую мы хотим рассмотреть в этой главе, за­
ключается в вычислении математического ожидания некоторой функции f(z)
относительно распределения вероятностей p(z). Здесь компоненты z могут со-
688 ГЛАВА 11. ВЫБОРОЧНЫЕ МЕТОДЫ

держать дискретные или непрерывные переменные или их комбинацию. Таким


образом, в случае непрерывных переменных мы хотим оценить математическое
ожидание

Е[/] = J/(z)p(z)dz, (11.1)

где в случае дискретных переменных интегрирование заменяется суммировани­

ем. Эта ситуация для одной непрерывной переменной схематически показана на


рис. 11.1. Предположим, что такие математические ожидания слишком сложны,

чтобы их можно было точно вычислить с помощью аналитических методов.

Рис. 11.1. Схематическое изображение функцииf(z), математическое

ожидание которой должно оцениваться относительно распределения p(z)

Общая идея методов выбора состоит в том, чтобы получить набор выборок
z<1J (где 1=1, ... , L), извлеченных независимо друг от друга из генеральной сово­
купности с распределением p(z). Это позволяет приблизить математическое
ожидание (11.1) конечной суммой:

J =_!_ It( z(I) ). ( 11.2)


L /;\
Поскольку выборки z(/) извлечены из генеральной совокупности с распределением
p(z), то i&[J] = Е[/], следовательно, оценка j имеет правильное математическое
ожидание. Дисперсия оценки, которая задается формулой (см. ynptmcue11ue 11. 1)

( 11.3)

совпадает с дисперсией функции f(z) относительно распределения p(z). Таким


образом, следует подчеркнуть, что точность оценки не зависит от размерности
выборки z и что, в принципе, высокая точность может быть достигнута при от­
носительно небольшом количестве выборок z<I). На практике может быть доста-
11.1. Основные алгоритмы выбора 689

точно десяти или двадцати независимых выборок, чтобы оценить математиче­


ское ожидание с достаточной точностью.

Проблема, однако, заключается в том, что выборки {z<1>} могут не быть неза­
висимыми, и поэтому эффективный размер выборки может быть намного мень­
ше, чем видимый. Кроме того, возвращаясь к рис. 11.1, отметим, что если функ­
ция f( z) мала в областях, где функция p(z) велика, и наоборот, то в математиче­
ском ожидании могут преобладать области с малой вероятностью, поэтому для
достижения достаточной точности потребуется относительно большой объем
выборки.
Для многих моделей совместное распределение p(z) удобно описывать в
терминах графовой модели. В случае ориентированного графа без наблюдаемых
переменных выбор из совместного распределения не представляет сложностей
(при условии, что в каждом узле можно извлекать выборки из генеральных со­
вокупностей с заданными условными распределениями), если использовать сле­
дующий наследственный выбор (ancestral sampling), кратко обсуждаемый в раз­
деле 8.1.2. Совместное распределение определяется по формуле

p(z) = Пp(z;IPa; ), (11.4)


i=I

где z; - набор переменных, связанных с узлом i, ара; обозначает набор пере­


менных, связанных с родителями узла i. Чтобы получить выборку из генераль­
ной совокупности с совместным распределением, сделаем один проход по

множеству переменных в порядке z 1, "., zм, выбирая выборки из условных


распределений p(z;lpa;). Это всегда возможно, потому что на каждом шаге все
родительские значения уже определены. После одного прохода по графу мы
получим выборку из генеральной совокупности с совместным распределением.
Теперь рассмотрим случай ориентированного графа, в котором некоторые уз­
лы создаются с наблюдаемыми значениями. Мы можем расширить вышеописан­
ную процедуру на случай узлов, представляющих дискретные переменные, и

сформулировать метод логического выбора (Henrion, 1988), который можно рас­


сматривать как особый случай выбора по важности (importance sampling), об­
суждаемый в разделе 11.1.4. На каждом этапе, когда выборочное значение полу­
чается для переменной z;, значение которой наблюдается, выборочное значение
сравнивается с наблюдаемым значением, и если они согласуются, то выборочное
значение сохраняется и алгоритм переходит к следующей переменной по очере­
ди. Однако, если выборочное и наблюдаемое значения не совпадают, то вся вы­
борка, собранная до этого момента, отбрасывается, и алгоритм запускается сно-
690 ГЛАВА 11. ВЫБОРОЧНЫЕ МЕТОДЫ

ва с первого узла на графе. Этот алгоритм правильно извлекает выборки из гене­


ральной совокупности с апостериорным распределением, потому что он просто

извлекает выборки из совместного распределения скрытых и наблюдаемых пе­


ременных, а затем отбрасывает те выборки, которые не согласуются с наблюда­
емыми данными (тем самым обеспечивается небольшая экономия ресурсов, по­
скольку выбор прекращается, как только будет обнаружена хотя бы одна проти­
воречивая величина). Тем не менее общая вероятность получения выборки из
генеральной совокупности с апостериорным распределением быстро уменьша­

ется по мере увеличения числа наблюдаемых переменных и увеличения количе­


ства значений, которые могут принимать эти переменные, поэтому этот подход

редко используется на практике.

В случае распределений вероятностей, определенных неориентированным

графом, не существует стратегии однопроходного выбора, которая будет извле­


кать выборку даже из генеральной совокупности с априорным распределением
без наблюдаемых переменных. Вместо этого должны использоваться вычисли­
тельно более сложные методы, такие как выбор по Гиббсу, который обсуждается
в разделе 11.3.
Помимо выбора из генеральной совокупности с условными распределениями,
нам также могут потребоваться выборки из генеральных совокупностей с мар­
гинальным распределением. Если у нас уже есть стратегия выбора из генераль­
ной совокупности с совместным распределением p(u, v), то будет просто полу­
чить выборки из генеральной совокупности с маргинальным распределением
p(u), просто игнорируя значения переменной v в каждой выборке.
Существует множество работ, посвященных методам Монте-Карло. К рабо­
там, которые представляют особый интерес с точки зрения статистического вы­
вода, относятся Chen et а/. (2001), Gamerman (1997), Gilks et а/. (1996), Liu
(2001), Neal (1996) и Robert and Casella (1999). Также есть обзорные статьи Besag
et а/, (1995), Brooks (1998), Diaconis and Saloff-Coste (1998), Jerrum and Sinclair
(1996), Neal (1993), Тierney (1994) и Andrieu et а/. (2003), которые содержат до­
полнительную информацию о методах выбора для статистического вывода.
Диагностические тесты на сходимость алгоритмов Монте-Карло с цепью

Маркова описаны в работе Robert and Casella (1999), а некоторые практические


рекомендации по использованию методов выбора в контексте машинного обу­
чения даны в работе Bishop and Nabney (2008).
11.1. Основные алгоритмы выбора 691

11.1. Основные аnrоритмы выбора

В этом разделе описано несколько простых стратегий генерации случайных

выборок из генеральной совокупности с заданным распределением. Поскольку


выборки будут генерироваться с помощью компьютерного алгоритма, они на
самом деле будут псевдослучайными, т.е. будут вычисляться детерминированно,
но, тем не менее, должны проходить соответствующие тесты на случайность.

Создание таких чисел поднимает некоторые тонкие вопросы (Press et al" 1992),
которые выходят за рамки рассмотрения этой книги. Здесь мы будем предпола­
гать, что есть алгоритм, который генерирует псевдослучайные числа, равномер­

но распределенные по интервалу (О, 1), и, действительно, большинство про­


граммных сред имеют такую встроенную функцию.

11.1.1. Стандартные распределения

Сначала рассмотрим вопрос, как генерировать случайные числа из генеральных


совокупностей с простыми неравномерными распределениями, предполагая, что у

нас уже есть источник равномерно распределенных случайных чисел. Предполо­


жим, случайная величина z равномерно распределена по интервалу (О, 1) и мы
преобразуем значения z, используя некоторую функцию/(-), так что у= f(z). Рас­
пределение у будет задаваться формулой

(11.5)

где p(z) = 1. Наша цель - выбрать функцию f(z) так, чтобы результирующие

значения у имели какое-то конкретное требуемое распределение р(у). Интегри­


руя (11.5), получим величину

z=h(y)= Jp(y)dy, (11.6)


-00

которая является неопределенным интегралом от р(у). Таким образом, у= h- 1(z),


поэтому мы должны преобразовать равномерно распределенные случайные чис­
ла, используя функцию, которая является обратной к неопределенному интегра­
лу желаемого распределения (с.'"· упра.щ11е11ие 11.2). Эта ситуация показана на
рис. 11.2.
692 ГЛАВА 11. ВЫБОРОЧНЫЕ МЕТОДЫ

Рис. 11.2. Геометрическая интерпретация метода преобразования

для генерации неравномерно распределенных случайных чисел, где h(y) -


неопределенный интеграл от искомого распределения р(у). Если равномерно

распределенная случайная величина z преобразуется с использованием функции


-1
у= h (z), то случайная величина у будет иметь распределение р(у)

Например, рассмотрим экспоненциальное распределение

р(у) = Л.ехр(-Лу), (11.7)


где О ~у~ оо. В этом случае нижний предел интеграла в (11.6) равен нулю, по­
этомуh(y) = 1 - ехр(-А.у). Таким образом, если мы преобразуем равномерно рас­
пределенную переменную z, используя формулу у= -A.- 1ln(l-z), то случайная
величина у будет иметь экспоненциальное распределение.
Другой пример распределения, к которому может быть применен метод пре­
образования, задается распределением Коши:

1 1
р(у)=--. (11.8)
trl+/

В этом случае инверсия неопределенного интеграла может быть выражена через


функцию tg (см. упраж11е11ие 11.3).
Обобщение на несколько переменных является простым и включает исполь­
зование якобиана при замене переменных, так что

(11.9)

В качестве последнего примера метода преобразования рассмотрим метод


Бокса-Мюллера для генерации выборок из генеральной совокупности с нор-
11.1. Основные алгоритмы выбора 693

мальным распределением. Сначала предположим, что мы генерируем пары рав­


номерно распределенных случайных чисел z 1, z 2 е(-1, 1), что мы можем сделать,
преобразовав переменную, распределенную равномерно по интервалу (О, 1), ис­
пользуя преобразование z--+ 2z- 1. Затем отбросим каждую пару, если она не
z zi
удовлетворяет условию 12 + ~ 1 . Это приводит к равномерному распределе­
нию точек внутри единичного круга с распределением p(z 1, z 2) = 1 / tr, как пока­
зано на рис. 11.3. Затем для каждой пары z 1, z2 вычисляем величины

-2 ln r. )1/2
У1 =Z1 ( r2
2
• (11.10)

-2 ln r. )1/2
У2 =Z2 ( r2
2
• (11.11)

где r = zt + zi.
2 Тогда совместное распределение у 1 и у2 определяется как
(см. упраж11е11ие 11.4)

(11.12)

поэтому случайные величины у 1 и у 2 являются независимыми, и каждая из них


имеет нормальное распределение с нулевым математическим ожиданием и еди­

ничной дисперсией.

Zz

-1'--~~~~~~~
-1 Z1

Рис. 11.3. Метод Бокса-Мюллера для генерации нормально распределенных

случайных чисел начинается с генерации выборок из генеральной

совокупности с равномерным распределением внутри единичного круга

Если случайная величина у имеет нормальное распределение с нулевым матема­


тическим ожиданием и единичной дисперсией, то случайная величина ау + µ будет
694 ГЛАВА 11. ВЫБОРОЧНЫЕ МЕТОДЫ

иметь нормальное распределение с математическим ожиданием µ и дисперсией


а 2 • Для генерации векторнозначных переменных, имеющих многомерное нор­
мальное распределение с математическим ожиданием µ и ковариационной матри­
цей 1:, можно использовать разложение Холецкого, которое принимает вид 1: = LLт
(Press et а/., 1992). Тогда, если z является векторной случайной величиной, компо­
нентъ1 которой являются независимыми и нормально распределенными с нулевым

математическим ожиданием и единичной дисперсией, то у=µ+ Lz будет иметь


математическое ожиданиеµ и ковариацию 1: (см. ynpa.J1me11ue 1.5).
Очевидно, что метод преобразования зависит от возможности вычислить, а за­
тем инвертировать неопределенный интеграл требуемого распределения. Такие
операции возможны только для ограниченного количества простых распределе­

ний, поэтому мы должны обратиться к альтернативным подходам в поисках более


общей стратегии. Здесь мы рассмотрим два метода, называемых выбором с откло­
нением (rejection sampling) и выбором по важности (importance sampling). Хотя в
основном они ограничены одномерными распределениями и поэтому не могут

напрямую применяться к сложным задачам во многих измерениях, они действи­

тельно образуют важные компоненты в более общих стратегиях.

11.1.2. Выбор с отклонением


Выбор с отклонением позволяет извлекать выборки из генеральных совокуп­
ностей с относительно сложными распределениями с учетом определенных
ограничений. Рассмотрим сначала одномерные распределения, а затем обсудим
обобщение этого подхода на случай нескольких измерений.
Предположим, мы хотим произвести выбор из генеральной совокупности
с распределением p(z), которое не является одним из простых стандартных рас­
пределений, рассмотренных до сих пор, и выбор непосредственно это этой гене­
ральной совокупности затруднен. Кроме того, предположим, как это часто быва­

ет, что мы легко можем оценить p(z) для любого заданного значения z, вплоть
до некоторой нормирующей постоянной Z, так что

1 ft(z),
p(z)=- (11.13)
zp
где р (z) можно легко оценить, но константа ZP неизвестна.
Чтобы применить выбор с отклонением, нужна генеральная совокупность с бо­
лее простым распределением q(z), иногда называемым вспомогательным распре­
делением (proposal distribution), из которого мы можем легко извлечь выборки. Да­
лее мы введем константу k, значение которой выбрано так, что kq ( z) ~ р (z) для
11.1. Основные алгоритмы выбора 695

всех значений z. Функция kq(z) называется функцией сравнения и показана для


одномерного распределения на рис. 11.4. Каждый шаг выбора с отклонением
включает создание двух случайных чисел. Сначала мы генерируем число z0 из ге­
неральной совокупности с распределением q(z), затем число и 0 из генеральной со­
вокупности с равномерным распределением по отрезку [О, kq(z0)]. Эта пара слу­
чайных чисел имеет равномерное распределение под кривой функции kq(z). Нако­
нец, если и 0 > р (z) , выборка отклоняется, в противном случае и 0 сохраняется.
Таким образом, пара отклоняется, если она лежит в серой заштрихованной области
на рис. 11.4. Тогда оставшиеся пары имеют равномерное распределение под кри­

вой р ( z) , и, следовательно, соответствующие значения z имеют распределение


p(z), что и требовалось (см. упражиеиие 11. 6).

Рис. 11.4. В методе выбора с отклонением выборки извлекаются

из генеральной совокупности с простым распределением ч(z) и отбрасываются,

если они попадают в серую область между ненормированным распределением р ( z)


и масштабированным распределением kq(z). Полученные выборки имеют распределение

p(z), которое является 11ормирова1111ой версией распределения р (z)

Исходные значения z генерируются из генеральной совокупности с распреде­

лением q(z), и эти выборки затем принимаются с вероятностью p(z)/kq(z). По­


этому вероятность того, что выборка будет принята, определяется по формуле

J
р(выборка принята)= {fi(z)/kq(z)}q(z)dz =
(11.14)
=if p(z)dz.

Таким образом, доля точек, которые отклоняются этим методом, зависит от


отношения площади под кривой плотности ненормированного распределения

p(z) к площади под кривой плотности распределения kq(z). Следовательно, по­


стоянная k должна быть как можно меньше с учетом ограничения на то, что
kq(z) нигде не должно быть меньше fJ( z).
696 ГЛАВА 11. ВЫБОРОЧНЫЕ МЕТОДЫ

В качестве иллюстрации выбора с отклонением рассмотрим задачу выбора из


генеральной совокупности с гамма-распределением:

- Ь 0 za-l ехр ( -bz)


Г(а)
( )
Gam za,b -
1
, (11.15)

которое при а > 1 имеет колоколообразную форму (рис. 11.5). Следовательно, под­
ходящим вспомогательным распределением является распределение Коши (11.8),
потому что его функция плотности тоже имеет форму колокола и мы можем ис­
пользовать метод преобразования, который обсуждался ранее, для выборки из
генеральной совокупности с таким распределением. Нам необходимо немного
обобщить распределение Коши, чтобы убедиться, что оно нигде не имеет мень­
шего значения, чем гамма-распределение. Это может быть достигнуто путем
преобразования равномерной случайной величины у с использованием функции
z = btg у + с, которая дает случайные числа, распределенные в соответствии с
распределением (см. упражиение 11. 7):

(11.16)

0,1
p(z)

0,05

о ~---~----~---~
о 10 20 30
z

Рис. I 1.5. График плотности гамма-распределения, заданного формулой ( 11.15),


показанный в виде зеленой кривой, с графиком плотности масштабированного

вспомогател ьного распределения Коши, поюllанного в виде красной кривой.

Выборки ю генеральной совокупности с гамма-распределением могут быть получены

путем выбора выборок из генеральной совокупности с распределением Коши,

а затем с применением критерия выбора с отклонением


11.1. Основные алгоритмы выбора 697

Минимальная доля отклонений получается при параметрах с = а - 1, Ь 2 = 2а - 1


и выборе константы k как можно меньшей, но при этом удовлетворяющей тре­
бованию kq ( z) ~ р (z) . Результирующая функция сравнения также показана
на рис. 11.5.

11.1.3. Адаптивный выбор с отклонением


Во многих случаях, когда можно было бы применить выбор с отклонением,
трудно определить подходящую аналитическую форму для огибающего распре­
деления q(z). Альтернативный подход заключается в построении огибающей
функции на лету на основе измеренных значений распределения p(z) (Gilks and
Wild, 1992). Построение огибающей функции особенно просто для случаев, ко­
гда распределение p(z) является логарифмически вогнутым, иначе говоря, когда
lnp(z) имеет производные, которые являются невозрастающими функциями от z.
Построение подходящей огибающей функции показано на рис. 11.6.

lnp(z)

Рис. 11.6. В случае распределений, которые являются логарифмически вогнутыми,

огибающая функция для использования в выборе с отклонением может быть

построена с использованием касательных прямых, вычисленных

в точках некоторой сетки. Если точка отклонена, она добавляется к набору

точек сетки и используется для уточнения распределения огибающей

Функция ln p(z) и ее градиент оцениваются по некоторому начальному набо­


ру точек сетки, и для построения огибающей функции пересечения используют­
ся результирующие касательные прямые. Далее выборка извлекается из гене­
рального распределения с огибающим распределением (см. упражиеиие 11.9).
Это просто, поскольку логарифм огибающего распределения является последо­
вательностью линейных функций, и, следовательно, само огибающее распреде­
ление представляет собой кусочно-экспоненциальное распределение вида

q(z) = k;Л;exp{-Л;(z-zt)}, zн,;<z~ z;,;+I· (11.17)


698 ГЛАВА 11. ВЫБОРОЧНЫЕ МЕТОДЫ

где zн,; - точка пересечения касательных, проведенных через точки Zн и z; ,


Л- наклон касательных в z; и k; , описывающий соответствующее смещение.
После того как выборка была отобрана, можно применить обычный критерий
отклонения. Если выборка принята, значит, она извлечена из генеральной сово­
купности с требуемым распределением. Однако, если выборка отклонена, она
включается в набор точек сетки, вычисляется новая касательная прямая и, таким
образом, уточняется огибающая функция. По мере увеличения числа точек сетки
огибающая становится все более точной аппроксимацией желаемого распреде­
ления р (z ), и вероятность отклонения уменьшается.
Существует вариант алгоритма, который позволяет избежать вычисления
производных (Gilks, 1992). Метод адаптивного выбора с отклонением также
можно обобщить до распределений, которые не являются логарифмически во­
гнутыми, выполняя после каждого шага выбора с отклонением шаг алгоритма
Метрополиса-Гастингса (который будет обсуждаться в разделе 11.2.2). Это при­
водит к адаптивному выбору с отклонением Метрополиса (Gilks et. al" 1995).
Ясно, что для того, чтобы выбор с отклонением имел практическое значение,
необходимо, чтобы функция сравнения была близка к требуемому распределе­
нию и доля отклонений была минимальной. Теперь рассмотрим, что происходит,
когда мы пытаемся использовать выбор с отклонением в пространствах высокой
размерности. В качестве примера рассмотрим несколько искусственную задачу,
в которой извлечем выборку из генеральной совокупности с многомерным нор­
мальным распределением, имеющим нулевое математическое ожидание и кова­

риацию a~I , где 1 - единичная матрица, путем выбора с отклонением из гене­


ральной совокупности с вспомогательным распределением, которое само явля­
ется нормальным с нулевым математическим ожиданием и ковариацией
Очевидно, мы должны гарантировать выполнение условия а:
ществовало такое k, что kq(z) ;;::p(z).
; : , a:I .
а~
В D-измерениях оптимальное значение
чтобы су­
k за-
D
дается как k = (ачl ар) , как показано для D = 1 на рис. 11. 7. Коэффициент приня-
тия будет равен отношению объемов областей, расположенных под поверхностя­
ми p(z) и kq(z), т.е. поскольку оба распределения нормированы, 1/ k. Таким
образом, коэффициент принятия экспоненциально уменьшается с увеличением
размерности. Даже если ач превышает ар всего на один процент, то при D = 1000
коэффициент принятия будет равен примерно 1/20000. В этом примере функция
сравнения близка к требуемому распределению. Для более практических приме­
ров, где желаемое распределение может быть многомодальным и резко дости­
гать максимума, будет чрезвычайно трудно найти хорошее вспомогательное
распределение и функцию сравнения. Кроме того, экспоненциальное уменьше-
11.1. Основные алгоритмы выбора 699

ние коэффициента принятия с увеличением размерности является характерной


чертой выбора с отклонением. Хотя этот метод может быть полезным в одном
или двух измерениях, он не подходит для задач высокой размерности. Однако он
может играть роль подпрограммы в более сложных алгоритмах для выбора в
многомерных пространствах.

p(z)

0,25

о L.---.:::=----_ _ __.__ _ ____.:::::-_-.J


-5 о z 5
Рис. 11. 7. Пример выбора с отклонением из генеральной совокупности

с нормальным распределением p(z), плотность которой показана зеленой кривой,

с использованием выбора с отклонением из генеральной совокупности

со вспомогательным распределением q(z) , которое также является нормальным

и масштабированная версия функции плотности kq(z) которого показана красной кривой

11.1.4. Важность выборки


Одна из основных причин, по которой нужно извлекать выборки из генераль­
ной совокупности со сложными распределениями вероятностей, заключается в
возможности оценить математические ожидания в форме ( 11.1 ). Метод выбора
по важности обеспечивает основу для непосредственной аппроксимации мате­

матических ожиданий, но сам по себе не предоставляет механизма для выбора из


генеральной совокупности с распределениемр(z) .
Приближение конечной суммы к математическому ожиданию, определяемо­

му формулой (11.2), зависит от возможности извлечь выборки из генеральной


совокупности с распределением p(z). Предположим, однако, что нецелесообраз­
но производить выбор непосредственно из генеральной совокупности с распре­
делением p(z), но мы можем легко вычислить p(z) для любого заданного значе­

ния z. Одной из упрощенных стратегий оценки математических ожиданий явля­


ется дискретизация z-пространства с помощью равномерной сетки и вычисление

подынтегральной функции с помощью суммы вида


700 ГЛАВА 11. ВЫБОРОЧНЫЕ МЕТОДЫ

(11.18)

Очевидный недостаток этого подхода заключается в том, что количество слага­

емых в сумме растет экспоненциально с увеличением размерности z. Кроме то­

го, как уже отмечалось, у многих распределений вероятностей большая часть


массы ограничена относительно небольшими областями пространства z, и по­
этому равномерный выбор будет очень неэффективным, поскольку в задачах с
высокой размерностью лишь очень малая доля выборок внесет значительный
вклад в сумму. Нам бы очень хотелось выбирать точки, попадающие в области,
где значение p(z) велико или, в идеале, где произведение p(z)f(z) велико.
Как и в случае выбора с отклонением, выбор по важности основан на исполь­
зовании генеральной совокупности со вспомогательным распределением q(z), из
которого можно легко извлекать выборки, как показано на рис. 11.8. Затем мы

можем выразить математическое ожидание в виде конечной суммы по выборкам


{z<1J}, извлеченными их генеральной совокупности с распределением q(z):

J
1Е[/]= /(z)p(z)dz=

=f/(z)p(z) q(z)dz= ( 11.19)


q(z)

1
( (1))
р z ( (1))
=-L:
L
L

q ( z(I))
1=1
! z .

Рис. 11.8. Выборка по важности решает проблему оценки математического

ожидания функции/(z) относительно распределения p(z), из которого трудно

непосредственно извлекать выборки. Вместо этого выборки {z(I)} извлекаются


из генеральной совокупности с более простым распределением q(z), а соответствующие

слагаемые в сумме взвешиваются по отношениямр(z(IJ) / q(z(/))


11.1. Основные алгоритмы выбора 701

Величины r1 = p(z<1J) /q (z<'J) называются весами важности и корректируют


смещение, внесенное из-за выбора из генеральной совокупности с неправиль­
ным распределением. Обратите внимание, что, в отличие от выбора с отклоне­
нием, все созданные выборки сохраняются.
Часто бывает, что распределение p(z) может быть оценено только с точно-

стью до нормирующей константы, так что p(z) = fl(z)/ZP, где fl(z) можно
легко оценить, а ZP неизвестно. Точно так же мы можем использовать распреде­

ление выбора по важности q ( z) = ij ( z) / Z Р , которое имеет то же свойство. Затем


имеем

IE[f]= J/(z)p(z)dz=
= zq J1(z)~(z) q(z)dz= (11.20)
ZP q(z)
= zq __!_ ±~1( z(I) ).
ZP L 1=1

где ~ = р (z(I)) / ij ( z(I)) . Мы можем использовать ту же совокупность выборок,


чтобы оценить соотношение ZP/Zq с результатом

zp =-
zq zq q(z)
f
1 fl(z) dz = ~(z) q(z)dz =
J
( 11.21)
1 L -
=- L'i·
L 1=1
поэтому

(11.22)

где мы определили

(11.23)

Как и при выборе с отклонением, успех выбора по важности в решающей сте­


пени зависит от того, насколько хорошо распределение выборки q(z) соответству­
ет желаемому распределению p(z). Если, как это часто бывает, функция p(z)
сильно изменяется и значительная доля ее массы сконцентрирована в относитель-
702 ГЛАВА 11. ВЫБОРОЧНЫЕ МЕТОДЫ

но небольuшх областях пространства z, то во множестве весов важности {rz} мо­


гут доминировать несколько весов, имеющих большие значения, а оставшиеся ве­
са относительно незначительны. Таким образом, эффективный размер выборки
может быть намного меньше, чем кажущийся размер выборки L. Проблема стано­
вится еще более серьезной, если ни одна из выборок не попадает в области, где
p(z)f(z) велико. В этом случае кажущаяся дисперсия r1 и r1f(z<'J) может быть не­
большой, даже если оценка математического ожидания является сильно ошибоч­
ной. Следовательно, основным недостатком метода выбора по важности является
возможность получения результатов с произвольной ошибкой и без диагностиче­
ской индикации. Это также подчеркивает ключевое требование к распределению
выборки q(z), а именно, что оно не должно бьпь небольшим или нулевым вобла­
стях, где распределение p(z) может быть значительным.
Для распределений, определенных в терминах графовой модели, метод выбо­
ра по важности можно применять различными способами. Для дискретных пе­

ременных простой подход называется равномерным выбором (unifonn sampling).


Совместное распределение для ориентированного графа определяется форму­
лой (11.4). Каждую выборку из генеральной совокупности с совместным распре­

делением получают, сначала установив те переменные z;, которые в совокупности

свидетельств равны их наблюдаемым значениям. Затем каждая из оставшихся пе­


ременных выбирается независимо от остальных из генеральной сово­
купности с равномерным распределением по пространству возможных реализа­

ций. Чтобы определить соответствующий вес, связанный с выборкой z<'J, отме­


тим, что распределение выборки ij ( z) равномерно по возможному выбору zи
zl
что р ( х) = р (z) , где х обозначает наблюдаемое подмножество переменных,
а равенство вытекает из того факта, что каждая генерируемая выборка z обяза­
тельно согласуется с данными. Таким образом, веса r1 пропорциональны p(z).
Обратите внимание на то, что переменные могут быть выбраны в любом поряд­

ке. Этот подход может дать плохие результаты, если апостериорное распределе­

ние далеко от равномерного, как это часто бывает на практике.

У совершенствование этого подхода называется выбором, взвешенным по


правдоподобию (Fung and Chang, 1990; Shachter and Peot, 1990), и основывается
на наследственном выборе переменных. Если очередная переменная находится в
наборе свидетельств, то ей присваивается соответствующее значение. Если его
нет в наборе свидетельств, то он выбирается из генеральной совокупности с
условным распределением p(z;lpa;), в котором условным переменным присваи-
11.1. Основные алrоритмы выбора 703

ваются их текущие выборочные значения. Вес, связанный с результирующей


выборкой z, определяется как

(11.24)

Этот метод может быть далее обобщен с помощью выбора по собственной важ­
ности (Shachter and Peot, 1990), в котором распределение выборки по важности
постоянно обновляется, чтобы отразить текущее вычисляемое апостериорное
распределение.

11.1.5. Выбор-оценка важности-повторный выбор


Метод выбора с отклонением, обсуждаемый в разделе 11.1.2, частично зави­

сит от успешного определения подходящего значения константы k. Для многих


пар распределений p(z) и q(z) нецелесообразно определять подходящее значе­
ние для k в том смысле, что любое значение, которое является достаточно боль­
шим, чтобы гарантировать ограничение на желаемое распределение, приведет к

непрактично малым показателям приемлемости.

Как и в случае выбора с отклонением, подход выбоJГоценка важности­


повторный выбор (Sampling-Importance-Resampling - SIR) также использует
распределение выборки q(z), но избегает необходимости определять постоян­
ную k. Схема состоит из двух этапов. На первом этапе из генеральной совокуп­
ности с распределением q(z) извлекаются L выборок z(I>, "" z(L). На втором эта­
пе по формуле (11.23) вычисляются весы w1, "" wL. Наконец, из генеральной со­
вокупности с дискретным распределением (z(IJ, "" z<LJ) с вероятностями,
заданными весами (w 1, "" wi), извлекается второй набор из L выборок.
Полученные L выборок только приблизительно распределены согласно зако­
ну p(z), но распределение становится правильным в пределе при L~oo. Чтобы
увидеть это, рассмотрим одномерный случай и обратим внимание на то, что ку­
мулятивное распределение повторно выбранных значений задается формулой

p(z~a)= L w1 =
l:z(l)~a

(11.25)
704 ГЛАВА 11. ВЫБОРОЧНЫЕ МЕТОДЫ

где!(·)- индикаторная функция (которая равна 1, если ее аргумент равен true,


и О в противном случае). Переходя к пределу при L~oo и предположив подхо­
дящую регулярность распределений, можем заменить суммы на интегралы,

взвешенные в соответствии с исходным распределением выборки q(z):

p(z~a)=
J!(z ~а ){р( z)/q( z)}q( z )dz =
f{ft(z )/ q( z)}q( z)dz
_J !(z~a)p(z)dz _
- Jp(z)dz - (11.26)

= J!(z~a)p(z)dz,
которая является кумулятивной функцией распределения p(z). Опять же, мы ви­
дим, что нормирование распределенияр(z) не требуется.
Для конечного значения L и заданного начального набора выборок пересчи­
танные значения будут только приблизительно соответствовать желаемому рас­
пределению. Как и в случае выбора с отклонением, аппроксимация улучшается,
когда распределение выборки q(z) становится ближе к желаемому распределе­
нию p(z). Если q(z) = p(z), начальные значения (z(l>,"., z<L» имеют желаемое
распределение, а веса wn = 1/ L, так что пересчитанные значения также имеют
желаемое распределение.

Если требуются моменты относительно распределения p(z), то их можно вы­


числить напрямую, используя исходные выборки вместе с весами, потому что

J
E(/(z))= /(z)p(z)dz=

_J/(z)[fi(z)/q(z)]q(z)dz _ (11.27)
- f[fi(z)/q(z)]q(z)dz -

11.1.6. Выбор и ЕМ-алгоритм

Помимо обеспечения механизма для прямой реализации байесовского подхо­


да, методы Монте-Карло могут также играть роль в частотной парадигме,

например, для поиска решений с максимальным правдоподобием. В частности,


методы выбора могут использоваться для аппроксимации Е-шага ЕМ-алгоритма
в моделях, в которых Е-шаг не может быть выполнен аналитически. Рассмотрим
11.1. Основные алгоритмы выбора 705

модель с латентными переменными Z, видимыми (наблюдаемыми) переменны­

ми Х и параметрами 8. Функция, оптимизированная по 8 на М-шаге, представ­


ляет собой математическое ожидание логарифмической функции правдоподобия
при полных данных, определяемое как

Q( 8,8old) =fР( z1 X,8old )ln Р( Z,Xl8)dz. (11.28)

Методы выбора можно использовать для аппроксимации этого интеграла конеч­


ной суммой по выборкам {z<I)}, извлеченным из генеральной совокупности с те­
кущим приближенным апостериорным распределением p(ZIX, 8°1d), так что

Q( 8,8 01d) = _!_


L
±Р
1=1
1n ( zU), XI 8 ). (11.29)

Затем на М-шаге функция Q оптимизируется обычным способом. Эта проце-

дура называется ЕМ-шtгоритмом Монте-Карло.


Легко распространить этот алгоритм на задачу нахождения моды апостери­

орного распределения по 8 (МАР-оценка), когда определено априорное распре­


деление р ( 8), добавив ln р ( 8) к функции Q( 8, 8°1d) перед выполнением М-шага.
Конкретный пример ЕМ-алгоритма Монте-Карло, называемый стохастиче­
ским ЕМ-шtгоритмом, возникает, если мы рассмотрим модель конечной смеси и
на каждом Е-шаге будем извлекать только одну выборку. Здесь латентная пере­
менная Z характеризует то, какой из К компонентов смеси отвечает за формиро­
вание каждой точки. На Е-шаге выборкаZ извлекается из генеральной совокуп­
ности с апостериорным распределением p(ZIX, 8°1d), где Х- множество дан­
ных. По существу, каждая точка жестко привязывается к одному из компонентов
смеси. На М-шаге это выборочное приближение к апостериорному распределе­
нию используется для уточнения параметров модели обычным способом.
Теперь предположим, что мы переходим от метода максимального правдопо­

добия к полному байесовскому методу, в котором хотим получить выборку из


генеральной совокупности с апостериорным распределением по вектору пара­

метров (}. В принципе, мы хотели бы извлечь выборки из генеральной совокуп­


ности с апостериорным распределением р(8, ZIX), но предположим, что это
сложно в вычислительном отношении. Предположим далее, что сравнительно
просто извлечь выборки из генеральной совокупности с апостериорным распре­
делением параметров при полных данныхр(81Z, Х). Эта идея лежит в основе шt­
горитма дополнения данных (data augmentation algorithm), который представляет
собой чередование двух шагов, известных как 1-шаг (шаг вменения), аналогич­
ный Е-шагу) и Р-зтап (апостериорный шаг, аналогичный М-шагу).
706 ГЛАВА 11. ВЫБОРОЧНЫЕ МЕТОДЫ

IР-алгоритм

1-шаr. Мы хотим извлечь выборку из генеральной совокупности с распреде­


лением p(ZIX), но не можем сделать это напрямую. Используем соотношение

f
p(zjx) = p(zje,x)p(ejx)d8 (11.30)

и сначала извлекаем выборку eUJ, где l = 1, ... , L, из генеральной совокупности


с текущим приближенным распределением р( 81Х), а затем используем его для
выбора выборки z(lJ из генеральной совокупности с распределением p(Zl8(1),
Х).

Р-шаr. Учитывая отношение

f
Р( ejx) = Р( ejz,X)p(ZIX)dz, (11.31)

используем выборки {zUJ}, полученные на 1-шаге, чтобы вычислить уточнен­


ную оценку апостериорного распределения по 8, определяемую как

p(BIX)=_!_ ±p(ejzU),x). (11.32)


L 1=1

По предположению, на 1-шаге существует возможность извлечь выборку из


генеральной совокупности с этим приближенным распределением.

Обратите внимание на то, что мы проводим (несколько искусственное) раз­


личие между параметрами 8и латентными переменными Z. Отныне мы будем
пренебрегать этим различием и сосредоточимся на проблеме извлечения выбо­
рок из генеральной совокупности с заданным апостериорным распределением.

11.2. Метод Монте-Карло по схеме марковской цепи

В предыдущем разделе мы обсудили стратегии выбора с отклонением и вы­


бора по важности для оценки математического ожидания функции и увидели,
что они имеют серьезные ограничения, особенно в пространствах с высокой
размерностью. Поэтому в этом разделе мы обратимся к универсальному и мощ­
ному инструменту - методам Монте-Карло по схеме марковской цепи (Markov
Chain Monte Carlo - МСМС), которая позволяет осуществлять выбор из боль­
шого класса распределений и хорошо масштабируется по размерности выбороч­
ного пространства. Методы МСМС берут свое начало в физике (Metropolis and
11.2. Метод Монте-Карло по схеме марковской цепи 707

Ulam, 1949) и только к концу 1980-х годов начали оказывать существенное вли­
яние в области статистики.
Как и в случае выбора с отклонением и по важности, мы снова извлекаем вы­
борку из генеральной совокупности со вспомогательным распределением. На
этот раз, однако, ведем запись текущего состояния z<tJ, и вспомогательное рас­
пределение q(ziz(r)) зависит от этого текущего состояния, так что последова­
тельность выборок z(l>, z<2>, ."образует цепь Маркова (см. раздел 11.2.1). Как и
ранее, представим искомое распределение в виде р ( z) = р (z) / Z Р и будем пред­
полагать, что распределение р (z) можно легко оценить для любого заданного
значения z, хотя значение ZP может быть неизвестным. Само вспомогательное
распределение выбирается достаточно простым, чтобы можно было непосред­
ственно извлекать из него выборки. На каждом цикле алгоритма мы генерируем
выборку-кандидат z • из вспомогательного распределения, а затем принимаем
выборку, руководствуясь соответствующим критерием.
В базовом алгоритме Метрополиса (Metropolis et а/" 1953) предполагается,
что вспомогательное распределение симметрично, т.е. q(zAiz 8 ) = q(z 8 izA) для
всех значений zA и z8. Выборка-кандидат принимается с вероятностью

А (z

,z
(т))-
-mш
.[ ft(z•)
1, fl(z(r))
1J (11.33)

Этого можно достичь путем выбора случайного числа и из генеральной сово­


купности с равномерным распределением по единичному интервалу (О, 1), а за­
тем принятия выборки, если A(z•, z(r)) >и. Обратите внимание, что если переход
от z(r) к z• вызывает увеличение значенияр(z), то точка-кандидат наверняка бу­
дет сохранена.

Если выборка-кандидат принята, то z(т+l) = z•, в противном случае точка­


кандидат z• отбрасывается, выборка z<r+I) устанавливается равной z<'->, а из гене­
ральной совокупности с распределением q(ziz(r+I)) извлекается другая выборка­
кандидат. Этим алгоритм Метрополиса отличается от выбора с отклонением, где
отклоненные выборки просто отбрасываются. Если точка-кандидат отклоняется
в алгоритме Метрополиса, то вместо выборок в окончательный список включа­
ется предыдущая выборка, что приводит к появлению нескольких копий выбо­
рок. Конечно, в практической реализации будет сохраняться только одна копия
каждой сохраненной выборки, а также целочисленный весовой коэффициент,
регистрирующий количество повторений этого состояния. Как мы увидим, до
тех пор, пока q(zлlz 8 ) положительно для любых значений zA и z8 (это достаточ-
708 ГЛАВА 11. ВЫБОРОЧНЫЕ МЕТОДЫ

ное, но необязательное условие), распределение z(r> стремится к p(z) при i-~ оо.
Однако следует подчеркнуть, что последовательность z< 1J, z(2), ... не является
набором независимых выборок из генеральной совокупности с распределением
p(z), потому что последовательные выборки сильно коррелированы. Чтобы по­
лучить независимые выборки, можно отбросить большую часть последователь­
ности и сохранить каждую М-ю выборку. При достаточно большом М оставшие­
ся выборки будут практически независимы. На рис. 11.9 приведен простой при­
мер выбора из генеральной совокупности с двумерным нормальным распре­
делением с использованием алгоритма Метрополиса, в котором вспомогательное
распределение предложений является изотропным нормальным распределением.

2,5

1,5

0,5

0'----~--~--~-~--~-~
о 0,5 1,5 2 2,5 3
Рис. 11.9. Простой пример с использованием алгоритма Мстрополиса для выбора из

генеральной совокупности с нормальным распределени е м , в котором эллип с представляет

собой контур , соответствующий одному стандартному отклонению. Вспомогательное

распределение является изотропным нормальным распределением , стандартное

отклонение которого составляет 0,2. Шаrи, которые привели к принятию выборки,

показаны зелеными линиями, а шаrи, которые привел и к отклонению выборки, -


красными. Всего получено 150 выборок-кандидатов , из которых 43 отклонены

Более глубокое понимание природы алгоритмов Монте-Карло по схеме мар­


ковской цепи можно получить, взглянув на свойства конкретного примера,
а именно простого случайного блуждания. Рассмотрим пространство состоя­
ний z, состоящее из целых чисел с вероятностями
(11 .34)
11.2. Метод Монте-Карло по схеме марковской цепи 709

p(z(т+l) = z(r)+l) = 0,25; (11.35)


p(z(т+l) = z(r)_l) = 0,25; (11.36)
где z<rJ обозначает состояние на шаге т. Если начальное состояние z(I) =О, то по
симметрии ожидаемое состояние в момент времени т также будет равно нулю:
JE[z(r)] =О, и аналогично, JE[(z<r»2 ] = т/ 2 (с.м. упраж11е11ие 11.10). Таким образом,
после т шагов случайное блуждание проходит расстояние, которое в среднем
пропорционально всего лишь квадратному корню из т. Эта зависимость от квад­
ратного корня типична для поведения случайного блуждания и показывает, что

случайные блуждания очень неэффективны при исследовании пространства со­


стояний. Как мы увидим, главная цель при разработке методов Монте-Карло по
схеме марковской цепи - избежать случайных блужданий.

11.2.1. Марковские цепи

Прежде чем более подробно обсуждать методы Монте-Карло по схеме мар­


ковских цепей, полезно глубже изучить некоторые общие свойства цепей Мар­
кова. В частности, нас интересует, при каких условиях цепь Маркова сходится к

желаемому распределению. Цепь Маркова первого порядка определяется как


последовательность случайных величин z< 1>, "., z<МJ, для которого справедливо
следующее свойство условной независимости при т Е {1, ".,М -1}:
(m+l)I
р (z z
(1)
' "., z (т)) -_ р ( z (m+l)I z (m)) . (11.37)

Это, конечно, можно представить в виде ориентированного графа в виде цепи,


пример которой приведен на рис. 8.38. Затем мы можем указать цепь Маркова,
задав распределение вероятностей для начальной переменной p(z<0» вместе с
условными вероятностями для последующих переменных в виде вероятностей
перехода Tт(z<m>, z(m+l» = p(z(m+l)I z<m\ Цепь Маркова называется однородной,
если вероятности перехода одинаковы для всех m.
Маргинальная вероятность для конкретной переменной может быть выраже­
на через маргинальную вероятность для предыдущей переменной в цепи в виде

( (m+l)) =L...pz
pz "'\"" ( (m+l)I z (m)) p (т)).
(z (11.38)
"(m)

Распределение называется инвариантным или стационарным относительно цепи


Маркова, если каждый шаг в цепи сохраняет это распределение неизменным. Та­
ким образом, для однородной цепи Маркова с вероятностями перехода T(z', z)
распределение p•(z) инвариантно, если
710 ГЛАВА 11. ВЫБОРОЧНЫЕ МЕТОДЫ

p•(z)= LT(z',z)p•(z'). (11.39)


z'

Обратите внимание на то, что цепь Маркова может иметь более одного инвари­
антного распределения. Например, если вероятности перехода задаются тожде­
ственным преобразованием, то любое распределение будет инвариантным.
Достаточным (но не необходимым) условием инвариантности требуемого
распределения p(z) является свойство детального равновесия, которым должны
обладать вероятности переходов для конкретного распределенияр.(z):

p•(z)T(z, z') = p•(z~T(z', z). (11.40)


Легко видеть, что вероятность перехода, которая удовлетворяет условию де­

тального равновесия по отношению к конкретному распределению, оставляет

это распределение неизменным, потому что

LP• (z')T( z',z) = LP• (z)T( z,z') = р• (z) LP• (z'lz) = р• ( z). (11.41)
~ ~ ~

Цепь Маркова, которая соблюдает подробное равновесие, называется обратимой.

Наша цель - использовать цепи Маркова для извлечения выборок из гене­


ральной совокупности с заданным распределением. Этого можно достичь, если

настроить цепь Маркова так, чтобы искомое распределение бьmо инвариантным.


Однако мы также должны требовать, чтобы при т ~ оо распределение p(z(m))
сходилось к требуемому инвариантному распределению p•(z) независимо от вы­
бора начального распределенияр(z<0 J). Это свойство называется эргодичностью,
а соответствующее инвариантное распределение- равновесным. Ясно, что эр­

годическая цепь Маркова может иметь только одно равновесное распределение.

Можно показать, что однородная цепь Маркова будет эргодической, подчиняясь


лишь слабым ограничениям на инвариантное распределение и вероятности пе­
реходов (Neal, 1993).
На практике вероятности переходов часто строят из набора базовых перехо­
дов В 1 , ••• , Вк. Этого можно достичь путем смешивания распределения в форме

T(z',z) = LakBk (z',z) (11.42)


k=I

для некоторого набора коэффициентов смешивания а 1 , .", ак, удовлетворяю­

щих условиям ak ~О и Lak = 1. Альтернативно базовые переходы могут ком­


k

бинироваться посредством последовательного применения, так что


11.2. Метод Монте-Карло по схеме марковской цепи 711

T(z',z) = L:". L В1 (z',z )."Вк_1 (zk_ 2 ,zk-1)Bк (zk_ ,z).


1 1 (11.43)
z1 zк-1

Если распределение является инвариантным относительно каждого из базовых


переходов, то, очевидно, оно также будет инвариантным относительно любого
из переходов T(z', z), заданных формулами (11.42) или (11.43). Для случая

смеси (11.42), если каждый из базовых переходов удовлетворяет условию де­


тального равновесия, переход смеси Т также будет удовлетворять этому усло­
вию. Это условие не выполняется для вероятности перехода, построенной с ис­
пользованием формулы (11.43), хотя путем симметризации порядка применения
базовых переходов в виде В 1 , В 2 , "" Вк, Вк, "., В2 , В 1 детальное равновесие можно
восстановить. Типичным примером использования составных вероятностей пе­

рехода является случай, когда каждый базовый переход изменяет только под­
множество переменных.

11.2.2. Алгоритм Метрополиса-Гастингса

Ранее мы уже описали базовый алгоритм Метрополиса, но не показали, что


он извлекает выборки из генеральной совокупности с необходимым распределе­
нием. Прежде чем дать доказательство, сначала обсудим обобщение, известное
как ш~горитм Метрополиса-Гастингса (Hastings, 1970), на случай, когда рас­

пределение предложений не является симметричной функцией его аргументов.


В частности, на шаге т алгоритма, в котором текущим состоянием является z<тJ,
мы извлекаем выборку z" из распределения qk(zlz<тJ), а затем принимаем ее с ве­
роятностью Ak(z", z(тJ), где

(11.44)

Здесь k обозначает количество элементов рассматриваемого множества воз­


можных переходов. Для вычисления критерия приемлемости, как и прежде, не

требуется знание нормирующей константы ZP в распределении вероятности


р ( z) = р (z) / Z Р • Для симметричного вспомогательного распределения критерий
Метрополиса-Гастингса (11.44) сводится к стандартному критерию Метрополи­
са, определяемому по формуле (11.33).
Можно доказать, что p(z) является инвариантным распределением цепи Мар­
кова, определенной алгоритмом Метрополиса-Гастингса, показав, что детальное
712 ГЛАВА 11. ВЫБОРОЧНЫЕ МЕТОДЫ

равновесие, определенное равенством (11.40), выполняется. Используя (11.44),


имеем

p(z)q k(z '1 z)Ak(z ', z) = min(p(z)q k(z '1 z),p(z ')qk(z 1z ')) =
= min(p(z )q k( z 1z '),p(z)q k(z '1 z)) =
= p(z)qk(zlz)Ak(z, z'), (11.45)
что и требовалось доказать.
Конкретный выбор вспомогательного распределения может оказать заметное

влияние на производительность алгоритма. Для непрерывных пространств со­

стояний обычным выбором является нормальное распределение с центром в те­

кущем состоянии, что приводит к важному компромиссу при определении пара­

метра дисперсии этого распределения. Если дисперсия мала, тогда доля приня­

тых переходов будет высокой, но прохождение через пространство состояний


примет форму медленного случайного блуждания, приводящего к длительному
времени корреляции. Однако если параметр дисперсии велик, то доля отклоне­

ний будет высокой, потому что в рассматриваемых нами сложных задачах мно­
гие из предложенных шагов будут касаться состояний, для которых вероятность
p(z) мала. Рассмотрим многомерное распределение p(z), имеющее сильную
корреляцию между компонентами z (рис. 11.1 О). Масштаб р вспомогательного
распределения должен быть как можно большим, не вызывая высоких уровней
отклонения. Это говорит о том, что величина р должна быть того же порядка,
что и наименьший масштаб длины amin. Затем система исследует распределение
по более протяженному направлению с помощью случайного блуждания, и по­
этому число шагов для достижения состояния, более или менее независимого от
2
исходного, имеет порядок (amax/amiJ. Фактически в двух измерениях увеличе-
ние уровня отклонений по мере увеличения р компенсируется большими разме­
рами шагов принятых переходов, и, в более общем случае, для многомерного
нормального распределение количество шагов, необходимых для получения не­
зависимых выборок, оценивается величиной (amax/a2) 2, где а2 - второе
наименьшее стандартное отклонение (Neal, 1993). Помимо этих деталей, остает­
ся тот факт, что если шкалы длин, по которым варьируются распределения,
сильно различаются в разных направлениях, то алгоритм Метрополиса­
Гастингса может иметь очень медленную сходимость.
11.3. Выбор по Гиббсу 713

Рис. 11.1 О. Схематический пример использования изотропного нормального

вспомогательного распределения (синий круг) для выборки из коррелированного

многомерного нормального распределения (красный эллипс), имеющего очень разные

стандартные отклонения в разных направлениях, с использованием алгоритма

Метрополиса-Гастингса. Чтобы поддерживать низкий уровень отклонения, масштаб

вспомогателыюго распределения должен иметь порядок наименьшего стандартного

отклонения амин• что приводит к случайному блужданию, при котором количество

шагов, разделяющих состояния, которые являются прибли3ительно независимыми,


2
имеет порядок (а пшхf а min) , где а"", -·-·· наибольшее стандартное отклонение

11.3. Выбор по Гиббсу


Выбор по Гиббсу (Geman and Geman, 1984) представляет собой простой и
широко применимый алгоритм Монте-Карло по схеме марковской цепи и может
рассматриваться как частный случай алгоритма Метрополиса-Гастингса.
Рассмотрим распределение p(z) = p(z1, "" zм), из которого мы хотим произве­
сти выборку, и предположим, что мы выбрали некоторое начальное состояние для
цепи Маркова. Каждый шаг процедуры выбора по Гиббсу включает в себя замену
значения одной из перемеm~ых на значение, полученное из распределения этой
переменной, обусловленной значениями оставшихся переменных. Таким образом,
заменяем z; значением, полученным из распределения p(z; 1 zv), где z; обозначает i-й
компонент вектора z, а z,; обозначает z 1, "., zм, но с пропуском элемента Z;. Эта
процедура повторяется либо путем циклического перебора переменных в некото­
ром конкретном порядке, либо путем выбора переменной, которая будет обнов­
ляться на каждом шаге случайным образом из некоторого распределения.
Например, предположим, что у нас есть распределение p(z1, z 2, z 3) по трем пе­
ременным, и на шаге т алгоритма мы выбрали значения z[т), z~т) и z~т). Сначала
заменим z[т) новым значением z[т+I), полученным путем выбора из генеральной
совокупности с условным распределением
714 ГЛАВА 11. ВЫБОРОЧНЫЕ МЕТОДЫ

(т) (т))
р ( Z1 1 Z2 ,Z3 . (11.46)

Далее заменим z~т) значением z~т+I), полученным путем выбора из генераль­


ной совокупности с условным распределением

Р( z2lz[т+t) ,z~т) ), ( 11.47)

так что новое значение для z 1 используется сразу на последующих этапах выбо-
ра.
3атем мы
б
о новляем z3 вы б оркои z3 , извлеченнои из генеральнои сово-
(т+l)u u u

купности с распределением

(т+t) (т+l))
р ( Z3 1 Z1 ,z2 ' (11.48)

и так далее, циклически переключаясь между тремя переменными.

Выбор по Гиббсу

1. Инициализируем вектор {z;: i = 1, ... , М}.


2. Дляr= 1, .. " Т
• выбираем z[т+I) - p(z1 lz~т),z~т), ... ,ztJ),.
• выбираем z~т+I) - p(z2 lz[т+l),z~т), ...,zt)),

• б
вы ираем
(т+l)
z1 - р
( 1 (т+l)
z1 z1
(т+l) (т) (т))
, ... ,z1_1 ,zJ+t • ... ,zм ,

• б
вы ираем zм
(т+I)
- р zм
( 1
z1(нt) ,z2(т+I) , (т+l))
•• "zм_ 1 •

Джозайя Уиллард Гиббс


1839-1903
Гиббс провел почти всю свою жизнь в доме, построен­
ном его ощом в Нью-Хейвене, ппат Коннектикут. В 1863
г. Гиббс первым получил степень доктора технических
наук в США, а в 1871 г. возглавил первую кафедру мате­
матической физики в США в Йельском университете. На
этой должности он не получал зарплату, потому что в то
время не имел публикаций. Он разработал область век­
торного анализа и внес вклад в кристаллографию и планетарные орбиты.
Его самая известная работа "On the Equilibriurn of Heterogeneous Substances"
("О равновесии гетерогенных веществ") легла в основу физической химии.
11.3. Выбор по Гиббсу 715

Чтобы показать, что эта процедура выполняет выбор из требуемого распреде­


ления, прежде всего отметим, что распределение р ( z) является инвариантом от­
носительно каждого из шагов выбора по Гиббсу в отдельности и, следовательно,
всей цепи Маркова в целом. Это следует из того факта, что при выборе из гене­
ральной совокупности с распределением p(z;I zli) маргинальное распределение
p(zli) явно инвариантно, поскольку значение zli не изменяется. Кроме того, каж­
дый шаг приводит к извлечению выборки из генеральной совокупности с пра­
вильным условным распределением p(z1 z 1t).
1 Поскольку эти условные и марги­
нальные распределения вместе определяют совместное распределение, мы ви­

дим, что совместное распределение само инвариантно.

Второе требование, которое должно быть выполнено для того, чтобы проце­
дура выбора по Гиббсу осуществляла выбор из генеральной совокупности с пра­
вильным распределением, - эргодичность. Достаточным условием эргодично­
сти является то, что ни одно из условных распределений нигде не равно нулю.
Если это так, то любая точка в пространстве z может быть достигнута из любой
другой точки за конечное число шагов, включающих одно обновление каждой
из переменных компонента. Если это требование не выполняется, так что неко­
торые из условных распределений имеют нули, то эргодичность, если она имеет
место, должна быть явно доказана.
Для завершения алгоритма должно быть задано распределение начальных со­
стояний, хотя выборки, извлеченные после многих итераций, фактически станут
независимыми от этого распределения. Конечно, последовательные выборки из
цепи Маркова будут сильно коррелированными, поэтому для получения выбо­
рок, которые являются почти независимыми, необходимо извлечь подвыборку
из этой последовательности.
Мы можем получить процедуру выбора по Гиббсу как частный случай алго­
ритма Метрополиса-Гастингса следующим образом. Рассмотрим этап алгоритма
Метрополиса-Гастингса, включающий переменную zь в которой оставшиеся пе­
ременные z 1k остаются фиксированными и для которых вероятность перехода от z
к z• определяется как qk ( z•1z) = р ( z Z1z1k). Отметим, что z:k = z1k , поскольку эти
компонентъ1 не изменяются на этапе выбора. Также p(z) =p(zkl z1k)p(z 1k). Таким
образом, фактор, который определяет вероятность принятия выборки в алгоритме
Метрополиса-Гастингса (11.44), определяется как

л(z•,z)= p(z•)qk(zlz·) = p(zZlz:k)p(z~k)p(zklz~k) =l, (11.49)


р ( z) qk (z* z)
I р ( zk z1k) р ( z1k) Р( zZ z1k)
1 1
716 ГЛАВА 11. ВЫБОРОЧНЫЕ МЕТОДЫ

где мы использовали соотношение z~k = z 1k. Таким образом, шаги Метрополи­


са-Гастингса всегда приводят к принятию выборки.
Как и в случае алгоритма Метрополиса, мы можем получить некоторое
представление о выборе по Гиббсу, исследуя его применение к нормальному
распределению. Рассмотрим коррелированное нормальное распределение по
двум переменным, показанное на рис. 11.11, имеющее условные распределе­
ния ширины l и маргинальные распределения ширины L. Типичный размер
шага определяется условными распределениями и будет иметь порядок /. По­
скольку состояние изменяется в соответствии со случайным блужданием, ко­
личество шагов, необходимых для получения независимых выборок из гене­
ральной совокупности с данным распределением, будет иметь порядок (L/ /) 2•
Конечно, если бы нормальное распределение было некоррелированным, то
процедура выбора по Гиббсу была бы оптимально эффективной. Для этой про­
стой задачи мы могли бы повернуть систему координат, чтобы декоррелиро­
вать переменные. Однако в практических приложениях, как правило, невоз­
можно найти такие преобразования.

Рис. 11.11. Выбор по Гиббсу путем альтернативного обновления двух переменных,

распределение которых является нормально коррелированным . Размер шага

определяется с·1андартным отклонением условного распределения (зеленая кривая)

и составляет О({), что приводит к медленному продвижению в направлении удлинения

совместного распределения (красный эллипс). Количество шагов, необходимых для

получения независимой выборки из этого распределения, имеет порядок O((L/ 1)2)


11.3. Выбор по Гиббсу 717

Один из подходов к снижению проявлений случайных блужданий в выборе


по Гиббсу называется сверхрелаксацией (Adler, 1981 ). В своем первоначальном
виде она относится к задачам, для которых условные распределения являются

нормальными. Это более общий класс распределений, чем многомерное нор-


2 2
мальное распределение, поскольку, например, распределение p(z, у) ос exp(-z у ),
не являющееся нормальным, имеет нормальные условные распределения. На
каждом шаге алгоритма выбора по Гиббсу условное распределение для конкрет­
ной компоненты zi имеет некоторое математическое ожидание µ i и некоторую

дисперсию ai2 • В рамках сверхрелаксации значение zi заменяется на

zi1 = µi +а ( zi - µ; ) +а; (
1- а 2 )1/2 v, (11.50)

где v- нормальная случайная величина с нулевым математическим ожиданием

и единичной дисперсией, а а - параметр, такой, что -1 < а < 1. При а = О этот


метод эквивалентен стандартному выбору по Гиббсу, а при а < О шаг смещен в
противоположную сторону от среднего. Этот шаг оставляет желаемое распреде­
ление инвариантным, потому что если z1 имеет математическое ожидание µ; и

некоторую дисперсию а;2 , то и z; тоже. Эффект сверхрелаксации заключается в


поощрении направленного движения в пространстве состояний, когда перемен­

ные сильно коррелированы. Метод упорядоченной сверхрелаксации (Neal, 1999)


обобщает этот подход к распределениям, не являющимся нормальными.
Практическая применимость выбора по Гиббсу зависит от легкости извлече­
ния выборок из генеральных совокупностей с условными распределениями
p(zkl z 1k). В случае распределений вероятностей, указанных с помощью графовых
моделей, условные распределения для отдельных узлов зависят только от пере­
менных в соответствующих марковских покрытиях, как показано на рис. 11.12.
Для ориентированных графов широкий выбор условных распределений для от­
дельных узлов, обусловленных их родителями, приводит к условным распреде­
лениям для выбора по Гиббсу, которые являются логарифмически вогнутыми.
Таким образом, методы выбора с отклонением, рассмотренные в разделе 11.1.3,
обеспечивают основу для выбора с помощью метода Монте-Карло по ориенти­
рованным графам с широкой областью применения. Если граф построен с ис­
пользованием распределений из экспоненциального семейства и если отношения

"родительский узел-дочерний узел" сохраняют сопряженность, то полные

условные распределения, возникающие при выборе по Гиббсу, будут иметь ту


же функциональную форму, что и исходные условные распределения (обуслов­
ленные родительскими узлами), определяющие каждый узел, и поэтому могут
718 ГЛАВА 11. ВЫБОРОЧНЫЕ МЕТОДЫ

быть использованы стандартные методы выбора. В общем случае полные услов­


ные распределения будут иметь сложную форму, которая не позволяет исполь­
зовать стандартные алгоритмы выбора. Однако, если эти условные распределе­
ния являются логарифмически вогнутыми, то выбор может быть эффективно
выполнен с использованием метода адаптивного выбора с отклонением (при
условии, что соответствующая переменная является скалярной).

Рис. 11.12. Метод выбора по Гиббсу требует, чтобы выборки отбирались

из генерального распределения с условным распределением переменной,

обусловленной оставшимися переменными. Для графовых моделей это условное

распределение является функцией только от состояний узлов в покрытии Маркова.

Для неориентированного графа это покрытие содержит набор соседей (показано слева),

в то время как для ориентированного графа марковскос покрытие включает

родительские, дочерние и сородительские узлы (показано справа)

Если на каждом этапе алгоритма выбора по Гиббсу вместо построения вы­


борки из генеральной совокупности с соответствующим условным распределе­
нием мы выполним точечную оценку переменной, заданной максимумом услов­

ного распределения, то получим алгоритм последовательных условных мод

(ICM), рассмотренный в разделе 8.3.3. Таким образом, метод ICM можно рас­
сматривать как "жадный" вариант выбора по Гиббсу.
Поскольку базовый метод выбора по Гиббсу учитывает каждую переменную
по очереди, между последовательными выборками существуют сильные зависи­
мости. С другой стороны, если бы мы могли извлекать выборки непосредствен­
но генеральной совокупности с совместным распределением (процедура, кото­

рую мы предполагаем трудновыполнимой), то последовательные выборки были


бы независимыми. Мы можем надеяться улучшить простой вариант выбора по
Гиббсу, приняв промежуточную стратегию, в которой выполняется последова­
тельный выбор групп переменных, а не отдельных переменных. Это достигается
с помощью блокирующего алгоритма выбора по Гиббсу путем выбора блоков
11.4. Выбор по уровням 719

переменных, которые не обязательно не пересекаются, а затем совместного вы­


бора переменных в каждом блоке по очереди, обусловленных оставшимися пе­
ременными (Jensen et а/., 1995).

11.4. Выбор по уровням


Мы видели, что одной из трудностей, связанных с алгоритмом Метрополиса,
является его чувствительность к размеру шага. Если шаг слишком мал, возника­
ет медленная декорреляция из-за случайного блуждания, а если слишком велик,
то алгоритм становится неэффективным из-за высокого уровня отклонений.
Техника выбора по уровням (slice sampling) (Neal, 2003) обеспечивает адаптив­
ный размер шага, который автоматически регулируется в соответствии с харак­

теристиками распределения. Для того, как и прежде, необходимо иметь возмож­


ность оценивать ненормированное распределение jJ ( z) .

а) б)

Рис. 11.13. Выбор по уровням: для заданного значения z(r) зна'lение и выбирается

равномерно в области О-::: и-::: ft( z(r)), которое затем определяет "уровень"
в распределении, показанном сплошной гори:юнтальной линий (а); поскольку выбор
непосредственно из уровня невозможен, новая выборка z извлекается из области

Zmiп.,,::; z.,,::; Zпшх• которая содержит предыдущее значение z (r) (6:1'/

Сначала рассмотрим одномерный случай. Выбор по уровням включает в себя


дополнение переменной z вспомогательной переменной и, а затем извлечение
выборок из совместного пространства (z, и). Еще один пример такого подхода,
приведен в разделе 11.5, в котором обсуждается гибридный метод Монте-Карло.
Цель состоит в том, чтобы извлечь выборку из генеральной совокупности с рав­
номерным распределением из области, расположенной под кривой плотности
распределения, заданной формулой

л
р
{
z,u
)
={1/Z Р, если О ~ и ~ jJ ( z); (11.51)
О в противном случае,
720 ГЛАВА 11. ВЫБОРОЧНЫЕ МЕТОДЫ

где Z Р = Jр (z) dz. Маргинальное распределение по z определяется как


p(z)
Jр (z, и) du = J-zp1 du = р (z) = р ( z) ,
zp
(11.52)
о

поэтому можно произвести выбор из генеральной совокупности с распределени­


ем р (z) путем выбора из генеральной совокупности с распределением р (z, и) ,
а затем игнорировать значения и. Этого можно достичь с помощью поочередно­
го извлечения значений zи и. Зная значение z, оцениваем р (z) , а затем выбира­
ем и равномерно в диапазоне О :о:; и :о:; р ( z), что довольно просто. Затем мы фик­
сируем u и выбираем z равномерно из уровня распределения, определяемого как
множество {z : р ( z) > и} . Этот алгоритм показан на рис. 11. 3, а.
На практике может быть трудно произвести выбор непосредственно из уров­
ня распределения, поэтому вместо этого мы определяем схему выбора, которая
оставляет равномерное распределение под р (z, и) инвариантным, что может
быть достигнуто за счет детального равновесия. Предположим, текущее значе­
ние z обозначено z«J и мы выбрали соответствующее значение и. Следующее
значение z получается при рассмотрении области zmin :о:; z :о:; Zmax• содержащей z<тJ.
Именно при выборе этой области происходит адаптация к характерным масшта­
бам распределения. Мы хотим, чтобы область охватывала как можно большую
часть уровня, чтобы допускать большие перемещения в пространстве z, при этом
как можно меньше этой области находилось вне уровня, поскольку это делает
выбор менее эффективным.
Один из подходов к выбору области заключается в следующем. Сначала вы­
бираем область, содержащую z<тJ, имеющую некоторую ширину w, а затем про­
веряем каждую из концевых точек, чтобы увидеть, лежат ли они внутри уровня.
Если хотя бы одна из концевых точек не лежит внутри уровня, то область рас­
ширяется в ее направлении с приращением значения w до тех пор, пока концевая

точка не окажется за пределами области. Значение-кандидат z' выбирается рав­


номерно из этой области, и если оно лежит в пределах уровня, то образует зна­
чение z(r+-IJ. Если оно находится вне уровня, то область сжимается так, что z' ста­
новится концевой точкой, и такая область все еще содержит z<тJ. Затем следую­
щая точка-кандидат равномерно извлекается из этой уменьшенной области и

т.д., пока не будет найдено значение z, которое находится внутри уровня. Выбор
по уровням может быть применен к многомерным распределениям путем мно­

гократного выбора каждой переменной по очереди, как при выборе по Гиббсу.


11.5. Гибридный алгоритм Монте-Карло 721

Для этого необходимо, чтобы мы могли вычислить для каждого компонента z;


функцию, пропорциональную p(z;I z 1;).

11.5. Гибридный аnrоритм Монте-Карло


Как мы уже отмечали, одно из основных ограничений алгоритма Метрополи­
са заключается в том, что он может демонстрировать поведение случайного

блуждания, при котором расстояние, пройденное через пространство состояний,


увеличивается лишь как квадратный корень из числа шагов. Проблема не может
быть решена путем увеличения количества шагов, поскольку это приводит к вы­
сокому уровню отклонений.

В этом разделе мы представляем более сложный класс переходов, основан­


ный на аналогии с физическими системами, который обладает способностью
вносить значительные изменения в состояние системы при сохранении малой

вероятности отклонения. Он применим к распределениям по непрерывным пе­


ременным, для которых можно легко вычислить градиент логарифма вероятно­
сти относительно переменных состояния. В разделе 11.5.1 описана структура
динамических систем, а в разделе 11.5.2 поясняется, как это можно объединить с
алгоритмом Метрополиса, чтобы получить мощный гибридный алгоритм Мон­
те-Карло. От читателя не требуются знания по физике, так как этот раздел само­
достаточен, а ключевые результаты получены из базовых принципов.

11.S.1. Динамические системы

Динамический подход к стохастическому выбору берет свое начало в алго­

ритмах моделирования поведения физических систем, разработанных в гамиль­


тоновой динамике. В методе Монте-Карло по схеме марковской цепи целью яв­

ляется выбор из генеральной совокупности с заданным распределением вероят­


ности p(z). Идеи гамильтоновой динамики эксплуатируются путем вероятнос­
тного моделирования в виде гамильтоновой системы. Чтобы соответствовать
литературе в этой области, будем использовать терминологию динамических си­
стем, где это уместно.

Рассматриваемая нами динамика соответствует эволюции переменной состо­


яния z = {z;} при непрерывном времени, которое обозначим через т. Классиче­
ская динамика описывается вторым законом движения Ньютона, в котором
ускорение объекта пропорционально приложенной силе. Это приводит к диффе­
ренциальному уравнению второго порядка по времени. Мы можем разложить
уравнение второго порядка на два связанных уравнения первого порядка, введя
722 ГЛАВА 11. ВЫБОРОЧНЫЕ МЕТОДЫ

промежуточные переменные импульса r, соответствующие скорости изменения

переменных состояния z и имеющие компоненты

,., ___
dz;
(11.53)
' dr'
где z; можно рассматривать как переменные положения в этой динамической
перспективе. Таким образом, для каждой переменной положения существует со­
ответствующая переменная импульса, и объединенное пространство перемен­
ных положения и импульса называется фазовым.
Без ограничения общности мы можем записать распределение вероятностей
p(z) в виде
1
p(z) =-exp(-E(z)), (11.54)
zp
где E(z) интерпретируется как потенциальная энергия системы в состоянии z.
Ускорение системы представляет собой скорость изменения импульса и опреде­
ляется приложенной силой, которая сама является отрицательным градиентом
потенциальной энергии

dr; =- дЕ(z)
(11.55)
dr дz;

Эту динамическую систему удобно переформулировать, используя гамильто­


нов подход. Для этого сначала определим кинетическую энергию:

(11.56)

Полная энергия системы является суммой ее потенциальной и кинетической

энергий:
H(z, r) = E(z) + K(r), (11.57)
где Н - га.мильтониан. Используя формулы (11.53), (11.55)--{11.57), мы можем
теперь выразить динамику системы через уравнения относительно гамильтониа­

на (см. упражиение 11.15):


dz; = дН (11.58)
dr дr; '

dr; =- дН (11.59)
dr дz;
11.5. Гибридный алгоритм Монте-Карло 723

Уильям Гамильтон
1805-1865
Уильям Роуэн Гамильтон - ирландский математик и
физик. Он бьm назначен на должность профессора аст­
рономии в Тринити-колледже в Дублине в 1827 г. , еще
до того, как он окончил университет. Одним из наибо­
лее важных вкладов Гамильтона бьmа новая формули­
ровка динамики, которая сыграла значительную роль в

дальнейшем развитии квантовой механики. Другим

большим достижением была разработка кватернионов, которые обобщают


концепцию комплексных чисел, вводя три различных квадратных корня из

минус единицы, которые удовлетворяют условиям 1.2 = =k2 =lJ''k =-1.


J.2
Говорят, что эти уравнения пришли ему в голову во время прогулки с же­
ной по Королевскому каналу в Дублине 16 октября 1843 года, и он немед­
ленно вырезал уравнения на перилах моста Брум. Хотя никаких других
доказательств этой резьбы нет, на мосту установлена памятная доска об
открытии с изображением кватернионных уравнений.

При эволюции этой динамической системы значение гамильтониана Н явля­


ется постоянным, что легко увидеть при дифференцировании:

(11.60)

Второе важное свойство гамильтоновых динамических систем, известное как

теорема Лиувилля, заключается в том, что они сохраняют объем в фазовом про­
странстве . Иначе говоря, если мы рассмотрим область в пространстве перемен­
ных (z, r), то, поскольку эта область эволюционирует в соответствии с уравне­
ниями гамильтоновой динамики , ее форма может измениться, а объем остается
постоянным . В этом можно убедиться, заметив, что поле потока (скорости изме­
нения положения в фазовом пространстве) определяется как

V=(dz,dr)
dr dr
(11.61)
724 ГЛАВА 11. ВЫБОРОЧНЫЕ МЕТОДЫ

и что дивергенция этого поля исчезает:

. V -~
dlV д -dz;+ д-dr;
_ ""' {- - }--
; дz; dт дr; dт
(11.62)
_ ""' { д dH д dH }- О
- ~ дz; dr; - дr; dz; - ·

Теперь рассмотрим совместное распределение по фазовому пространству,


полной энергией которого является гамильтониан, т.е.

1
р( z,r) = -ехр(-Н( z,r) ). (11.63)

Из двух результатов сохранения объема и сохранения Н следует, что гамилъто­


нова динамика оставит p(z, r) инвариантным. Это можно увидеть, рассмотрев
небольшую область фазового пространства, в которой функция Н приблизи­
тельно постоянна. Если мы будем следить за эволюцией гамилътоновых уравне­
ний в течение конечного времени, то объем этой области останется неизменным,
равно как и значение Н в этой области, и, следовательно, плотность вероятности,
которая является функцией только Н, также не изменится.
Хотя функция Н инвариантна, значения z и r будут варьироваться. Таким
образом, интегрируя гамилътонову динамику на конечном временном интервале,
мы получаем возможность систематически вносить большие изменения в z, из­

бегая случайного блуждания.


Однако эволюция при гамилътоновой динамике не будет эргодическим выбо­
ром из генеральной совокупности с распределением p(z, r), поскольку значение
Н постоянно. Чтобы прийти к эргодической схеме выбора, можно ввести допол­
нительные движения в фазовом пространстве, которые изменяют значение Н,
оставляя при этом распределение p(z, r) инвариантным. Самый простой способ
добиться этого - заменить значение r значением, полученным из его распреде­
ления при заданном значении z. Это можно рассматривать как этап выбора по

Гиббсу, и, следовательно, из раздела 11.3 видно, что этот выбор гарантирует


желаемую инвариантность распределения. Отмечая, что z и r независимы в рас­
пределении p(z, r), мы видим, что условное распределение p(rl z) является
нормальным, а из него легко извлекать выборки (см. упраж11е11ие 11.16).
При практическом применении этого подхода мы должны решить проблему
выполнения численного интегрирования уравнений Гамильтона. Но так как это

обязательно приведет к вычислительным погрешностям, следует разработать


11.5. Гибридный алгоритм Монте-Карло 725

схему, которая минимизирует их влияние. Оказывается, что можно разработать


схемы интегрирования, для которых теорема Лиувилля будет в точности выпол­
няться. Это свойство будет важным в гибридном алгоритме Монте-Карло, кото­
рый обсуждается в разделе 11.5.2. Одна из схем, гарантирующих это свойство,
называется чехардой и включает в себя попеременное изменение аппроксимаций
i и r для переменных положения и импульса в дискретном времени:

У; ( т + в/2) =У; ( т )- ~ дЕ (z( т) ), (11.64)


2 дz 1

z1( т +в)= z
1 ( т) + вР~ (т + в/2 ), (11.65)

f;(r+в)=f;(r+в/2)-~ дЕ (z(т+в)). (11.66)


2 дz 1

Мы видим, что эта схема принимает форму изменения переменных импульса на


полушаге в/2 с последующим изменением переменных положения, с полным
шагом в с последующим вторым изменением переменных импульса на полуша­

ге. Если выполнить несколько последовательных шагов, то полушаговые изме­

нения переменных импульса можно объединить в полношаговые изменения с


размером шага в. Последовательные изменения переменных положения и им­
пульса затем меняются местами. Чтобы продвинуть динамику на временной ин­
тервал т, необходимо выполнить т/ в шагов. Погреuпюсть, связанная с дискрети­
зированным приближением к динамике непрерывного времени, станет равной
нулю, если предположить, что функция Е( z) в пределе при в~ О является глад­
кой. Однако для ненулевого в, используемого на практике, некоторая остаточная

погрешность останется. В разделе 11.5.2 пояснялось, как можно устранить по­


следствия таких огрешностей в гибридном алгоритме Монте-Карло.
Таким образом, гамильтонов динамический подход включает в себя чередо­
вание между сериями скачкообразных изменений и повторного выбора пере-
менных импульса из их маргинального распределения.

Обратите внимание, что метод гамильтоновой динамики, в отличие от основно­


го алгоритма Метрополиса, может использовать информацию о градиенте лога­
рифмического распределения вероятностей, а также о самом распределении. Ана­
логичная ситуация сушествует в области оптимизации функций. В большинстве
случаев, когда доступна информация о градиенте, очень полезно использовать ее.
Неформально это следует из того факта, что в пространстве D измерений допол­
нительные вычислительные затраты на вычисление градиента по сравнению с вы­

числением самой функции обычно будут фиксированным фактором, независимым


726 ГЛАВА 11. ВЫБОРОЧНЫЕ МЕТОДЫ

от D, тогда как D-мерный вектор градиента содержит D частей информации по


сравнению с одной частью, предоставленной самой функцией.

11.5.2. Гибридный метод Монте-Карло

Как мы обсуждали в предыдущем разделе, при ненулевом шаге & дискретиза­


ция алгоритма чехарды вносит погрешность в интегрирование гамильтоновых

динамических уравнений. Гибридный метод Монте-Карло (Duane et а/" 1987;


Neal, 1996) объединяет гамильтонову динамику с алгоритмом Метрополиса и

тем самым устраняет любые смещения, связанные с дискретизацией.


В частности, алгоритм использует цепь Маркова, состоящую из чередующих­

ся стохастических изменений переменной импульса r и гамильтоновых динами­


ческих изменений с использованием алгоритма чехарды. После каждого приме­

нения алгоритма чехарды результирующее состояние-кандидат принимается или

отклоняется в соответствии с критерием Метрополиса, основанным на значении


гамильтониана Н. Таким образом, если (z, r) является начальным состоянием, а
(z•, r·) - состоянием после интегрирования по алгоритму чехарды, то состоя­
ние-кандидат принимается с вероятностью

min(l, exp{H(z, r)-H(z•, r·)}). (11.67)

Если бы интегрирование по алгоритму чехарды должно было идеально моде­


лировать гамильтонову динамику, то каждый такой шаг-кандидат автоматически

принимался бы, потому что значение Н бьто бы неизменным. Из-за вычислитель­


ных погрешностей значение Н может иногда уменьшаться, и мы хотели бы, чтобы
критерий Метрополиса устранял любое смещение из-за этого эффекта и гаранти­
ровал, что полученные выборки действительно извлечены из генеральной сово­

купности с требуемым распределением. Для того чтобы это имело место, мы


должны убедиться, что уравнения изменения, соответствующие интегрированию

по алгоритму чехарды, удовлетворяют условию детш~ьного равновесия (11.40).


Этого легко добиться, изменив схему чехарды следующим образом.
Перед началом каждой последовательности интегрирования по алгоритму че­

харды мы случайным образом с равной вероятностью выбираем, что делать: ин­


тегрировать вперед по времени (с шагом в) или назад по времени (с шагом -&).
Сначала отметим, что схема интегрирования по алгоритму чехарды (11.64)-
( 11. 66) обратима во времени, так что интегрирование на L шагов назад с исполь­

зованием размера шага -& точно отменит эффект интегрирования для L шагов
вперед с использованием шага &. Далее мы покажем, что интегрирование по ал­

горитму чехарды точно сохраняет объем фазового пространства. Это следует из


11.5. Гибридный алгоритм Монте-Карло 727

того факта, что каждый шаг в схеме чехарды обновляет либо переменную z;, ли­
бо переменную r; на величину, которая является функцией только другой пере­
менной. Как показано на рис. 11.14, это приводит к сдвигу области фазового
пространства, не изменяя его объема.

r'1

Z; z'1

Рис. 11.14. Каждый шаг алгоритма чехарды (l 1.64HI 1.66) изменяет либо

переменную положения z;, либо переменную импульса r 1• Поскольку изменение

одной переменной является функцией только другuй переменной, любая область

в фазовом пространстве будет сдвигаться без изменения объема

Наконец, мы используем эти результаты, чтобы показать сохранение деталь­

ного равновесия. Рассмотрим небольшую область n фазового пространства, ко­


торая при последовательности L повторяющихся итераций с шагом с отобража­

ется в область n '. Используя сохранение объема в итерации, мы видим, что если
'R имеет объем бV, то и 'R' тоже будет иметь этот же объем. Если мы выберем
начальную точку из распределения (11.63) и затем изменим ее, используя L ша­
гов по схеме чехарды, то вероятность перехода от n к 'R' будет определяться как
-1 ехр(-н(n ))ov _!_min{l,exp(H(n )-H('R'))}, (11.68)
Zн 2
где коэффициент 1/2 возникает из-за вероятности выбора интегрирования с по­
ложительным размером шага, а не с отрицательным. Точно так же вероятность
того, что интегрирование назад во времени из начальной точки в области 'R' в

конечную точку в области n, задается формулой


-1 ехр(-н(n'))бv _!_min{l,exp(H('R')-H('R))}. (11.69)
Zн 2
728 ГЛАВА 11. ВЫБОРОЧНЫЕ МЕТОДЫ

Легко видеть, что две вероятности (11.68) и(11.69) равны, и, следовательно,


имеет место детальное равновесие (см. ynpaJ1c11e11ue 11.17). Обратите внимание
на то, что это доказательство игнорирует любое перекрытие между областями R
и R ', но его легко обобщить, чтобы учесть такое перекрытие.
Нетрудно построить примеры, для которых алгоритм чехарды возвращается в
исходное положение после конечного числа итераций. В таких случаях случай­

ная замена значений импульса перед каждой интеграцией по алгоритму чехарды


не будет достаточной для обеспечения эргодичности, потому что переменные
положения никогда не будут изменяться. Таких явлений легко избежать, выби­
рая величину размера шага случайным образом из некоторого небольшого ин­
тервала перед каждой интеграцией по алгоритму чехарды.

Чтобы получить некоторое представление о поведении гибридного алгоритма


Монте-Карло, рассмотрим его применение к многомерному нормальному рас­
пределению. Для удобства рассмотрим нормальное распределение p(z) с незави­
симыми компонентами, для которого гамильтониан имеет вид

(11.70)

Наши выводы будут в равной степени справедливы для нормального распре­


деления, имеющего коррелированные компоненты, поскольку гибридный алго­
ритм Монте-Карло обладает вращательной изотропией. Во время интегрирова­
ния по алгоритму чехарды каждая пара фазовых переменных z;, r; эволюциони­
рует независимо одна от другой. Однако принятие или отклонение точки­
кандидата основывается на значении Н, которое зависит от значений всех пере­
менных. Таким образом, значительная погрешность интеграции в любой из пе­
ременных может привести к высокой вероятности отклонения. Для того чтобы
дискретное интегрирование по алгоритму чехарды было достаточно хорошим
приближением к истинной динамике с непрерывным временем, необходимо,
чтобы масштаб интегрирования по алгоритму чехарды & был меньше, чем крат­
чайший масштаб длины, в котором потенциал значительно изменяется. Он опре­
деляется наименьшим значением ст;, которое обозначим через cтmin· Напомним,
что цель интегрирования по алгоритму чехарды в гибридном методе Монте­
Карло состоит в том, чтобы переместиться на значительное расстояние через фа­
зовое пространство в новое состояние, которое является относительно независи­

мым от исходного состояния и все еще обеспечивает высокую вероятность при­


нятия выборки. Чтобы достичь этого, интегрирование по алгоритму чехарды
должно продолжаться в течение ряда итераций порядка CFmax/CFmin·
11.6. Оценка функции разбиения 729

Напротив, рассмотрим поведение простого алгоритма Метрополиса с изо-


~ 2
tропным нормальным вспомогательным распределением с дисперсиеи s , рас-

смотренным ранее. Чтобы избежать высоких уровней отклонения, значение s


должно иметь порядок O"min· Затем исследование пространства состояний проис­
ходит путем случайного блуждания и требует примерно (umзx/O'"min)2 шагов, что­
бы достичь приблизительно независимого состояния.

11.6. Оценка функции разбиения


Как мы уже видели, для большинства алгоритмов выбора, рассмотренных в этой
главе, функциональную форму распределения вероятностей достаточно знать ЛШ1IЪ
с точностью до мулътишmкативной константы. Таким образом, если записать

1
Рв (z) =-exp(-E(z)), (11.71)
ZE
то значение нормирующей константы Zв, также известной как функция разбие­
ния, для получения выборок из генеральной совокупности с распределением p(z)
не требуется. Однако значение Zв может быть полезным для сравнения байесов­
ских моделей, поскольку оно предоставляет свидетельство в пользу модели

(т.е. вероятность наблюдаемых данных для данной модели). В связи с этим целе­

сообразно рассмотреть вопрос о том, как получить это значение. Мы предпола­


гаем, что прямое вычисление путем суммирования или интегрирования функции
exp(-E(z)) по пространству состояний z невозможно.

Для сравнения моделей требуется отношение функций разбиения для двух


моделей. Умножение этого отношения на отношение априорных вероятностей

дает отношение апостериорных вероятностей, которое затем может быть ис­


пользовано для выбора или усреднения модели.
Одним из способов оценки отношения функций разбиения является исполь­
зование выбора по важности из распределения с энергетической функцией G(z):
730 ГЛАВА 11. ВЫБОРОЧНЫЕ МЕТОДЫ

Lexp(-E(z))
z
___§__= "' =
ZG Lexp(-G(z))
"'
Lexp(-E( z) + G( z))exp(-G( z))
= (11.72)
Lexp(-G(z))
"'
= EG(z) [ ехр(-Е + G)] =
= ~ Lexp(-E( z(I)) + G( z(I)) ),
l

где {z<1J} - выборки, извлеченные из генеральной совокупности с распределе­


нием PG(z). Если распределение PG является тем, для которого функция разбие­
ния может быть оценена аналитически, например, нормальным, то может быть

получено абсолютное значение ZE.


Этот подход даст точные результаты только в том случае, если распределение

выбора по важности PG близко соответствует распределению Рь так что отно­


шение PEIPG не имеет широких вариаций. На практике подходящие аналитически
определенные распределения выбора по важности не могут быть легко найдены
для сложных моделей, рассматриваемых в этой книге.
Альтернативный подход к определению распределения выбора по важности
заключается в использовании выборок, полученных с помощью цепи Маркова.
Если вероятность перехода для цепи Маркова задана функцией T(z, z'), а набор
выборок задан множеством z<'J, "" z<LJ, то распределение выбора можно запи­
сать как

1 1 L
-exp(-G(z))=-LT(z(l),z) (11.73)
ZG L t=I

и использовать непосредственно в формуле (11.72).


Для успеха методов оценки отношения двух функций разбиения необходимо,
чтобы два соответствующих распределения были разумно близко подобранны­
ми. Это особенно проблематично, если мы хотим найти абсолютное значение
функции разбиения для сложного распределения, потому что только для относи­
тельно простых распределений функция разбиения может быть вычислена
напрямую, поэтому успех попытки оценить соотношение функций разбиения
напрямую мало вероятен. Эта проблема может быть решена с использованием
метода, известного как зацепление (Neal, 1993; Barber and Bishop, 1997), который
Упражнения 731

включает в себя последовательность промежуточных распределений р 2 , ".,рм_ 1 ,


которые интерполируются между простым распределением p 1(z), для которого

мы можем вычислить коэффициент нормализации Z1, и требуемым сложным


распределениемрм(z). Затем мы имеем соотношение

Zм Z2 Zз Zм
- - - - ... - - , (11.74)
Z1 Z1 Z2 Zм-1

в котором промежуточные отношения могут быть определены с использованием


методов Монте-Карло, как обсуждалось выше. Одним из способов построения
такой последовательности промежуточных систем является использование энер­
гетической функции, содержащей непрерывный параметр О ~ а~ 1, который ин­

терполируется между двумя распределениями

Ea(z) = (1-a)E 1(z) + аЕм(z). (11.75)

Если промежуточные отношения в (11.74) можно найти с помощью метода


Монте-Карло, может быть более эффективно использовать один прогон цепи
Маркова, чем перезапускать цепь Маркова для каждого отношения. В этом слу­
чае цепь Маркова запускается сначала для системы р 1 , а затем через некоторое

подходящее число шагов переходит к следующему распределению в последова­

тельности. Отметим, однако, что на каждом этапе система должна оставаться

близкой к равновесному распределению.

Упражнения

11.1. (*) WWW Покажите, что оценка конечных выборок j , определенная фор­
мулой (11.2), имеет математическое ожидание, равное JE[f], и дисперсию,
определяемую формулой (11.3).

11.2. (*)Предположим, что z - случайная величина с равномерным распреде­


лением по интервалу (О, 1) и что мы преобразуем z, используя соотноше­
ние у= h- 1(z), где h(y) определяется формулой (11.6). Покажите, что слу­
чайная величина у имеет распределение р(у).

11.3. (*) Зная случайную переменную z, которая равномерно распределена на


интервале (О, 1), найдите преобразование у = f(z) такое, что у имеет рас­
пределение Коши, определяемое формулой (11.8).
11.4. (**)Предположим, что случайные величины z1 и z2 равномерно распре­
делены на единичном круге, как показано на рис. 11.3, и мы производим
732 ГЛАВА 11. ВЫБОРОЧНЫЕ МЕТОДЫ

замену переменных по формулам (11.1 О) и (11.11 ). Покажите, что слу­


чайная величина (у 1 , у 2 ) будет распределена согласно (11.12).
11.5. (*) WWW Пусть z - D-мерная случайная величина, имеющая нормальное
распределение с нулевым математическим ожиданием и единичной кова­

риационной матрицей. Предположим, что положительно определенная

симметричная матрица I имеет разложение Холецкого I = LLт, где L -


нижняя треугольная матрица (т.е. содержит нули выше ведущей диагона­
ли). Покажите, что переменная у=µ+ Lz имеет нормальное распределе­
ние с математическим ожиданием µ и ковариацией I. Это обеспечивает
метод для генерации выборок генеральной совокупности с общим мно­
гомерным нормальным распределением с помощью выборок из одномер­
ного нормального распределения, имеющего нулевое математическое

ожидание и единичную дисперсию.

11.6. (**) WWW В этом упражнении мы более тщательно показываем, что выбор
с отклонением действительно извлекает выборки из генеральной сово­
купности с желаемым распределением p(z). Предположим, что вспомо­
гательным распределением является q(z), и покажем, что вероятность то­
го, что выборка z будет принята, определяется выражением 'ft(z)/kq(z),
где р - любое ненормированное распределение, пропорциональное
p(z), и константа k имеет наименьшее значение, которое обеспечивает
выполнение неравенства kq ( z) ~ р (z) для всех значений z. Обратите
внимание на то, что вероятность получения выборки z определяется ве­
роятностью извлечения этой выборки из генеральной совокупности с
распределением q(z), умноженной на вероятность принятия этой выбор­
ки при условии, что она бьmа получена. Используя это свойство вместе с
правилами суммирования и умножения вероятностей, запишите норми­
рованную форму распределения по z и покажите, что она равнар(z).

11. 7. (*) Предположим, что у имеет равномерное распределение по интерва­


лу [О, 1]. Покажите, что переменная z = Ь tgy +с имеет распределение
Коши, определяемое формулой ( 11.16).
11.8. (**)Определите выражения для коэффициентов k; в огибающем распре­
делении ( 11.17) для адаптивного выбора с отклонением, используя требо­
вания непрерывности и нормировки.

11.9. (**) Используя методику, описанную в разделе 11.1.1 для выбора из ге­
неральной совокупности с распределением из экспоненциального семей­
ства, разработайте алгоритм для выбора из генеральной совокупности с
Упражнения 733

распределением из кусочно-экспоненциального семейства, определенно­


го формулой (11.17).
11.1 О. (*) Покажите, что простое случайное блуждание по целым числам, опреде­
ленное формулами (11.34}--{11.36), имеет свойство Е[(z<т~ 2 ] = E[(z<~ 1 y] +
+ 1/2 и, следовательно, по индукции Е[(z(т)) 2 ] = т/2.
11.11. (**) WWW Покажите, что алгоритм выбора по Гиббсу, рассмотренный в
разделе 11.3, удовлетворяет условию детального равновесия, определен­

ному формулой (11.40).


11.12. (*)Рассмотрите распределение, показанное на рис. 11.15. Является ли
стандартная процедура выбора по Гиббсу для этого распределения эрго­
дической и, следовательно, будет ли правильно извлекать выборки из ге­
неральной совокупности с этим распределением.

Рис. 11.15. Распрсделс11ис вероятностей по двум переменным z1 и zъ

равномер11ое по затененным областям и рав11ос нулю в других точках

11.13. (**)Рассмотрим простой трехузловой граф, показанный на рис. 11.16, в ко­


тором наблюдаемый узел х задан нормальным распределеЮfем N(xlµ, ,-1)
с математическим ожиданием µ и точностью т. Предположим, что марги­

нальные распределения по математическому ожиданию и точности зада­

ются как N(µlµ 0 , s0) и Gam( тlа, Ь), где Gam(·I·;) обозначает гамма-распре­
деление. Запишите выражения для условных распределений p(µlx, т) и

р( •1 х, µ), которые потребуются для применения выбора по Гиббсу к апо­


стериорному распределению р(µ, т 1х ).
734 ГЛАВА 11. ВЫБОРОЧНЫЕ МЕТОДЫ

Рис. 11.16. Граф, содержащий наблюдаемую нормально

распределенную случайную величину х с априорным распределением,

имеющим математическое ожидание µи точность r

11.14. (*) Убедитесь, что изменение со сверхрелаксацией (11.50), в котором z;


имеет математическое ожидание µ; и дисперсию и; а случайная величи­ ,
на v имеет нулевое математическое ожидание и единичную дисперсию,

дает значение z; с математическим ожиданием µ;и дисперсией и;.


11.15. (*) WWW Используя формулы (11.56) и (11.57), покажите, что уравнение
Гамильтона (11.58) эквивалентно уравнению (11.53). Аналогично, ис­
пользуя (11.57), покажите, что (11.59) эквивалентно (11.55).
11.16. Используя (11.56), (11.57) и (11.63), покажите, что условное распределе­
ние p(rlz) является нормальным.

11.17. (*) WWW Убедитесь, что две вероятности (11.68) и (11.69) равны, и, следо­
вательно, для гибридного алгоритма Монте-Карло выполняется условие
детального равновесия.
12

В главе 9 мы обсуждали вероятностные модели, имеющие дискретные ла­


тентные переменные, такие как смесь нормальных распределений. Теперь будут
исследованы модели, в которых некоторые или все латентные переменные яв­

ляются непрерывными. Важной мотивацией для таких моделей является то об­


стоятельство, что во многих наборах данных все точки лежат рядом с многооб­
разием гораздо меньшей размерности, чем размерность исходного пространства
данных. Чтобы понять, почему это может произойти, рассмотрим искусствен­
ный набор данных, созданный путем встраивания серого изображения одной из
цифр (см. приложение А) размером 64 х 64 пикселя в более крупное белое изоб­
ражение размером 100 х 100 пиксел ей так, что положение и ориентация цифры
изменяются случайным образом (рис. 12.1). Каждое из полученных изображений
представляется точкой в пространстве данных размером 100 х 100 = 10 ООО. Од­
нако в наборе таких изображений существует только три степени свободы из­
менчивости, соответствующие вертикальным и горизонтальным сдвигам, а так-
736 ГЛАВА 12. НЕПРЕРЫВНЫЕ ЛАТЕНТНЫЕ ПЕРЕМЕННЫЕ

же поворотам. Следовательно, точки будут находиться в трехмерном подпро­


странстве исходного пространства. Обратите внимание, что это многообразие
является нелинейным, потому что, например, если мы перенесем цифру за опре­
деленный пиксель, значение этого пикселя изменится с нуля (белый) на единицу
(черный) и снова вернется к нулю, что, очевидно, является нелинейной функци­
ей, зависящей от позиции цифры. В этом примере параметры переноса и пово­
рота являются латентными переменными, потому что мы наблюдаем только век­
торы изображения и не сообщаем, какие значения переменных перемещения или
поворота использовались для их создания.

Рис. 12.1. Искусственный набор данных, полученный путем фотографирования

одного из цифровых изображений и создания нескольких копий, в каждой

из которых цифровое изображение подвергалось случайному переносу

и повороту в некотором более крупном поле изображения. Каждое полученное

изображение имеет размер 100 х 100 = 1О ООО пиксел ей

В реальных изображениях цифр существует дополнительная степень свободы


за счет масштабирования. Кроме того, существует много дополнительных степе­
ней свободы, связанньIХ с более сложными деформациями из-за изменчивости по­
черка одного человека и различий между почерками разных людей. Тем не менее
количество таких степеней свободы будет небольшим по сравнению с размерно­
стью исходного набора даннЬIХ.
Другой пример представлен набором данных о потоке нефти (c.w. прил0Jке-
11ие А), в котором (для данной геометрической конфигурации газовой, водной
и нефтяной фаз) существуют только две степени свободы изменчивости, соот­
ветствующие доле нефти в трубе и доле воды (доля газа определяется по этим
двум долям). Хотя пространство данных имеет 12 измерений, набор точек будет
располагаться близко к двумерному многообразию, вложенному в это простран­
ство. В этом случае многообразие содержит несколько отдельных сегментов, со­
ответствующих различным режимам потока, причем каждый такой сегмент

представляет собой (зашумленное) непрерывное двумерное многообразие. Если


нашей целью является сжатие данных или моделирование плотности, то исполь­

зование этой структуры многообразия может оказаться полезным.


12.1. Анализ главных компонентов 737

На практике точки, как правило, не ограничиваются идеально гладким мало­


размерным многообразием, и мы можем интерпретировать отклонения точек от
этого многообразия как шум. Это естественным образом приводит к порождаю­
щему подходу к таким моделям, в котором мы сначала выбираем точку в много­
образии в соответствии с некоторым распределением латентной переменной,
а затем генерируем наблюдаемую точку данных, добавляя шум, извлеченный из
некоторого условного распределения переменных при заданных латентных пе­

ременных.

Простейшая модель непрерывных латентных переменных предполагает нор­


мальные распределения как для латентных, так и для наблюдаемых переменных
и использует линейно-гауссовскую зависимость наблюдаемых переменных от
состояния латентных переменных (см. рал)ел 8.1.4). Это приводит к вероят­

ностной формулировке хорошо известного метода главных компонентов (Princi-


pal Component Analysis - РСА) и связанной с ним модели, называемой фактор­
ным анализом.

Эта глава начинается с описания стандартного, детерминированного метода


РСА (см. раздел 12.1). Затем будет показано, что он естественным образом возни­
кает в результате применения метода максимального правдоподобия к конкретной
форме линейно-гауссовской модели латентных переменных (см. разде.11 12.2). Эта
вероятностная формулировка дает много преимуществ, в частности, возможность
использования ЕМ-алгоритма для оценки параметров, обобщения на смеси моде­
лей РСА и применения байесовских формулировок, которые позволяют автомати­
чески определять количество главных компонентов на основе данных. Наконец,
мы кратко обсудим несколько обобщений концепции латентной переменной, ко­
торые выходят за рамки линейно-гауссовского предположения, включая латент­
ные переменные, не имеющие нормального распределения, что приводит к анали­

зу независимых компонентов, а также моделям, имеющим нелинейную связь меж­


ду скрытыми и наблюдаемыми переменными (с.м. раздел 12.4).

12.1. Анаnиз rnавных компонентов

Анализ главных компонентов, или РСА, - это метод, широко используемый


для таких приложений, как уменьшение размерности, сжатие данных с потеря­

ми, извлечение признаков и визуализация данных (Jolliffe, 2002). Он также изве­

стен как преобразование Карунена-Лоэва.


Существуют два традиционных определения РСА, которые приводят к одно­
му и тому же алгоритму. Метод РСА может быть определен как ортогональное
738 ГЛАВА 12. НЕПРЕРЫВНЫЕ ЛАТЕНТНЫЕ ПЕРЕМЕННЫЕ

проецирование данных на линейное пространство меньшего размера, известное


как главное подпространство, при котором дисперсия проекций достигает мак­
симума (Hotelling, 1933). Эквивалентно его можно определить как линейное
проецирование, которое минимизирует среднеквадратичное расстояние между

исходными точками и их проекциями (Pearson, 1901). Процесс ортогонального


проецирования показан на рис. 12.2. Мы рассмотрим каждое из этих определе­
ний по очереди.

Рис. 12.2. Метод анализа главных компонентов ищет пространство

с более низкой размерностью, известное как главное подпространство и обозначаемое

пурпурной линией, так что ортогональная проекция исходных точек (красные точки)

на это подпространство максимизирует дисперсию проекций (3еленые точки).

Альтернативное определение РСА основано на минимизации суммы квадратов

ошибок проекции, обозначенных синими линиями

12.1.1. Поиск максимальной дисперсии

Рассмотрим набор данных наблюдений {хп}, где п = 1, ... , N, а Хп - евклидо­


ва переменная с размерностью D. Наша цель - спроецировать данные в про­

странство, имеющее размерность М < D, и в то же время максимизируя диспер­

сию проекций. Пока предположим, что значение М задано. Ниже мы рассмотрим


методы определения подходящего значения М по данным.

Сначала рассмотрим проекцию на одномерное пространство (М = 1). Мы мо­


жем определить направление этого пространства, используя D-мерный вектор

u 1, который для удобства (и без ограничения общности) будем считать единич­


ным, так что ui u 1 =1 (обратите внимание, что нас интересует только направле­
ние вектора u 1, а не его величина). Затем каждая точка данных хп проецируется в
12.1. Анализ rлавных компонентов 739

СКалярное значение u 1Т xn . С
реднее значение
~
проекции равно u 1Т-
х где х

среднее выборочное значение, заданное формулой

1 N
X=-Ixn, (12.1)
N n=I

а дисперсия проекций определяется как

(12.2)

где S- ковариационная матрица данных, определяемая как

S =_!_ f (хп -x)(xn -х(


N n=I
(12.3)

Теперь максимизируем дисперсию проекций u{Su 1 по u 1• Очевидно, что это


должна быть условная максимизация, чтобы предотвратить выполнение усло­

вия llu11 ~ оо . Соответствующее ограничение вытекает из условия нормировки

u{ u 1 =1 . Чтобы применить это ограничение, введем множитель Лагранжа, ко­


торый обозначим через А. 1 , а затем выполним безусловную максимизацию
(см. 11р11ло;нсе11ие Д):

u{ Su1 + ~ (1- u{ u 1 ) • (12.4)

Приравняв к нулю производную по u 1, мы видим, что эта величина будет


иметь стационарную точку, если

(12.5)

т.е. вектор u1 должен быть собственным вектором матрицы S. Если мы умно­


жим (12.5) на u{ слева и используем условие u{u1 =1, то дисперсия будет за­
дана формулой
(12.6)

Таким образом, дисперсия будет максимальной, если мы установим вектор u1


равным собственному вектору, имеющему наибольшее собственное значение А. 1 •
Этот собственный вектор называется первым главным компонентом.
Мы можем определить дополнительные главные компоненты в пошаговом

режиме, каждый раз выбирая новое направление, которое будет максимизиро­


вать спроецированную дисперсию среди всех возможных направлений, ортого­
нальных тем, которые рассматривались ранее. Если мы рассмотрим общий слу­
чай М-мерного проекционного пространства, то оптимальная линейная проек-
740 ГЛАВА 12. НЕПРЕРЫВНЫЕ ЛАТЕНТНЫЕ ПЕРЕМЕННЫЕ

ция, для которой дисперсия проецируемых данных максимизируется, теперь

определяется М собственными векторами u 1, ••• , uм ковариационной матрицы S


данных, соответствующей наибольшим собственным значениям {А. 1 , ••• , Лм}
(см. упрщ1с11е11ие 12.1). Это легко показать с помощью доказательства по ин­
дукции.

Подводя итог, отметим, что анализ главных компонентов включает в себя


оценку среднего значения х и ковариационной матрицы S множества данных,
а затем нахождение М собственных векторов матрицы S, соответствующих М
наибольшим собственным значениям. Алгоритмы нахождения собственных век­
торов и собственных значений, а также дополнительные теоремы, связанные
с разложением по собственным векторам, можно найти в работе Golub and Van
Loan (1996). Отметим, что вычислительные затраты на вычисление полного раз­
ложения по собственным векторам для матрицы размерностью D хD составляют
3
O(D ). Если мы планируем проецировать наши данные на первые М главных
компонентов, то достаточно найти лишь первые М собственных значений и соб­
ственных векторов. Это можно сделать с помощью более эффективных методов,
таких как степенной метод (Golub and Van Loan, 1996), имеющий сложность
2
O(MD ), или, как альтернативы, ЕМ-алгоритма (см. разде.;112.2.2).

12.1.2. Формулировка с минимальной ошибкой

Теперь обсудим альтернативную формулировку РСА, основанную на мини­


мизации ошибки проекции (см. прило;нсеиие В). Для этого введем полный орто­
нормированный набор D-мерных базисных векторов {u;}, где i = 1, ... , D, кото­
рые удовлетворяют условию

(12. 7)

Поскольку этот базис полный, каждая точка данных может быть точно пред­
ставлена линейной комбинацией базисных векторов:
D
хп = Lan;U;, (12.8)
i=l

где коэффициенты а"; будут разными для разных точек данных. Это просто со­
ответствует повороту системы координат в новую систему, определенную век­

торами {u;}, при котором исходные D компонентов {х" 1 , ••• , Хпv} заменяются эк­
вивалентным множеством {ап 1 , ... , апv}. Вычислив скалярное произведение с
векторами u1 и используя свойство ортонормированности, получим anJ = х~ u 1
и поэтому без потери общности можем записать
12.1. Анализ главных компонентов 741

D
хп = I(x~u;)u;. (12.9)
i=l

Наша цель, однако, состоит в том, чтобы аппроксимировать эту точку, ис­
пользуя представление, включающее ограниченное количество переменных

М < D, соответствующих проекции на подпространство меньшей размерности.


М-мерное линейное подпространство может быть представлено без ограничения
общности первыми М базисными векторами, поэтому мы аппроксимируем каж­
дую точку Хп по формуле
М D
Хп = LZп;U; + L b;U;, (12.10)
i=l i=M+I

где {zп 1 } зависят от конкретной точки данных, тогда как {Ь;} являются констан­
тами, которые одинаковы для всех точек. Мы можем выбрать {u 1}, {zп;} и {Ь;},
чтобы минимизировать искажения, вызванные уменьшением размерности. В ка­
честве меры искажения будем использовать возведенное в квадрат расстояние
между исходной точкой хп и ее приближением х" , усредненное по набору дан­
ных, поэтому наша цель - минимизировать функцию

(12.11)

Рассмотрим в первую очередь минимизацию по величинам {zп;}. Подставляя


формулу для :Хп , приравнивая производную по ZnJ к нулю, и используя условия
ортонормированности, получим

(12.12)

где j = 1, "" М. Аналогично, приравнивая производную от J по Ь; к нулю и по­


вторно используя соотношения ортонормированности, получим

Ь
1 = -Т u 1 ,
х (12.13)

гдеj = М+ 1, "" D. Если мы подставим формулы для Zп; и Ь; в (12.10) и воспользу­


емся общим разложением (12.9), то получим выражение

(12.14)

из которого видно, что вектор смещения от Хп к :Хп лежит в пространстве, орто­

гональном главному подпространству, потому что он представляется в виде ли-


742 ГЛАВА 12. НЕПРЕРЫВНЫЕ ЛАТЕНТНЫЕ ПЕРЕМЕННЫЕ

нейной комбинации векторов {U;} для i = М+ 1, .. " D (рис. 12.2). Этого следовало
ожидать, потому что спроецированные точки хп должны лежать в главном под­

пространстве, но мы можем свободно перемещать их в этом подпространстве,


поэтому минимальная ошибка определяется ортогональной проекцией.
Итак, мы получим выражение для меры искажения J как функции, зависящей
только он векторов {u;} в виде

1 N D 2 D
J=-I
N
L (x~u;-xтu;)
n=li=M+I
= L u/Su;.
i=M+I
(12.15)

Остается задача минимизации функции J относительно векторов {u;}, кото­


рая должна быть условной, в противном случае мы получим бессодержательный
результат u; = О. Ограничения возникают из условий ортонормированности, и,
как мы увидим, решение будет выражаться в терминах разложения по собствен­
ным векторам ковариационной матрицы. Прежде чем рассматривать формальное
решение, попробуем получить некоторое интуитивное представление о резуль­
тате, рассматривая случай двумерного пространства данных D = 2 и одномерно­
го главного подпространства М =
1. Мы должны выбрать направление u 2 , чтобы
минимизировать функцию J = u~ Su 2 с учетом ограничения на нормализацию
u~u 2 =1. Используя множитель Лагранжа А. 2 , чтобы учесть ограничение, рас­
смотрим минимизацию функции

J- = u т2 Su 2 + ~ ( 1- u 2т u 2 ) . (12.16)

Приравнивая производную по u2 к нулю, получаем уравнение Su2 = A. 2u 2 , так


что u2 является собственным вектором матрицы S с собственным значением А. 2 •
Таким образом, любой собственный вектор будет определять стационарную
точку меры искажения. Чтобы найти минимальное значение функции J, мы под­
ставляем обратно решение для u2 в меру искажения и получаем J= А. 2 • Следова­
тельно, мы получаем минимальное значение функции J, выбирая u2 в качестве
собственного вектора, соответствующего меньшему из двух собственных значе­
ний. Таким образом, мы должны выбрать главное подпространство, соответ­
ствующее собственному вектору, имеющему большее собственное значение.
Этот результат согласуется с нашей интуицией, согласно которой, чтобы мини­
мизировать среднеквадратичное проекционное расстояние, мы должны выбрать

подпространство главного компонента, чтобы оно проходило через среднее зна­


чение точек данных и было ориентировано в соответствии с направлениями мак­
симальной дисперсии. Для случая, когда собственные значения равны, любой вы­
бор главного направления приведет к одному тому же значению функции J.
12.1. Анализ главных компонентов 743

Общее решение задачи минимизации J для произвольной размерности D и про­


извольного M<D получается пугем выбора векторов {u;} в качестве собственных
векторов ковариационной матрицы, определяемой как (см. упражие11ие 12.2)
(12.17)
где i = 1, "., D и, как обычно, собственные векторы {u;} выбираются ортонорми­
рованными. Соответствующее значение меры искажения тогда определяется
функцией
D
J= I ~, (12.18)
i=M+I

которая является суммой собственных значений тех собственных векторов, ко­


торые ортогональны главному подпространству. Следовательно, мы получаем

минимальное значение функции J, выбирая собственные векторы, которые соот­


ветствуют D- М наименьшим собственным значениям, и, следовательно, соб­
ственные векторы, определяющие главное подпространство, - это векторы, ко­

торые соответствуют М наибольшим собственным значениям.


Хотя мы рассмотрели случай М < D, анализ РСА все еще корректен, если

M=D, и в этом случае не происходит уменьшение размерности, а выполняется

вращение осей координат для выравнивания с главными компонентами.

Наконец, стоит отметить, что существует тесно связанная техника линейного


уменьшения размерности, называемая каноническим корреляционным анализом,

или ССА (Hotelling, 1936; Bach and Jordan, 2002). Принимая во внимание, что
РСА работает с одной случайной величиной, ССА рассматривает две (или более)
переменные и пытается найти соответствующую пару линейных подпро­

странств, которые имеют высокую взаимную корреляцию, так что каждый из


компонентов в одном из подпространств коррелируется с одним компонентом из

другого подпространства. Его решение можно выразить через обобщенную за­


дачу на собственные векторы.

12.1.3. Применение метода РСА

Проиллюстрируем использование метода РСА на примере сжатия данных,


ограничив наше внимание набором данных о рукописных цифрах (см. прwтже­
ние А). Поскольку каждый собственный вектор ковариациоююй матрицы является

вектором в исходном D-мерном пространстве, мы можем представить собствен­


ные векторы в виде изображений того же размера, что и исходные точки. Первые

четыре собственных вектора вместе с соответствующими собственными значени­


ями показаны на рис. 12.3. График полного спектра собственных значений, отсор-
744 ГЛАВА 12. НЕПРЕРЫВНЫЕ ЛАТЕНТНЫЕ ПЕРЕМЕННЫЕ

тированных по убыванию, показан на рис. 12.4, а. Мера искажения J, связанная с


выбором конкретного значения М, определяется суммой собственных значений от
М + 1 до D и показана для различных значений М на рис. 12.4, б.
Среднее ..1.2 =2,8·10 5 ..1.3 = 2,4·105

Рис. 12.3. Вектор средних х вместе с первыми четырьмя собственными векторами РСА

u 1, . .. , u 4 для и зображений троек из набора данных о ру кописных цифрах вместе

с соответствующими собственными значениями . Синим цветом выдел ены

положительные значения , белым - нуль и желтым --- отрицательны е значения

х10 5 х10 6
з..----~---~---~---.

3 J
Л;
2
2

о \_
о 200 400 600 200 400 600 м
а) б)

Рис. 12.4. График спектра собственных значений изображений троек из набора

рукописных цифр (а). График суммы отброшенных собственных значений , который

представляет собой искажение суммы квадратов J , внесенное из-за прое цирования

данных н а главное подпространство компонентов раз мерности М (б)

Если подставить (12.12) и (12.13) в (12.10), то приближение РСА для вектора


данных Хп можно записать в виде

М D
хп =I(x~u;)u 1 + I (x~u;)u; = (12.19)
i=I i=M+\
м

=х+ I(x~u; -xтu; )u;. (12.20)


i=I

где мы использовали соотношение

D
х= I(xтu;)u;, (12.21)
i=I
12.1. Анализ главных компонентов 745

нытекающее из полноты {u;}. Это преобразование представляет собой сжатие

набора данных, потому что для каждой точки мы заменили D-мерный вектор х"
М-мерным вектором, имеющим компоненты х~ u; - х~ u; . Чем меньше значе­
ние М, тем больше степень сжатия. Примеры восстановления изображений троек
из набора рукописных цифр показаны на рис. 12.5.
Исходное
изображение М= 1 М= 10 М=50 М=250

rn Рис. 12.5. Оригинальный


rnшrn
пример рукописных цифровых данных вместе с их

реконструкциями по методу РСА , полученными путем сохранения М главных

компонентов для различных значений М. П о мере увеличения числа М реконструкция

становится более точн о й и идеал ьной при М = D = 28 х 28 = 784

Друтое применение анализа главных компонентов - предварительная обра­

ботка данных. В этом случае целью является не уменьшение размерности, а пре­


образование набора данных для стандартизации некоторых его свойств. Это мо­
жет быть важно для успешного применения последующих алгоритмов распозна­
вания образов. Как правило, это делается, когда исходные переменные
измеряются в различных единицах измерения или имеют существенно разную

изменчивость. Например, в наборе данных "Старый служака" (см. приложе-


11ие А) время между извержениями гейзера обычно на порядок больше, чем про­
должительность самого извержения . Применив алгоритм К-средних к этому
набору данных (см. раздел 9.1), мы сначала провели отдельное линейное по­
вторное масштабирование переменных так, чтобы каждая переменная имела ну­
левое математическое ожидание и единичную дисперсию. Эта процедура назы­
вается стандартизацией данных, и ковариационная матрица для стандартизиро­
ванных данных содержит компоненты

(12.22)

где и; - стандартное отклонение х;. Эта матрица называется корреляционной


матрицей исходных данных, и если два компонента Х; и х1 идеально коррелиро­
ваны, то Pu = 1, а если они некоррелированные, то Ри =О .
746 ГЛАВА 12. НЕПРЕРЫВНЫЕ ЛАТЕНТНЫЕ ПЕРЕМЕННЫЕ

Однако, используя метод РСА, мы можем сделать более существенную нор­


мализацию данных, чтобы они имели нулевое математическое ожидание и еди­
ничную ковариацию и вследствие этого различные переменные стали декорре­

лированными. Для этого сначала запишем уравнение относительно собственного


вектора (12.17) в виде
SU=UL, (12.23)
где L - диагональная матрица DxD с элементами Л;, а U- ортогональная
матрица DхD со столбцами U;. Затем мы определяем для каждой точки Хп пре­
образованное значение:

Уп
-- L-v2uт ( Хп -)
-Х ' (12.24)

где х - выборочное среднее, определенное формулой (12.1). Ясно, что множе­


ство {Уп} имеет нулевое математическое ожидание, и его ковариация задается
единичной матрицей, поскольку

1 f т - 1 L-1/2uT ( Хп-Х-)( Хп-Х_)т UL-1/2 --


-L,,YnYn--L,, f
N n=I N n=I (12.25)
= L-1/2uTsUL-1/2=L-1/2LГl/2=1.

Эта операция называется выбеливанием (whitening), или сферингом (sphereing)


данных, и показана для набора данных о гейзере "Старый служака" (см. nрШ10-
жение А) на рис. 12.6.

100 2 2
90
80
70 о о

60
50
-2 -2
40 ~-~--~--~
2 4 6 -2 о 2 -2 о 2

Рис. 12.6. Эффекты линейной предварительной обработки, примененные к набору

данных о гейзере "Старый служака". На графике слева показаны исходные данные. На

графике посередине показан результат стандартизации отдельных переменных с

нулевым математическим ожиданием и единичной дисперсией. Также показаны главные

оси этого нормализованного набора данных, нанесенные на график в диапазоне ±ЛУ 2 .


На графике справа показан результат выбеливания данных, которые в результате

получают нулевое математическое ожиданием и единичную ковариацию


12.1. Анализ главных компонентов 747

Интересно сравнить метод РСА с линейным дискриминантом Фишера, кото­


рый обсуждался в разделе 4.1.4. Оба метода могут рассматриваться как методы
уменьшения линейной размерности. Однако РСА не контролируется и зависит
только от значений хт тогда как линейный дискриминант Фишера также ис­
пользует информацию о метках класса. Это различие подчеркивается примером,
приведенным на рис. 12.7.

1,5 :-.. ..:·. : ...


. ··.·. ......" ··' "..·..- ... .: .
\
~.".".

0,5 ·. .. .. ...
о г~---:--:-----:-_j
-0,5 .. ... ..·
-1 ... :.::·:: { .~.=· "
. : .:!·, ....
- 1,5 .. ·...
-2~--------"--------.....__.
-5 о 5
Рис. 12.7. Сравнение анализа главных компонентов с линейным

дискриминантом Фишера для уменьшения линейной размерности.

Здесь данные в двух измерениях , принадлежащих двум классам, показанным

красным и синим цветами, должны проецироваться в одно измерение .

Метод РСА выбирает направление максимальной дисперсии , показанное пурпурной

кривой, что приводит к сильному перекрытию классов, в то время как линейный

дискриминант Фишера учитывает метки классов и приводит к проекции на зеленую

кривую , обеспечивающей намного лучшее разделение классов

Другое распространенное применение анализа главных компонентов - визу­

ализация данных. Здесь каждая точка данных проецируется на двумерное


(М = 2) главное подпространство, так что точка Хп строится в декартовых коор­
динатах, заданных векторами х~ u 1 и х~ u 2 , где u 1 и u 2 - собственные векторы,
соответствующие наибольшему и второму по величине собственным значениям.
Пример такого графика для набора данных о потоке нефти приведен на рис . 12.8
(см. прило3ке11ие А).
748 ГЛАВА 12. НЕПРЕРЫВНЫЕ ЛАТЕНТНЫЕ ПЕРЕМЕННЫЕ

Рис. 12.8. Визуализация набора данных о потоке нефти,

полученных путем проецирования данных на первые два главных компонента.

Красная, синяя и зеленая точки соответствуют ламинарной, однородной

и кольцевой конфигурациям потока соответственно

12.1.4. Метод РСА для многомерных данных

В некоторых приложениях анализа главных компонентов количество точек

меньше размерности пространства данных. Например, мы могли бы применить


РСА к набору данных, состоящему из нескольких сотен изображений, каждое из
которых соответствует вектору в пространстве потенциально нескольких мил­

лионов измерений (что соответствует трем значениям цвета для каждого из пик­

селей в изображении). Отметим, что в D-мерном пространстве набор из N точек,


гдеN < D, определяет линейное подпространство, размерность которого не пре­
восходит N - 1, и поэтому нет смысла применять метод РСА для значений М, ко­
торые больше, чем N - 1. Действительно, если мы применим метод РСА, то об­
наружим, что по крайней мере D - N + 1 из собственных значений равны нулю,
что соответствует собственным векторам, вдоль направлений которых набор
данных имеет нулевую дисперсию. Кроме того, типичные алгоритмы для
нахождения собственных векторов матрицыD х D имеют вычислительную сло­
жность порядка O(D\ и поэтому для приложений, таких, как пример с изобра­
жением, прямое применение РСА будет вычислительно неосуществимым.
Мы можем решить эту проблему следующим образом. Во-первых, опреде­
лим Х как (NхD)-мерную центрированную матрицу данных, п-я строка которой
определяется как ( хп - х)т. Затем ковариационную матрицу (12.3) можно запи-
12.2. Вероятностный метод РСА 749

сатъ как S = N- 1ХтХ, и соответствующее уравнение относительно собственного


вектора принимает вид

1 т
-Х Xu 1 =A.u .. (12.26)
N 1 1

Теперь предварительно умножим обе части на Х и получим уравнение

(12.27)

Если мы теперь определим v; = Xu;, то получим

1 т
-ХХ v 1 =A.v., (12.28)
N 1 1

1 т
которое является уравнением собственного вектора для матрицы !V ХХ раз-
мерностью N х N. Она имеет те же N - 1 собственных значений, что и исходная
ковариационная матрица (которая сама имеет дополнительные собственные зна­
чения D - N + 1, равные нулю). Таким образом, можно решить проблему соб­
ственных векторов в пространствах меньшей размерности с вычислительной
сложностью O(N3) вместо O(D\ Чтобы определить собственные векторы,
т
умножим обе части (12.28) на Х и получим уравнение

(12.29)

где вектор Хтv; является собственным вектором матрицы S с собственным зна­


чением Л ;. Отметим, однако, что эти собственные векторы не нужно нормиро­
вать. Чтобы определить подходящую нормировку, масштабируем вектор
u; ос Х тv; на постоянную, такую, что llu11 =1 , которая, в предположении, что
вектор v 1 нормализован к единице, приводит к выражению

1 т
U; = 1/2 Х Vi. (12.30)
(NЛ 1 )
т
Таким образом, чтобы применить этот подход, сначала вычисляем матрицу ХХ ,
затем находим ее собственные векторы и собственные значения, а затем вычисляем
собственные векторы в исходном пространстве данных, используя (12.30).

12.2. Вероятностный метод РСА

Формулировка РСА, обсуждаемая в предыдущем разделе, основана на ли­


нейной проекции данных на подпространство меньшей размерности, чем исход-
750 ГЛАВА 12. НЕПРЕРЫВНЫЕ ЛАТЕНТНЫЕ ПЕРЕМЕННЫЕ

ное пространство данных. Теперь покажем, что метод РСА также можно выра­
зить с помощью принципа максимального правдоподобия к вероятностной мо­
дели латентных переменных. Эта переформулировка РСА, известная как веро­
ятностный РСА, дает несколько преимуществ по сравнению с обычным мето­

дом РСА.

• Вероятностная модель РСА представляет собой ограниченную форму


нормального распределения, в которой количество свободных параметров
может быть ограничено, позволяя в то же время модели фиксировать до­
минирующие корреляции в наборе данных.
• Мы можем вывести ЕМ-алгоритм для модели РСА, который вычисли­
тельно эффективен в ситуациях, когда требуется только несколько веду­
щих собственных векторов, что исключает необходимость оценки кова­
риационной матрицы данных в качестве промежуточного этапа (с.и. рю­
дел 12.2.2).
• Сочетание вероятностной модели и ЕМ позволяет иметь дело с отсут­
ствующими значениями в наборе данных.
• Смеси вероятностных моделей РСА могут быть строго сформулированы
и обучены с помощью ЕМ-алгоритма.
• Вероятностная модель РСА образует основу для байесовского подхода
к РСА, в котором размерность главного подпространства может быть ав­
томатически выведена из данных (см. раздел 12.2.3).
• Наличие функции правдоподобия позволяет проводить прямое сравнение с
другими вероятностными моделями плотности. В отличие от этого, обыч­
ный метод РСА требует небольших затрат на восстановление точек исход­
ных данных, которые находятся близко к главному подпространству, даже
если они расположены произвольно далеко от обучающих данных.
• Вероятностную модель РСА можно использовать для моделирования
условных плотностей классов и, следовательно, применять к задачам

классификации.
• Вероятностная модель РСА может быть использована для генерации вы­
борок с заданным распределением.

Эта формулировка РСА как вероятностной модели бьmа предложена незави­


симо в работе Тipping and Bishop (1997, 1999Ь) иRoweis (1998). Как мы увидим
позже, она тесно связана с факторным анш~изо.м (Basilevsky, 1994).
Вероятностная модель РСА является простым примером линейно-гауссовой
модели, в которой все маргинальные и условные распределения являются нор-
12.2. Вероятностный метод РСА 751

мальными. Мы можем сформулировать вероятностный метод РСА, сначала вве­


дя явную латентную переменную z, соответствующую подпространству глав­

ных компонентов. Затем определим нормальное априорное распределение p(z)


по латентной переменной вместе с нормальным условным распределением

p(xlz) для наблюдаемой переменной х при заданном значении латентной пере­


менной. В частности, априорное распределение по z является нормальным рас­

пределением с нулевым математическим ожиданием и единичной ковариацией:

p(z) = N(z 10, 1). (12.31)

Аналогично условное распределение наблюдаемой переменной х, обуслов­


ленное значением латентной переменной z, также является нормальным:

p(xlz) =N(xlWz + µ, (,.21), (12.32)

в котором матемаmческое ожидание переменной х является общей линейной


функцией от z, определяемой матрицей D хМ и D-мерным векторомµ. Обратите
внимание, что она факторизируется по элементам х, иначе говоря, это пример
наивной байесовской модели ((~'11. раздел 8.2.2). Как мы вскоре увидим, столбцы
матрицы W образуют линейное подпространство в пространстве данных, которое
соответствует главному подпространству. Другим параметром в этой модели
п
является скаляр cr 2, определяющии дисперсию
v
условного распределения. редпо-

ложение о том, что распределение латентной переменной p(z) является нормаль­


ным распределением с нулевым математическим ожиданием и единичной ковариа­

цией, не приводит к потере общности, поскольку более общее нормальное распре­


деление приведет к эквивалентной вероятностной модели (с.:.м. упражнение 12.4).
Мы можем рассмотреть вероятностную модель РСА с точки зрения порожда­

ющего подхода, в котором выборочное значение наблюдаемой переменной полу­


чается путем выбора значения латентной переменной с последующим выбором
наблюдаемой переменной при фиксированном латентном значении. В частности,
D-мерная наблюдаемая переменная х определяется линейным преобразованием
М-мерной латентной переменной z, к которой добавлен нормально распреде­
ленный шум, так что
x=Wz+µ+e, (12.33)

где z - М-мерная латентная нормально распределенная переменная, а & -

D-мерная переменная шума с нормальным распределением, имеющим нулевое


математическое ожидание и ковариацию а 2 1. Этот порождающий процесс пока­
зан на рис. 12.9. Обратите внимание, что этот подход основан на отображении
752 ГЛАВА 12. НЕПРЕРЫВНЫЕ ЛАТЕНТНЫЕ ПЕРЕМЕННЫЕ

латентного пространства в пространство данных, в отличие от более традицион­


ного представления метода РСА, рассмотренного выше. Обратное отображение
из пространства данных в латентное пространство будет вскоре получено с по­
мощью теоремы Байеса.

µ
, , ""
" •
,, р( х)
,,
,,
,,
i z

Рис. 12.9. Порождающее представление вероятностной модели РСА для двумерного

пространства данных и одномерного латентного пространства. Наблюдаемая точках

генерируется путем извлечения значения i для латентной переменной из генеральной

совокупности с априорным распределением p(z), а затем с помощью извлечения значения

х из генеральной совокупности с изотропным нормальным распределением (показано

красными кружками), имеющем математическое ожидание wi +µ,и ковариацией о- 2 1.


Зеленые эллипсы показывают контуры плотности для маргинального распределенияр(х)

Предположим, мы хотим определить значения параметров W, µи а 2 с помо­


щью принципа максимального правдоподобия. Чтобы записать функцию прав­
доподобия, необходимо выражение для маргинального распределения р(х)

наблюдаемой переменной. Оно следует из правил сложения и умножения веро­


ятностей:

J
р(х)= p(xlz)p(z)dz. (12.34)

Поскольку это маргинальное распределение соответствует линейно­

гауссовской модели, оно снова является нормальным (см. упражнение 12. 7):

p(z) = N(x[µ, С), (12.35)

где ковариационная матрица С размерностью D хD определяется как

с= wwт + 0"21. (12.36)


12.2. Вероятностный метод РСА 753

Этот результат также можно получить непосредственно, если заметить, что


прогностическое распределение будет нормальным, а затем вычислить его мате­
матическое ожидание и ковариацию с помощью формулы (12.33). Это дает сле­

дующие выражения:

IFJ[x] = IFJ[Wz + µ + &] = µ, (12.37)

cov[x] = IFJ[(Wz + s)(Wz + е)т] =


= IFJ[WzzтWт] + IE[et?] = wwт + а-2 1, (12.38)
где мы использовали тот факт, что z и & являются независимыми случайными

величинами и, следовательно, некоррелированными.

Интуитивно понятно, что распределение р(х) можно представить как "аэро­


зольный баллончик" с изотропным нормальным распределением, который пе­
ремещается по главному подпространству, распыляя нормально распределен-
~ 2
ные чернильные точки с плотностью, определяемои параметром а и взвешен-

ной по априорному распределению. Кумулятивная плотность чернил приводит


к распределению в форме "блинов", представляющему маргинальную плот­
ность р(х).
Прогностическое распределение р(х) определяется параметрамиµ, W и а- 2 •
Однако в этой параметризации имеется избыточность, соответствующая поворо­
там латентных пространственных координат. Чтобы увидеть это, рассмотрим
матрицу W= WR , где R- ортогональная матрица. Используя свойство орто-
т - - т
гональности RR = 1, мы видим, что матрица WW , которая появляется в кова-
риационной матрице С, принимает вид

(12.39)

и, следовательно, не зависит от R. Таким образом, существует целое семейство


матриц W, которые дают одинаковое прогностическое распределение. Эту ин­

вариантность можно понять с точки зрения вращений в латентном пространстве.


Мы еще вернемся к обсуждению числа независимых параметров в этой модели.
Когда мы оцениваем прогностическое распределение, нам нужна матрица С~ 1 ,
что подразумевает обращение матрицы DxD. Объем вычислений, необходимых

для этого, можно уменьшить путем использования тождества Вудбери (В.7):

(12.40)
754 ГЛАВА 12. НЕПРЕРЫВНЫЕ ЛАТЕНТНЫЕ ПЕРЕМЕННЫЕ

где матрица Мх М определяется как

M=WтW+ а 2М- 1 • (12.41)


Поскольку мы инвертируем матрицу М, а не С, вычислительная сложность вы­
числения матрицы с- 1 снижается с O(D3) до О(М 3 ).
Помимо прогностического распределения р(х), нам также потребуется апосте­
риорное распределениер(zlх), которое можно снова записать напрямую, исполь­
зуя результат (2.116) для линейно-гауссовских моделей (см. упраж11е11ие 12.8):

(12.42)

Обратите внимание, что апостериорное математическое ожидание зависит


от х, тогда как апостериорная ковариация не зависит от х.

12.2.1. Метод РСА с максимальным правдоподобием


Рассмотрим определение параметров модели с помощью принципа макси­

мального правдоподобия . При заданном множестве наблюдаемых точек Х = {х"}


вероятностная модель РСА может быть выражена в виде ориентированного гра­
фа, как показано на рис. 12.10. Соответствующая логарифмическая функция
правдоподобия определяется из (12.35) как

N
lnp(XIµ, W,a 2 ) = L:lnp( x"IW,µ,a 2 ) =
n=l (12.43)
ND N 1 N т -1
=--ln21l'--1nlCl-- L(x" -µ) С (х" -µ).
2 2 2 n=I

14-+--- W
N
Рис. 12.10. Вероятностная модел ь РСА для набора данных, состоящего

из N наблюдений переменной х, может быть выражена в виде ориентированного графа,

в котором каждое наблюдение х" связано со значением латентной переменной z"


12.2. Вероятностный метод РСА 755

Приравнивая производную логарифмической функции правдоподобия по µ к


нулю, получаем ожидаемый результат: µ =х , где х - среднее значение дан­

ных, определенное по формуле (12.1). После замены логарифмическую функ­


цию правдоподобия можно записать в виде

lnp(XIµ, w,a 2 ) =- ~ {Dln2tr + lnlCI + тr( c- 1s )}, (12.44)

где S- ковариационная матрица данных, определяемая по формуле (12.3). По­


скольку логарифмическая функция правдоподобия является квадратичной
функцией отµ, это решение является единственным максимумом, что можно
подтвердить вычислением вторых производных.

Максимизация по W и а 2 более сложная, но, тем не менее, имеет точное ре­


шение в замкнутой форме. Tipping and Bishop (1999Ь) показали, что все стацио­
нарные точки логарифмической функции правдоподобия можно записать в виде

WмL = Uм(Lм - a 21) 112 R, (12.45)


где Uм - матрица размерностью D х М, столбцы которой задаются любым под­
множеством (размера М) собственных векторов ковариационной матрицы S,
диагональная матрица Lм размерностью МхМ имеет элементы, заданные соот­
ветствующими собственными значениями А.;, а R - произвольная ортогональ­
ная матрица размерностью М х М.
Кроме того, Tipping and Bishop (1999Ь) показали, что максимум функции
правдоподобия достигается, когда М собственных векторов выбираются так, что
соответствующие им М собственных значений больше остальных (все другие
решения являются седловыми точками). Подобный результат был предположен
независимо в работе Roweis ( 1998), хотя никаких доказательств приведено не
было.
Как и ранее, будем предполагать, что собственные векторы расположены в
порядке убывания значений соответствующих собственных значений, так что

главные собственные векторы М имеют вид u 1, "" Uм В этом случае столбцы W


определяют главное подпространство стандартной модели РСА. Тогда соответ­
ствующее решение, полученное по методу максимального правдоподобия, опре­
деляется как

2 1 D
О'МL =
D-M i=M+l
L. А;, (12.46)

так что а~ - средняя дисперсия, связанная с отброшенными измерениями.


756 ГЛАВА 12. НЕПРЕРЫВНЫЕ ЛАТЕНТНЫЕ ПЕРЕМЕННЫЕ

Поскольку матрица R является ортогональной, ее можно интерпретировать


как матрицу вращения в М-мерном латентном пространстве. Если мы подставим
решение для матрицы W в выражение для матрицы С и воспользуемся свой-
т
ством ортогональности RR = 1, то увидим, что матрица С не зависит от матри-
цы R. Это говорит о том, что прогностическая плотность не изменяется при по­
воротах в латентном пространстве, как говорилось ранее. Для частного случая
R = 1 мы видим, что столбцы W являются собственными векторами главных

компонентов, масштабируемыми по параметрам дисперсии ~ Лi - а 2 • Интерпре­


тация этих масштабных коэффициентов становится ясной, если учесть тот факт,
что для свертки независимых нормальных распределений (в данном случае ла­
тентного пространственного распределения и модели шума) дисперсии являются
аддитивными. Таким образом, дисперсия Лi в направлении собственного вектора
2
ui состоит из суммы вклада Лi - а от проекции распределения латентного про-
странства с единичной дисперсией в пространство данных через соответствую­

щий столбец W и изотропного дисперсионного вклада а 2 , который добавляется


во всех направлениях моделью шума.

Стоит потратить немного времени на изучение формы ковариационной мат­


рицы, заданной формулой (12.36). Рассмотрим дисперсию прогностического
распределения вдоль некоторого направления, заданного единичным вектором v,
т т
где v v = 1, которая равна v Cv. Сначала предположим, что вектор v ортогона-
лен главному подпространству, иначе говоря, он задается некоторой линейной

комбинацией отброшенных собственных векторов. Тогда vтU =О и, следова-


тельно, v т Cv = а 2. Таким о б разом, модель предсказывает дисперсию шума, ор-
тогональную к главному подпространству, которое с учетом формулы (12.46)
является средним из отброшенных собственных значений. Теперь предположим,
что v = ui, где ui- один из оставшихся собственных векторов, определяющих
т 2 2
главное подпространство. Тогда v Cv = (Лi - а )+ а = Лi. Иначе говоря, эта
модель правильно фиксирует дисперсию данных вдоль главных осей и аппрок­
симирует дисперсию во всех остальных направлениях с помощью одного сред­

него значения а 2 •
Построить модель плотности на основе принципа максимального правдопо­

добия можно было бы, найдя собственные векторы и собственные значения ко-
~
вариационнои матрицы данных, а затем вычислив
w и а
2
, используя результа-
ты, приведенные выше. В этом случае мы бы выбрали R = 1 для удобства. Одна­
ко, если решение с максимальным правдоподобием вычисляется путем
численной оптимизации функции правдоподобия, например, с помощью алго-
12.2. Вероятностный метод РСА 757

ритма, такого как метод сопряженных градиентов (Fletcher, 1987; Nocedal and
Wright, 1999; Bishop and Section 12.2.2 Nabney, 2008), или с помощью ЕМ­
алгоритма, то результирующая матрица R по существу произвольна. Это означа­
ет, что столбцы матрицы W не обязательно должны быть ортогональными. Если
требуется ортогональный базис, матрица W может быть должным образом обра­
ботана (Golub and Van Loan, 1996). Альтернативно ЕМ-алгоритм можно модифи­
цировать таким образом, чтобы получать ортонормированные главные направле­
ния, отсортированные непосредственно в порядке убывания соответствующих
собственных значений (Ahn and Oh, 2003).
Вращательная инвариантность в латентном пространстве представляет собой
форму статистической неидентифицируемости, аналогичную той, которая
встречается для смесей в случае дискретных латентных переменных. Здесь су­
ществует континуум параметров, каждый из которых приводит к одной и той же
прогностической плотности, в отличие от дискретной неидентифицируемости,
связанной с перемаркировкой компонентов в смеси.
Если мы рассмотрим случай М = D, т.е. уменьшения размерности нет, то

Uм = U и Lм = L. Используя свойства ортогональности UUт = 1 и RRт = 1, мы


видим, что ковариация С маргинального распределения х принимает вид

(12.47)
и, таким образом, мы получаем стандартное решение максимального правдопо­
добия для неограниченного нормального распределения, в котором ковариаци­

онная матрица задается выборочной ковариацией.


Обычный метод РСА обычно формулируется как проекция точек из D-мер­
ного пространства данных на М-мерное линейное подпространство. Однако ве­
роятностный РСА наиболее естественно выражается как отображение из латент­
ного пространства в пространство данных через формулу (12.33). Для таких
приложений, как визуализация и сжатие данных, мы можем вычислить обратное
отображение, используя теорему Байеса. Любая точка х в пространстве данных
может быть затем представлена апостериорным математическим ожиданием и
ковариацией в латентном пространстве. Из формулы (12.42) следует, что мате­
матическое ожидание определяется как

IE[ zlx] = м- 1 w~L (х-х), (12.48)


758 ГЛАВА 12. НЕПРЕРЫВНЫЕ ЛАТЕНТНЫЕ ПЕРЕМЕННЫЕ

где матрица М определяется по формуле (12.41). Это математическое ожидание


проецируется в точку из пространства данных по формуле

WE[zlx] + µ. (12.49)

Это выражение принимает ту же форму, что и в уравнении для регуляризо­


ванной линейной регрессии, и является следствием максимизации функции
правдоподобия для линейной гауссовской модели. Аналогично апостериорная
ковариация задается по формуле (12.42) как и2 М- 1 и не зависит от х (см. раз­
дел 3.3.1).
Если мы перейдем к пределу при ст2 ~О, то математическое ожидание сведет­
ся к выражению

т
( WмL т (
)-\ WмL -) (12.50)
WМL х-х '

которое представляет ортогональную проекцию точки на латентное простран­

ство, поэтому мы получим стандартную модель РСА (см. упражнение 12.11).


Однако апостериорная ковариация в этом пределе равна нулю, и плотность ста­
новится сингулярной. При и 2 > О латентная проекция смещается в сторону нача­
ла координат относительно ортогональной проекции (см. упраJ1сне11ие 12. 12).
Наконец, отметим, что важная роль вероятностной модели РСА заключается
в определении многомерного нормального распределения, в котором количество

степеней свободы, иначе говоря, количество независимых параметров, можно


контролировать, все еще позволяя модели отображать доминирующие корреля­
ции в данных. Напомним (см. раздел 2.3), что общее нормальное распределение
имеет D(D+ 1)12 независимых параметров в ковариационной матрице (плюс еще
D параметров в ее векторе математического ожидания). Таким образом, количе­
ство параметров квадратично зависит от величины D и может стать чрезмерным
в пространствах высокой размерности. Если мы ограничим вид ковариационной
матрицы и будем считать ее диагональной, то она будет иметь только D незави­
симых параметров, и поэтому количество параметров теперь растет линейно
в зависимости от размерности. Однако теперь она использует предположение
о независимости переменных и, следовательно, больше не может выражать ка­
кие-либо корреляции между ними. Вероятностный метод РСА обеспечивает эле­
гантный компромисс, в котором можно зафиксировать М наиболее значимых
корреляций, гарантируя, что общее количество параметров всего лишь линейно
зависит от D. Мы можем убедиться в этом, оценивая число степеней свободы
в вероятностной модели РСА следующим образом. Ковариационная матрица С
2
зависит от параметров матрицы W, которая имеет размерность D х М, и и , еле-
12.2. Вероятностный метод РСА 759

дователъно, общее количество параметров равно DM + 1. Однако мы видели,


что в этой параметризации есть некоторая избыточность, связанная с поворота­
ми системы координат в латентном пространстве. Ортогональная матрица R,
выражающая эти повороты, имеет размерность М х М. В первом столбце этой
матрицы есть М- 1 независимых параметров, потому что вектор-столбец должен
быть нормирован и его длина должна быть равна единице. Во втором столбце есть
М- 2 независимых параметров, потому что этот столбец должен быть нормиро­
ван и также должен быть ортогональным к предыдущему столбцу и т.д. Сумми­
руя эту арифметическую прогрессию, мы видим, что матрица R имеет в общей
сложности М(М-1)12 независимых параметров. Таким образом, число степеней
свободы в ковариационной матрице С определяется как

DM+ 1-М(М-1)12. (12.51)


Таким образом, количество независимых параметров в этой модели растет всего

лишь линейно в зависимости от увеличения D при фиксированном М. Если мы


возьмем M=D-1, то получим стандартный результат для полной ковариации
нормального распределения. В этом случае дисперсия вдоль D- 1 линейно неза­
висимых направлений зависит от столбцов W, а дисперсия вдоль оставшегося
направления задается как а2 • Если М= О, то модель эквивалентна случаю изо­
тропной ковариации (см. ynpaJ1c11e11ue 12.14).

12.2.2. ЕМ-алгоритм для модели РСА


Как мы видели, вероятностная модель РСА может быть выражена через мар­
гинализацию по непрерывному латентному пространству z, в котором для каж­

дой точки хп существует соответствующая латентная переменная Zn. Следова­


тельно, мы можем использовать ЕМ-алгоритм для нахождения оценок макси­

мального правдоподобия параметров модели. Это может показаться довольно


бессмысленным, поскольку мы уже получили точное решение в замкнутой фор­
ме для значений параметров максимального правдоподобия. Однако в простран­
ствах с высокой размерностью с вычислительной точки зрения бывает выгоднее
использовать итерационную процедуру ЕМ-алгоритма, а не работать непосред­
ственно с выборочной ковариационной матрицей. Эту ЕМ-процедуру можно
также распространить на модель факторного анализа, для которой не существует
решения в замкнутой форме. Наконец, она позволяет разумным образом обраба­
тывать пропущенные данные (см. разде.'t 12.2.4).
760 ГЛАВА 12. НЕПРЕРЫВНЫЕ ЛАТЕНТНЫЕ ПЕРЕМЕННЫЕ

Мы можем вывести ЕМ-алгоритм для вероятностной модели РСА, следуя


общему подходу (см. раздел 9.4). Для этого записываем логарифмическую фун­
кцию правдоподобия при полных данных и вычисляем ее математическое ожи­
дание относительно апостериорного распределения, соответствующего латент­

ной переменной, вычисленного с помощью старых значений параметров. Затем


максимизация этого математического ожидания логарифмической функции
правдоподобия при полных данных дает новые значения параметров. Поскольку
точки предполагаются независимыми, логарифмическая функция правдоподо­
бия при полных данных принимает вид
N
lnp(X,ZIµ, W,a 2 ) = L {tnp(xnlzn )+ lnp(zп )}, (12.52)
п;\

где п-я строка матрицы Z определяется как Zn. Мы уже знаем, что точное решение
по методу максимального правдоподобия для µ задается выборочным средним
значением х, определяемым формулой (12.1), и на этом этапе значениеµ удобно
заменить. Используя выражения (12.31) и (12.32) для латентного и условного рас­
пределений соответственно и вычисляя математическое ожидание относительно
апостериорного распределения по латентным переменным, получим

Е[ lnp( X,ZIµ, W,a J= - ~ { ~ tn( 2JТа2 ) +-i тr(Е[ znz~J) +


2
)

+~llxn -µ11 2 -~JE[ zп]т wт (хп -µ) + (12.53)


2а а

+ 2 ~ 2 тr(Е[ znz~Jwтw) + ~ ln2JТ }·


Это математическое ожидание зависит от апостериорного распределения только

через достаточную статистику нормального распределения. Таким образом, на

Е-шаге мы используем старые значения параметров для оценки:

1Е[zп]=м- 1 wт (хп -х), (12.54)

Е[ znz~] = а 2 М- 1 + Е[ zn ]Е[ zn ]т, (12.55)

которые следуют непосредственно из апостериорного распределения (12.42) вмес­


те со стандартным результатом E[znz~J=cov[zп]+E[zп]JE[zп]т. Здесь матри­
ца М определяется по формуле (12.41).
12.2. Вероятностный метод РСА 761

На М-шаге выполняем максимизацию по W и а 2 , сохраняя апостериорную ста­


тистику фиксированной. Максимизация по а 2 проста. Для максимизации по W
мы используем формулу (В.24) и получаем М-шаговые уравнения (см. упражне­
ние 12.15):

(12.56)

(12.57)

ЕМ-алгоритм для вероятностной модели РСА вьmолняется путем инициализа­


ции параметров, а затем поочередного вычисления достаточной статистики апо­

стериорного распределения в латентном пространстве с помощью формул (12.54)


и (12.55) на Е-шаге и уточнения значений параметров с помощью формул
(12.56) и (12.57) на М-шаге.
Одним из преимуществ ЕМ-алгоритма для модели РСА является вычислитель­

ная эффективность в крупномасштабных приложениях (Roweis, 1998). В отличие


от обычного метода РСА, основанного на разложении по собственному вектору
выборочной ковариационной матрицы, ЕМ-подход является итеративным и пото­
му может показаться менее привлекательным. Тем не менее в пространствах вы­
сокой размерности каждый цикл ЕМ-алгоритма может бьrгь вычислительно
намного более эффективным, чем обычный метод РСА. Чтобы убедиться в этом,
отметим, что сложность разложения ковариационной матрицы по собственным
векторам имеет порядок O(D\ Часто нас интересуют только первые М собствен­
ных векторов и их соответствующие собственные значения, и в этом случае можно
использовать алгоритмы, имеющие сложность O(MD2). Однако оценка самой ко­
вариационной матрицы требует O(ND2) вычислений, где N - количество исход­
ных точек. Алгоритмы, такие как метод моментального снимка (Sirovich, 1987),
которые предполагают, что собственные векторы являются линейными комбина­
циями векторов исходных данных, избегают прямого вычисления ковариационной
матрицы, но имеют сложность O(N 3) и, следовательно, не подходят для больших
наборов данных. Описанный здесь ЕМ-алгоритм также не использует ковариаци­
онную матрицу явным образом. Вместо этого наиболее сложными в вычислитель­
ном отношении являются этапы, включающие суммирование по набору данных,
сложность которых имеет порядок O(NDМ). Для больших D и М « D это может
762 ГЛАВА 12. НЕПРЕРЫВНЫЕ ЛАТЕНТНЫЕ ПЕРЕМЕННЫЕ

быть значительной экономией по сравнению с O(ND2) и может компенсировать


итерационную природу ЕМ-ашоритма.
Обратите внимание на то, что ЕМ-ашоритм может быть реализован в последова­
тельном режиме, в котором каждая точка D-мерных данных считъmается и обраба­
тьmается, а затем отбрасьmается до рассмотрения следующей точки. Чтобы увидеть
это, обратите внимание на то, что величины, вычисленные на Е-шаге (М-мерный
вектор и матрица Мх М), моrут быть вычислены для каждой точки отдельно, а на
М-шаге нам необходимо накопить суммы по точкам, что мы можем сделать посте­
пенно. Этот подход может быть выгодным, если числа N и D большие.
Поскольку теперь у нас есть полностью вероятностная модель РСА, мы мо­
жем справиться с отсутствующими данными, при условии, что они отсутствуют

по случайным причинам, путем маргинализации по распределению ненаблюда­


емых переменных. Как и прежде, эти пропущенные значения могут быть обра­
ботаны с помощью ЕМ-алгоритма. Пример использования этого подхода для ви­
зуализации данных приведен на рис. 12.11.

х~ х~

х+х .._ +++ 11+1.


+
'
-,:нг +*'-+"4-if..._,
-i,;-t:..
-...т-r
х
-
х
+ 1--f.t :;!·+ ~
+-fl!- • xx>t~
х х
х
1( х

х~
х

Рис. 12.11. Визуализация части набора данных о потоке нефти для первых

100 точек данных в рамках модели РСА. На левой диаграмме показаны

средние апостериорные проекции точек на гла вное подпространство.

Правая диаграмма получается сначала путем случайного пропуска 30% значений


переменных, а затем обработки пропущенных значений с помощью ЕМ-алгоритма.

Каждая точка имеет по крайней мере одно пропущенное измерение , но график очень

похож на тот, который получен без пропущенных значений


12.2. Вероятностный метод РСА 763

Еще одна изящная особенность ЕМ-подхода заключается в том, что мы можем


перейти к пределу при а2 ~О, что соответствует стандартному методу РСА, и
при этом получить корректный ЕМ-подобный алгоритм (Roweis, 1998). Из фор­
мулы (12.55) видно, что единственная величина, которую нужно вычислить на
Е-шаге, - это Е[zп]. Кроме того, М-шаг упрощается, потому что М = WтW.
Чтобы подчеркнуть простоту алгоритма, определим матрицу Х размерностью
NxD, п-я строка которой задана вектором xn -х, и аналогично определим мат­
рицу !1 размерностью Мх N, п-й столбец которой задается вектором Е[zп].
В этом случае Е-шаг (12.54) ЕМ-алгоритма для модели РСА принимает вид

т -т
n = ( wo\dт wo\d )-\ woldx ' (12.58)
а М-шаг (12.56) - такой вид:
-т т ( fi.(} т )-\ .
Wnew =Х .(1 (12.59)

Как и прежде, они могут быть реализованы в последовательном режиме. Эти


уравнения имеют простую интерпретацию. Из предыдущего обсуждения выте­
кает, что Е-шаг включает в себя ортогональную проекцию исходных точек на
текущее приближение главного подпространства. Соответственно, М-шаг пред­
ставляет собой уточнение главного подпространства, цель которого - миними­

зировать квадратичную ошибку реконструкции, в которой проекции фиксирова­


ны (c.w. ynpaJн:1te11 ие 12.17).
Мы можем привести простую физическую аналогию для этого ЕМ­
алгоритма, которая легко визуализируется для D=2 и М = 1. Рассмотрим набор

точек данных в двух измерениях, и пусть одномерное главное подпространство

будет представлено сплошным стержнем. Прикрепим каждую исходную точку к


стержню с помощью пружины, подчиняющейся закону Гука (накопленная энер­
гия пропорциональна квадрату длины пружины). На Е-шаге мы фиксируем
стержень и позволяем точкам креrшения скользить вверх и вниз по стержню,

чтобы минимизировать энергию. Это заставляет каждую точку креrшения (неза­


висимо) позиционировать себя в ортогональной проекции соответствующей ис­
ходной точки на стержень. На М-этапе фиксируем точки крепления, а затем от­
пускаем стержень и позволяем ему переместиться в положение минимальной
энергии. Затем Е- и М-шаги повторяются до тех пор, пока не будет удовлетворен
подходящий критерий сходимости, как показано на рис. 12.12.
764 ГЛАВА 12. НЕПРЕРЫВНЫЕ ЛАТЕНТНЫЕ ПЕРЕМЕННЫЕ

2 а) 2 2

о о о

-2 -2 -2

-2 о 2 -2 о 2 -2 о 2

2 г) 2 д) / 2 е) /
\
,,...,,,.. ,/ ,/
\ ......\ }
о
1/\ о '/"
о
\ .-- ' \ , \
" \

-2 -2 / -2 /
-2 о 2 -2 о 2 -2 о 2

Рис. 12.12. Искусственные данные , иллюстрирующие ЕМ-алгоритм для модели РСА,

определяемой формулами (12.58) и (12.59): набор данных Х с исходными точками,

показанными зеленым цветом, вместе с истинными главными компонентами,

показанными как собственные векторы, масштабированные квадратными корнями из

собственных значений (а) ; начальная конфигурация главного подпространства,

определенного матрицей W, показанная красным цветом, вместе с проекциями

латентных точек Z в пространство данных при фиксированной матрице zwт,


показанных синим цветом (б); после одного М-шага латентное пространство уточняется ,

а матрица Z остается фиксированной (в); после следующего Е-шага матрица Z


уточняется , давая ортогональные проекции при фиксированной матрице W (г);

после второго М-шага (д); сходящееся решение (е)

12.2.3. Байесовская модеnь РСА

До сих пор в обсуждении метода РСА мы предполагали, что размерность М


главного подпространства задана. На практике следует выбирать подходящее
значение в зависимости от приложения. Для визуализации мы обычно выбираем
М = 2, тогда как для других приложений подходящий выбор М может быть ме­
нее ясным. Один из подходов состоит в том, чтобы построить спектр собствен­
ных значений для набора данных (аналогично примеру на рис. 12.4 для набора
рукописных цифр) и посмотреть, образуют ли собственные значения две груп­
пы, состоящие из набора небольших значений, разделенных значительным рас-
12.2. Вероятностный метод РСА 765

стоянием от набора относительно больших значений, что указывает на есте­


ственный выбор М. На практике такой разрыв часто не наблюдается.
Поскольку вероятностная модель РСА имеет четко определенную функцию
правдоподобия (см. раздел 1.3), мы могли бы использовать перекрестную проверку
для определения значения размерности, выбирая наибольшее значение логарифми­
ческой функции правдоподобия в контрольном множестве. Такой подход, однако,
может стать вычислительно сложным, особенно если мы рассмотрим вероятност­
ную смесь моделей РСА (Тipping and Bishop, 1999), в которой пытаемся определить
соответствующую размерность отдельно для каждого компонента в смеси.

Учитывая, что у нас есть вероятностная формулировка РСА, кажется есте­


ственным поискать байесовский подход к выбору модели. Для этого необходимо
изолировать параметры модели µ, W и cr 2 от соответствующих априорных рас­
пределений. Это может быть сделано с помощью вариационного подхода к ап­
проксимации аналитически трудноразличимых маргинализаций (Bishop, 1999Ь ).
Значения маргинального правдоподобия, заданные вариационной нижней гра­
ницей при разных значениях М, можно сравнить со значением, обеспечивающим
наибольшее маргинальное правдоподобие.
Здесь мы рассмотрим более простой подход, основанный на аппроксимации сви­
детельств в пользу модели, который приемлем, когда количество исходных точек
относительно велико, а соответствующее апостериорное распределение имеет рез­

кие пики (Вishop, 1999а). Он включает в себя конкретный выбор априорного рас­
пределения по W, которое позволяет исключить из модели избыточные размерно­
сти в главном подпространстве. Это соответствует методу автоматического опре­
деления релевантности, или ARD, который обсуждается в разделе 7.2.2. В част­
ности, мы определяем независимое нормальное распределение для каждого столбца
матрицы W, которое представляет векторы, определяющие главное подпростран­

ство. Каждое такое нормальное распределение имеет независимую дисперсию,


управляемую точным ГЮiерпараметром, так что

М ( 5_ )D/2 ехр {--a;wJw;


p(Wia)= П 1 }, (12.60)
j;\ 2tr 2
где w; - i-й столбец матрицы W. Полученная модель может быть представлена
с помощью ориентированного графа, показанного на рис. 12.13.
Значения для а; будут найдены итеративно путем максимизации функции
маргинального правдоподобия, интегрируемой по W. В результате этой оптими­
зации некоторые из значений а; могут быть сведены к бесконечности, при этом
соответствующий вектор параметров W; будет сведен к нулю (апостериорное
распределение становится дельта-функцией, сосредоточенной в начале коорди-
766 ГЛАВА 12. НЕПРЕРЫВНЫЕ ЛАТЕНТНЫЕ ПЕРЕМЕННЫЕ

нат), что дает разреженное решение. Эффективная размерность главного под­


пространства определяется затем числом конечных значений lXj, а соответству­
ющие векторы w; можно рассматривать как релевантные для моделирования

распределения данных. Таким образом, байесовский подход автоматически раз­


решает компромисс между улучшением аппроксимации данных за счет больше­
го количества векторов W; с соответствующими им собственными значениями А.;,
каждое из которых согласовано с данными, и уменьшением сложности модели

за счет исключения некоторых из векторов W;. Причины этой разреженности об­


суждались ранее в контексте метода релевантных векторов.

w
N

Рис. 12.13. Вероятностная графическая модель для байесовской модели РСА, в которой

распределение по матрице параметров W определяется вектором гиперпараметров

Значения а; уточняются во время обучения путем максимизации маргиналь­


ной вероятности (см. раздел 7.2):

p(Xla,µ,a 2 ) =Jp(XIW,µ,a 2 )p(Wla)dW, (12.61)

где логарифм распределения p(XIW, µ, а2 ) определяется выражением (12.43).


Обратите внимание на то, что для простоты мы также рассматриваем µ и а 2 как
оцениваемые параметры, а не определяем априорные распределения по этим па­

раметрам.

Поскольку это интегрирование аналитически неразрешимо, мы используем

аппроксимацию Лапласа (см. раздел 4.4). Если предположить, что апостериор­


ное распределение резко достигло пика, как это будет происходить для доста­
точно больших наборов данных, то уравнения для уточнения, полученные путем
максимизации маргинальной вероятности относительно а;, примут простую
форму (см. раздел 3.5.3):

(12.62)

что следует из (3.98), учитывая, что размерность вектора w; равна D. Эти уточ­
нения чередуются с уточнениями алгоритма ЕМ для определения матрицы W
12.2. Вероятностный метод РСА 767

и параметра и 2 • Е-шаг снова задается формулами (12.54) и (12.55). Аналогично


М-шаг для и 2 снова задается формулой (12.57). Единственное изменение - это
формула М-шага для матрицы W, которая изменяется следующим образом:

(12.63)

где А= diag(a;). Значениеµ, как и прежде, определяется как среднее выборочное.


Если мы выберем M=D-1, то, если все значения а; конечны, модель пред­

ставляет собой нормальное распределение с полностью заполненной ковариаци­


онной матрицей, в то время как если все значения а; стремятся к бесконечности,
то модель становится эквивалентной изотропному нормальному распределению
и поэтому может охватывать все допустимые значения для эффективной раз­
мерности главного подпространства. Также можно рассмотреть меньшие значе­
ния М, что позволит снизить вычислительную сложность, но ограничит макси­
мальную размерность подпространства. Сравнение результатов этого алгоритма
со стандартным вероятностным методом РСА показано на рис. 12.14.

Рис. 12.14. Диаграммы Хинтона для матрицы W, на которых каждый элемент матрицы

изображен в виде квадрата (белого для положительных и черного для отрицательных

значений), площадь которых пропорциональна величине соответствующего элемента .

Набор искусственных данных содержит 300 точ е к в пространстве размерности D = 1О,


выбранных из генеральной совокупности с нормальным распределением, имеющим

стандартное отклонение 1,0 в трех направлениях и стандартное отклонение 0,5


в остальных семи направлениях, для набора данных в пространстве размерности D = 1О,
имеющих М = 3 направления с большей дисперсией, чем в остальных семи

направлениях. Слева показан результат применения вероятностного метода РСА

с максимальным правдоподобием, а справа - -- соответствующий результат применения

байесовской модели РСА. Мы видим, как байесовская модель способна обнаружить

соответствующую рюмерность, подавляя шесть избыточных степеней свободы


768 ГЛАВА 12. НЕПРЕРЫВНЫЕ ЛАТЕНТНЫЕ ПЕРЕМЕННЫЕ

Байесовская модель РСА дает возможность продемонстрировать алгоритм


выбора по Гиббсу, рассмотренный в разделе 11.3. На рис. 12.15 приведен при­
мер выбора гиперпараметров ln а; для набора данных в пространстве размерно­
сти D = 4, в котором размерность латентного пространства равна М = 3, а набор
данных генерируется по вероятностной модели РСА, имеющей одно направле­
ние с высокой дисперсией и остальные направления с низкой дисперсией. Этот
результат ясно показывает наличие трех различных мод в апостериорном рас­

пределении. На каждом шаге итерации один из гиперпараметров имеет неболь­

шое значение, а остальные два имеют большие значения, так что две из трех ла­
тентных переменных исключаются. В ходе выбора по Гиббсу решение делает
резкие переходы между тремя модами.

Рис. 12.15. Графики зависимости ln а; от количества итераций

для трех значений а, демонстрирующие переходы между тремя модами

апостериорного распределения при выборе по Гиббсу для байесовской модели РСА

Модель, описанная здесь, включает в себя априорное распределение только


по матрице W. Полная байесовская модель РСА, включающая априорные значе-
2
ния для µ, и и а, решенная с помощью вариационных методов, описана в рабо-

те Вishop (1999Ь ). Обсуждение различных байесовских подходов к определению


подходящей размерности для модели РСА см. в Minka (2001с).

12.2.4. Факторный анализ


Факторный анализ представляет собой линейно-гауссовскую модель латентной
переменной, которая тесно связана с вероятностным методом РСА. Его определе-
12.2. Вероятностный метод РСА 769

ние отличается от определения вероятностного метода РСА только тем, что услов­
ное распределение наблюдаемой переменной х с учетом латентной переменной z
считается имеющим диагональную, а не изотропную ковариацию, так что

p(xl z) = N(xlWz + µ, Ч'), (12.64)

где Ч1 - диагональная матрица размерностью D х D. Модель факторного анализа,


как и вероятностная модель РСА, предполагает, что наблюдаемые переменные

х 1 , "" xv являются независимыми при фиксированной латентной переменной z.


По сути, модель факторного анализа объясняет наблюдаемую ковариационную
структуру данных, представляя независимую дисперсию, связанную с каждой ко­
ординатой в матрице, и фиксируя ковариацию между переменными в матрице W.
В литературе по факторному анализу столбцы матрицы W, которые фиксируют
корреляции между наблюдаемыми переменными, называются факторными
нагрузками, а диагональные элементы матрицы Ч', которые представляют незави­
симые дисперсии шума для каждой из переменных, называются уникальностями.

Истоки факторного анализа так же стары, как и у метода РСА, и обсуждения


факторного анализа можно найти в книгах Everitt (1984), Bartholomew (1987) и

Basilevsky (1994). Связи между факторным анализом и РСА были исследованы


Lawley (1953) и Anderson (1963), которые показали, что в стационарных точках
функции правдоподобия для модели факторного анализа с Ч1 = а 21 столбцы мат­
рицы W являются масштабированными собственными векторами выборочной ко­
вариационной матрицы, а а 2 - среднее арифметическое отброшенных собствен­
ных значений. Позже Tipping and Bishop (1999Ь) показали, что максимум лога­
рифмической функции правдоподобия возникает, когда в качестве главных
собственных векторов выбраны собственные векторы, составляющие матрицу W.
Используя (2.115), мы видим, что маргинальное распределение для наблюда­
емой переменной задается выражениемр(х) = N(xlµ, С), где

С= WWт + Ч'. (12.65)

Как и вероятностная модель РСА, эта модель инвариантна к вращениям в ла­


тентном пространстве (см. упражиеиие 12.19).
Исторически факторный анализ был предметом споров, в ходе которых бы­
ли предприняты попытки интерпретировать отдельные факторы (координаты в
z-пространстве), что оказалось проблематичным из-за неидентифицируемости
факторного анализа, связанного с вращениями в этом пространстве. Однако,
с нашей точки зрения, факторный анализ является разновидностью модели
плотности латентной переменной, в которой интерес представляет форма ла-
770 ГЛАВА 12. НЕПРЕРЫВНЫЕ ЛАТЕНТНЫЕ ПЕРЕМЕННЫЕ

тентного пространства, но не конкретный выбор координат, используемых для


его описания. Если мы хотим устранить вырождение, связанное с вращениями
в латентном пространстве, то должны рассмотреть распределения латентных

переменных, отличающиеся от нормальных, что приводит к модели независи­

мого компонентного анализа (ICA) (см. раздел 12.4).


Мы можем определить параметры µ, W и Ч' в модели факторного анализа

с помощью принципа максимального правдоподобия. Решение для µ снова ока­


зывается средним выборочным значением. Однако, в отличие от вероятностной
модели РСА, более не существует решения максимального правдоподобия в за­
мкнутой форме, и оно должно быть найдено итеративно. Поскольку факторный
анализ представляет собой модель латентных переменных, это можно сделать
с помощью ЕМ-алгоритма (Rubin and Thayer, 1982), который аналогичен тому,
который используется для вероятностной модели РСА. В частности, формулы
Е-шага имеют вид (см. упражнеиие 12.21)

1Е[zп]=GWтЧ'- 1 (хп -х), (12.66)

1Е [ znz~ J=G + 1Е [zn] 1Е [zn ]т , (12.67)


где

(12.68)

Эта формула подразумевает обращение матриц размерностью М х М, а не D х D


(за исключением диагональной матрицы Ч' размерностью D х D), обращение кото­

рой тривиально выполняется за O(D) шагов), что довольно удобно, потому что ча­
сто М « D. Аналогично формулы М-шага уравнения принимают вид (см. у11раж-
ие11ие 12.22)

w~ =[t,(x. -х)Е[z.]т ][t,в[ •.•;]Г, (12.69)

(12.70)

где оператор diag устанавливает все недиагональные элементы матрицы равны­


ми нулю. Байесовская трактовка модели факторного анализа может быть полу­
чена прямым применением методов, обсуждаемых в этой книге.

Другое различие между вероятностным методом РСА и факторным анализом


касается их поведения при преобразованиях набора данных (см. упра.нте-
11ие 12.25). В обычном и вероятностном методах РСА, если мы вращаем систему
12.3. Ядерный метод РСА 771

координат в пространстве данных, то получаем точно такую же аппроксимацию

данных, но с матрицей W, преобразованной соответствующей матрицей враще­


ния. Однако для факторного анализа аналогичным свойством является то, что
если мы делаем компонентное перемасштабирование векторов данных, то оно
выражается в соответствующем перемасштабировании элементов матрицы Ч'.

12.З. Ядерный метод РСА

В главе 6 мы увидели, как методика замены ядра позволяет взять за основу


алгоритм, выраженный в терминах скалярных произведений вида х т х', и обоб­
щить его, заменив скалярные произведения нелинейным ядром. Здесь мы при­
меняем эту технику подстановки ядра к анализу главных компонентов, тем са­

мым получая нелинейное обобщение, называемое ядерным методом РСА


(Schбlkopf et al., 1998).
Рассмотрим набор наблюдаемых данных {хп}, где п = 1, ... , N, в пространстве

размерности D. Чтобы не усложнять обозначения, предположим, что мы уже

вычли среднее выборочное значение из каждого вектора Xn, так что L xn = О .


п

Первым шагом является выражение обычной модели РСА в такой форме, что

векторы данных {хп} появлялись только в виде скалярных произведений x~xm.


Напомним, что главные компоненты определяются собственными векторами ко­

вариационной матрицы u;:


(12.71)

где i = 1, ... , D. Здесь выборочная ковариационная матрица S размерностью DxD


определяется формулой

(12.72)

а собственные векторы нормированы так, что uJ U; =1.


Рассмотрим нелинейное преобразование ф(х) в М-мерное пространство при­
знаков, так что каждая точка данных Xn проецируется в точку ф(хп)· Теперь мы
можем выполнить стандартный метод РСА в пространстве признаков, который
неявно определяет нелинейную модель главных компонентов в исходном про­

странстве данных, как показано на рис. 12.16.


772 ГЛАВА 12. НЕПРЕРЫВНЫЕ ЛАТЕНТНЫЕ ПЕРЕМЕННЫЕ

Рис. 12.16. Схематическая иллюстрация ядерного метода РСА.

Набор данных в исходном пространстве данных (левый график) проецируется

нелинейным преобразованием ф(х) в пространство признаков (правый график) .

Выполняя метод РСА в пространстве признаков , мы получаем главные компоненты,

первый из которых показан синим цветом и обозначен вектором v 1•


Зеленые линии в пространстве признаков указывают линейные проекции на первый

главный компонент, которые соответствуют нелинейным проекциям в исходном

пространстве данных. Обратите внимание на то, что в целом невозможно представить

нелинейный главный компонент вектором в пространстве х

Предположим, что у проектируемого набора данных также есть нулевое ма­


тематическое ожидание, так что LФ(хn)=О.Мы вскоре вернемся к этому вопро-
n
су. Выборочная ковариационная матрица размерностью Мх М в пространстве
признаков задается как
1 N Т
С=-IФ(хп)Ф(хп) , (12.73)
N n=I

а ее разложение по собственным векторам определяется как

(12.74)

где i = 1, .. " М Наша цель состоит в том, чтобы решить эту задачу о собствен­
ных значениях без необходимости явно работать в пространстве признаков. Из
определения матрицы С и уравнения собственных векторов следует, что векто­
ры V; удовлетворяют условиям

(12.75)
12.3. Ядерный метод РСА 773

поэтому (при условии, что Л; >О) вектор v 1 задается линейной комбинацией век­
торов ф(хп) и поэтому может быть записан в виде
N
V; =~..>~пФ( Хп ). (12.76)
n=I

Подставляя это разложение обратно в уравнение собственных векторов, по­


лучим

(12.77)

Ключевой шаг теперь состоит в том, чтобы выразить это через функцию ядра
k(хт xm) =ф(хп)т ф(хт), что мы делаем, умножая обе части на ф(хz)1:
1 N N N
-Ik(x1,xп):~:>imk(xп,xm)=Л1 ~::aiпk(x 1 ,xп)· (12.78)
N n=I m=I n=I

Это может быть записано в форме матричной записи:

К2 а 1 = Л;NКа;, (12.79)
где а; - N-мерный вектор-столбец с элементами а 1 т п = 1, "" N. Мы можем
найти решения для а;, решив следующую задачу на собственные значения:

Ка;=Л;Nа;, (12.80)
в которой мы сократили множитель К с обеих сторон (12.79). Отметим, что ре­
шения (12.79) и (12.80) отличаются только собственными векторами матрицы К,
имеющей нулевые собственные значения, которые не влияют на проекцию глав­
ных компонентов (с.и. упраж11е11ие 12.26).
Условие нормировки для коэффициентов &; выражается в требовании норми­
ровки собственных векторов в пространстве признаков. Используя (12.76) и
(12.80), получаем:
N N
l=viv; = LLа;паiтФ(хп)т ф(xm)=aiKa; =Л1 Naia 1 • (12.81)
n=I m=I

Решив задачу на собственный вектор, получающиеся в результате проекции


главных компонентов также можно выразить через функцию ядра, так что, ис­
пользуя (12.76), проекция точки хна i-й собственный вектор определяется как

(12.82)
n=I n=I

и снова выражается через функцию ядра.


774 ГЛАВА 12. НЕПРЕРЫВНЫЕ ЛАТЕНТНЫЕ ПЕРЕМЕННЫЕ

В исходном D-мерном пространстве переменных х существует D ортого­


нальных собственных векторов, следовательно, мы можем найти не более D ли­
нейных главных компонентов. Однако размерность М пространства признаков

может быть намного больше, чем D (даже бесконечной), и, таким образом, мы


можем найти количество нелинейных главных компонентов, которые могут пре­
вышать D. Однако количество ненулевых собственных значений не может пре­
вышать количество исходных точек N, потому что (даже если М > N) ковариаци­
онная матрица в пространстве признаков имеет ранг не более N. Это отражается
в том факте, что ядро РСА включает в себя разложение по собственным векто­
рам матрицы К размерностью N х N.
До сих пор мы предполагали, что проецируемый набор данных, заданный
векторами ф(хп), имеет нулевое математическое ожидание, что в общем случае
не так. Мы не можем просто вычислить, а затем вычесть среднее значение, так
как хотим избежать работы непосредственно в пространстве признаков, и по­
этому формулируем алгоритм исключительно в терминах функции ядра. Про­
ецируемые точки исходных данных после центрирования, обозначенные как

ф (xn) , задаются формулой


- 1 N
Ф(хп) = Ф(хп )- N ~ф(хz ), (12.83)

и соответствующие элементы матрицы Грама определяются как

Кпт =Ф(хп)т ф(хт)=


Т 1 N Т
=Ф(хп) Ф(хт)- N~ф(хп) Ф(xz)-
1 N Т 1NN Т
-N~ф(xz) Ф(хт)+N 2 ~~Ф(х 1 ) Ф(х1)= (12.84)

1 N
=k(хп,хт)-- ~)(x 1 ,xm)-
N t=1
1 N 1 N N
-- ~)(xn,x 1 )+-2 L~)(x 1 ,x 1 ).
N 1=1 N 1=1 t=I

Это можно выразить в матричном виде:

К =K-lNK-KlN +lNKlN, (12.85)


12.З. Ядерный метод РСА 775

где lN обозначает матрицу размерностью N х N, в которой каждый элемент прини­


мает значение l/N. Таким образом, мы можем вычислить матрицу К, используя
только функцию ядра, а затем использовать К для определения собственных зна­
чений и собственных векторов . Обратите внимание, что стандартный алгоритм
РСА является частным случаем этого метода, если мы используем линейное ядро
k(x, х') = хтх, (см. упраж11ение 12.27). На рис. 12.17 приведен пример ядра РСА,
примененного к искусственному набору данных (Schбlkopf et al" 1998). Здесь к
искусственному набору данных применяется гауссово ядро вида

k(x, х') = exp(-llx-x'll 2/0,1). (12.86)

Линии соответствуют контурам, по которым проекция на соответствующий


главный компонент является постоянной:

(12.87)

Собственно.е1
значение = ;г ,65

Собственно.е 66 Собственно.е 09 Собственно.е 60


значение= ;j, значение= ;j, значение= :г,

· · ••"'·
•• ..

~>.i.'•·_.~:.:*
··::·.·
. . ,_;.;· '

Рис. 12.17. Пример ядерного РСА с гауссовым ядром, примененным к искусственному

набору данных в двух измерениях, показывающий первые восемь собственных функций

вместе с их собственными значениями. Контуры - это линии, вдоль которых проекция на

соответствующий главный компонент являен:я постоянной. Первые два собственных

вектора разделяют три кластера, следующие три собственных вектора разбивают каждый

кластер на две половины, а следующие три собственных вектора снова разделяют

кластеры на две половины в направлениях , ортогональных предыдущим расщеплениям


776 ГЛАВА 12. НЕПРЕРЫВНЫЕ ЛАТЕНТНЫЕ ПЕРЕМЕННЫЕ

Один очевидный недостаток ядра РСА состоит в том, что он включает в себя
поиск собственных векторов матрицы К размерностью N х N, а не матрицы S
размерностью D х D обычного линейного метода РСА, и поэтому на практике
для больших наборов данных часто используются аппроксимации. Наконец, от­
метим, что в стандартном линейном методе РСА мы часто сохраняем некоторое

уменьшенное число собственных векторов L < D, а затем аппроксимируем век­


тор данных Хп его проекцией хп на L-мерное главное подпространство, опреде­
ляемое как

(12.88)

В ядерном методе РСА это, как правило, невозможно. Чтобы показать это, от­
метим, что функция ф(х) отображает D-мерное пространство переменной х в
D-мерное многообразие в М-мерном пространстве признаков ф. Вектор х называ­
ется прообразом соответствующей точки ф(х). Однако проекция точек в простран­
стве признаков на линейное подпространство РСА в этом пространстве обычно не
будет лежать на нелинейном трехмерном многообразии и, следовательно, не будет
иметь соответствующего прообраза в пространстве данных. Поэтому бьmи пред­
ложены методы для поиска приближенных изображений (Вakir et а/" 2004).

12.4. Нелинейные модели с патентной переменной


В этой главе основное внимание уделяется простейшему классу моделей, име­
ющих непрерывные латентные переменные, которые основаны на линейно­

гауссовских распределениях. Помимо того, что эти модели имеют большое прак­
тическое значение, их относительно легко анализировать и подгонять к данным,

а также можно использовать в качестве компонентов в более сложных моделях.


Здесь мы кратко рассмотрим некоторые обобщения этого каркаса для моделей, ко­
торые являются либо нелинейными, либо негауссовыми, либо и теми и другими.
Фактически проблемы нелинейности и негауссовости связаны, потому что об­
щую плотность вероятности можно получить из простой фиксированной эталон­
ной плотности, такой как плотность нормального распределения, путем нелиней­
ного изменения переменных. Как мы вскоре увидим, эта идея лежит в основе не­
скольких практических моделей латентных переменных (см. ynpaJ1c11e11ue 12.28).

12.4.1. Анализ независимых компонентов

Начнем с рассмотрения моделей, в которых наблюдаемые переменные ли­


нейно связаны с латентными переменными, но для которых латентное распреде-
12.4. Нелинейные модели с латентной переменной 777

ление не является нормальным. Важный класс таких моделей, известный как


анш~из независимых компонентов, или !СА (lndependent Component Analysis),
возникает, когда мы рассматриваем распределение по латентным переменным,

которое раскладывается на множители, так что

p(z) =ПР( z1 ). (12.89)


J=I

Чтобы понять роль таких моделей, рассмотрим ситуацию, в которой два челове­
ка разговаривают одновременно, и мы записываем их голоса с помощью двух

микрофонов. Если мы игнорируем такие эффекты, как задержка по времени и


эхо-сигналы, то сигналы, принимаемые микрофонами в любой момент времени,
будут заданы линейными комбинациями амплитуд двух голосов. Коэффициенты
этой линейной комбинации будут постоянными, и если мы сможем вывести их
значения из выборочных данных, то сможем инвертировать процесс микширо­

вания (предполагая, что он несингулярный) и, таким образом, получить два чи­


стых сигнала, каждый из которых содержит голос только одного человека. Это
пример задачи, называемой слепым разделением источников, в которой термин
"слепой" относится к тому факту, что предоставляются только смешанные дан­
ные, и нет информации ни об исходных источниках, ни о коэффициентах сме­
шивания (Cardoso, 1998).
Этот тип проблемы иногда решается с помощью следующего подхода
(МасКау, 2003), в котором игнорируется временная природа сигналов и рассмат­

риваются последовательные выборки как независимые, одинаково распределен­


ные. Мы рассматриваем порождающую модель, в которой есть две латентные пе­
ременные, соответствующие ненаблюдаемым амплитудам речевого сигнала, и две
наблюдаемые переменные, заданные значениями сигнала на микрофонах. Латент­
ные переменные имеют совместное распределение, которое раскладывается на

множители, как указано выше, а наблюдаемые переменные задаются линейной


комбинацией латентных переменных. Нет необходимости включать распределе­
ние шума, поскольку число латентных переменных равно количеству наблюдае­
мых переменных, и, следовательно, маргинальное распределение наблюдаемых
переменных в общем случае не будет сингулярным, поэтому наблюдаемые пере­
менные являются просто детерминированными линейными комбинациями ла­
тентных переменных. Учитывая набор данных наблюдений, функция правдоподо­
бия для этой модели является функцией коэффициентов в линейной комбинации.
Логарифмическая функция правдоподобия может бьпь максимизирована с помо-
778 ГЛАВА 12. НЕПРЕРЫВНЫЕ ЛАТЕНТНЫЕ ПЕРЕМЕННЫЕ

щъю градиентной оптимизации, что приводит к конкретной версии анализа неза­

висимых компонентов.

Успех этого подхода требует, чтобы латентные переменные имели распреде­


ления, не являющиеся нормальными. Чтобы увидеть это, напомним, что в веро­
ятностном методе РСА (и в факторном анализе) распределение в латентном про­
странстве является изотропным нормальным распределением с нулевым матема­

тическим ожиданием. По этой причине модель не может различить два варианта


выбора латентных переменных, которые отличаются простым вращением в ла­
тентном пространстве. Это можно проверить непосредственно, отметив, что
маргинальная плотность (12.35) и, следовательно, функция правдоподобия не
изменятся, если мы сделаем преобразование W ~ WR, где R - ортогональная
матрица, удовлетворяющая условию RRт = 1, поскольку матрица, полученная с
помощью (12.36), сама по себе инвариантна. Расширение модели до более об­
щих латентных нормальных распределений не меняет этот вывод, поскольку,
как мы видели, такая модель эквивалентна модели изотропной нормально рас­

пределенной переменной с нулевым математическим ожиданием.


Еще одна причина, по которой нормального распределения латентной пере­

менной в линейной модели недостаточно для поиска независимых компонентов,


состоит в том, что главные компоненты представляют поворот системы коорди­

нат в пространстве данных, например, для диагонализации ковариационной мат­

рицы, так что распределение данных в новых координатах становится некорре­

лированным. Хотя нулевая корреляция является необходимым условием незави­


симости, ее недостаточно. На практике распределение латентных переменных
в общем виде выбирается следующим образом (см. упражиение 12.29):
1 2
= Jr cos ь( z1 ) = Jr (е z. + е -Z·)'
) (12.90)
p(zj 1 1

Это распределение имеет более тяжелые хвосты по сравнению с нормальным, от­


ражая тот факт, что многие реальные распределения также имеют эту особенность.
Первоначальная модель ICA (Bell and Sejnowski, 1995) была основана на оп­
тимизации целевой функции, определяемой максимизацией информации. Одним
из преимуществ вероятностной формулировки латентной переменной является
то, что она помогает мотивировать и формулировать обобщения базовой модели
ICA. Например, независимый факторный анализ (Attias, 1999а) рассматривает
модель, в которой количество латентных и наблюдаемых переменных может
различаться, наблюдаемые переменные являются зашумленными, а отдельные
12.4. Нелинейные модели с латентной переменной 779

латентные переменные имеют гибкие распределения, моделируемые смесями


нормальных распределений. Логарифмическая функция правдоподобия для этой
модели максимизируется с помощью ЕМ-алгоритма, а реконструкция латентных
переменных аппроксимируется с помощью вариационного подхода. Существует
множество других типов моделей, которые были рассмотрены в обширной лите­
ратуре по методу ICA и его приложениям (Jutten and Herault, 1991; Comon et а/.,
1991; Amari et а/., 1996; Pearlmutter and Parra, 1997; Hyvarinen and Oja, 1997;
Hinton et а/., 2001; Miskin and МасКау, 2001; Hojen-Sorensen et а/., 2002; Choud-
rey and Roberts, 2003; Chan et а/., 2003; Stone, 2004).

12.4.2. Автоассоциативные нейронные сети

В главе 5 рассмотрены нейронные сети в контексте обучения с учителем, в


котором роль сети заключается в прогнозировании выходных переменных по за­

данным значениям входных переменных. Тем не менее нейронные сети также


применяются и для обучения без учителя, где они используются для уменьше­
ния размерности. Это достигается за счет использования сети, имеющей то же

количество выходов и входов, а также оптимизации весов, чтобы минимизиро­


вать некоторую меру ошибки реконструкции между входами и выходами по от­
ношению к набору обучающих данных.
Сначала рассмотрим многослойный персептрон в виде, показанном на
рис. 12.18, с D входами, D выходными элементами и М скрытыми элементами,
где М < D. Цели, используемые для обучения сети, - это сами входные векто­
ры, так что сеть пытается сопоставить каждый входной вектор самому себе. Го­
ворят, что такая сеть образует автоассоциативное отображение. Так как коли­
чество латентных единиц меньше, чем количество входов, идеальная рекон­

струкция всех входных векторов в общем случае невозможна. По этой причине


мы определяем параметры сети w пугем минимизации функции ошибок, которая
фиксирует степень несоответствия между входными векторами и их рекон­
струкциями. В частности, выберем сумму квадратов ошибок:

1 N 2
E(w)=- ~]y(xп,w)-xпll · (12.91)
2 n=I

Если латентные блоки имеют линейные функции активации, то можно показать,


что функция ошибки имеет уникальный глобальный минимум и при этом мини­
муме сеть выполняет проекцию на М-мерное подпространство, которое охваты­

вает первые М главных компонентов данных (Bourlard and Kamp, 1988; Baldi and
Hornik, 1989). Таким образом, векторы весов, которые ведут к скрытым элемен-
780 ГЛАВА 12. НЕПРЕРЫВНЫЕ ЛАТЕНТНЫЕ ПЕРЕМЕННЫЕ

там на рис. 12.18, образуют базис, на который натянуто главное подпростран­


ство. Отметим, однако, что эти векторы не должны быть ортогональными или
нормированными. Этот результат неудивителен, поскольку как анализ главных
компонентов, так и нейронная сеть используют линейное уменьшение размерно­

сти и минимизируют одну и ту же функцию суммы квадратов ошибок.

Входы Выходы

Рис. 12.18. Автоассоциативный многослойный персептроп с двумя слоями весов.

Такая сеть обучена отображать входные векторы на себя путем минимизации

суммы квадратов ошибок. Несмотря на нелинейные элементы в скрытом слое,

такая сеть эквивалентна линейному анализу главных компонентов.

Ссылки, представляющие параметры смещения, для ясности опущены

Можно предположить, что ограничения линейного уменьшения размерности


можно преодолеть с помощью нелинейных (сигмоидальных) функций активации
для скрытых блоков в сети, показанной на рис. 12.18. Тем не менее, даже с не­
линейными скрытыми элементами, решение, минимизирующее ошибку, снова
определяется проекцией на подпространство главных компонентов (Bourlard and
Kamp, 1988). Следовательно, использование двухслойных нейронных сетей для
уменьшения размерности не дает никакого преимущества. Стандартные методы
анализа главных компонентов (основанные на разложении по сингулярным зна­
чениям) гарантированно дают правильное решение за конечное время, а также
генерируют упорядоченный набор собственных значений с соответствующими
ортонормированными собственными векторами.
Однако ситуация складывается иначе, если в сети разрешены дополнительные
скрытые слои. Рассмотрим четырехслойную автоассоциативную сеть, показанную

на рис. 12.19. Снова выходные элементы являются линейными, и М единиц во


втором скрытом слое также могут быть линейными, однако первый и третий
скрьrrые слои имеют сигмоидалъные нелинейные функции активации. Сеть, как
и прежде, обучается путем минимизации функции ошибок (12.91). Мы можем рас­
сматривать эту сеть как два последовательных функциональных отображения F1
и F 2, как показано на рис. 12.19. Первое отображение F1 проецирует исходные
12.4. Нелинейные модели с латентной переменной 781

D-мерные данные в М-мерное подпространство S, определяемое активациями эле­


ментов во втором скрытом слое. Из-за наличия первого скрьrrого слоя неJJИнейных
элементов это отображение является очень общим и, в частности, не ограничива­
ется линейностью. Точно так же вторая половина сети определяет произвольное

функциональное отображение из М-мерного пространства обратно в исходное


D-мерное пространство. Это отображение имеет простую геометрическую интер­
претацию, как показано для случая D = 3 и М = 2 на рис. 12.20.

Выходы

Рис. 12.19. Добавление дополнительных скрытых слоев нелинейных элементов создает

автоассоциативную сеть, которая может выполнять нелинейное уменьшение размерности

Рис. 12.20. Геометрическая интерпретация отображений, выполняемых сетью, показанной

на рис. 12.19, для случая D=3 входов и М = 2 эл ементов в среднем скрытом слое .
Функция F 2 действует из М-мерного пространства S в D-мерное пространство и по этому

определяет способ, которым пространство S вкладывается в исходное х-пространство .

Поскольку отображение F2 может быть нелинейным, вложение S может быть


криволинейным, как показано на рисунке. Отображение F 1 затем определяет проекцию

точек исходного D-мерного пространства в М-мерное подпространство S


782 ГЛАВА 12. НЕПРЕРЫВНЫЕ ЛАТЕНТНЫЕ ПЕРЕМЕННЫЕ

Такая сеть эффективно выполняет нелинейный анализ главных компонентов.


Ее преимущество заключается в том, что она не ограничивается линейными пре­

образованиями, хотя в качестве особого случая содержит стандартный анализ


главных компонентов. Однако при обучении сети теперь возникает проблема
нелинейной оптимизации, поскольку функция ошибок (12.91) больше не являет­
ся квадратичной функцией параметров сети. Необходимо использовать сложные
вычислительные методы нелинейной оптимизации, и существует риск нахожде­

ния субоптимального локального минимума функции ошибок. Кроме того, раз­


мерность подпространства должна быть указана до обучения сети.

12.4.3. Моделирование нелинейных многообразий

Как мы уже отмечали, многие естественные источники данных соответству­


ют, возможно, зашумленным нелинейным многообразиям низкой размерности,
вложенным в пространство наблюдаемых данных более высокой размерности.
Явное отображение этого свойства может привести к улучшению моделирова­
ния плотности по сравнению с более общими методами. Здесь мы кратко рас­
смотрим ряд методов, которые пытаются сделать это.

Одним из способов моделирования нелинейной структуры является комбина­


ция линейных моделей, образующих кусочно-линейную аппроксимацию много­
образия. Это можно сделать, например, с помощью метода кластеризации, тако­
го как метод К-средних, основанного на евклидовом расстоянии и предназна­

ченного для разделения набора данных на локальные группы в сочетании со


стандартным методом РСА, примененным к каждой группе. Более эффективным
является использование ошибки реконструкции для назначения кластера
(Kambhatla and Leen, 1997; Hinton et al" 1997), так как в этом случае на каждом
этапе оптимизируется общая функция потерь. Однако эти подходы все еще
ограничены из-за отсутствия общей модели плотности. Используя вероятност­
ную модель РСА, легко определить полностью вероятностную модель, рассмат­
ривая смесь распределений, в которой компоненты являются вероятностными

моделями РСА (Тipping and Bishop, 1999а). Такая модель имеет как дискретные
латентные переменные, соответствующие дискретной смеси, так и непрерывные

латентные переменные, а функция правдоподобия может быть максимизирована


с помощью ЕМ-алгоритма. Полностью байесовская модель, основанная на вари­
ационном выводе (Bishop and Winn, 2000), позволяет по количеству данных
определить количество компонентов в смеси, а также эффективные размеры от­
дельных моделей. Существует много вариантов этой модели, в которых такие
параметры, как матрица W или дисперсия шума, связаны с компонентами в сме-
12.4. Нелинейные модели с латентной переменной 783

си или распределения изотропного шума заменяются диагональными, что при­

водит к смеси моделей для факторного анализа (Ghahramani and Hinton, 1996а;
Ghahramani and Beal, 2000). Смесь вероятностных моделей РСА также может
быть расширена иерархически для создания интерактивного алгоритма визуали­
зации данных (Bishop and Tipping, 1998).
Альтернативой смеси линейных моделей является рассмотрение одной нели­
нейной модели. Напомним, что обычный метод РСА находит линейное подпро­
странство, которое расположено близко к данным в смысле наименьших квадра­
тов. Эта концепция может быть распространена на одномерные нелинейные по­
верхности в виде главных кривых (Hastie and Stuetzle, 1989). Мы можем описать
кривую в D-мерном пространстве данных, используя векторную функцию f(Л),
которая является вектором, каждый из элементов которого является функцией
скаляра Л. Есть много возможных способов параметризации кривой, из которых
естественным выбором является длина дуги вдоль кривой. Для любой заданной
точки х в пространстве данных мы можем найти точку на кривой, которая яв­
ляется ближайшей в смысле евклидова расстояния. Обозначим эту точку как
Л = gt ( х), поскольку она зависит от конкретной кривой f(Л). Для непрерывной
плотности данных р(х) главная кривая определяется как кривая, для которой

каждая точка на кривой является средним значением всех тех точек в простран­
стве данных, которые проецируются на нее, так что

llil [ xl g t ( х) = Л J= f ( Л). (12.92)

Заданной непрерывной плотности может соответствовать много главных кри­

вых. На практике нас интересуют конечные наборы данных. Кроме того, мы хо­
тим ограничиться гладкими кривыми. Hastie and Stuetzle (1989) предлагают
двухэтапную итерационную процедуру для нахождения таких главных кривых,

чем-то напоминающую ЕМ-алгоритм для РСА. Кривая инициализируется с по­


мощью первого главного компонента, а затем алгоритм чередуется между эта­

пом проецирования данных и этапом уточнения кривой. На этапе проецирования

каждой точке данных присваивается значение Л, соответствующее ближайшей


точке на кривой. Затем на этапе уточнения каждая точка на кривой задается
средневзвешенным значением тех точек, которые проецируются на близлежа­
щие точки, лежащие на кривой, причем точки, ближайшие к кривой, имеют
наибольший вес. В случае линейного подпространства процедура сходится
к первому главному компоненту и эквивалентна степенному методу для нахож­

дения наибольшего собственного вектора ковариационной матрицы. Главные


784 ГЛАВА 12. НЕПРЕРЫВНЫЕ ЛАТЕНТНЫЕ ПЕРЕМЕННЫЕ

кривые могут быть обобщены для многомерных многообразий, называемых


главными поверхностями, хотя они нашли ограниченное применение из-за

сложности сглаживания данных в пространствах более высоких измерений, даже


в двумерных многообразиях.
Метод РСА часто используется для проецирования набора данных в про­
странство меньшего размера, например двухмерное, для визуализации. Другой
линейный метод, имеющий аналогичную цель, - многомерное масштабирова­
ние (Multidimensional Scaling), или MDS (Сох and Сох, 2000). Он находит низко­
размерную проекцию данных, чтобы максимально сохранить парные расстояния
между точками данных, и включает в себя поиск собственных векторов матрицы
расстояний. В случае, когда расстояния являются евклидовыми, это дает резуль­

таты, эквивалентные РСА. Концепция MDS может быть распространена на ши­


рокий спектр типов данных, заданных в терминах матрицы схожести, что дает

неметрический метод МDS.


Заслуживают упоминания два других детерминированных метода уменьше­
ния размерности и визуализации данных. Метод локально линейного вложения,
или LLE (Locally Linear Embedding) (Roweis and Saul, 2000), сначала вычисляет
набор коэффициентов, который наилучшим образом восстанавливает каждую
точку данных по ее соседним точкам. Эти коэффициенты расположены так, что­
бы они были инвариантными по отношению к поворотам, сдвигам и масштаби­
рованию этой точки данных и ее соседей, и, следовательно, характеризуют ло­
кальные геометрические свойства окрестности. Затем метод LLE отображает
многомерные точки данных в пространство более низкой размерности, сохраняя
коэффициенты соседства. Если локальная окрестность для конкретной точки
данных может считаться линейной, то преобразование может быть достигнуто с
помощью комбинации перемещения, поворота и масштабирования, например,
для сохранения углов, образованных между точками и их соседями. Поскольку

веса инвариантны к этим преобразованиям, мы ожидаем, что одни и те же зна­


чения весов приведут к реконструкции одних и тех же точек в пространстве низ­

кой размерности, что и в многомерном пространстве данных. Несмотря на нели­


нейность, оптимизация для метода LLE не имеет локальных минимумов.
Цель изометрического отображения объектов (isometric feature mapping), или
метода isoтap (Tenenbaum et al" 2000), состоит в том, чтобы проецировать данные
в пространство более низкой размерности с помощью метода MDS, но в этом слу­
чае различия определяются в терминах геодезических расстояний, измеренных
вдоль многообразия. Например, если две точки лежат на окружности, то геодези­
ческая - это длина дуги, измеренная по окружности, а не по прямой линии вдоль
12.4. Нелинейные модели с латентной переменной 785

соединяющей их хорды. Алгоритм сначала определяет окрестность для каждой


точки данных, либо путем поиска К ближайших соседей, либо поиска всех точек в
сфере радиуса с. Затем строится граф, связывающий все соседние точки и поме­
чающий их евклидовым расстоянием. После этого геодезическое расстояние меж­
ду любой парой точек аппроксимируется суммой длин дуг вдоль кратчайшего пу­
ти, соединяющего эти точки (который сам определяется с помощью стандартных

алгоритмов). Наконец, метрический метод MDS применяется к матрице геодези­


ческих расстояний, чтобы найти проекцию с малой размерностью.
В этой главе мы сосредоточились на моделях, для которых наблюдаемые пе­
ременные являются непрерывными. Мы также можем рассмотреть модели, име­

ющие непрерывные латентные переменные, вместе с дискретными наблюдае­


мыми переменными, что приводит к появлению моделей латентных признаков
(Вartholomew, 1987). В этом случае маргинализация по непрерывным латентным
переменным даже для линейных отношений между латентными и наблюдаемы­
ми переменными не может быть выполнена аналитически, поэтому требуются
более сложные методы. Тipping (1999) использует вариационный вывод в моде­
ли с двумерным латентным пространством, позволяя визуализировать набор
двоичных данных аналогично использованию метода РСА для визуализации не­

прерывных данных. Обратите внимание на то, что эта модель является двой­
ственной к проблеме байесовской логистической регрессии, обсуждаемой в раз­
деле 4.5. В случае логистической регрессии мы имеем N наблюдений вектора
признаков Фт которые параметризованы одним вектором параметров w, тогда
как в модели визуализации латентного пространства есть одна латентная про­

странственная переменная х (аналогичная ф) и N копий латентной перемен­


ной wn. Обобщение вероятностных моделей латентных переменных на общее
экспоненциальное семейство распределений описано в Collins et а/. (2002).
Как уже отмечалось, произвольное распределение можно сформировать, взяв
нормально распределенную случайную величину и преобразовав ее с помощью
подходящей нелинейной функции. Это свойство используется в общей модели
латентных переменных, называемой сетью плотности (МасКау, 1995; МасКау
and Gibbs, 1999), в которой нелинейная функция управляется многослойной
нейронной сетью. Если в сети достаточно скрытых элементов, она может ап­

проксимировать заданную нелинейную функцию с любой требуемой точностью


(см. главу 5). Недостатком такой гибкой модели является то, что маргинализа­
цию по латентным переменным, необходимую для получения функции правдо­
подобия, больше невозможно выполнить аналитически. Вместо этого вероят­
ность аппроксимируется с помощью методов Монте-Карло путем извлечения
786 ГЛАВА 12. НЕПРЕРЫВНЫЕ ЛАТЕНТНЫЕ ПЕРЕМЕННЫЕ

выборок из генеральной совокупности с нормальным априорным распределени­


ем (см. главу 11). Тогда маргинализация по латентным переменным сводится
к простому суммированию с одним членом для каждой выборки. Однако, по­
скольку для точного представления маргинального значения может потребо­

ваться большое количество выборок, эта процедура может быть вычислительно


сложной.

Если мы рассмотрим более ограниченные формы для нелинейной функции


и сделаем соответствующий выбор распределения латентной переменной, то
сможем построить модель латентной переменной, которая будет нелинейной и
эффективной для обучения. Порождающее топографическое отображение (ge-
nerative topographic тapping), или GTM (Bishop et al., 1996; Bishop et al., 1997а;
Bishop et al., 1998Ь ), использует латентное распределение, которое определяется
конечной регулярной сеткой дельта-функций в (обычно двумерном) латентном
пространстве. В таком случае маргинализация по латентному пространству сво­

дится к простому суммированию по вкладам каждой точки сетки.


Нелинейное отображение задается моделью линейной регрессии, которая
учитывает общую нелинейность, будучи линейной функцией адаптивных пара­
метров (см. главу 3). Обратите внимание на то, что обычное ограничение моде­
лей линейной регрессии, возникающее из-за проклятия размерности, в контек­

сте GTM не возникает, поскольку многообразие, как правило, имеет два измере­
ния, независимо от размерности пространства данных (см. раздел 1.4).
Следствием этих двух вариантов является то, что функция правдоподобия может
быть выражена аналитически в замкнутой форме и эффективно оптимизирована
с помощью ЕМ-алгоритма. Полученная модель GTM соответствует двумерному

нелинейному многообразию для набора данных, и, оценив апостериорное рас­


пределение по латентному пространству по исходным точкам, их можно спро­

ецировать обратно в латентное пространство для визуализации. На рис. 12.21


показано сравнение набора данных о потоке нефти, визуализированного с по­
мощью линейного метода РСА и нелинейного метода GTM.
Метод GTM можно рассматривать как вероятностную версию более ранней
модели, называемой самоорганизующейся картой (Self Organizing Мар), или SOM
(Kohonen, 1982; Kohonen, 1995), которая также представляет двумерное нели­
нейное многообразие в виде регулярного массива дискретных точек. Метод
SOM несколько напоминает алгоритм К-средних в том смысле, что точки назна­
чаются соседним векторам-прототипам, которые впоследствии уточняются.

Первоначально прототипы распределяются случайным образом и в процессе


обучения самоорганизуются, чтобы приблизиться к гладкому многообразию.
12.4. Нелинейные модели с латентной переменной 787

Однако, в отличие от алгоритма К-средних, метод SOM не оптимизирует какую­


либо четко определенную функцию стоимости (Erwin et а/., 1992), что затрудня­
ет настройку параметров модели и оценку сходимости. Также нет гарантии, что

самоорганизация вообще будет иметь место, поскольку это зависит от выбора


подходящих значений параметров для любого конкретного набора данных.

•Н #IМ"+ х

х X• JIOO<

Рис. 12.21. Диаграммы, построенные по дш111ым о потоке нефти, визуализированные с

помощью методов РСА (слева) и GTM (спршю). Для модели GTM каждая точка построена

по среднему значению се апостериорного расгrрсдсления в латентном пространстве.

Нелинейность модели GTM по:зволяст более четко разделить группы точек

В отличие от этого, метод GTM оптимизирует логарифмическую функцию


правдоподобия, а полученная модель определяет плотность вероятности в про­
странстве данных. Фактически это соответствует ограниченной смеси нормаль­
ных распределений, в которой компоненты имеют общую дисперсию, а матема­
тические ожидания должны лежать на гладком двумерном многообразии. Эта
вероятностная основа также упрощает обобщения GTM (Bishop et al., 1998а), та­
кие как байесовский метод, работа с пропущенными значениями, принципиаль­
ное расширение дискретных переменных, использование гауссовских процессов

для определения многообразия или иерархическая модель GTM (Tino and


Nabney, 2002) (см. раздел 6.4).
Поскольку многообразие в методе GTM определяется как непрерывная по­
верхность, а не только векторами-прототипами, как в методе SOM, можно рас­

считать коэффициенты увеличения, соответствующие локальным расширениям


и сжатиям многообразий, необходимые для аппроксимации данных (Вishop et al.,
1997Ь), а также направленную кривизну многообразия (Tino et а/., 2001). Их мож­

но визуализировать вместе с проецируемыми данными и обеспечить лучшее по­


нимание модели.
788 ГЛАВА 12. НЕПРЕРЫВНЫЕ ЛАТЕНТНЫЕ ПЕРЕМЕННЫЕ

Упражнения

12.1. (**) WWW В этом упражнении мы используем доказательство по индук­


ции, чтобы показать, что линейная проекция на М-мерное подпростран­
ство, которая максимизирует дисперсию проецируемых данных, опреде­

ляется М собственными векторами ковариационной матрицы S, опреде­

ляемой по формуле (12.3), соответствующими М наибольшим

собственным значениям. В разделе 12.1 этот результат был доказан для

случая М = 1. Теперь предположим, что результат верен для некоторого


общего значения М, и покажем, что он, следовательно, справедлив для
размерности М + 1. Для этого сначала приравняйте к нулю производную
дисперсии проецируемых данных относительно вектора Uм+ 1 , определя­

ющего новое направление в пространстве исходных данных. Это должно

быть сделано с учетом ограничений на ортогональность вектора Uм+i су­


ществующим векторам u 1, "., uм а также того, что он имеет единичную

длину. Для учета этих ограничений используйте метод множителей Ла­


гранжа. Затем воспользуйтесь свойствами ортонормированности векто­
ров u 1, "., uм, чтобы показать, что новый вектор Uм+i является собствен­
ным вектором матрицы S. Наконец, покажите, что дисперсия максималь­
на, если выбран собственный вектор, соответствующий собственному
значению Лм+ 1 , где собственные значения упорядочены по убыванию.

12.2. (**) Покажите, что минимальное значение меры искажения J в методе РСА,
заданное формулой (12.15) по отношению к вектору u;, с учетом ограни­

чений ортонормированности (12.7), получается, когда пользовательский


интерфейс является собственным вектором ковариационной матрицы
данных S. Чтобы сделать это, введите матрицу Н множителей Лагранжа,
по одному для каждого ограничения, чтобы измененная мера искажения

в матричной записи приняла вид

(12.93)

где U - матрица размерностью D х (D - М), столбцы которой определя­


ются как u;. Минимизируйте функцию j по U и покажите, что решение
удовлетворяет уравнению SU = UH . Ясно, что одним из возможных ре­
шений является то, в котором столбцы матрицы U являются собственны­
ми векторами матрицы S, и в этом случае Н является диагональной матри­
цей, содержащей соответствующие собственные значения. Чтобы полу­
чить общее решение, покажите, что Н можно считать симметричной
Упражнения 789

матрицей, и, используя ее разложение по собственным векторам, покажи­


те, что общее решение уравнения SU = UH дает то же значение функции
j , что и конкретное решение, в котором столбцы матрицы iJ являются
собственными векторами матрицы S. Поскольку все эти решения эквива­
лентны, удобно выбрать решение в виде собственного вектора.

12.3. (*) Убедитесь, что собственные векторы, определенные в (12.30), норми­

рованы на единичную длину, предполагая, что собственные векторы v"


имеют единичную длину.

12.4. (*) WWW Предположим, мы заменяем латентное пространственное распре­


деление с нулевым математическим ожиданием (12.31) в вероятностной

модели РСА общим нормальным распределением вида N(zlm, 1:). Пе­


реопределив параметры модели, покажите, что это приводит к идентич­

ной модели для маргинального распределения р(х) по наблюдаемым пе­


ременным для любого допустимого выбора т и 1:.
12.5. (**)Пусть х -D-мерная случайная величина, имеющая нормальное рас­
пределение N (х 1 µ, 1:). Рассмотрим М-мерную случайную величину, за­
данную формулой у = Ах + Ь, где А - матрица размерностью М х D
матрица. Покажите, что случайная величина у также имеет нормальное
распределение, и найдите выражения для его математического ожидания

и ковариации. Обсудите форму этого нормального распределения при


M<D,M=DиM>D.

12.6. (*) WWW Нарисуйте ориентированный вероятностный граф для вероят­


ностной модели РСА, описанной в рюделе 12.2, в которой компоненты
наблюдаемой переменной х явно показаны в виде отдельных узлов. Убе­
дитесь, что вероятностная модель РСА имеет ту же структуру независи­
мости, что и наивная байесовская модель, рассмотренная в разделе 8.2.2.
12.7. (**)Используя результаты (2.270) и (2.271) для математического ожида­
ния и ковариации общего распределения, выведите результат (12.35) для
маргинального распределения р(х) в вероятностной модели РСА.

12.8. (**) WWW Используя результат (2.116), покажите, что апостериорное рас­

пределение p(z lx) для вероятностной модели РСА определяется форму­


лой (12.42).

12.9. (*) Убедитесь, что максимизация логарифмической функции правдопо­


добия (12.43) для вероятностной модели РСА по параметру µдает ре­
зультат µмL = х, где х - математическое ожидание векторов исходных

данных.
790 ГЛАВА 12. НЕПРЕРЫВНЫЕ ЛАТЕНТНЫЕ ПЕРЕМЕННЫЕ

12.10. (**)Вычислив вторые производные логарифмической функции правдо­


подобия (12.43) для вероятностной модели РСА по параметруµ, покажи­
те, что стационарная точка µмL =х является единственной точкой мак­
симума.

12.11. (**) WWW Покажите, что в пределе при а 2 ~О апостериорное математиче­


ское ожидание для вероятностной модели РСА становится ортогональной
проекцией на главное подпространство, как в обычной модели РСА.

12.12. (**)Покажите, что при а 2 >О апостериорное математическое ожидание в


вероятностной модели РСА смещено к началу координат относительно

ортогональной проекции.

12.13. (**)Покажите, что оптимальная реконструкция точки при вероятностном


РСА согласно стоимости проекции наименьших квадратов в обычной
модели РСА определяется формулой

х = WмL (w~ wМL( MJE[zlxJ. (12.94)

12.14. (*)Количество независимых параметров в ковариационной матрице для


вероятностной модели РСА с М-мерным латентным пространством и D-
мерным пространством данных определяется формулой (12.51). Убеди­
тесь, что в случае М =D - l количество независимых параметров такое

же, как и в ковариационной матрице общего нормального распределения,


тогда как при М =О оно такое же, как для нормального распределения с

изотропной ковариацией.

12.15. (**) WWW Выведите формулу М-шага (12.56) и (12.57) для вероятностной
модели РСА путем максимизации математического ожидания логариф­
мической функции правдоподобия при полных данных, определяемой
формулой (12.53).
12.16. (***)На рис. 12.11 мы показали применение вероятностного РСА к мно­
жеству данных, в котором некоторые значения данных по случайным

причинам бьmи пропущены. Выведите ЕМ-алгоритм для максимизации


функции правдоподобия для вероятностной модели РСА в этой ситуации.
Обратите внимание, что {zп}, а также отсутствующие значения данных,
которые являются компонентами векторов {хп}, теперь являются латент­

ными переменными. Покажите, что в особом случае, когда наблюдаются


все значения данных, это сводится к ЕМ-алгоритму для вероятностного

РСА, полученному в разделе 12.2.2.


Упражнения 791

12.17. (***) WWW Пусть W - матрица размерностью D х М, столбцы которой


определяют линейное подпространство размерности М, вложенное в про­
странство данных размерности D, и пустьµ- D-мерный вектор. При за­

данном множестве данных {хп}, где п = 1, "" N, мы можем аппроксими­


ровать точки исходных данных, используя линейное отображение из
набора М-мерных векторов {zп}, так что Хп аппроксимируется случайной
величиной W Zn + µ. Соответствующая стоимость реконструкции суммы
квадратов определяется формулой

N 2
J=Illxn-µ-Wzпll · (12.95)
п~I

Сначала покажите, что минимизация функции J по µ приводит к анало­


гичному выражению с заменой Хп и Zn переменными с нулевым математи­
ческим ожиданием, соответственно хп - х и zn - z , где х и z обозначают
выборочные средние значения. Затем покажите, что минимизация функ­
ции J относительно Zm при которой матрица W остается фиксированной,
приводит к Е-шагу метода РСА (12.58), а минимизация функции J относи­
тельно W, при которой вектор {zп} остается фиксированным, приводит к
М-шагу метода РСА (12.59).
12.18. (*) Выведите выражение для количества независимых параметров в мо­
дели факторного анализа, описанной в разделе 12.2.4.
12.19. (**) WWW Покажите, что модель факторного анализа, описанная в разде­
ле 12.2.4, инвариантна относительно вращений латентных простран­
ственных координат.

12.20. (**)Рассматривая вторые производные, покажите, что единственная ста­


ционарная точка логарифмической функции правдоподобия для модели
факторного анализа, обсуждаемой в разделе 12.2.4 относительно пара­
метра µ, определяется средним выборочным значением, заданным фор­
мулой (12.1). Кроме того, покажите, что эта стационарная точка является
максимумом.

12.21. (**) Выведите формулы (12.66) и (12.67) для Е-шага ЕМ-алгоритма для

факторного анализа. Обратите внимание на то, что из результата упраж­


нения 12.20 следует, что параметрµ можно заменить средним выбороч­
ным значением х .
792 ГЛАВА 12. НЕПРЕРЫВНЫЕ ЛАТЕНТНЫЕ ПЕРЕМЕННЫЕ

12.22. (**)Запишите выражение для ожидаемой функции вероятности записи


полных данных для модели факторного анализа и, следовательно, выве­
дите соответствующие М пошаговых уравнений (12.69) и (12.70).
12.23. (*) WWW Нарисуйте ориентированный вероятностный граф, представляю­
щий дискретную смесь вероятностных моделей РСА, в котором каждая
модель РСА имеет свои собственные значения W, µи (i. Затем нарисуй­
те измененный граф, в котором эти значения параметров распределяются
между компонентами смеси.

12.24. (***)Мы видели в разделе 2.3. 7, что t-распределение Стьюдента можно


рассматривать как бесконечную смесь нормальных распределений, в ко­
торой мы выполняем маргинализацию по непрерывной латентной пере­

менной. Используя это представление, сформулируйте ЕМ-алгоритм для


максимизации логарифмической функции правдоподобия для многомер­
ного t-распределения Стьюдента с учетом наблюдаемого набора точек и
выведите формулы для Е- и М-шагов.

12.25. (**) WWW Рассмотрим линейно-гауссовскую модель латентных перемен­


ных, имеющую латентное пространственное распределение p(z) =
=N(xlO, 1) и условное распределение для наблюдаемой переменной
p(xl z) = N(xlWz+µ, Ф) где Ф- произвольная симметричная положи­
тельно-определенная ковариационная матрица шума. Теперь предпо­

ложим, что мы делаем несингулярное линейное преобразование пере­


менных х ~Ах, где А - матрица размерностью D х D. Покажите, что

если µML• W мL и ФмL представляют решение для максимального прав­


доподобия, соответствующее исходным нетрансформированным дан-
т
ным, то АµмL, AWмL и АФмLА будут представлять соответствующее
решение для максимального правдоподобия для преобразованного
набора данных. Наконец, покажите, что форма модели сохраняется в
двух случаях: 1) если А и Ф - диагональные матрицы; это соответ­
ствует случаю факторного анализа, в котором преобразованная матрица
Ф остается диагональной, и, следовательно, факторный анализ является
ковариантным при перемасштабировании переменных данных по ком­
понентам; (2) А - ортогональная матрица, а Ф пропорциональна еди­
ничной матрице, так что Ф = о- 2 1. Это соответствует вероятностной мо­
дели РСА. Преобразованная матрица Ф остается пропорциональной
единичной матрице, и, следовательно, вероятностный метод РСА явля-
Упражнения 793

ется ковариантным относительно вращения осей пространства данных,

как в случае обычного метода РСА.

12.26. (**) Покажите, что любой вектор а;, удовлетворяющий условию (12.80),
также будет удовлетворять условию (12.79). Также покажите, что к любо­
му решению (12.80), имеющему собственное значение А, можно добавить
любой кратный собственный вектор матрицы К, имеющий нулевое мате­
матическое ожидание, и получить решение (12.79), которое также имеет

собственное значение А. Наконец, покажите, что такие модификации не


влияют на проекцию главных компонентов, определяемую (12.82).
12.27. (**)Покажите, что традиционный линейный алгоритм РСА является
частным случаем ядра РСА, если мы выбираем линейную функцию ядра,
заданную как k(x, х') = хтх'.
12.28. (**) WWW Используя свойство преобразования плотности вероятности при
изменении переменной (1.27), покажите, что любая плотностьр(у) может
быть получена из фиксированной плотности q(x), которая не равна нулю
всюду, путем внесения нелинейного изменения переменной у= f(x), в ко­
торомf(х) является монотонной функцией, такой, что О -5.f'(x) < оо. Запи­
шите дифференциальное уравнение, которому удовлетворяет функция
f(x), и нарисуйте график, иллюстрирующий преобразование плотности.

12.29. (**) WWW Предположим, что две переменные z 1 и z2 независимы, так что
p(z 1, z2) = p(z 1)p(z2). Покажите, что матрица ковариации между этими пе­
ременными является диагональной. Это свидетельствует о том, что неза­
висимость является достаточным условием для некоррелированности

двух переменных. Теперь рассмотрите две переменные, у 1 и у 2 , такие, что


переменная у 1 симметрично распределена вокруг нуля и у2 = Запи­ yf .
шите условное распределение p(y2 ly 1) и обратите внимание на то, что оно
зависит от у 1 , а значит, эти две переменные не являются независимыми.

Теперь покажите, что ковариационная матрица между этими двумя пере­

менными также является диагональной. Для этого, используя соотноше­

ние р(у1, У2) = p(y 1)p(y2 ly 1), покажите, что недиагональные члены равны
нулю. Этот контрпример показывает, что нулевая корреляция не является

достаточным условием независимости.


13

До сих пор в этой книге мы фокусировались в основном на множествах дан­


ных, которые, как предполагалось, бьmи независимыми и одинаково распреде­
ленными случайными величинами. Это предположение позволило нам выразить

функцию правдоподобия как произведение плотностей вероятностей по всем


точкам исходных данных. Однако для многих применений предположение о не­

зависимости и одинаковом распределении не выполняется. Здесь мы рассмотрим


особенно важный класс таких множеств данных - множества последователь­
ных данных. Они часто возникают в результате измерения временных рядов,
например, измерений дождевых осадков в последовательные дни в определен­

ном месте, или ежедневных значений валютного курса, или акустических харак­
теристик в последовательных временных диапазонах, используемых для распо­

знавания речи. Пример с речевыми данными приведен на рис. 13.1. Последова­


тельные данные могут также возникать в контекстах, отличных от временных

рядов, например, в виде последовательности пар нуклеотидных оснований вдоль


796 ГЛАВА 13. ПОСЛЕДОВАТЕЛЬНЫЕ ДАННЫЕ

цепи ДНК или последовательности символов в английском предложении. Для


удобства мы иногда будем ссылаться на предыдущие и будущие наблюдения в
последовательности. Однако модели, рассмотренные в этой главе, в равной сте­

пени применимы ко всем видам последовательных данных, а не только к вре­

менным последовательностям.

10 ООО

8000
с
~ 6000
1-
о
1-
(.)
С1'
4000
7
2000

~ 0,15

~
i:::::
о
:::!;
<
-0,15

-0,3 ~--~---~---~---~---~
о 0,2 0,4 0,6 0,8
Время, с

Рис. 13.1. Пример спектрограммы произнесенных

слов "Bayes' theorem", демонстрирующий график

зависимости интенсивности спектральных коэффициентов от времени

Полезно различать стационарные и нестационарные последовательные рас­


пределения. В стационарном случае данные эволюционируют во времени, но

распределение, из которого они генерируются, остается неизменным. Для более


сложной нестационарной ситуации само порождающее распределение эволюци­

онирует со временем. Мы остановимся на стационарном варианте.


Для многих приложений, таких как финансовое прогнозирование, хотелось
бы иметь возможность прогнозировать следующее значение во временном ряду
с учетом наблюдений за предыдущими значениями. Интуитивно мы ожидаем,
что недавние наблюдения, вероятно, будут более информативными для прогно-
13.1. Марковские модели 797

зирования будущих значений, чем более старые. Пример на рис. 13.1 показыва­
ет, что последовательные наблюдения спектра речи действительно сильно кор­
релированы. Кроме того, было бы нецелесообразно рассматривать общую зави­
симость будущих наблюдений от всех предыдущих наблюдений, поскольку
сложность такой модели будет расти без ограничений по мере увеличения коли­
чества наблюдений. Это приводит нас к рассмотрению марковских моделей,
в которых мы предполагаем, что будущие прогнозы независимы от всех, кроме
самых последних наблюдений.
Хотя такие модели удобны, они также сильно ограничены. Мы можем полу­
чить более общий метод, все еще сохраняя его реалистичность, путем введения
латентных переменных. Это приводит к моделям пространства состояний. Как
и в главах 9 и 12, мы увидим, что сложные модели могут быть построены из бо­
лее простых компонентов (в частности, из распределений, принадлежащих экс­
поненциальному семейству) и легко охарактеризованы с использованием веро­
ятностных графовых моделей. Здесь мы сосредоточимся на двух наиболее важ­
ных примерах моделей пространства состояний, а именно скрытой марковской
модели, в которой латентные переменные являются дискретными, и линейных
динамических системах, в которых латентные переменные являются нормально
распределенными случайными величинами. Обе модели описываются ориенти­
рованными графами, имеющими древовидную структуру (без петель), для кото­
рой выведение может быть эффективно выполнено с использованием алгоритма
sum-product.

13.1. Марковские модели

Самый простой способ обработки последовательных данных - это игнори­


ровать последовательные аспекты и рассматривать наблюдения как независимые
и одинаково распределенные случайные величины, соответствующие графу, по­
казанному на рис. 13.2. Такой подход, однако, не сможет использовать последо­
вательные закономерности в данных, такие как корреляции между соседними

наблюдениями. Предположим, например, что мы наблюдаем двоичную пере­


менную, обозначающую, шел ли в определенный день дождь или нет. Учитывая
временной ряд недавних наблюдений за этой переменной, мы хотим предска­
зать, пойдет ли дождь на следующий день. Если рассматривать данные как неза­

висимые и одинаково распределенные случайные величины, то единственная


информация, которую мы можем получить из этих данных, - это относительная
частота дождливых дней. Однако на практике мы знаем, что погода часто де-
798 ГЛАВА 13. ПОСЛЕДОВАТЕЛЬНЫЕ ДАННЫЕ

монстрирует тренды, которые могут длиться несколько дней. Поэтому наблюде­

ние за тем, идет ли дождь сегодня, существенно помогает в прогнозировании,

будет ли он идти завтра.

Рис. 13.2. Простейший подход к моделированию последовательности

наблюдений состоит в том, чтобы рассматривать их как независимые,

соответствующие графу без связей

Чтобы выразить такие эффекты в вероятностной модели, нужно ослабить


предположение о независимости и одинаковом распределении случайных вели­

чин. Один из самых простых способов сделать это - рассмотреть марковскую


модель. Прежде всего отметим, что без потери общности мы можем использо­
вать правило умножения вероятностей для выражения совместного распределе­

ния последовательности наблюдений в виде

N
p{x1,X2•···•xN) = р{х1) Пр(хпlх1, ... ,хп-1)· (13.1)
n=2

Если теперь предположить, что каждое из условных распределений в правой


части не зависит от всех предыдущих наблюдений, кроме самых последних, мы
получим цепь Маркова первого порядка, которая изображена в виде графовой мо­
дели на рис. 13.3. Совместное распределение для последовательности N наблюде­
ний по этой модели задается формулой

N
p{x1,X2•···•XN) =р{х1)Пр(хпlхп-1 ). (13.2)
n=2

Из свойства d-разделения следует, что условное распределение для наблюде­


ния х" при заданных наблюдениях до момента времени п определяется как
(см. раздел 8.2)
(13.3)

что легко проверить путем прямого вычисления, начиная с формулы (13.2) и

применяя правило умножения вероятностей. Таким образом, если мы использу­


ем такую модель для прогнозирования следующего наблюдения в последова­

тельности, распределение прогнозов будет зависеть только от значения непо­


средственно предшествующего наблюдения и будет независимым от всех более
ранних наблюдений (см. упражнение 13.1).
13.1. Марковские модели 799

Рис. 13.3. Марковская цепь наблюдений первого порядка {хп } ,

в которой распределение р(хпlхп. 1) конкретного наблюдения хп

обусловлено значением предыдущего наблюдения

В болъппmстве применений таких моделей условные распределенияр(хпlх,,.._ 1 ),


определяющие модель, считаются одинаковыми, что соответствует предположе­

нию о стационарном временном ряде. Такую модель называют однородной цепью


Маркова. Например, если условные распределения зависят от настраиваемых па­
раметров (значения которых могут быть выведены из множества обучающих дан­
ных), то все условные распределения в цепи будут иметь одинаковые значения

этих параметров.

Хотя это более общая модель, чем модель, основанная на предположении о


независимости данных, она все еще очень ограничена. Для многих последова­
тельных наблюдений мы ожидаем, что тренды данных, построенные по несколь­

ким последовательным наблюдениям, предоставят важную информацию для


прогнозирования следующего значения. Один из способов учесть более ранние
наблюдения - рассмотреть цепи Маркова более высокого порядка. Если мы до­
пустим, чтобы предсказания зависели от последнего и предпоследнего значений,
то получим цепь Маркова второго порядка, представленную графом на рис. 13.4.
Совместное распределение теперь задается формулой

N
р( х 1 ,x 2 ,""xN) =р( Х 1 )р( x 2 lx1 ) ПР( хпlхп-t>Хп-2)· (13.4)
n=З

Снова используя d-разделение или непосредственные вычисления, мы видим,


что условное распределение х" с учетом значений Xn-l и Хп_2 не зависит от всех

наблюдений х 1 , "., Хп-З·

Рис. 13.4. Марковская цепь второго порядка , в которой

условное распределение конкретного набл юдения Хп

завис ит от значений двух предыдущих наблюдений х 11 • 1 и х 11 _ 2


800 ГЛАВА 13. ПОСЛЕДОВАТЕЛЬНЫЕ ДАННЫЕ

На каждое наблюдение теперь влияют два предыдущих наблюдения. Анало­


гичным образом можно рассмотреть цепи Маркова М-го порядка, в которых
условное распределение для конкретной переменной зависит от М предыдущих

переменных. Однако мы заплатили цену за эту повышенную гибкость, потому


что количество параметров в модели теперь намного больше. Предположим, что
наблюдения являются дискретными переменными, имеющими К состояний. То­
гда условное распределение р(хпlхп_ 1 ) в цепи Маркова первого порядка будет
определяться набором, состоящим из К-1 параметров для каждого из К состоя­
ний хп_ 1 , т.е. из К(К-1) параметров. Теперь предположим, что мы расширяем
модель до цепи Маркова М-го порядка, так что совместное распределение стро­

ится из условных распределений р(хпlхп-М• "., Хп_ 1 ). Если переменные являются


дискретными, а условные распределения представлены общими таблицами
условных вероятностей, то количество параметров в такой модели будет равно
Км(К-1 ). Поскольку с увеличением М эта величина растет экспоненциально,
при больших значениях М такой подход часто является нецелесообразным.
Для непрерывных переменных мы можем использовать линейно-гауссовские
условные распределения, в которых каждый узел имеет нормальное распределе­
ние, математическое ожидание которого является линейной функцией его роди­
тельских узлов. Эта модель называется авторегрессионной (autoregressive), или
AR (Вох et а/" 1994; Thiesson et а/" 2004). Альтернативный подход заключается в
использовании параметрической модели для р(хпlхп-М• .. " хп_ 1 ), такой как
нейронная сеть. Этот метод иногда называют линией задержки с отводами
(tapped delay line), поскольку он соответствует сохранению (задержке) преды­
дущих значений М наблюдаемой переменной для прогнозирования следующего
значения. В этом случае количество параметров может быть намного меньше,
чем в совершенно общей модели (например, оно может расти линейно с увели­
чением М), хотя это достигается за счет ограничений, наложенных на семейства
условных распределений.
Предположим, мы хотим построить модель для последовательностей, которая

не ограничена предположением Маркова какого-либо порядка и все же может


быть задана с использованием ограниченного числа свободных параметров. Мы
можем достичь этого, введя дополнительные латентные переменные, чтобы по­
строить богатый класс моделей из простых компонентов, как мы это сделали с
распределениями смесей в главе 9 и с непрерывными моделями латентных пе­
ременных в главе 12. Для каждого наблюдения Хп вводим соответствующую ла­
тентную переменную Zn (которая может иметь тип или размерность, отличную
от наблюдаемой переменной). Теперь предполагаем, что именно латентные пе-
13.1. Марковские модели 801

ременные образуют цепь Маркова, порождая графовую структуру, известную


как модель пространства состояний, которая показана на рис . 13.5. Она удо­
влетворяет ключевому условию условной независимости, согласно которому
случайные величины zn- 1 и Zn+I являются независимыми при заданном значе­

нии Zn, так что

Zn+l l l Zп-1 1 Zn. (13.5)

Совместное распределение для этой модели задается формулой

(13.6)

Рис. 13.5. Мы можем представить последовательные данные, используя цепь

латентных переменных Маркова, в которой каждое наблюдение обусловлено

состоянием соответствующей латентной переменной. Эта важная графическая структура

лежит в основе как скрытой марковской модели, так и линейных динамических систем

Используя критерий d-разделения, мы видим, что всегда есть путь, соединя­


ющий любые две наблюдаемые переменные Хп и xm через латентные перемен­
ные, и что он никогда не блокируется. Таким образом, прогностическое распре­
деление p(xп+i lx 1, ... , хп) для наблюдения Хп+I при всех предыдущих наблюдени­
ях не проявляет никаких свойств условной независимости, и поэтому наши
прогнозы для Хп+~ зависят от всех предыдущих наблюдений. Наблюдаемые пе­
ременные, однако, не удовлетворяют свойству Маркова никакого порядка. Мы

обсудим, как вычислить прогностическое распределение в следующих разделах.


Есть две важные модели для последовательных данных, которые описаны

этим графом. Если латентные переменные являются дискретными, то мы полу­


чаем скрытую марковскую модель (hidden Markov model), или НММ (Elliott
et а/" 1995) (см. раздел 13.2). Обратите внимание на то, что наблюдаемые пере­
менные в модели НММ могут быть дискретными или непрерывными, и для их
моделирования можно использовать различные условные распределения. Если
и латентная, и наблюдаемая переменные являются нормально распределенными
802 ГЛАВА 13. ПОСЛЕДОВАТЕЛЬНЫЕ ДАННЫЕ

(с линейно-гауссовской зависимостью условных распределений от родительских


узлов), то мы получаем линейную динамическую систему (см. раздел 13.3).

13.2. Скрытые марковские модели

Скрытую марковскую модель можно рассматривать как конкретный пример


модели пространства состояний, показанной на рис. 13.5, в которой латентные

переменные являются дискретными. Однако, если мы рассмотрим один времен­


ной отрезок модели, то увидим, что он соответствует смеси распределений с
плотностями компонентов, заданными какр(х[z). Поэтому его также можно ин­
терпретировать как расширение смеси, в которой выбор компонента смеси для
каждого наблюдения не выбирается независимо, а зависит от выбора компонен­
та для предыдущего наблюдения. Модель НММ широко используется для рас­
познавания речи (Jelinek, 1997; Rabiner and Juang, 1993), моделирования есте­
ственного языка (Manning and Schьtze, 1999), распознавания рукописного ввода
в режиме реального времени (Nag et а/" 1986) и для анализа биологических по­
следовательностей, таких как белки и ДНК (Кrogh et а/" 1994; DurЬin et а/" 1998;
Baldi and Brunak, 2001 ).
Как и в случае стандартной смеси, латентные переменные - это дискретные
полиномиальные переменные Zm описывающие, какой компонент смеси отвеча­
ет за генерацию соответствующего наблюдения Хп. Здесь снова удобно исполь­
зовать схему кодирования 1 из К, которая используется для смешанных моделей
в главе 9. Теперь мы позволяем распределению вероятности zn зависеть от со­

стояния предыдущей латентной переменной Zn-l через условное распределение


р(zп[ Zn_ 1). Поскольку латентные переменные представляют собой К-мерные
двоичные переменные, это условное распределение соответствует таблице чи­
сел, которую мы обозначим через А, элементы которой называются вероятно­
стями перехода. Они задаются какА1k=р(zпk= l[zп-1,J= 1) и, поскольку являются

вероятностями, удовлетворяют условиям О~ A1k ~ 1 при условии LAJk = 1, так


k
что матрица А имеет К(К-1) независимых параметров. Тогда условное распре-
деление можно записать в явном виде:

к к

р( zn 1 zn-1' A) --ППлz•-1.jZ•k
jk • (13.7)
k=l }=1

Начальный латентный узел z 1 отличается тем, что у него нет родительского


узла, и поэтому он имеет маргинальное распределение p(z 1), представленное

вектором вероятностей 1t с элементами trk = p(zlk = 1), так что


13.2. Скрытые марковские модели 803

р( z1I п) =П 1r: 1k, оз.s)


k=l

где Ltr1r =1 .

Матрицу переходов иногда представляют схематически, рисуя состояния в


виде узлов на диаграмме переходов состояний, как показано на рис . 13.6 для

случая К = 3. Обратите внимание на то, что она представляет не вероятностную


графовую модель, поскольку узлы не являются отдельными переменными, а
скорее состояния одной переменной, поэтому мы показали состояния в виде
прямоугольников, а не кружков .

Иногда полезно взять диаграмму перехода состояний, показанную на


рис . 13.6, и развернуть ее в обратном направлении во времени. Это дает альтер­
нативное представление переходов между латентными состояниями, известное

как решетка (lattice), или решетчатая диаграмма (trellis diagram), которая пока­
зана для случая скрытой марковской модели на рис. 13.7.

Рис. 13.6. Диаграмма перехода, пока :щвающая модель , у которой

латентные переменные имеют три возможных состояния, соответствующих трем

прямоугольникам. Черные линии обо з 11а•1ают элементы матрицы перехода AJk


804 ГЛАВА 13. ПОСЛЕДОВАТЕЛЬНЫЕ ДАННЫЕ

k= J

k =3
п-2 п-1 п п +1
Рис. 13.7. Если со временем развернуть диаграмму перехода состояний, показанную на

рис . 13.6, мы получим решетку, или решетчатое представление латентных состояний.

Каждый столбец этой диаграммы соответствует одной из латентных переменных z"

Спецификация вероятностной модели завершается определением условных

распределений наблюдаемых переменных p(xnl zm ф), где ф - множество пара­


метров, управляющих распределением. Они называются вероятностями эмис­
сии (emission probaЬilities) и могут, например, быть заданы нормальными рас­
пределениями вида (9 .11 ), если элементы х являются непрерывными перемен­
ными, или таблицами условных вероятностей, если х - дискретная случайная

величина. Поскольку случайная величина xn является наблюдаемой, то распре­

деление p(xnl zm ф) для данного значения состоит из вектора, содержащего К чи­


сел, соответствующих К возможным состояниям двоичного вектора zn.
Мы можем представить вероятности эмиссии в виде

p{xnlzn,Ф)= Пp(xnlФk)z•k · (13 .9)


k=I

Сосредоточим внимание на однородных моделях, для которых все условные


распределения, управляющие латентными переменными, имеют одни и те же

параметры А, и аналогичным образом все распределения эмиссии имеют одина­


ковые параметры ф (распространение на более общие случаи не составляет тру­
да). В смеси независимых и одинаково распределенных случайных величин
набор данных соответствует частному случаю, когда параметры A1k одинаковы

для всех значений}, так что условное распределение p(znl Zn_ 1) не зависит от Zn+
Это соответствует удалению горизонтальных связей из графовой модели, пока­
занной на рис. 13.5.
13.2. Скрытые марковские модели 805

В таком случае совместное распределение вероятностей как по латентной, так

и по наблюдаемой переменной определяется формулой

p(X,ZIO) = р( z ln )[ар( zпlzп_ 1 ,A) ]!]Р( xmlzm,ф),


1 (13.10)

где Х = {х 1 , •.• , xN}, Z = {z 1, ••• , zN}, а 8 = {п, А, ф} обозначает набор парамет­


ров, управляющих моделью. Большая часть нашего обсуждения скрытой мар­
ковской модели не будет зависеть от конкретного выбора вероятностей эмиссии.
На самом деле модель пригодна для широкого диапазона распределений эмис­

сии, включая дискретные таблицы, нормальные распределения и смеси нор­


мальных распределений. Также можно использовать дискриминантные модели

(c.w. упра.ш11е11ие 13.4), такие как нейронные сети. Они могут быть использова­
ны для непосредственного моделирования плотности эмиссии p(xlz) или для
представления плотности p(z lx), которое можно преобразовать в требуемую
плотность эмиссии p(xl z) с помощью теоремы Байеса (Bishop et а/" 2004).
Для того чтобы лучше понять скрытую марковскую модель, следует рассмот­
реть ее с точки зрения порождающего подхода. Напомним, что для генерации вы­

борок из смеси нормальных распределений мы сначала выбрали случайным обра­


зом один из компонентов с вероятностью, заданной коэффициентами смешива­
ния я"' а затем генерировали выборочный вектор х из соответствующего
нормально распределенного компонента. Этот процесс повторяется N раз, чтобы
сформировать набор данных, состоящий из N независимых выборок. В случае
скрьпой марковской модели эта процедура модифицируется следующим образом.
Сначала выбираем начальную латентную переменную z1 с вероятностями, опре­
деляемыми параметрами я"' а затем выбираем соответствующее наблюдение х 1 .
После этого выбираем состояние переменной z2 в соответствии с вероятностями
пepexoдap(z 2 lz 1 ), используя уже созданное значение z 1• Итак, предположим, что
выборка для z 1 соответствует состоянию j. Затем выберем состояние k из z 2 с ве­
роятностями A1k для k = 1, "" К. Как только мы знаем z 2 , мы можем извлечь выбор­
ку для х2 , а также выбрать следующую латентную переменную z3 и т.д. Это при­
мер наследственного выбора (см. раздела 8.1.2) ориентированной графовой моде­
ли. Если, например, у нас есть модель, в которой элементь1 диагонального

перехода Ан намного больше, чем недиагональные элементы, то типичная после­


довательность данных будет иметь длинные серии точек, сгенерированных из од­
ного и того же компонента с редкими переходами из одного компонента в другой.
Генерация выборок из скрьпой марковской модели показана на рис. 13.8.
806 ГЛАВА 13. ПОСЛЕДОВАТЕЛЬНЫЕ ДАННЫЕ

,
0,5 k=I
~ k=З
0,5

k=2

о о
о 0,5 о 0,5

Рис. 13.8. Выбор из скрытой марковской модепи, имеющей латентную переменную с

тремя состояниями z и гауссовскую модель эмиссии p(x l z), где вектор х является

двумерным : контуры с постоянной плотностью вероятности для распределений

эмиссии , соответствующих каждому ю трех состояний скрытой переменной (а) .

выборка из 50 точек, взятых из скрытой марковской модели, с цветовой кодировкой в

соответствии с компонентом, который их сгенерировал, и с линиями , соединяющими

последовательные наблюдения (6). Здесь матрица переходов была зафиксирована таким

образом, чтобы в любом состоянии существовала 5%-я вероятность перехода в каждое

из друтих состояний , и , следовательно , 90%-я вероятность остаться в том же состоянии

Существует много вариантов стандартной модели НММ, полученных,

например, путем наложения ограничений на форму матрицы перехода А (Раби­


нер, 1989). Здесь мы упоминаем один из особо важных практических вариан­
тов - модель НММ, ориентированную слева направо (left-to-right НММ), кото­
рая получается путем присваивания нуля элементам A1k матрицы А, если k <j,
как показано на диаграмме перехода состояний для НММ с тремя состояниями
на рис. 13.9. Как правило, для таких моделей вероятности начального состояния
для p(z 1) модифицируются таким образом, чтобы p(z 11 ) = 1 и p(z 1) =О дляj = 1,
иначе говоря, каждая последовательность должна обязательно начинаться в со­
стоянии j = 1. Матрицу перехода можно дополнительно ограничить, чтобы га­
рантировать отсутствие резких изменений индекса состояния, так что A1k = О, ес­

ли k > j + Л. Этот тип модели показан с помощью решетчатой диаграммы на


рис. 13.10.
13.2. Скрытые марковские модели 807

Рис. 13.9. Пример диаграммы перехода состояний для скрытой марковской модели

с тремя состояниями, ориентированной слева направо. Обратите внимание на то,

что после выхода из состояния в него нельзя попасть снова

k= l

k =3
п-2 п - 1 п п+1

Рис. 13.1 О. Решетчатая диаграмма для модели НММ с тремя состояниями,

ориентированной слева направо, в которой индексу состояния k


при каждом переходе разрешено увеличиваться не более чем на единицу

Многие приложения скрытых марковских моделей, например распознавание


речи или распознавание символов в режиме реального времени, используют ар­

хитектуры, ориентированные слева направо. В качестве иллюстрации скрытой


марковской модели, ориентированной слева направо, рассмотрим пример с ру­
кописными цифрами. При этом используются данные, полученные в режиме ре­
ального времени, т.е. каждая цифра представлена в виде траектории пера как
функция времени, описывающая последовательность координат пера, в отличие
от автономных данных, которые представлены в прилож:еиии А и содержат ста­
тические двумерные пиксельные изображения цифр. Примеры цифр, получен­
ных в реальном времени, показаны на рис. 13.11. Здесь мы обучаем скрытую
марковскую модель на подмножестве данных, содержащем 45 примеров циф­
ры 2. Существует К= 16 состояний, каждое из которых может генерировать ли-
808 ГЛАВА 13. ПОСЛЕДОВАТЕЛЬНЫЕ ДАННЫЕ

нейный сегмент фиксированной длины, имеющий один из 16 возможных углов,


и поэтому распределение вероятностей эмиссии представляет собой простую
таблицу вероятностей 16 х 16, связанную с допустимыми значениями углов для
каждого значения индекса состояния. Все вероятности перехода установлены
равными нулю, за исключением тех, которые сохраняют индекс состояния k
одинаковым или увеличивают его на единицу, а параметры модели оптимизи­

руются с использованием 25 итераций ЕМ-алгоритма. Некоторое представление


о получающейся модели можно получить на рис. 13 .11.

Рис. 13.11. Верхний ряд: примеры рукописных цифр в режиме

реального времени. Нижний ряд: искусственные цифры, сгенерированные

из скрытой марковской модели, ориентированной слева направо, которая

была обучена на наборе данных, состоящем из 45 рукописных цифр

Одним из наиболее мощных свойств скрытых марковских моделей является


их способность демонстрировать некоторую степень инвариантности к ло­

кальной деформации (сжатию и растяжению) оси времени. Чтобы понять это,


рассмотрим способ, которым цифра 2 написана в примере рукописных цифр в
реальном времени. Типичная цифра состоит из двух отдельных частей, соеди­
ненных под острым углом. Первая часть цифры, которая начинается в верхнем
левом углу, имеет широкую дугу вниз до острия или петлю внизу слева, за ко­

торой следует вторая, более или менее прямая линия, заканчивающаяся в пра­
вом нижнем углу. Естественные различия в стиле письма приводят к измене­

нию относительных размеров этих двух частей, и, следовательно, расположе­


ние острия или петли во временной последовательности будет изменяться.
С точки зрения порождающего подхода такие вариации можно учесть в скры­

той марковской модели путем изменения количества переходов в одно и то же

состояние по сравнению с количеством переходов в последовательное состоя-


13.2. Скрытые марковские модели 809

ние. Однако если цифра 2 написана в обратном порядке, т.е. начиная с нижне­
го правого и заканчивая верхним левым, то даже если координаты кончика пе­

ра будут идентичными примеру из обучающего множества, вероятность


наблюдений по модели будет крайне мала. В контексте распознавания речи

деформация оси времени связана с естественными изменениями скорости ре­


чи, и опять-таки скрытая марковская модель может приспособиться к такому
искажению и не подвергать его слишком сильному штрафу.

13.2.1. Принцип максимального


правдоподобия для модели НММ

По заданному набору наблюдаемых данных Х = {х 1 , "" xN} можно опреде­


лить параметры НММ, используя принцип максимального правдоподобия.
Функция правдоподобия получается из совместного распределения ( 13 .1 О) пу­
тем маргинализации по латентным переменным:

p(XIO) = LP(X,ZIO). (13.11)


z

Поскольку совместное распределение р(Х, ZI 8) не факторизируется поп (в от­


личие от смеси распределений, рассмотренной в главе 9), мы не можем рассмат­
ривать каждое суммирование по Zn по отдельности. Также мы не можем выпол­

нить суммирование явно, потому что есть N переменных, которые будут сумми­
роваться, каждая из которых имеет К состояний, в результате чего получается
всего KN слагаемых. Таким образом, количество слагаемых в сумме с увеличе­
нием длины цепи растет экспоненциально. Фактически суммирование в форму­
ле ( 13 .11) соответствует суммированию по экспоненциальному множеству путей
по решетчатой диаграмме, показанной на рис. 13.7.
Мы уже сталкивались с подобной трудностью, когда рассматривали пробле­
му вывода для простой цепи переменных на рис. 8.32. Там мы смогли использо­

вать свойства условной независимости графа для переупорядочения суммирова­


ния, чтобы получить алгоритм, сложность которого линейно, а не экспоненци­
ально зависит от длины цепи. Мы применим аналогичный прием и к скрытой
марковской модели.
Еще одна трудность с выражением (13.11) для функции правдоподобия со­
стоит в том, что, поскольку оно соответствует обобщению смеси распределений,
то представляет собой суммирование по моделям эмиссии для различных
настроек скрытых переменных. Следовательно, прямая максимизация функции
правдоподобия приведет к сложным выражениям без решений в замкнутой фор-
810 ГЛАВА 13. ПОСЛЕДОВАТЕЛЬНЫЕ ДАННЫЕ

ме, как это было в случае простых моделей смешивания (напомним, что модель
смешивания для внутренних данных является частным случаем НММ) (см. раз­
дел 9.2). Поэтому мы обращаемся к ЕМ-алгоритму, чтобы найти эффективную
основу для максимизации функции правдоподобия в скрытых марковских моде­
лях. ЕМ-алгоритм начинается с некоторого начального выбора параметров мо­
дели, который мы обозначим 8°1d. На Е-шаге по значениям этих параметров
находим апостериорное распределение скрытых переменных p(ZIX, 8°1d). Затем
используем это апостериорное распределение, чтобы вычислить математическое
ожидание логарифмической функции правдоподобия при полных данных как
функции параметров, чтобы получить функцию Q(8, 8°1d), определенную как

Q( e,e01d) = LP( z1x,e 01d)Inp(X,ZIB). (13.12)


z
На данном этапе удобно ввести некоторые обозначения. Мы будем использо­
вать у(zп) для обозначения маргинального апостериорного распределения ла­
тентной переменной zn и q(zп_ 1 , zп) для обозначения совместного апостериорно­
го распределения двух последовательных латентных переменных, так что

у ( zп ) = р ( zп Х, (Jold ) '
1 (13.13)

q(zп-l•zп) = Р( zn-1'znlX,(Jold ). (13.14)

Для каждого значения п мы можем хранить распределение у(zп), используя


множество, состоящее из К неотрицательных чисел, сумма которых равна еди­
нице, и аналогичным образом можем хранить распределение q(zп_ 1 , zп), исполь­
зуя матрицу чисел К х К, сумма которых также должна быть равна единице. Бу­
дем также использовать y(zпk) для обозначения условной вероятности того, что
Znk = 1 с аналогичным использованием обозначений для ,;(zп_ 1 ,1 Zпk) и других ве­
роятностных переменных, которые будут введены позже. Поскольку математи­
ческое ожидание двоичной случайной величины - это всего лишь вероятность
того, что она принимает значение. равное единице, мы имеем

(13.15)
z

.; ( Zn-1,j' Znk) = Е[ Zn-1,Jznk] =L.; (Zn_l>Zn )zп-1,Jznk · (13.16)


z

Если подставить совместное распределение р(Х, ZI 8), заданное форму­


лой (13.10), в выражение (13.12) и использовать определения уи .;, то получим
13.2. Скрытые марковские модели 811

К N К К

Q(0,0°1
d)= LY(z 1 k)lnяk + LLLq(zn-l,J•znk)lnA1k +
k;1 n;2 j;1 k;1
(13.17)
N К

+LLY(zпk )lnp(xпlФk ).
n;1 k;1
Целью Е-шага является вычисление величин у(zп) и q(zп-l• zп), и мы вскоре об­
судим это подробно.
На М-шаге мы максимизируем функцию Q(O, 8°1d) относительно параметров
(}= {я, А, ф}, в которых считаем у(zп) и q(zп_ 1 , zп) постоянными. Максимизация
по я и А легко достигается с помощью соответствующих множителей Лагранжа
и приводит к следующим результатам (с.м. ynpaJ1e11e11ue 13.5):

у( Z1k)
!l"k = к ' (13.18)
LY( Z11)
};1

Lq( Zn-1,J•znk)
А п;2
jk = _K.:..:......:N'------- (13.19)
L L q ( Zn-1,J•znl)
/;1 n;2

ЕМ-алгоритм должен быть инициализирован путем выбора начальных значе­


ний для я и А, который, конечно, должен учитывать ограничения, наложенные
на суммы, связанные с их вероятностной интерпретацией. Любые элементы я
или А, которые изначально равны нулю, будут оставаться нулевыми во всех по­
следующих уточнениях ЕМ-алгоритма (СJи. упражиеиие 13.6). Типичная проце­
дура инициализации будет включать выбор случайных начальных значений для
этих параметров с учетом ограничений на их сумму и неотрицательности. Для
моделей, ориентированных слева направо, не требуется никакой конкретной мо­
дификации результатов ЕМ-алгоритма, кроме выбора начальных значений для
элементов A1k, в которых соответствующие элементы равны нулю, потому что

они будут оставаться нулевыми всегда.


Для того чтобы максимизировать функцию Q( О, 0°1d) по фk, отметим, что
только последний член в формуле (13.17) зависит от Фъ и, кроме того, он имеет
точно такую же форму, как и зависящий от данных член в соответствующей
функции для стандартной смеси распределений независимых и одинаково рас­
пределенных данных, как видно из сравнения с (9.40) для случая смеси нор­
мальных распределений. Здесь величины y(zпk) играют роль ответственностей.
812 ГЛАВА 13. ПОСЛЕДОВАТЕЛЬНЫЕ ДАННЫЕ

Если величины y(zпk) независимы для разных компонентов, то этот член разлага­
ется на сумму слагаемых по одному для каждого значения k, каждое из которых
может быть максимизировано независимо. Затем мы максимизируем весовую
логарифмическую функцию правдоподобия для плотности эмиссии p(xl фk) с ве­
сами y(zпk). Здесь мы предположили, что эта максимизация может быть выпол­
нена эффективно. Например, в случае нормальной плотности эмиссии мы имеем
p(xl фk) = N(xlµь :Ek), и максимизация функции Q(8, (J01 d) дает
N

LY(zпk )хп
µ k -- ~n;~)_ _ __
N (13.20)
LY(zпk)
n;I

N Т
LY(zпk)(xn -µk)(хп -µk)
't' - _n_;J_ _ _ _ _ _ _ _ _ __
~k - N (13.21)
LY(zпk)
n;\

Для случая дискретных многомодальных наблюдаемых переменных условное


распределение наблюдений принимает вид

D К

p(xlz) =ппµi~ч' (13.22)


j;) k;\

а соответствующие формулы М-шага имеют вид (см. упра:нсиеиие 13.8):


N
LY(zпk)xпi
п;\
µik = N (13.23)
LY(zпk)
п;\

Аналогичный результат имеет место для бернуллиевских наблюдаемых пере­


менных.

ЕМ-алгоритм требует начальных значений для параметров распределения


эмиссии. Один из способов задать их - сначала обработать данные как незави­
симые и одинаково распределенные случайные величины, подобрать плотность
эмиссии по принципу максимального правдоподобия, а затем использовать по­
лученные значения для инициализации параметров для ЕМ-алгоритма.
13.2. Скрытые марковские модели 813

13.2.2. Алгоритм прямого и обратного хода


Далее мы ищем эффективную процедуру вычисления величин y(znk) и
~(zп-- 1 , 1 , znk), соответствующих Е-шагу ЕМ-алгоритма. Граф для скрытой мар­
ковской модели, показанный на рис. 13.5, представляет собой дерево, поэтому
апостериорное распределение скрытых переменных может быть эффективно
получено с использованием двухэтапного алгоритма передачи сообщений
(с.'11. раздел 8.4). В конкретном контексте скрытой марковской модели он
называется ш~горитм от прямого-обратного хода (RaЬiner, 1989), или ш~го­
ритмом Баума-Велша (Baum, 1972). На самом деле существует несколько ва­
риантов базового алгоритма, каждый из которых приводит к точным марги­
нальным распределениям в соответствии с точной формой сообщений, которые
распространяются по цепи (Jordan, 2007). Мы рассмотрим наиболее широко ис­
пользуемый из них, известный как алгоритм альфа-бета.
Помимо того, что алгоритм прямого и обратного хода имеет большое практи­
ческое значение сам по себе, он дает хорошую иллюстрацию многих концепций,
представленных в предыдущих главах. Поэтому этот раздел начнем с традици­
онного вывода уравнений прямого и обратного хода, используя правила сложе­
ния и умножения вероятностей и свойства условной независимости, которые мы

получим из соответствующей графовой модели с помощью d-разделения. Затем


в разделе 13.2.3 будет показано, что алгоритм прямого и обратного хода может
быть получен очень просто в качестве конкретного примера алгоритма sum-
product, представленного в разделе 8.4.4.
Оценка апостериорных распределений скрытых переменных не зависит от
формы плотности эмиссии p(xl z) или от того, являются ли наблюдаемые пере­
менные непрерывными или дискретными. Все, что нужно, - это значения вели­
чин p(xnl zn) для каждого значения Zn и каждого п. Кроме того, в этом и следую-
(J оld ,
щем разделах мы опускаем явную зависимость от параметров модели по-

скольку они фиксированы.


Итак, начнем с записи следующих свойств условной независимости (Jordan,
2007):
p(XI Zn) = р(Х1, "" Xnl Zn) Х
Х р(Хп+\, "" X,vj Zn), (13.24)
р(х,, "" Xn-1IXn, Zп) = р(Х1, "" Xn-1lzп), (13.25)
р(х1, "" Хп-11 Zп-1• Zn) = р(Х1, "" Хп-11 Zп-1), (13.26)
р(Хп+I• "" X,vj Zn, Zп+1) = р(Хп +\• "" X,vj Znн), (13.27)
р(Хп+2• "" x,vj Zn+l• Хп+\) = р(Хп+2• "" X,vj Zn+1), (13.28)
814 ГЛАВА 13. ПОСЛЕДОВАТЕЛЬНЫЕ ДАННЫЕ

p(XI Zn-1• Zп) = р(Х1, "" Хп-11 Zп-1)Х


Х р(хпl Zп)Р(Хп+1• .",ХМ Zп) (13.29)
p(XN+1IX, ZN+1) = p(XN+1I ZN+1). (13.30)
p(zN+1lzм Х) = p(zN+1lzN), (13.31)
где Х = {х 1 , "" xN}· Эти отношения легче всего доказать с помощью d-
разделения. Например, во втором из этих результатов мы отмечаем, что каждый

путь из любого из узлов х 1 , "" х"_ 1 к узлу х" проходит через узел zn, который
наблюдается. Поскольку все такие пути имеют тип "голова к хвосту'', свойство
условной независимости должно сохраняться. Читатель должен потратить не­
сколько минут, чтобы проверить каждое из этих свойств по очереди, в качестве
упражнения на применение d-разделения. Эти отношения также могут быть до­
казаны непосредственно, хотя и с гораздо большими усилиями, из совместного
распределения для скрытой марковской модели с использованием правил сло­
жения и умножения вероятностей (см. ynptmcнeuue 13.10).
Начнем с оценки y(zпk). Напомним, что для дискретной многомодальной слу­
чайной величины математическое ожидание одного из ее компонентов является
просто вероятностью того, что этот компонент равен единице. Таким образом,

мы заинтересованы в нахождении апостериорного распределения p(zпlx 1 , "" xN)


величины zn при заданном множестве наблюдаемых данных х 1 , ""хм Оно пред­
ставлено в виде вектора длины К, элементы которого соответствуют ожидаемым
значениям znk· Используя теорему Байеса, получим

zn ) р ( zn )
( ) = Р (zп 1х) = р ( х1р(Х) (13.32)
У zп ·

Обратите внимание на то, что знаменатель р(Х) неявно обусловлен параметрами


ff 1d модели НММ и, следовательно, представляет собой функцию правдоподо­
бия. Используя свойство условной независимости (13.24) вместе с правилом

умножения вероятностей, получим

(z )= p(x1"",xn,zп)P{xn+l""'xNlzn) = a(zп)/J(zп) (13.33)


у п р(Х) р(Х) '

где

а(zп) =р(Х1, "" Хт Zп), (13.34)


/J(zп) = р(хп+1• "" xNI Zп). (13.35)

Величина а(zп) представляет собой совместную вероятность всех данных,


наблюдаемых до момента времени пи значения z"' тогда как /J(zп) представляет
собой условную вероятность всех будущих данных за интервал времени от мо-
13.2. Скрытые марковские модели 815

мента п + 1 до N при заданном значении Zn. Как и прежде, каждое из распреде­

лений а(zп) и /J(zп) представляет собой вектор из К чисел, по одному для каж­
дого из возможных значений двоичного вектора Zm кодированного по схеме 1
из К. Мы будем использовать обозначение a(znJc) для величины а(zп), если
Znk = 1, с аналогичной интерпретацией /J(zпk)·
Теперь мы получим рекурсивные соотношения, которые позволяют эффек­
тивно вычислять а(zп) и /J(zп). Мы снова будем использовать свойства условной
независимости, в частности (13.25) и (13.26), вместе с правилами сложения и
умножения вероятностей, что позволит выразить а(zп) через а(zп_ 1 ) следующим
образом:

а(zп)= р(х1"."хп,zп)=
= Р( Х1, ... ,хпlzп )Р( Zn) =
= р ( Хп zn ) р ( Х1 '"" Хп-1 zn) р ( Zn) =
1 I

= Р( Хп Zn) Р( Х1 "."xn-1 •Zn) =


1

= Р( хпlzп) L Р( X1,""xn-1 •Zn-l•zп) =

"'п-1

Используя определение (13.34) для а(zп), получим

(13.36)

Стоит потратить немного времени на изучение этого рекурсивного отноше­


ния. Поскольку в сумме содержится К членов, правая часть должна быть вычис­
лена для каждого из К значений zm следовательно, каждый шаг рекурсии а име-
2
ет вычислительную сложность порядка О(К ). Прямое уравнение рекурсии для

а(zп) показано с помощью решетчатой диаграммы на рис. 13.12.


Чтобы начать эту рекурсию, необходимо начальное условие, которое задается
формулой
к

a(z1) = Р( Х1 ,z1) = p(z1 )р( x1lz1) = П {1rkp( Х1 IФk)}z1 k, (13.37)


k=I
816 ГЛАВА 13. ПОСЛЕДОВАТЕЛЬНЫЕ ДАННЫЕ

Рис. 13.12. Прямая рекурсия ( 13.36) для вычисления переме1111ых а.

В этом фрагменте решетки величина a(zп . i) получается путем суммирования

элеме1пов а(zп 1.;) вектора а(zп __1) на шаге п - 1 с весами А11 , соответствующими

значениям p(z 11 zn_1),


I и умножения этой суммы на вклад данных р(х 11 1 zп . i)

следовательно, a(z1k) для k= 1, ".,К принимает значение 1l'kp(x 1 jфk). Мы можем


обходить цепь, начиная с ее первого узла и вычисляя а ( zп) для каждого латентно­
го узла. Поскольку каждый шаг рекурсии включает умножение на матрицу К х К,
общая сложность вычисления этих величин для всей цепи составляет О(К2 N).
Аналогичным образом можно найти рекурсивное соотношение для величин
Д(zп), используя свойства условной независимости (13.27) и (13 .28):

Р( Zn) = Р( Xn+l•··"xN!zп) =
= L Р( Xn+l"."XN,Zn+l!zп) =
&n+l

Используя определение (13 .35) для Д(zп), получим

Р(zп) = L P(zп+I )р( Xn+1!zп+I )Р( Zn+1!zп ). (13.38)

В данном случае мы получаем алгоритм обратной передачи сообщений, который


вычисляет Д(zп) через Д(zп+ ~). На каждом шаге мы учитываем эффект наблюде-
13.2. Скрытые марковские модели 817

ния Xn+l с помощью вероятности эмиссиир(хпнlzп+~), умножаем на матрицу пе­


рехода p(zп+ilzn), а затем маргинализируем Zn+I· Этот алгоритм приведен на
рис. 13.13. Снова нам требуется начальное условие для рекурсии, а именно зна­
чение для /З(zN). Это можно сделать, задав п =N в (13.33) и заменив a(zN) его
определением (13.34):
( lх) =р(Х,zн)/З(zн)
р Zн р(Х) . (13.39)

Эта формула будет корректной, если мы положим fЗ(zN) для всех значений zN.
В формулах М-шага величина р(Х) будет уменьшаться, как это видно,
например, в формуле М-шага для µk, определяемой выражением (13.20), которое
принимает вид

(13.40)

k=з0
п n + l '-
p(x.lz.+ ~ ,з)

Рис. 13.13. Обратная рекурсия (13.38) для вычисления переменных jJ. В этом фрагменте
решетки величина jJ(z.,1) получается путем суммирования компонентов jJ(zп+I,k) вектора

jJ(z._,_ 1) на шаге п +1 с весами, заданными как произведение А 1 ъ соответствующих

значений p(zп+t I z 11 ) и соответствующих значений плотности эмиссии р(х 11 !z 11 +ы)

Однако величина р(Х) представляет собой функцию правдоподобия, значе­


ние которой обычно хотят отслеживать во время ЕМ-оптимизации, поэтому по­
лезно иметь возможность ее вычислить. Если просуммировать обе части (13.33)
по Zn и использовать тот факт, что левая часть является нормированным распре­
делением, то получим
818 ГЛАВА 13. ПОСЛЕДОВАТЕЛЬНЫЕ ДАННЫЕ

(13.41)

Таким образом, мы можем вычислить функцию правдоподобия, вычислив эту


сумму для любого удобного выбора п. Например, если мы хотим просто вычис­
лить функцию правдоподобия, то можем сделать это, выполнив рекурсию для а
от начала до конца цепи, а затем использовать этот результат для п = N, исполь­

зуя тот факт, что ft(zN)- вектор единиц. В этом случае никакая рекурсия не
требуется, и мы имеем
(13.42)

Рассмотрим интерпретацию этого результата для р(Х). Напомним, что для вы­
числения вероятности необходимо просуммировать совместное распределение
р(Х, Z) по всем возможным значениям Z. Каждое такое значение представляет
определенный выбор скрытого состояния для каждого временного шага, иначе

говоря, каждое слагаемое- это путь через решетчатую диаграмму, и таких пу­

тей экспоненциально много. Выражая функцию правдоподобия в виде (13.42),


мы сократили вычислительные затраты с экспоненциальной по длине цепи до

линейной, меняя порядок суммирования и умножения, чтобы на каждом шаге


времени п мы суммировали вклады всех путей, проходящих через каждое из со­

стояний znk• для получения промежуточных величин а(zп).


Далее мы рассмотрим вычисление величин .;(zп_ 1 , zп), которые соответствуют
значениям условных вероятностей р(zп- 1 , zпlX) для каждого из КхК значений
(zп_ 1 , zп)· Используя определение .;(zп_ 1 , zп) и применяя теорему Байеса, получим

;:( )- ( IX)- p(Xlzn-l•zn)P(zп-\>zп) _


<:. zп-1,zп - Р zп-1,zп - р(Х) -

_ Р( Х1 "."Хп-1 IZn-1) Р( Хп lzn) Р( Xn+l ,.",XN lzn) Р( Zn 1 Zn-1) Р( Zn-1) _


(13.43)
- р(Х) -

_ a(zп-1)P(xnlzп)P(znlzn-l)P(zп)
- р(Х)

где мы использовали свойство условной независимости (13.29) вместе с опреде­


лениями а(zп) и РСzп), заданными в (13.34) и (13.35). Таким образом, можно вы­
числить .;(zп_ 1 , zп) напрямую, используя результаты рекурсий аи Р.
13.2. Скрытые марковские модели 819

Итак, перечислим шаги, которые необходимо выполнить для обучения скры­


той марковской модели с использованием ЕМ-алгоритма. Сначала сделаем
начальный выбор параметров 0°1d, где О= (я, А, ф). Параметры А и я часто ини­
циализируются либо равномерно, либо случайным образом с помощью равно­
мерного распределения (с учетом того, что они должны быть неотрицательны­
ми, а их сумма должна равняться единице). Инициализация параметров ф зави­
сит от формы распределения. Например, в случае нормальных распределений
параметры µk могут быть инициализированы с помощью применения к данным
алгоритма К-средних, а матрица rk может быть инициализирована ковариацион­
ной матрицей соответствующего кластера К-средних. Затем запускаем прямую
рекурсию для а и обратную рекурсию для /3 и используем результаты для вы­
числения у(zп) и q(zп_ 1 , z"). На данном этапе мы также можем вычислить функ­
цию правдоподобия. На этом Е-шаг завершается, и мы используем его результа­
ты, чтобы найти уточненный набор параметров onew, используя формулы М­
шага из раздела 13.2.1. Затем продолжаем чередовать Е- и М-шаги до тех пор, по­

ка не будет удовлетворен некоторый критерий сходимости, например, когда изме­


нение функции правдоподобия станет ниже некоторого порогового значения.
Отметим, что в этих рекурсивных соотношениях наблюдения учитываются с

помощью условных распределений вида р(хпl zп). Поэтому рекурсии не зависят


от типа или размерности наблюдаемых переменных или формы этого условного
распределения, при условии, что его значение может быть вычислено для каж­
дого ИЗ К ВОЗМОЖНЫХ СОСТОЯНИЙ Zn.
В предыдущих главах бьmо показано, что метод максимального правдоподо­
бия наиболее эффективен, когда количество точек исходных данных значитель­
но превышает количество параметров. Здесь мы отметим, что скрытая марков­
ская модель с максимальным правдоподобием может быть эффективно обучена
при условии, что обучающая последовательность достаточно длинная. В каче­

стве альтернативы можно использовать несколько более коротких последова­


тельностей, что потребует прямой модификации ЕМ-алгоритма скрытой мар­
ковской модели. В случае моделей, ориентированных слева направо, это особен­
но важно, потому что в данной последовательности наблюдений заданный
переход состояния, соответствующий недиагональному элементу А, будет про­
исходить не более одного раза (см. упраж11е11ие 13.12).
Еще одна интересная величина - это прогностическое распределение, в ко­

тором наблюдаемые данные имеют вид Х = {х 1 , •• " xN}, и мы хотим предска­


зать xN+ 1, что имеет большое значение для приложений, работающих в реальном
времени, таких как финансовое прогнозирование. Снова воспользуемся прави-
820 ГЛАВА 13. ПОСЛЕДОВАТЕЛЬНЫЕ ДАННЫЕ

лами сложения и умножения вместе со свойствами условной независимо­


сти (13.30) и (13.31) и получим формулу

p(xN+ilX)= L p(xN+l•zN+ilX)=

(13.44)

которую можно вычислить, выполнив сначала прямую рекурсию, а затем вычис­

лив окончательные суммы по zN и zж 1 • Результат первого суммирования по zN


можно сохранить и использовать для наблюдаемого значения Хж 1 , чтобы про­
двинуть рекурсию вперед на следующий шаг и предсказать следующее значе­

ние хж 2 • В формуле (13.44) влияние всех данных от х 1 до xN выражается в К


значениях вектора a(zN)· Таким образом, прогностическое распределение может
переноситься на неопределенное время вперед с использованием фиксированно­
го объема памяти, что может потребоваться для приложений реального времени.
Здесь мы обсудили оценку параметров модели НММ с максимальным прав­
доподобием. Этот подход легко расширяется на случай регуляризованного мак­
симального правдоподобия путем введения априорных распределений по пара­
метрам модели я, А и ф, значения которых затем вычисляются путем максими­
зации их апостериорной вероятности. Это снова можно сделать с использов­
анием ЕМ-алгоритма, в котором Е-шаг является таким же, как описано выше, а

М-шаг включает добавление логарифма априорного распределения р( 8) к функ­


ции Q( 8, (}01d) до максимизации и представляет собой прямое применение мето­
дов, описанных в этой книге. Кроме того, можно использовать вариационные
методы (см. раздел 10.1), чтобы применить полностью байесовский подход к
модели НММ, в котором выполняется маргинализация по распределению пара­

метров (МасКау, 1997). Как и при использовании принципа максимального


13.2. Скрытые марковские модели 821

правдоподобия, это приводит к двухпроходной прямой и обратной рекурсии для


вычисления апостериорных вероятностей.

13.2.3. Алгоритм sum-product для модели НММ


Поскольку направленный граф, представляющий скрытую марковскую мо­
дель, показанную на рис. 13.5, является деревом, можно найти локальные мар­
гинальные распределения для скрытых переменных с помощью алгоритма sum-
product. Не удивительно, что он эквивалентен алгоритму прямого и обратного
хода, рассмотренному в предыдущем разделе, и поэтому алгоритм sum-product
дает простой способ получения формул альфа-бета рекурсии (см. раздел 8.4.4).
Начнем с преобразования ориентированного графа, показанного на рис. 13 .5,
в фактор-граф, репрезентативный фрагмент которого приведен на рис. 13.14. Эта
форма фактор-графа в явном виде демонстрирует все переменные, как скрытые,
так и наблюдаемые. Однако для решения задачи вывода мы всегда будем фикси­
ровать переменные х 1 , " " xN и, таким образом, можем упростить фактор-граф,
абсорбируя вероятности эмиссии в факторы вероятности перехода. Это приво­
дит к упрощенному представлению фактор-графа, показанному на рис. 13.15,
в котором факторы определяются как

h(z 1) = p(z1)p(x1 lz1), (13.45)


fп(zn-\•Zn) = p(zпlz 11_1)p(xпlz 11 ) . (13.46)

Рис. 13.14. Фрагмент представления фактор-графа для скрытой марковской модели

h
il----0-······
Рис. 13.15. Упрощенная форма фактор-графа дл я описания скрытой марковской модели
822 ГЛАВА 13. ПОСЛЕДОВАТЕЛЬНЫЕ ДАННЫЕ

Чтобы получить алгоритм альфа-бета, обозначим последнюю скрытую пере­


менную zN в качестве корневого узла и сначала передадим сообщения от листо­
вого узла h к корню. Из общих результатов (8.66) и (8.69) для распространения
сообщений видно, что сообщения, которые распространяются в скрытой мар­
ковской модели, принимают форму

(13.47)

µf.-н. (zп)= Lfп(zп-l•zп)µz._ 1 4/n (zп-1)· (13.48)


Zn-1

Эти формулы представляют распространение сообщений вперед по цепи и, как


сейчас будет показано, эквивалентны альфа-рекурсиям, полученным в преды­
дущем разделе. Но поскольку узлы переменных zn имеют только двух соседей,
они не выполняют вычислений.

Мы можем исключить µz._ 141• (zп_ 1 ) из формулы (13.48), используя форму-

лу (13.47), чтобы получить рекурсию для сообщений/~z вида

µf.4zn (zп)= Lfп(zп-l•zп)µfп-l4zn-l (zп-1)· (13.49)

Если вспомнить определение (13.46) и ввести обозначение

а ( Zn) = µ fп 4z" ( Zn)' (13.50)

получим альфа-рекурсию, определяемую формулой (13.36). Нам также необходи­


мо убедиться, что величины а(zп) сами по себе эквивалентны тем, которые были
определены ранее. Это легко сделать, используя начальное условие (8.71) и отме­
тив, что a(z 1) задается как h(z 1) =p(z 1)p(x 1 z 1), что идентично
1 (13.37). Поскольку
начальные значения а одинаковы и итеративно вычисляются с использованием

одной и той же формулы, все последующие значения должны быть одинаковыми.


Далее рассмотрим сообщения, которые распространяются от корневого узла
до листа. Они принимают форму

µln+14Zn (zп)= Lfп+1(zп,zn+l)µfn+24zn+l (zп+I), (13.51)


Zn+l

где, как и ранее, мы исключили сообщения типа z ~f, поскольку переменные


узлы не выполняют вычислений. Используя определение ( 13 .46) для замены

fп+1(zпо Zn+i) и определяя

(13.52),
13.2. Скрытые марковские модели 823

получим бета-рекурсию, определяемую формулой (13.38). Как и ранее, мы мо­


жем проверить, что сами бета-переменные эквивалентны, отметив, что форму­
ла (8. 70) означает, что исходное сообщение, отправляемое корневым узлом пе­

ременной, равно µzN-+fN ( zN) = 1. Это идентично инициализации /З(zN), приве­


денной в разделе 13.2.2.
Алгоритм sum-product также определяет, как вычислить маргинальные рас­
пределения после вычисления всех сообщений. В частности, результат (8.63) по­

казывает, что локальное маргинальное распределение в узле Zn задается произ­

ведением входящих сообщений. Поскольку мы зафиксировали переменные

Х = {х 1 , ••• , xN}, совместное распределение вычисляется как


(13.53)
Разделив обе части на р(Х), получим

(z )= р(zп,Х) = а(zп)/З(zп) (13.54)


у п р(Х) р(Х)
в соответствии с формулой (13.33). Результат (13.43) может быть аналогичным
образом получен из (8.72) (ел~. упражиеиие 13.1 /).

13.2.4. Коэффициенты масштабирования


Существует важная проблема, которую необходимо решить, прежде чем
можно будет использовать алгоритм прямого и обратного хода на практике. Из
рекурсивного соотношения (13.36) следует, что на каждом шаге новое значение
а(zп) получается из предыдущего значения a(zn_ 1) путем умножения на величи­
ны p(znl zn_ 1) и p(xnl Zn). Поскольку эти вероятности часто значительно меньше
единицы, по мере того, как мы продвигаемся вперед по цепи, значения а(zп) мо­
гут быстро экспоненциально стремиться к нулю. Для цепей средней длины (ска­
жем, 100 или около того) вычисление а(zп) быстро превысит разрядность ком­
пьютера, даже если используется двойная точность с плавающей точкой.
В случае независимых и одинаково распределенных случайных величин мы
неявно обходим эту проблему, вычисляя функции правдоподобия с помощью
вычисления логарифмов. К сожалению, здесь это не поможет, потому что мы
формируем суммы произведений малых чисел (на самом деле неявно суммируем
по всем возможным путям через решетчатой диаграмму, показанную на рис. 13.7).
Следовательно, мы работаем с пересмотренными версиями а(zп) и /З(zп), значе­
ния которых остаются ограниченными. Как мы увидим, соответствующие коэф­
фициенты масштабирования компенсируются, если мы используем эти масшта­
бированные величины в ЕМ-алгоритме.
824 ГЛАВА 13. ПОСЛЕДОВАТЕЛЬНЫЕ ДАННЫЕ

В формуле (13.34) определены функции а(zп) =р(х 1 , •.• , Хт Zn), представля­

ющие совместное распределение всех наблюдений до Xn и латентной перемен­


ной Zn. Теперь определим нормализованную версию а, определяемую как

(13.55)

которая не создает вычислительных трудностей, потому что представляет собой

распределение вероятностей по К переменным для любого значения п. Чтобы


связать масштабированные и исходные альфа-переменные, введем масштабные
коэффициенты, определяемые условным распределением по наблюдаемым пе­
ременным

(13.56)

Из правила произведения вероятностей следует, что

p{x1"."xn)= Пет (13.57)


m=I

так что

(13.58)

Затем можно превратить формулу рекурсии (13.36) для а в формулу для а,


определяемую как

(13.59)

На каждом этапе фазы прямой пересылки сообщений, используемой для вычис­


(
ления а Zn ) , МЫ ДОЛЖНЫ ВЫЧИСЛЯТЬ И хранить Ст ЧТО легко сделать, потому ЧТО
это коэффициент, который нормализует правую часть (13.59) и позволяет вы­

числить а (zn).
Аналогичным образом можем определить перемасштабированные перемен­
ные jз {zn ) , используя формулу

(13.60)

которая все еще остается в пределах точности компьютера, потому что из фор­
мулы (13.35) следует, что величины /з( zn) являются отношением двух услов­
ных вероятностей:
13.2. Скрытые марковские модели 825

(13.61)

Результат рекурсии (13.38) для fJ затем дает следующую рекурсию для перемас­
штабированных переменных:

(13.62)

Применяя это рекурсивное соотношение, мы используем масштабные коэффи­


циенты ст которые ранее были вычислены на а-фазе.
Из формулы (13.57) следует, что функцию правдоподобия можно найти с по­
мощью выражения

(13.63)

Точно так же, используя (13.33) и (13.43) вместе с (13.63), мы видим, что требу­

емые маргинальные распределения определяются следующим образом (см. упраJ1с­


неи ия 13. 15):
r(zп) = а(zп)/з(zп ), (13.64)

~( zn_1,zn) = с; 1 а (zп-l) Р( хп 1 zn) Р( zn 1 zn-l )/3( zn ). (13.65)

Наконец, отметим, что существует альтернативная формулировка алгоритма


прямого и обратного хода (Jordan, 2007), в которой обратный ход определяется
(
рекурсией на основе величин у ( zп) = а zп) f3 (zп) вместо jз (zп) . Эта (а - у)­
рекурсия требует, чтобы сначала был выполнен прямой ход и все величины
а (zn) бьmи доступны для обратного хода, в то время как прямой и обратный
ходы (а - /З)-алгоритма могут выполняться независимо. Хотя эти два алгоритма
имеют сопоставимую вычислительную сложность, версия а - fJ является наибо­
лее часто встречающейся в случае скрытых марковских моделей, тогда как для
шmейных ДШiамических систем более обычна рекурсия, аналогичная форме а - у
(см. раздел 13.3).

13.2.5. Алгоритм Витерби


Во многих применениях скрьrгых марковских моделей латентные переменные
имеют некоторую содержательную интерпретацию, и поэтому часто представляет

интерес найти наиболее вероятную последовательность скрытых состояний для


данной последовательности наблюдений. Например, в распознавании речи мы
могли бы найти наиболее вероятную последовательность фонем для данной серии
826 ГЛАВА 13. ПОСЛЕДОВАТЕЛЬНЫЕ ДАННЫЕ

акустических наблюдений. Поскольку граф для скрытой марковской модели явля­


ется ориентированным деревом, эту проблему можно точно решить с помощью
алгоритма max-sum. Мы помним из обсуждения в разделе 8.4.5, что задача
нахождения наиболее вероятной последовательности скрытых состояний отлича­
ется от задачи нахождения набора состояний, которые по отдельности являются
наиболее вероятными. Последнюю задачу можно решить, запустив сначала алго­
ритм прямого и обратного хода (sum-product), чтобы найти маргинальные рас­
пределения латентных переменных у(zп), а затем максимизировать каждое из них
в отдельности (Duda et а!" 2001). Однако множество таких состояний в общем
случае не будет соответствовать наиболее вероятной последовательности состоя­
ний. Фактически этот набор состояний может даже представлять последователь­
ность, имеющую нулевую вероятность, если так происходит, что два последова­

тельных состояния, которые по отдельности являются наиболее вероятными, тако­


вы, что элемент матрицы перехода, соединяющий их, равен нулю.

На практике нас обычно интересует поиск наиболее вероятной последова­


тельности состояний, и эту задачу можно эффективно решить с помощью алго­
ритма max-sum, который в контексте скрытых марковских моделей называется

алгоритмом Витерби (ViterЬi, 1967). Обратите внимание, что алгоритм max-sum


работает с логарифмическими вероятностями, и поэтому нет необходимости ис­
пользовать переменные с изменением масштаба, как это бьmо сделано с алго­
ритмом прямого и обратного хода. На рис. 13.16 показан фрагмент скрытой мар­
ковской модели, развернутой в виде решетчатой диаграммы. Как мы уже отме­
чали, количество возможных путей через решетку растет экспоненциально с

длиной цепи. Алгоритм Витерби эффективно ищет это пространство путей, что­
бы найти наиболее вероятный путь с вычислительными затратами, которые рас­
тут лишь линейно с длиной цепи.
Как и в случае с алгоритмом sum-product, сначала представим скрытую мар­

ковскую модель в виде фактор-графа, как показано на рис. 13.15. Мы снова рас­
сматриваем узел переменной zN в качестве корня и передаем сообщения корню,
начиная с листовых узлов. Используя результаты (8.93) и (8.94), мы видим, что

сообщения, передаваемые по алгоритму max-sum, определяются как

(13.66)

(13.67)
13.2. Скрытые марковские модели 827

k=l о

k =3
п - 2 п - 1 п п +1
Рис. 13.16. Фрагмент решетки НММ , показ ывающий два возможных пути . Алгоритм

Витерби эффективно определяет наибол ее вероятный путь из э кспоненциально

возрастающего множества возможностей. Для любого заданного пути соответствующая

вероятность определяется произведением Jлементов матрицы переходов А1ь

!
соответствующих вероятностям р ( Zn+ 1 Zп) для каждого сегмента пути, а также

плотностям э миссии р(хп f k) , связанным с каждым узлом на пути

Если искточить величину µz п --+!.n+I (zп) из эmх уравнений и использовать (13.46),


то получим рекурсию для сообщений/--+z вида

(13.68)

где т(zп)=µ10 _." 0 (zп) ·


Из формул (8.95) и (8.96) следует, что эти сообщения инициализируются ве­
личиной

(13.69)

где мы использовали формулу (13.45). Для того чтобы не усложнять обозначе­


ния, опускаем зависимость от параметров модели fJ, которые остаются фиксиро­

ванными при поиске наиболее вероятной последовательности.


Алгоритм Витерби также можно получить непосредственно из определе­
ния (13.6) совместного распределения, беря логарифм и затем меняя местами
максимизацию и суммирование (см. упращ·11е11ие 13.16). Легко видеть, что ве­

личины m(z") имеют вероятностную интерпретацию:

т(zп)= max lnp(x 1"",x",z 1, ••• ,z"). (13.70)


&t,". ,Zn - 1
828 ГЛАВА 13. ПОСЛЕДОВАТЕЛЬНЫЕ ДАННЫЕ

После завершения окончательной максимизации по zN мы получим значение


совместного распределения р(Х, Z), соответствующее наиболее вероятному пу­
ти. Мы также хотим найти последовательность значений латентной переменной,
которая соответствует этому пути. Для этого используем процедуру обратного

отслеживания, описанную в разделе 8.4.5. В частности, отметим, что максими­

зация по zn должна выполняться для каждого из К возможных значений Zn+l·


Предположим, что мы ведем запись значений zm соответствующих максимумам
для каждого из К значений Zn+l· Обозначим эту функцию через f//(kп), где
kE {1, ".,К}. Как только мы передадим сообщения в конец цепи и найдем наибо­
лее вероятное состояние zм мы сможем использовать эту функцию для возврата
по цепи, применяя ее рекурсивно:

(13.71)

Интуитивно мы можем понять алгоритм Витерби следующим образом. Рас­


суждая наивно, мы могли бы явно рассмотреть все экспоненциально большое
множество путей через решетку, вычислить вероятность для каждого из них, а
затем выбрать путь, имеющий наибольшую вероятность. Однако мы замечаем,
что можем значительно сэкономить на вычислительных затратах следующим

образом. Предположим, что для каждого пути мы оцениваем его вероятность,


суммируя произведения переходов и вероятностей эмиссии. Рассмотрим кон­
кретный временной шаг п и конкретное состояние k на этом шаге. Существует

много возможных путей, сходящихся на соответствующем узле в решетчатой


диаграмме. Однако нам нужно сохранить только тот путь, который до сих пор
имеет наибольшую вероятность. Поскольку в момент времени п существует К
состояний, нам необходимо отслеживать К таких путей. На временном шаге
п + 1 будет рассмотрено К 2 возможных путей, включающих к возможных путей,
ведущих из каждого из К текущих состояний, но опять же нам нужно сохранить

лишь К из них, соответствующих наилучшему пути для каждого состояния в


момент времени п + 1. Когда мы достигнем последнего временного шага N, мы

обнаружим, какое состояние соответствует общему наиболее вероятному пути.


Поскольку в это состояние входит только один путь, мы можем проследить его

до шага N - 1, чтобы увидеть, какое состояние он занимал в то время, и так далее


через решетку до состояния п = 1.
13.2. Скрытые марковские модели 829

13.2.6. Обобщения скрытой марковской модели

Базовая скрытая марковская модель, наряду со стандартным алгоритмом обу­


чения, основанным на максимальном правдоподобии, имеет множество обобще­
ний для удовлетворения требований конкретных приложений. Здесь мы обсудим
несколько наиболее важных примеров.
Из примера с цифрами, показанного на рис. 13 .11, мы видим, что скрытые
марковские модели могут быть довольно плохими порождающими моделями

для данных, потому что многие из искусственных цифр выглядят совершенно


нерепрезентативными для обучающих данных. Если целью является классифи­
кация последовательностей, то для определения параметров скрытых марков­
ских моделей иногда намного эффективнее использовать дискриминантные ме­
тоды, а не методы максимального правдоподобия. Предположим, у нас есть обу­
чающий набор из R последовательностей наблюдений Х" где r = 1, "" R, каждый
из которых помечен в соответствии со своим классом т, где т = 1, "" М. Для
каждого класса у нас есть отдельная скрытая марковская модель с собственными
параметрами Вт, и мы рассматриваем проблему определения значений парамет­
ров как стандартную задачу классификации, в которой оптимизируем пере­
крестную энтропию:

R
~)np(m,IX, ). (13.72)
r=I

Используя теорему Байеса, это можно выразить через последовательные ве­

!:(
роятности, связанные со скрытыми марковскими моделями:

~ ш х, в, )р т,
1 ( ) ), (13.73)
- LP(x,10, )Р(!,)
1=1

где р(т)- априорная вероятность класса т. Оптимизация этой функции стои­


мости сложное, чем оптимизация максимального правдоподобия (Kapadia, 1998),
и, в частности, требует, чтобы для вычисления знаменателя в формуле (13.73)
каждая обучающая последовательность была вычислена по каждой из моделей.
Скрытые марковские модели в сочетании с дискриминантными методами обу­
чения широко используются в распознавании речи (Kapadia, 1998).
Существенным недостатком скрытой марковской модели является то, как она
представляет распределение времен, в течение которых система остается в дан-
830 ГЛАВА 13. ПОСЛЕДОВАТЕЛЬНЫЕ ДАННЫЕ

пом состоянии. Чтобы увидеть, в чем дело, обратите внимание на то, что веро­
ятность того, что последовательность, выбранная из заданной скрытой марков­
ской модели, проведет ровно Т шагов в состоянии k, а затем перейдет в другое
состояние, определяется выражением

т
р (Т) = (Akk) (1 -Akk) ос exp(ТlnAkk), (13.74)

которое описывает экспоненциально убывающую функцию Т. Для многих при­


ложений это очень нереалистичная модель продолжительности состояния. Про­

блема может быть решена путем непосредственного моделирования длительно­


сти состояния, в котором все диагональные коэффициенты Akk установлены рав­
ными нулю и каждое состояние k явно связано с распределением вероятности
p(Tlk) возможной продолжительности состояния. С точки зрения порождающего
подхода, когда вводится состояние k, значение Т, представляющее собой коли­
чество временных шагов, в течение которых система будет оставаться в состоя­
нии k, затем извлекается из генеральной совокупности с распределением p(Tlk).
Затем модель эмитирует Т значений наблюдаемой переменной х 1 , которые
обычно предполагаются независимыми, так что соответствующая плотность
т

эмиссии равна Пр х, ( 1k) . Этот подход требует некоторых простых изменений


t=I
в процедуре ЕМ-оптимизации (RaЬiner, 1989).
Другой недостаток стандартной модели НММ состоит в том, что она плохо
фиксирует дальние корреляции между наблюдаемыми переменными (т.е. корре­
ляции между переменными, разделенными многими временными шагами), по­
тому что они должны быть опосредованы через цепь скрытых состояний Марко­

ва первого порядка. Эффекты дальнего действия можно в принципе включить,


добавив дополнительные связи в графовую модель, показанную на рис. 13.5.
Одним из способов решения этой проблемы является обобщение модели НММ,
которое приводит к авторегрессионной скрытой марковской модели (Ephraim
et а/., 1989), пример которой приведен на рис. 13.17. Для дискретных наблюде­
ний это соответствует расширенным таблицам условных вероятностей для рас­
пределений эмиссии. В случае нормальной плотности эмиссии мы можем ис­

пользовать линейно-гауссовский подход, в котором условное распределение для

хп с учетом значений предыдущих наблюдений и значения Zn является нормаль­


ным, математическое ожидание которого представляет собой линейную комби­
нацию значений условных переменных. Очевидно, что количество дополнитель­
ных связей в графе должно быть ограничено, чтобы избежать чрезмерного коли­
чества свободных параметров. В примере, показанном на рис. 13 .17, каждое
13.2. Скрытые марковские модели 831

наблюдение зависит от двух предыдущих наблюдаемых переменных, а также от


скрытого состояния. Хотя этот граф выглядит запутанным, мы можем снова об­
ратиться к d-разделению, чтобы увидеть, что на самом деле он все еще имеет
простую вероятностную структуру. В частности, если мы представим себе, что
Zn - условная переменная, то увидим, что, как и в случае стандартной модели

НММ, значения zn-I и Zn+I независимы, что соответствует условной независимо­


сти (13.5). Это легко проверить, заметив, что каждый путь от узла Zn-I до узла
Zn+I проходит по крайней мере через один наблюдаемый узел, который имеет

тип "голова к хвосту" относительно этого пути. Как следствие, мы снова можем
использовать прямую и обратную рекурсию на Е-шаге ЕМ-алгоритма для опре­
деления апостериорных распределений латентных переменных. При этом вы­
числительная сложность является линейной по длине цепи. Аналогично М-шаг
включает в себя лишь незначительную модификацию стандартных формул М­
шага. В случае нормальных плотностей эмиссии это включает в себя оценку па­
раметров с использованием стандартных уравнений линейной регрессии, обсуж­
даемых в главе 3.

Рис. 13.17. Фрагмент авторегрессионной скрытой марковской модели,

в которой распределение наблюдения хп зависит от подмножества

предыдущих наблюдений, а также от скрытого состояния Zn· В этом примере

распределение х" зависит от двух предыдущих наблюдений хп- t и х"_ 2

Мы видели, что авторегрессионная модель НММ выглядит как естественное


расширение стандартной модели НММ, если рассматривать ее как графовую
модель. Фактически точка зрения вероятностного графового моделирования по­
рождает множество различных графовых структур, основанных на модели

НММ. Другим примером является скрытая марковская модель "вход-выход"

(Bengio and Frasconi, 1995), в которой имеем последовательность наблюдаемых

переменных u 1, "" uм в дополнение к выходным переменным х 1 , ".,хм значе­

ния которых влияют либо на распределение латентных переменных, либо на вы-


832 ГЛАВА 13. ПОСЛЕДОВАТЕЛЬНЫЕ ДАННЫЕ

ходные переменные, либо на оба вида переменных (рис. 13.18). Эта модель рас­

ширяет подход НММ на область обучения с учителем для последовательных


данных. С помощью критерия d-разделения снова легко показать, что свойство
Маркова (13.5) для цепи латентных переменных все еще сохраняется. Чтобы
убедиться в этом, заметьте, что существует только один путь от узла Zn-l до узла
Zn+l• и он имеет тип "голова к хвосту" относительно наблюдаемого узла Zn. Это

свойство условной независимости снова позволяет сформулировать вычисли­


тельно эффективный алгоритм обучения. В частности, мы можем определить
параметры модели 8, максимизировав функцию правдоподобия L(8) = p(XjU, 8),
U- т к v
где
v
матрица, строки которои заданы векторами un . ак следствие своиства

условной независимости (13.5), эту функцию правдоподобия можно эффективно


максимизировать, используя ЕМ-алгоритм (см. упраж11е11ие 13.18), в котором
Е-шаг включает в себя прямую и обратную рекурсии.

Рис. 13.18. Пример скрытой марковской модели ввода-вывода .

В этом случае как вероятности эмиссии , так и вероятности переходов

зависят от значений последовательности наблюдений u 1, .. " u N

Еще один заслуживающий упоминания вариант модели НММ - это факторная

скрытая марковская модель (Ghahramani and Jordan, 1997), в которой имеется не­
сколько независимых цепей Маркова, состоящих из латентных переменных, а рас­
пределение наблюдаемой переменной на данном временном шаге зависит от состо­
яния всех соответствующих скрьпых переменных на том же временном шаге. Со­

ответствующая графическая модель показана на рис. 13.19. Обоснование фак­


торной модели НММ можно понять, заметив, что для представления, скажем,
1О битов информации на данном временном шаге стандартной модели НММ по-
10
требуется К= 2 = 1024 скрьпых состояния, тогда как факторная модель НММ
может использовать 1О бинарных. скрьпых цепей . Однако основной недостаток
13.2. Скрытые марковские модели 833

факторных НММ заключается в дополнительной сложности их обучения. М-шаг в


факторной модели НММ прост. Однако наблюдеIШе переменных х вводит зависи­
мости между латентными цепями, что приводит к трудностям с Е-шагом. Это про­
является в том, что на рис. 13.19 переменные z~1 ) и z~2 ) соединены путем, который
в узле х" имеет тип "голова к голове", и, следовательно, ОIШ не d-разделены. Точ­
ный Е-шаг для этой модели не соответствует независимым прямой и обратной ре­
курсии вдоль М цепей Маркова. Это подтверждается тем, что в факторной модели
НММ ключевое свойство условной независимости (13.5) для отдельных цепей
Маркова не выполняется, как показано с использованием d-разделения на
рис. 13.20. Теперь предположим, что существует М цепей скрытых узлов, и для

простоты предположим, что все скрьrгые переменные имеют одинаковое коJШЧе­

ство состояний К. Тогда можно бьmо бы отметить, что на заданном времешюм ша­
ге существуют комбинации Км латентных переменных, и поэтому мы можем пре­
образовать модель в эквивалентную стандартную модель НММ, имеющую одну
цепь латентных переменных, каждая из которых имеет КМ латентных состояний.
Затем мы можем запустить стандартные прямые и обратные рекурсии на Е-шаге.
Этот алгоритм имеет вычислительную сложность порядка О(NК 2м), которая явля­
ется экспоненциальной по количеству латентных цепей М, и, следовательно, будет
трудным для вычислений за исключением малых значений М. ОДIШм из решеIШй
может бьпь использоваIШе методов выбора (которые обсуждаются в главе 11 ). В
качестве элегантной детерминированной альтернативы Ghahramani and Jordan
( 1997) предложили использовать методы вариационного вывода для получения ре­
алистичного алгоритма приближенного вывода (см. раздел 10.1). Это можно сде­
лать, используя простое вариационное апостериорное распределение, которое пол­

ностью факторизовано по отношению к латентным переменным, или альтернатив­


но, используя более мощный подход, в котором вариационное распределение

описывается независимыми цепями Маркова, соответствующими цепям латентных

переменных в оригинальной модели. В последнем случае алгоритмы вариационно­


го вывода предполагают выполнеIШе независимых прямых и обратных рекурсий по
каждой цепи, которые являются вычислительно эффективными и в то же время
способны учитывать корреляции между переменными в одной и той же цепи.
Очевидно, что существует множество возможных вероятностных подходов,

которые могут быть разработаны в соответствии с потребностями конкретных


приложений. Графовые модели предоставляют общий метод для обоснования,
описания и анализа таких подходов, а вариационные методы обеспечивают
мощную основу для выполнения вывода в тех моделях, для которых трудно вы­

числить точное решение.


834 ГЛАВА 13. ПОСЛЕДОВАТЕЛЬНЫЕ ДАННЫЕ

(2)

(1)

Рис. 13.19. Факторная скрытая марковская модель, состоящая из двух марковских

цепей латентных переменных. Для непрерывных наблюдаемых переменных х

одним из возможных вариантов модели эмиссии является линейно-гауссова плотность,

в которой математическое ожидание нормального распределения представляет собой

линейную комбинацию состояний соответствующих латентных переменных

(2)

(1)

Рис. 13.20. Пример пути, выделенного зеленым цветом, который имеет тип "голова к

голове" в наблюдаемых узлах xn-J и Xn+l, и "голова к хвосту" в ненаблюдаемых узлах

.
z~2}1 , z~2 ) и z~:\ Таким образом, путь не блокируется, и поэтому для отдельных скрытых
цепей факторной модели НММ свойство условной независимости (13.5) не выполняется.

Как следствие, для этой модели не существует эффективного точного Е-шага

13.3. Линейные динамические системы


Чтобы обосновать концепцию линейных динамических систем, рассмотрим
следующую простую задачу, которая часто возникает в практических условиях.

Предположим, мы хотим измерить значение неизвестной величины z, используя


датчик с шумом, который возвращает наблюдение х, представляющее значение z
плюс нормально распределенный шум с нулевым математическим ожиданием.
13.3. Линейные динамические системы 835

Имея одно измерение, логично предположить, что z= х. Однако мы можем улуч­


шить нашу оценку для z, взяв множество измерений и усреднив их, потому что

случайные члены шума будут стремиться взаимно компенсировать друг друга. Те­
перь усложним ситуацию, предполагая, что мы хотим измерить величину z, кото­

рая меняется со временем. Мы можем проводить регулярные измерения вели­

чины х и в некоторый момент времени получить набор значений х 1 , ... ,Хм чтобы
найти соответствующие значения z 1 "., zм Если мы просто усредним измерения,
то ошибка из-за случайного шума будет уменьшена, но, к сожалению, мы получим
единственную усредненную оценку, в которой мы провели усреднение по изме­
няющемуся значению z, тем самым введя новый источник ошибки.
Интуитивно понятно, что мы могли бы немного улучшить оценку, выполнив
следующие действия. Чтобы вычислить значение zм мы берем только самые по­

следние измерения, скажем, xN-L• "., хм и усредняем их. Если величина z изме­
няется медленно и уровень случайных шумов в датчике высок, имеет смысл вы­

брать относительно длинный интервал наблюдений для усреднения. И наоборот,


если сигнал меняется быстро и уровни шума невелики, мы могли бы непосред­
ственно использовать значение xN в качестве нашей оценки zм Возможно, мы
могли бы добиться большего, если бы взяли средневзвешенное значение, в кото­
ром более поздние измерения вносят больший вклад, чем более ранние.
Хотя эти интуитивные рассуждения кажутся правдоподобными, они не пока­
зывают, как сформировать средневзвешенное значение, и вряд ли какое-либо
взвешивание, сделанное вручную, будет оптимальным. К счастью, мы можем
решать такие проблемы гораздо более систематическим образом, определив ве­
роятностную модель, которая учитывает эволюцию во времени и процессы из­

мерения, а затем применив методы логического вывода и обучения, разработан­


ные в предыдущих главах. Здесь мы рассмотрим широко используемую модель,

известную как линейная динамическая система.


Как мы уже видели, модель НММ соответствует модели пространства состо­

яний, показанной на рис. 13.5, в которой латентные переменные являются дис­


кретными, но распределение вероятности эмиссии является произвольным. Ра­
зумеется, этот граф описывает гораздо более широкий класс распределений ве­
роятностей, которые факторизуются по формуле (13.6). Теперь рассмотрим
расширения других распределений для латентных переменных. В частности,
рассмотрим непрерывные латентные переменные, в которых суммирование в ал­

горитме sum-product заменяется интегрированием. Однако общая форма алго­


ритмов вывода будет такой же, как и для скрытой марковской модели. Интерес­
но отметить, что исторически скрытые марковские модели и линейные динами-
836 ГЛАВА 13. ПОСЛЕДОВАТЕЛЬНЫЕ ДАННЫЕ

ческие системы развивались независимо друг от друга. Однако, как только они
бьmи выражены в виде графов, глубокая связь между ними сразу стала оче­
видной.

Одним из ключевых требований является то, что мы сохраняем эффективный


алгоритм вывода, который является линейным по длине цепи. Это значит, напри­
(
мер, что, умножая величину а zn-1 ) ' представляющую собой апостериорную ве­
роятность значения Zn-l при фиксированных данных наблюдения х 1 , ••. , Хп_ 1 , на
вероятность перехода p(znl Zn_ 1) и вероятность эмиссии р(хпl Zn), а затем осу­
ществляя маргинализацию по zn_ 1, мы должны получить распределение по z"'
которое имеет ту же функциональную форму, что и а(zп_ 1 ). Иначе говоря, на
каждом этапе распределение не должно становиться все более сложным, а долж­
ны изменяться только значения его параметров. Неудивительно, что единствен­

ные распределения, обладающие этим свойством замкнутости при умноже­


нии, - это распределения, принадлежащие экспоненциальному семейству.

Здесь мы рассмотрим наиболее важный пример с практической точки зрения -


нормальное распределение. В частности, рассмотрим линейно-гауссовскую мо­
дель пространства состояний, в которой латентные переменные {zn}, а также

наблюдаемые переменные {xn}, являются многомерными нормальными распреде­


лениями, математические значения которых являются линейными функциями, за­

висящими от состояний их родительских узлов в графе. Мы видели, что ориенти­


рованный граф линейно-гауссовских элементов эквивалентен совместному нор­
мальному распределению по всем переменным. Кроме того, маргинальные

(
распределения, такие как а zn ) ' также являются нормальными, так что функцио­
нальная форма сообщений сохраняется, и мы получаем эффективный алгоритм
вывода. Напротив, предположим, что плотности эмиссии p(xnl zn) образуют смесь

К нормальных распределений, каждое из которых имеет математическое ожида­


ние, которое является линейным по Zn. (
Тогда, даже если а z 1) - нормальное
распределение, величина а (Z2 ) будет СМеСЬЮ К НОрМальНЫХ распределений,
(
а z 3 ) будет смесью К2 нормальных распределений И Т.Д" И ТОЧНЫЙ ВЫВОД не бу­
дет иметь практической ценности.

Мы видели, что скрытую марковскую модель можно рассматривать как


обобщение смешанных моделей из главы 9, позволяющее учесть последователь­
ные корреляции в данных. Аналогичным образом мы можем рассматривать ли­
нейную динамическую систему как обобщение моделей непрерывных скрытых
переменных из главы 12, таких как вероятностная модель РСА и факторный
анализ. Каждая пара узлов {z"' xn} представляет модель латентной линейно­
гауссовской переменной для этого конкретного наблюдения. Однако латентные
13.3. Линейные динамические системы 837

переменные {zп} больше не рассматриваются как независимые и теперь образу­


ют цепь Маркова.

Поскольку модель представлена древовидным ориентированным графом, за­


дачи вывода могут быть эффективно решены с использованием алгоритма sum-
product. Прямые рекурсии, аналогичные а-сообщениям скрытой марковской мо­
дели, называются уравнениями фильтра Кш~мана (Kalman, 1960; Zarchan and
Musoff, 2005), а обратные рекурсии, аналогичные сообщениям ,В-сообщениям,
называются уравнениями сглаживания Кш~мана или уравнение Рауха-Тунга­
Штрибеля (RTS) (Rauch et а/" 1965). Фильтр Калмана широко используется во
многих приложениях для отслеживания в реальном времени.

Поскольку линейная динамическая система является линейно-гауссовской


моделью, совместное распределение по всем переменным, а также все марги­

нальные и условные распределения являются нормальными. Отсюда следует,


что последовательность индивидуальных наиболее вероятных значений латент­
ной переменной совпадает с наиболее вероятной латентной последовательно­
стью (см. ynpaJ1cue1tue 13.19). Таким образом, для линейной динамической си­
стемы нет необходимости рассматривать аналог алгоритма Витерби.
Поскольку модель имеет линейно-гауссовские условные распределения, мы

можем записать распределения вероятностей переходов и эмиссии в общем виде:

р(zп Zп-1)
1 = N(zп IAzn-1• Г), (13.75)

р(Хп 1Zп) = N(хп 1Czn,1:). (13.76)

Начальная латентная переменная также имеет нормальное распределение, ко­

торое запишем так:

(13.77)

Заметим, что для упрощения обозначений мы не указали аддитивные постоян­


ные члены в математическом ожидании нормальных распределений. На самом
деле при желании их легко включить (с.~1. ynpaJ1c1te11ue 13.24). Традиционно эти
распределения чаще выражаются в эквивалентной форме через линейные урав­

нения с шумом:

Zn = Az 11_ 1 + w"' (13.78)


Хп = Сzп + v"' (13.79)
(13.80)
где слагаемые, описывающие шум, имеют следующие распределения:

w-N(wlO, Г), (13.81)


838 ГЛАВА 13. ПОСЛЕДОВАТЕЛЬНЫЕ ДАННЫЕ

v-N(vlO, I), (13.82)


u-N(ulO, Ро). (13.83)

Параметры модели О= {А, Г, С, I, µ 0 , Р0 } могут быть определены с использо­


ванием принципа максимального правдоподобия и ЕМ-алгоритма. На Е-шаге
необходимо определить локальные апостериорные маргинальные распределения
для латентных переменных. Как будет показано в следующем разделе, эту задачу
можно эффективно решить с использованием алгоритма sum-product.

13.3.1. Вывод в линейных динамических системах

Теперь перейдем к задаче нахождения маргинальных распределений для ла­


тентных переменных, обусловленных последовательностью наблюдений. Кроме
того, по заданным параметрам мы хотим прогнозировать следующее латентное

состояние zn и следующее наблюдение хт обусловленные наблюдаемыми дан­


ными х 1 , "., xn-l• для использования в приложениях, работающих в реальном
времени. Эти задачи вывода можно эффективно решить с помощью алгоритма
sum-product, который в контексте линейной динамической системы приводит к
фильтру Калмана и сглаживающему фильтру Калмана.
Подчеркнем, что, поскольку линейная динамическая система является линей­
но-гауссовской моделью, совместное распределение по всем латентным и
наблюдаемым переменным является нормальным, и поэтому в принципе задачу
вывода можно было бы решить, используя стандартные результаты, полученные
в предыдущих главах для маргинальных и условных распределений при много­

мерном нормальном распределении. Роль алгоритма sum-product заключается в


обеспечении более эффективного способа выполнения таких вычислений.
Линейные динамические системы имеют факторизацию, идентичную факто­
ризации (13.6) для скрытых марковских моделей, и также описываются фактор­
графами, представленными на рис. 13.14 и 13.15. Следовательно, алгоритмы вы­
вода принимают точно такую же форму, за исключением того, что суммирова­
ние по латентным переменным заменяется интегрированием. Мы начнем с рас­
смотрения прямых уравнений, в которых рассматриваем zN как корневой узел, и
распространяем сообщения от конечного узла h(z 1) к корню. Из формулы (13.77)
следует, что исходное сообщение является нормально распределенным, и по­
скольку каждый из факторов является нормально распределенным, все последу­
ющие сообщения также будут нормально распределенными. По соглашению мы
будем распространять сообщения, которые являются нормированными марги­
нальными распределениями, соответствующими p(zпlx 1 , "., хп), и которые мы
обозначим через
13.3. Линейные динамические системы 839

Это в точности аналогично распространению масштабированных переменных


(
а zn)' определяемых формулой ( 13 .59), в дискретном случае скрытой марков­
ской модели, поэтому рекурсивное уравнение теперь принимает вид

(13.85)

Подставляя вместо условных распределений p(zпlzп-i) и р(хпlzп) форму­


лы (13.75) и (13.76) соответственно и используя (13.84), мы видим, что фор­
мула (13.85) принимает вид

спN(zпlµп, V") = N(хп!Сzп,~)х


(13.86)
xf N( zп!Аzп-1•Г)N( zп-1lµп-1• Vп-1 )dzп-1 ·

Здесь мы предполагаем, что µn-I и Vn-l известны, и, вычисляя интеграл в


формуле (13.86), хотим определить значения для µпи Vn. Этот интеграл легко
вычисляется с помощью формулы результата (2.115), из которой следует, что

(13.87)
где

(13.88)

Теперь можно объединить этот результат с первым множителем в правой части


формулы (13.86), используя формулы (2.115) и (2.116):

µп = Аµп-1 + К11(Х11 - САµ11-1), (13.89)


Vп = (l-K11C)P11-1• (13.90)
Сп =N(x11 ICAµ 11_1, СР 11_1СТ + L). (13.91)

Здесь мы использовали тождества для обратных матриц (В.5) и (В.7), а также


определили матрицу выигрыша КШ1мана (Kalman gain matrix):
К 11 = Рп_1Ст(СР 11_1Ст + L)-1. (13.92)

Таким образом, учитывая значения µ,._ 1 и V 11_1 вместе с новым наблюдением Хт

мы можем вычислить нормальное маргинальное распределение zm имеющее мате­

матическое ожидание µпи ковариацию Vт а также коэффициент нормировки сп.


Начальные условия для этих рекурсивных уравнений получены из формулы

(13.93)
840 ГЛАВА 13. ПОСЛЕДОВАТЕЛЬНЫЕ ДАННЫЕ

Поскольку распределение p(z 1) задается формулой (13.77), а p(x 1lz 1) - фор­


мулой (13.76), мы снова можем использовать формулу (2.115) для вычисления с 1
и формулу (2 .116) - для вычисления µ 1 и V 1:

µ1 =µо+ К1(Х1 -Сµо), (13.94)


V1 = (I-K1C)Po, (13.95)
Сп = N(x11 Сµо, СРоС т + 1:). (13.96)
где

К 1 =Р 0 С 1 (СРоС 1 +1:)- 1 . (13.97)

Точно так же функция правдоподобия для линейной динамической системы


определяется формулой (13.63), в которой множители сп вычисляются с помо­

щью фильтра Калмана.


Шаги, связанные с переходом от апостериорного маргинального распределе­

ния по zп-l к апостериорному маргинальному распределению по Zm можно ин­

терпретировать следующим образом. В формуле (13.89) величину Аµп-I можно


рассматривать как прогноз математического ожидания по Zm полученного про­

стым вычислением математического ожидания по Zп-I и проекцией его на один


шаг вперед с использованием матрицы вероятностей переходов А. Это предска­
занное математическое ожидание даст прогнозируемое наблюдение для Хп при
фиксированном значении САµп_ 1 , полученное путем применения матрицы веро­
ятности эмиссии С к математическому ожиданию прогнозируемого латентного
состояния. Мы можем рассматривать формулу (13.89) для математического
ожидания распределения латентных переменных как сумму предсказанного ма­

тематического ожидания Аµп-l и поправки, которая пропорциональна ошибке


хп - САµп-l между прогнозируемым и фактическим наблюдениями. Коэффици­
ент этой коррекции определяется матрицей выигрыша Калмана. Таким образом,
мы можем рассматривать фильтр Калмана как процесс создания последователь­
ных предсказаний и последующего исправления этих предсказаний в свете но­
вых наблюдений (рис. 13.21).
Если мы рассмотрим ситуацию, в которой шум наблюдений мал по сравне­
нию со скоростью, с которой эволюционирует латентная переменная, то обна­
ружим, что апостериорное распределение для zп зависит только от текущего из­

мерения Хт в соответствии с интуицией из простого примера, приведенного в


начале раздела (с.и. упра:нсиение 13.27). Точно так же, если латентная перемен­
ная эволюционирует медленно относительно уровня шума наблюдений, мы об-
13.3. Линейные динамические системы 841

наруживаем, что математическое ожидание для zn получается путем усреднения

всех измерений, полученных до этого времени (см. упразкнение 13.28).


До сих пор мы решали задачу вычисления апостериорного маргинального
распределения для узла zn с учетом наблюдений от х 1 до Хп. Теперь перейдем
к задаче нахождения маргинального распределения для узла zn по всем наблю­
дениям от х 1 до xN. Для временных данных это соответствует включению буду­
щих, а также предыдущих наблюдений. Хотя это не может быть использовано
для прогнозирования в реальном времени, оно играет ключевую роль в изучении

параметров модели. По аналогии со скрытой моделью Маркова эту задачу мож­


но решить путем распространения сообщений от узла xN обратно к узлу х 1
и объединения этой информации с информацией, полученной на стадии прямой
передачи сообщений, используемой для вычисления а zn). (

Рис. 13.21. Линейная динамическая система может рассматриваться как

последовательность шагов, в которых возрастающая неопределенность в переменной

состояния из-за диффузии компенсируется поступлением новых данных. На левом

графике синяя кривая показывает распределение p(z 11 . 1 lx 1, "., х"_ 1 ), которое включает

в себя все данные до шага п - 1. Диффузия, во:шикающая из-за ненулевой дисперсии


вероятности переходов р(zп 1 zn_1), дает распределение p(z 11 1 х 1 , •.. , х 11 _ 1 ), пока.занное

красным цветом на центральном графике. Заметим, что оно более широкое и смещено

относительно синей кривой (которая для сравнения показана пунктиром на центральном

графике). Следующее наблюдение данных х 11 вносит вю1ад через плотность вероятности

эмиссии р(хп 1 z"), которая показана зеленым цветом на правом графике как функция

от z 11 • Обратите внимание, что это не плотность по отношению к zn и поэтому не

нормируется. Включение этой новой точки данных приводит к пересмотренному

распределению p(z 11 1x 1, •• " х") для плотности состояний, показанной синим цветом.

Мы видим, что наблюдение за данными сместило и сузило распределение по сравнению

с p(z 11 1 х 1 , "" х 11 _ 1 ) (что показано для сравнения штриховой линией на правом графике)
842 ГЛАВА 13. ПОСЛЕДОВАТЕЛЬНЫЕ ДАННЫЕ

Одним из наиболее важных применений фильтра Калмана является слежение,


и оно показано на простом примере объекта, движущегося в двух измерениях на
рис. 13.22.

Рис. 13.22. Линейная динамическая система, используемая для слежения

за движущимся объектом . Синие точки отмечают истинные положения объекта

в двумерном пространстве на последовательных временных шагах,

зеленые точки обозначают зашумленные измерения позиций, а красные крестики

указывают математические ожидания апостериорных распределений положений,

полученных при вычислении формул фильтра Калмана . Ковариации предполагаемых

положений обозначены красными эллипсами, которые соответствуют контурам,

имеющим одно стандартное отклонение

В литературе по линейным динамическим системам эту обратную рекурсию

обычно формулируют в терминах r (zn) = а (zn) jз (zn) ' а не в терминах jз (zn) .


Поскольку распределение у( zп) также должно быть нормальным, запишем его
в виде

(13.98)

Чтобы получить требуемую рекурсию, начнем с обратной рекурсии (13.62)


для /3 (
zn) , которую для непрерывных латентных переменных можно записать в
виде

(13.99)

Теперь умножим обе части (13.99) на а(zп) и заменимр(Хп+1izп+1) ир(zп+ 1 1zп),


используя формулы (13.75) и (13.76). Затем используем формулы (13 .89)-{13.91)
и (13.98) и после некоторых манипуляций получим
13.3. Линейные динамические системы 843

(13.100)

(13.101)
где

(13.102)

и мы использовали соотношение А Vп =РпJ~. Обратите внимание на то, что эти


рекурсии требуют, чтобы сначала был выполнен прямой проход, после которого
величины µпи vn станут доступными для обратного прохода.
Для ЕМ-алгоритма нам также потребуются попарные апостериорные марги­
нальные распределения, которые можно получить из формулы (13.65) в виде

;(zп-l•zn) = (сп)- 1 а(zп-1 )р(хпlzп )p(zпlzп-1)P(zп) =


N( zп_ 1 lµп_ 1 , Vп-i )N( zпlAzп_ 1 ,r)N( xпlCzп,:E)N( zпl.Uп, Vп) (13.103)
спа( zn)

Подставляя вместо а(zп) формулу (13.84) и переставляя множители, мы видим,


что q(zп_ 1 , zп) является нормальным распределением с математическим ожида-
А А ]т
нием, заданным с компонентами [
µп_Рµп , V
и ковариациеи между Zп и Zn_ 1, за-

данной формулой (с.и. упраж11еиие 13.31)

cov[ zn-1 •zn] =J п-\ vn. (13.104)

13.3.2. Обучение линейных динамических систем

До сих пор мы рассматривали задачу вывода для линейных динамических си­


стем, предполагая, что параметры модели О= {А, Г, С, 1:, µ 0, Р 0 } известны. Да­
лее мы рассмотрим определение этих параметров с использованием принципа

максимального правдоподобия (Ghahramani and Hinton, 1996Ь). Поскольку мо­


дель имеет латентные переменные, эту задачу можно решить с помощью ЕМ­

алгоритма, который в общих чертах обсуждался в главе 9.


Мы можем вывести ЕМ-алгоритм для линейной динамической системы сле­
дующим образом. Обозначим оценочные значения параметров в некотором кон-
ооld . Д v
кретном цикле алгоритма через ля этих значении параметров мы можем

запустить алгоритм вывода, чтобы определить апостериорное распределение ла­


тентных переменных p(ZIX, 8°1d) или, точнее, тех локальных апостериорных
маргинальных распределений, которые требуются на М-шаге. В частности, нам
потребуются следующие математические ожидания:
844 ГЛАВА 13. ПОСЛЕДОВАТЕЛЬНЫЕ ДАННЫЕ

(13.105)

(13.106)

(13.107)

где мы использовали формулу (13.104).


Теперь рассмотрим логарифмическую функцию правдоподобия при полных
данных, которая равна логарифму от выражения (13.6) и поэтому определяется
формулой
N
Inp(X,ZIB) = Inp( z11Jto,P0 ) + L:Inp( zпlzп-1'A,r) +
N
(13.108)
+L:Inp(xnlzn,C,~).
n=I

в которой мы явно выделили зависимость от параметров. Теперь вычислим ма­

тематическое ожидание логарифмической функции правдоподобия при полных


данных относительно апостериорного распределения p(ZIX, 8°1d), которое опре­
деляет функцию

(13.109)

На М-шаге эта функция максимизируется по отношению к компонентам вектора 8.


Сначала рассмотрим параметры µ 0 и Р0 • Если подставить p(z 1 1µ 0, Р0) в (13.108),
использовать (13.77), а затем вычислить математическое ожидание относительно Z,
то получим

Q( o,0°1d) = -±1n1vol-Ez1uold [±(z1 - µо)т Pi)1(Z1 - µо)]+ const,


где все члены, не зависящие от µ0 или Р 0 , бьши включены в аддитивную кон­
станту. Максимизация относительно µ0 и Р 0 легко выполняется с помощью
принципа максимального правдоподобия для нормального распределения, кото­
рый обсуждался в разделе 2.3.4 (с,н. упражнение 13.32):

µgew =Jffi[ Z1]' (13.110)

p;ew =Е[ z1z;J-E[z 1]E[ zi]. (13.111)

Точно так же, чтобы оптимизировать по А и Г, заменяем р(zп 1 Zn_ 1, А, Г) в фор­


муле (13.108), используя формулу (13.75):
13.3. Линейные динамические системы 845

в которой константа содержит члены, не зависящие от А и Г. Максимизация от­

носительно этих параметров приводит к следующим результатам (см. упражне­


ние 13.33):

(13.113)

(13.114)

Обратите внимание на то, что сначала необходимо вычислить матрицу An•w,


а затем этот результат можно использовать для определения гn•w. Наконец, что­
бы определить новые значения С и r., заменимр(хпlzт С, 1:.) в (13.108), исполь­
зуя формулу (13.76):

Q( 8,8old) = - ~ lnl1:l-
-JEZIOold [_!_
2 n=l
f {хп -Сzп/ 1:- 1 {хп -Czп)]+const.
Максимизация относительно С и r. дает следующий результат (см. упражне-
11ие 13.34):

(13.115)

(13.116)

Мы подошли к изучению параметров в линейной динамической системе с


помощью принципа максимального правдоподобия. Включение априорных зна­

чений для МАР-оценки не представляет труда, и, применяя методы аналитиче­


ской аппроксимации, рассмотренные в главе 1О, можно найти полностью байе-
846 ГЛАВА 13. ПОСЛЕДОВАТЕЛЬНЫЕ ДАННЫЕ

совское решение, хотя детальное изложение этого вопроса здесь невозможно из­

за недостатка места.

13.3.3. Обобщения линейных динамических систем


Как и в случае со скрытой марковской моделью, существует значительный
интерес к расширению базовой линейной динамической системы с целью рас­
ширения ее возможностей. Хотя предположение о линейно-гауссовской модели
приводит к эффективным алгоритмам логического вывода и обучения, это также
подразумевает, что маргинальное распределение наблюдаемых переменных яв­
ляется всего лишь нормальным, что представляет собой существенное ограни­
чение. Одним из простых обобщений линейной динамической системы является
использование смеси нормальных распределений в качестве начального распре­
деления для z 1 • Если эта смесь имеет К компонентов, то уравнения прямой ре­
курсии (13.85) приведут к смеси К нормальных распределений по каждой ла­
тентной переменной Zm и, таким образом, модель снова становится реализуемой.
Для многих приложений нормальная плотность эмиссии является плохим

приближением. Если вместо этого мы попытаемся использовать смесь К нор­


мальных распределений в качестве плотности эмиссии, то апостериорное рас­

пределение а (Z1) также будет смесью к нормальных распределений. Однако из


формулы (13.85) следует, что апостериорное распределение a(z 2 ) будет содер-
жать смесь, состоящую из
к2 v
нормальных распределении и т.д., так что распре-

(
деление а zn ) задается смесью, состоящей из кn нормальных распределений.
Таким образом, число компонентов растет экспоненциально с длиной цепи, и

поэтому это непрактичная модель.

В более общем смысле, введение моделей переходов или эмиссии, которые

отклоняются от линейно-гауссовской модели (или другого экспоненциального


семейства), приводит к неразрешимой проблеме вывода. Мы можем делать де­
терминированные аппроксимации, такие как предполагаемая фильтрация по
плотности или распространение ожидания, или использовать методы выбора,
которые обсуждались в разделе 13.3.4. Одним из широко используемых подхо­
дов является построение гауссовской аппроксимации путем линеаризации мате­

матического ожидания прогностического распределения, что приводит к расши­

ренному фильтру Калмана (Zarchan and Musoff, 2005).


Как и в случае со скрытыми марковскими моделями, мы можем разработать
интересные обобщения базовой линейной динамической системы, расширив ее
графовое представление. Например, модель переключений пространства состо­
яний (Ghahramani and Hinton, 1998) может рассматриваться как комбинация
13.3. Линейные динамические системы 847

скрытой марковской модели с набором линейных динамических систем. Модель


имеет несколько цепей Маркова с непрерывными линейно-гауссовыми латент­
ными переменными, каждая из которых аналогична скрытой цепи линейной ди­

намической системы, обсуждавшейся ранее, вместе с цепью Маркова с дискрет­


ными переменными вида, используемого в скрытой марковской модели. Выход­

ные данные на каждом временном шаге определяются стохастическим выбором

одной из непрерывных скрытых цепей, использованием состояния дискретной


латентной переменной в качестве переключателя и последующим выводом
наблюдения из соответствующего условного выходного распределения. Точный
вывод в этой модели невозможен, но вариационные методы приводят к эффек­
тивной схеме вывода, включающей прямую и обратную рекурсии по каждой из
непрерывных и дискретных цепей Маркова независимо. Заметим, что если мы
рассмотрим несколько цепей дискретных латентных переменных и используем
одну из них в качестве переключателя для выбора из остатка, то получим анало­
гичную модель, имеющую только дискретные скрытые переменные, известную

как переключаемая скрытая модель Маркова.

13.3.4. Фильтры частиц

Для динамических систем, которые не являются линейно-гауссовыми, напри­


мер, моделей, в которых плотность эмиссии не является нормальной, мы можем

построить алгоритм логического вывода на основе методов выбора (см. главу 11).
В частности, мы можем применить формализм выбора и повторного выбора по
важности (sampling-importance-resampling) из раздела 11.1.5, чтобы получить по­
следовательный алгоритм Монте-Карло, известный как фильтр частиц.
Рассмотрим класс распределений, представленный графовой моделью на

рис. 13.5, и предположим, что нам даны наблюдаемые значения Хп = (х 1 , "., хп)

и мы хотим извлечь L выборок из апостериорного распределения р(zпlХп), ис­


пользуя теорему Байеса. Тогда

J
IE[f(zп)]= f(zп)p(znlXn)dzn =
J
= f(zп)p(zпlxn,Xn-l)dzn =
_Jf (zп )р( хп\zп )Р( zп\Хп-1 )dzn _ (13.117)
- Jр(хп\zп)р(zп\Хп-1)dzп -
848 ГЛАВА 13. ПОСЛЕДОВАТЕЛЬНЫЕ ДАННЫЕ

где {z~)} - набор выборок, извлеченных из генеральной совокупности с рас­


пределением р(zп1Хп_ 1 ), и мы использовали свойство условной независимости

р(хпl Zm Хп_ 1 ) = р(хпl zп), что следует из графа, показанного на рис. 13.5. Веса вы-

борки {w~1 )} определяются как

(13.118)

где в числителе используются те же выборки, что и в знаменателе. Таким обра­

зом, апостериорное распределение р(zпlХп) представлено множеством выборок

{z~)} вместе с соответствующими весами {w~1 )} . Обратите внимание на то, что


эти веса удовлетворяют условия О:::; w~1 ) :::; 1 и w~1 ) = 1 .
1
!
Поскольку мы хотим найти схему последовательного выбора, будем предпо-
лагать, что набор выборок и весов был получен на шаге времени п, и что впо­
следствии наблюдается значение Xn+I• и мы хотим найти весы и выборки на шаге
времени п + 1. Сначала мы выберем распределение p(zп+i IXп). Это просто сде­
лать, используя теорему Байеса:

p(zn+1IXn)= Jp(zn+1lzn,Xn)P(znlXn)dzn =

= Jp(zn+1lzn)P(znlXn)dzn =

J
= p(zn+1lzn)P(znlxn,Xn-1)dzn = (13.119)

Jp(zn+1lzn )Р( xnlzn )р(zпlХп-1 )dzn


= Jp(xnlzn)p(znlXn-l)dzn :::

"" L W~I) Р ( Zn+1 Iz~) ),


1

где мы использовали свойства условной независимости

p(Zn+1 I Zn, Хп) = p(Zn+1 I Zn), (13.120)


р(Хп 1Zm Xn-1) = р(хп 1Zn), (13.121)

которые следуют из применения критерия d-разделения к графу, показанному на


рис. 13.5. Распределение, определяемое формулой (13.119), является смесью

распределений, и выборки можно получить, выбирая компонент l с вероятно-


Упражнения 849

стью, заданной коэффициентами смешивания w<n, а затем извлекая выборку из


генеральной совокупности, соответствующей этому компоненту.

Таким образом, мы можем рассматривать каждый шаг ашоритма фильтра ча­

стиц как состоящий из двух этапов. На шаге времени п мы имеем выборочное

представление апостериорного распределения р(zпlХп), выраженное в виде выбо­

рок {z~)} вместе с соответствующими весами {w~1 )} • Это можно рассматривать


как смешанное представление формы (13.119). Чтобы получить соответствующее

представление для следующего временного шага, сначала берем L выборок из

смеси распределений ( 13 .119), а затем для каждой выборки используем новое

наблюдение Xn+I, чтобы вычислить соответствующие веса w~1] 1 ос р( xn+i lz~l 1 ).


Для случая одной переменной z эта процедура продемонстрирована на рис. 13.23.

Рис. 13.23. Схематическое представление фильтра частиц для одномерного латентного

пространства . На шаге времею1 11 апостериор110с распределение р(zп 1 хп) представляется

в виде смеси распределений, схематически изображенных кружками, диаметры которых

пропорниональны их весам 1v~'\ , вычисленным по вероятности р ( xn +i Iz~} 1 )

Метод фильтрации частиц, или последовательный метод Монте-Карло, упо­


минается в литературе под различными названиями, включая бутстреп фильтр
(Gordon et а/" 1993), вы:живание наиболее приспособленных (Кanazawa et а/., 1995)
и алгоритм конденсации (lsard и Blake, 1998).

Упражнения

13.1. (*) WWW Используя метод d-разделения, рассмотренный в разделе 8.2,


убедитесь, что модель Маркова, показанная на рис. 13.3, имеющая всего
850 ГЛАВА 13. ПОСЛЕДОВАТЕЛЬНЫЕ ДАННЫЕ

N узлов, удовлетворяет условным свойствам независимости (13.3) для


п = 2, "., N. Аналогично покажите, что модель, описанная графом, пока­
занным на рис. 13.4, в которой всего N узлов, удовлетворяет свойству
условной независимости

р(хпlх1, "., Хп-1) = р(хпlхп-1• Хп-2) (13.122)


для п = 3, "., N.
13.2. (**)Рассмотрим совместное распределение вероятностей (13.2), соответ­
ствующее ориентированному графу, показанному на рис. 13.3. Используя
правила сложения и умножения вероятностей, убедитесь, что это сов­
местное распределение имеет свойство условной независимости (13.3)
при п = 2, "., N. Аналогично покажите, что марковская модель второго
порядка, описываемая совместным распределением (13.4), имеет свой­
ство условной независимости

р(хпlХ1, "., Хп-1) =р(хпlХп-1• Хп-2) (13.123)


для п = 3, "., N.
13.3. (*) Используя d-разделение, покажите, что распределение р(х 1 , .", xN)
наблюдаемых данных для модели пространства состояний, представлен­
ной ориентированным графом на рис. 13.5, не обладает никакими услов­
ными свойствами независимости и, следовательно, не обладает свой­

ством Маркова ни при каком конечном порядке.

13.4. (**) WWW Рассмотрим скрытую марковскую модель, в которой плотности


эмиссии представлены параметрической моделью p(xlz, w), такой как
модель линейной регрессии или нейронная сеть, в которой w является
вектором адаптивных параметров. Опишите, как можно узнать парамет­

ры w по данным, используя принцип максимального правдоподобия.

13.5. (**) Докажите формулы М-шага (13.18) и (13.19) для вероятностей


начального состояния и параметров вероятности перехода в скрытой
марковской модели путем максимизации математического ожидания ло­

гарифмической функции правдоподобия при полных данных ( 13 .17), ис­


пользуя соответствующие множители Лагранжа для обеспечения ограни­
чений на сумму компонентов tr и матрицу А.

13.6. (*) Покажите, что если какие-либо элементы параметров tr или А для
скрытой марковской модели изначально установлены равными нулю, то

они будут оставаться нулевыми на всех последующих шагах ЕМ­


алгоритма.
Упражнения 851

13.7. (*)Рассмотрим скрытую марковскую модель с нормальными плотностя­


ми эмиссии. Покажите, что максимизация функции Q(fJ, (J01 d) относи­
тельно математического ожидания и ковариационных параметров нор­

мальных распределений приводит к формулам М-шага (13.20) и (13.21).


13.8. (**) WWW Покажите, что для скрытой марковской модели, имеющей дис­
кретные наблюдения с многомодальным распределением, условное рас­

пределение наблюдений с учетом латентных переменных задается фор­


мулой (13.22), а соответствующие уравнения М-шага определяются фор­
мулой (13.23). Запишите аналогичные уравнения для условного
распределения и формул М-шага для случая скрытой марковской модели
с несколькими двоичными выходными переменными, каждая из которых

определяется условным распределением Бернулли. Подсказка: обрати­


тесь к разделам 2.1 и 2.2 для обсуждения соответствующих решений по
принципу максимального правдоподобия для независимых и одинаково
распределенных случайных величин.

13.9. (**) WWW Докажите, что совместное распределение для скрытой марков­
ской модели, определенной в (13.6), обладает свойствами условной неза­
висимости (13.24)--{13.31), используя критерий d-разделения.

13.10. (***)Докажите, что совместное распределение для скрытой марковской


модели, определенной в (13.6), обладает свойствами условной независи­
мости (13.24)-(13.31), применяя правила сложения и умножения вероят­
ностей.

13.11. (**)Начиная с выражения (8.72) для маргинального распределения по фак­


тор-переменным в фактор-графе, вместе с результатами для сообщений в
алгоритме sum-product, полученными в разделе 13.2.3, докажите результат
(13.43) для совместного апостериорного распределения по двум последова­
тельным латентным переменным в скрытой марковской модели.

13.12. (**) Предположим, что мы хотим обучить скрытую марковскую модель


по методу максимального правдоподобия, используя данные, которые
содержат R независимых последовательностей наблюдений, которые обо­
значим через X(r), где r = 1, "., R. Покажите, что на Е-шаге ЕМ­
алгоритма мы вычисляем апостериорные вероятности для латентных пе­

ременных, выполняя рекурсии а и р независимо для каждой из последо­


вательностей. Также покажите, что на М-шаге параметры начальной ве­
роятности и вероятности перехода заново вычисляются с использованием

модифицированных форм (13.18) и (13.19):


852 ГЛАВА 13. ПОСЛЕДОВАТЕЛЬНЫЕ ДАННЫЕ

(13.124)

_
LL; zn-1.j•zn.k
(r)
R

r=ln=2
N (r) )
(

А (13.125)
'k -
К (r) (r))'
}
LLL;
R
zn-1,j•Zn.z
r=I 1=1 n=2
N (

где для удобства записи мы предположили, что последовательности имеют


одинаковую длину (обобщение на последовательности различной длины
является простым). Аналогично покажите, что формула М-шага для уточ­
нения математических ожиданий нормально распределенных моделей
эмиссии определяется выражением

R N
LLY( z~~) )х~)
µk = r=I Rn=I N (13.126)
LLr(z~~))
r=I n=I

Формулы М-шага для других параметров и распределений эмиссионной


модели принимают аналогичную форму.

13.13. (**) WWW Используя определение сообщений (8.64), передаваемых из узла


сомножителя в узел переменной в фактор-графе, вместе с выражени­
ем (13.6) для совместного распределения в скрытой марковской модели,
покажите, что определение альфа-сообщения (13.50) совпадает с опреде­
лением (13.34).
13.14. (**) Используя определение сообщений (8.67), передаваемых из узла
сомножителя в узел переменной в фактор-графе, вместе с выражени­
ем (13.6) для совместного распределения в скрытой марковской модели,
покажите, что определение бета-сообщения (13.52) совпадает с опреде­
лением (13.35).
13.15. (**) Используя выражения (13.33) и (13.43) для маргинальных распреде­
лений в скрытой марковской модели, получите соответствующие резуль­

таты (13.64) и (13.65), выраженные в терминах перемасштабированных


переменных.
Упражнения 853

13.16. (***) В этом упражнении мы выводим уравнение передачи прямого со­


общения для алгоритма Витерби непосредственно из выражения (13.6)
для совместного распределения. Это включает максимизацию по всем
скрытым переменным z 1, "" zм Взяв логарифм, а затем поменяв мак­

симизацию и суммирование, выведите рекурсию (13.68), где величи­

ны т(zп) определяются по формуле (13.70). Покажите, что начальное


условие для этой рекурсии задается формулой (13.69).
13.17. (*) WWW Покажите, что ориентированный граф для скрытой марковской
модели ввода-вывода, представленный на рис. 13.18, можно выразить

как древовидный фактор-граф в форме, показанной на рис. 13.15, и за­


пишите выражения для начального фактора h(z 1) и для общего множи­

теляf,,(zп-l• zп), где 2~ п ~ N.


13.18. (***) Используя результат упражнения 13.17, выведите рекурсивные
уравнения, включая начальные условия, для алгоритма прямого­

обратного хода для скрытой марковской модели ввода-вывода, показан­

ной на рис. 13.18.


13.19. (*) WWW Фильтр Калмана и более гладкие фильтры позволяют эффектив­
но находить апостериорные распределения по отдельным латентным пе­

ременным, обусловленным всеми наблюдаемыми переменными, для ли­


нейных динамических систем. Покажите, что последовательность значе­
ний латентных переменных, полученных путем максимизации каждого

из этих апостериорных распределений в отдельности, совпадает с наибо­


лее вероятной последовательностью скрытых значений. Чтобы сделать
это, отметьте, что совместное распределение всех латентных и наблюда­
емых переменных в линейной динамической системе является нормаль­
ным, и, следовательно, все условные и маргинальные распределения так­

же будут нормальными, а затем используйте результат (2.98).


13.20. (**) WWW Используя результат (2.115), докажите (13.87).
13.21. (**)Используя результаты (2.115) и (2.116) вместе с матричными тожде­
ствами (В.5) и (В.7), получите результаты (13.89), (13.90) и (13.91), где
матрица выигрыша Калмана Кп определяется формулой (13.92).

13.22. (**) WWW Используя (13.93), вместе с определениями (13.76) и (13.77) и


результатом (2.115), получите (13.96).
13.23. (**)Используя (13.93) вместе с определениями (13.76) и (13.77) и резуль­
татом (2.116), выведите (13.94), (13.95) и (13.97).
854 ГЛАВА 13. ПОСЛЕДОВАТЕЛЬНЫЕ ДАННЫЕ

13.24. (**) WWW Рассмотрим обобщение (13.75) и (13.76), в котором математиче­


ское ожидание нормального распределения содержит постоянные слага­

емые а и с , так что


p(zпl Zп-1) = N(zпlAzn-1 +а, Г), (13.127)

р(Хп 1 z") = N(хп 1 Сzп + с, I). (13.128)


Покажите, что это обобщение можно изменить в рамках подхода, обсуж­
даемого в этой главе, путем определения вектора состояния z с дополни­
тельным фиксированным компонентом, равным единице, и последующего
увеличения матриц А и С с использованием дополнительных столбцов,
соответствующих параметрам а и с.

13.25. (**)В этом упражнении мы покажем, что когда формулы фильтра Кал­
мана применяются к независимым наблюдениям, они сводятся к резуль­
татам, приведенным в разделе 2.3 для решения, полученного с помощью

принципа максимального правдоподобия для отдельного нормального


распределения. Рассмотрим задачу нахождения математического ожида­

ния µ единственной нормально распределенной случайной величины х по


заданному множеству независимых наблюдений {х 1 , "., xN}. Чтобы смо­
делировать эту ситуацию, мы можем использовать линейную динамиче­
скую систему, управляемую формулами (13.75) и (13.76), со скрытыми
переменными {z 1, "., zN}, в которой С становится единичной матрицей, а
матрица вероятности переходов А равна О, поскольку наблюдения явля­

ются независимыми. Обозначим параметры µ0 и Р 0 начального состояния


через µ 0 и и; соответственно и предположим, что матрица I принимает
2
вид О' • Запишите соответствующие формулы фильтра Калмана, начиная
с общих результатов (13.89) и (13.90), вместе с (13.94) и (13.95). Покажи­
те, что они эквивалентны результатам (2.141) и (2.142), полученным с
помощью непосредственного учета независимых данных.

13.26. (***) Рассмотрим частный случай линейной динамической системы из


раздела 13.3, который эквивалентен вероятностной модели РСА, так что
матрица переходов А равна О, ковариационная матрица Г равна 1, кова­
риационная матрица I равна и 2 1. Используя тождество для обратной
матрицы (В. 7), покажите, что, если матрица С плотности эмиссии обо­
значена как W, то апостериорное распределение по скрытым состояниям,
определенным в (13.89) и (13.90), сводится к результату (12.42) для веро­
ятностной модели РСА при условии, чтоµ= О.
Упражнения 855

13.27. (*) WWW Рассмотрим линейную динамическую систему вида, описанного

в разделе 13.3, в которой амплитуда шума наблюдения уменьшается до


нуля, так что I: =О. Покажите, что если С= 1, то апостериорное распре­

деление для Zn имеет математическое ожидание Хп и нулевую дисперсию.

Это согласуется с нашей интуицией о том, что если шума нет, мы долж­

ны использовать текущее наблюдение Хп для оценки переменной состоя­


ния Zn и игнорировать все предыдущие наблюдения.

13.28. (***)Рассмотрим специальный случай линейной динамической системы

из раздела 13.3, в котором переменная состояния Zn равна предыдущей


переменной состояния, что соответствует равенствам А= 1 и Г =О. Для
простоты предположим также, что С= 1 и Р 0 ~оо и поэтому начальные
условия для z не важны, а предсказания определяются исключительно

данными. Используя доказательство по индукции, покажите, что апосте­

риорное значение для состояния Zn определяется средним значением

х 1 , ••• , xn. Это соответствует интуитивному результату, согласно которо­


му, если переменная состояния постоянна, наша лучшая оценка получа­

ется путем усреднения наблюдений.

13.29. (***) Начиная с уравнения обратной рекурсии (13.99), выведите уравне­


ния сглаживания RTS (13.100) и (13.101) для гауссовской линейной ди­
намической системы.

13.30. (**) Начиная с результата (13.65) для попарного апостериорного марги­


нального распределения в модели пространства состояний, выведите
конкретный вид ( 13 .103) для случая гауссовской линейной динамической

системы.

13.31. (**)Начиная с результата (13.103) и подменяя а(zп) с помощью (13.84),


проверьте результат (13.104) для ковариации между Zn и Zп+

13.32. (**) WWW Проверьте результаты (13.110) и (13.111) для формул М-шага
для µ 0 и Р 0 в линейной динамической системе.
13.33. (**)Проверьте результаты (13.113) и (13.114) для формул М-шага для А
и Г в линейной динамической системе.

13.34. (**) Проверьте результаты (13.115) и (13.116) для формул М-шага для С
и I: в линейной динамической системе.
1

В предыдущих главах мы исследовали ряд различных моделей для решения


задач классификации и регрессии. Часто улучшения производительности можно
достичь пуrем объединения нескольких моделей в одно целое, вместо того, что­
бы просто использовать какую-то отдельную модель. Например, мы можем обу­
чить L различных моделей и затем делать прогнозы, используя среднее значение
прогнозов, сделанных каждой моделью. Такие комбинации моделей иногда
называют комитетами. В разделе 14.2 мы обсуждаем способы применения кон­
цепции комитета на практике, а также даем некоторое представление о том, по­

чему иногда это может оказаться эффективной процедурой.


Один важный вариант метода комитетов, известный как бустинг (boosting),
включает в себя последовательное обучение нескольких моделей, в которых
функция ошибок, используемая для обучения конкретной модели, зависит от
точности предыдущих моделей. Как показано в разделе 14.3, это может пр иве-
858 ГЛАВА 14. КОМБИНИРОВАНИЕ МОДЕЛЕЙ

сти к существенным улучшениям в точности по сравнению с использованием

отдельной модели.

Вместо усреднения прогнозов по множеству моделей можно выбирать одну


из этих моделей в зависимости входных переменных. Таким образом, разные
модели становятся ответственными за предсказания в разных областях входного
пространства. Один широко используемый подход такого типа известен как де­

рево решений, в котором процесс выбора можно описать как последовательность


бинарных решений, соответствующих обходу древовидной структуры. Этот ме­
тод рассматривается в разделе 14.4. В этом случае отдельные модели обычно
выбираются очень простыми, а общая гибкость модели обусловлена процессом
выбора, зависящим от входных данных. Деревья решений могут применяться
для решения как задач классификации, так и регрессии.
Одним из недостатков деревьев решений является то, что разбиение входного
пространства на области слишком жесткое и в каждой такой области только одна
модель отвечает за прогнозирование любого заданного значения входных пере­
менных. Как показано в разделе 14.5, процесс принятия решений можно смягчить,
перейдя к вероятностному подходу к компбинированию моделей. Например, если
у нас есть множество, состоящее из К моделей для условного распределения
p(tlx, k), где х- входная переменная, t- целевая переменная, а k= 1, ... ,К -
индекс модели, то мы можем сформировать вероятностную смесь вида

(
p(tlx) =L1Тk х )p(tlx,k ), (14.1)
k=\

в которой nk(x) =p(klx) - коэффициенты смешивания, зависящие от входных


данных. Такие модели можно рассматривать как смеси распределений, в которых

плотность компонентов, а также коэффициенть1 смешивания обусловлены вход­


ными переменными. Эти модели называются смесями экспертов. Они тесно свя­
заны с моделью сети со смешанной плотностью, рассмотренной в разделе 5. 6.

14.1. Байесовская модеnь усреднения

Важно проводить различие между методами комбинирования моделей и


усреднением по байесовской модели, поскольку эти два понятия часто путают.
Чтобы понять разницу, рассмотрим пример оценки плотности с использованием
смеси нормальных распределений, в которой несколько гауссовских компонен­
тов объединены в вероятностном смысле (с"м. раздел 9.2). Эта модель содержит
бинарную латентную переменную z, которая указывает, какой компонент смеси
14.1. Байесовская модель усреднения 859

отвечает за создание соответствующей точки данных. Таким образом, модель


описывается с точки зрения совместного распределения

р(х, z) (14.2)

и соответствующая плотность по наблюдаемой переменной х получается путем


маргинализации по латентной переменной:

р(х) = LP(x,z). (14.3)



В нашем примере смеси нормальных распределений это приводит к распре­
делению вида

р(х)= IяkN(xlµk,I:k) (14.4)


k=I

с обычной интерпретацией символов. Это пример комбинирования моделей. Для


независимых одинаково распределенных данных мы можем использовать формулу
(14.3) для записи маргинальной вероятности множества данных Х = {х 1 , •. " xN}
в виде

р(Х)= пр(х,) =П[ ~p(x"z,) J (14.5)

Таким образом, мы видим, что каждой наблюдаемой точке данных хп соот­


ветствует латентная переменная zn. Теперь предположим, что у нас есть не­

сколько различных моделей, индексированных по h = 1, "" Н с априорными ве­

роятностями p(h). Например, одна модель может быть смесью нормальных рас­
пределений, а другая модель - смесью распределений Коши. Маргинальное

распределение по множеству данных определяется как

Р (х) = L р ( х1 h)Р (h).


h=I
(14.6)

Это пример байесовского усреднения моделей. Интерпретация этого суммиро­


вания по h состоит в том, что только одна модель отвечает за генерацию всего
множества данных, а распределение вероятностей по h отражает нашу неопреде­

ленность относительно того, какая это модель. По мере увеличения множества

данных эта неопределенность уменьшается и апостериорные вероятности p(h IX)


все больше фокусируются только на одной из моделей.
Это подчеркивает ключевое различие между байесовским усреднением моде­
лей и комбинированием моделей, потому что в байесовском усреднении моде-
860 ГЛАВА 14. КОМБИНИРОВАНИЕ МОДЕЛЕЙ

лей весь набор данных генерируется одной моделью. Напротив, когда мы объ­
единяем несколько моделей, как в (14.5), то разные точки в множестве данных
могут потенциально генерироваться из разных значений латентной перемен­

ной z и, следовательно, из разных компонентов.


Хотя мы рассмотрели маргинальную вероятность р(Х), те же соображения
применимы для прогностической плотности p(xlX) или для условных распреде­
лений, таких какр(tlх, Х, Т) (см. упражнеиие 14.1).

14.2. Комитеты
Самый простой способ создать комитет - это усреднить предсказания мно­
жества отдельных моделей. Такую процедуру можно обосновать с частотной
точки зрения (с,и. раздел 3.2), рассматривая компромисс между смещением и
дисперсией, который раскладывает ошибку, обусловленную моделью, на компо­
нент смещения, который возникает из-за различий между моделью и истинной
функцией, которая должна быть предсказана, и компонент дисперсии, который
отражает чувствительность модели к отдельным точкам данных. Когда мы обу­
чали несколько полиномов с использованием синусоидальных данных, а затем

усредняли результирующие функции (см. рис. 3.5), вклад, возникающий за счет


дисперсионного члена, стремился к нулю, что приводило к улучшению прогно­

зов. Когда мы усреднили набор моделей с небольшим смещением (соответству­


ющим полиномам более высокого порядка), то получили точные прогнозы для
основной синусоидальной функции, из которой были сгенерированы данные.
На практике, конечно, у нас есть только один набор данных, и поэтому мы

должны найти способ ввести изменчивость между различными моделями в рам­


ках комитета. Один из подходов заключается в использовании метода бутстрэп
(bootstrap data set), который обсуждался в раздет~ 1.2.3. Рассмотрим регрессион­
ную проблему, в которой мы попытаемся предсказать значение одной непре­
рывной переменной, и предположим, что мы генерируем М наборов данных ме­
тодом бутстрэп, а затем используем каждый из них для обучения отдельной ко­
пии уm( х) прогностической модели, где т = 1, "., М Прогноз комитета дает
1 м
Усом (х) =-LYm (х). (14.7)
М m=I

Эта процедура называется бутстрэп-агрегированием, или бэггингом (Ьagging)


(Вreiman, 1996). Предположим, что истинная функция регрессии, которую мы пы­
таемся предсказать, задается как h(x), так что выходные данные каждой из моде­
лей могут быть записаны как истинное значение плюс ошибка в форме
14.2. Комитеты 861

Ут(х)=h(х)+sт(х). (14.8)

Тогда математическое ожидание среднеквадратичной ошибки принимает вид

Ех [ {Ym (x)-h(x)} 2 ] =Ех [ Бт (х) 2 ], (14.9)

где Ех [·] обозначает математическое ожидание относительно распределения


входного вектора х в рамках частотного подхода. Поэтому средняя ошибка, до­
пущенная индивидуально действующими моделями, составляет

(14.10)

Аналогично математическое ожидание ошибки комитета (14.7) задается формулой

Есом = П!,[ {~ t,Y. (x)-h(x)}}


(14.11)

= t.
П!, [{~ е. (х) п
Если мы предположим, что ошибки имеют нулевое математическое ожидание
и не коррелированы, так что

Ex[sm (х)] =0, (14.12)

Ex[sm(x)s1 (x)]=0, m~l, (14.13)

то получим (см. упражнеиие 14.2)


1
Есом =-EAv· (14.14)
м

Этот, на первый взгляд, впечатляющий результат означает, что среднюю ошибку


модели можно уменьшить с коэффициентом М, просто усреднив М версий мо­
дели. К сожалению, это зависит от ключевого предположения, что ошибки, свя­
занные с отдельными моделями, не коррелированы. На практике ошибки, как

правило, имеют высокую степень корреляции, и снижение общей ошибки обыч­


но невелико. Однако можно показать, что ожидаемая ошибка комитета не будет

превышать ожидаемую ошибку составляющих моделей, поэтому Есом ~ EAv·


Чтобы добиться более значительных улучшений, мы будем использовать более
сложную методику построения комитетов - бустинг (Ьoosting).
862 ГЛАВА 14. КОМБИНИРОВАНИЕ МОДЕЛЕЙ

14.3. Бустинг
Бустинг является мощной техникой объединения нескольких базовых клас­
сификаторов для создания формы комитета, точность которого может быть зна­
чительно лучше, чем у любого из базовых классификаторов. Здесь мы опишем
наиболее широко используемую форму алгоритма бустинга, называемую
AdaBoost, сокращение от "adaptive boosting'', разработанную Freund and Schapi-
re (1996). Бустинг может дать хорошие результаты, даже если базовые класси­
фикаторы имеют точность, которая лишь немного лучше, чем случайная, и по­
этому иногда базовые классификаторы называют слабыми учениками. Первона­
чально разработанный для решения задач классификации, бустинг можно
обобщить и применить к регрессии (Friedman, 200 l ).
Принципиальное различие между методами бустинга и комитета, такими как
бэггинг, рассмотренный выше, состоит в том, что базовые классификаторы обу­
чаются последовательно, и каждый базовый классификатор обучается с исполь­
зованием взвешенного множества данных, в котором весовой коэффициент, свя­
занный с каждой точкой данных, зависит от точности предыдущих классифика­
торов . В частности, точки, которые неправильно классифицированы одним из
базовых классификаторов, получают больший вес, когда используются для обу­
чения следующего классификатора в последовательности. После того как все
классификаторы прошли обучение, их прогнозы объединяются с помощью схе­
мы взвешенного большинства, как показано на рис. 14.l .

@@ @
1 1 .... 1
у, (х) У2(х) Ум(х)

~~
P1tc. 14.1. Схематическое представление бустинга. Каждый ба·ювый классификатор

Ут(х) обучается по взвешенному обучающему множеству (синие стрелки), в котором

веса 1v~,"') зависят от точности предыдущего базового классификаторауm 1 (х) (зеленые


стрелки). Как только все базовые классификаторы обучены , они объединяются ,

формируя окончательный классификатор Ум(х) (красные стрелки)


14.3. Бустинг 863

Рассмотрим задачу классификации двух классов, в которой обучающее мно­


жество данных содержит входные векторы х 1 , .", xN вместе с соответствующими

двоичными целевыми переменными t 1, •• " lм где tn Е{-1, 1}. Каждой точке дан­

ных присваивается соответствующий весовой параметр Wm который первона­

чально устанавливается равным 1/N для всех точек данных. Предположим, у нас

есть процедура для обучения базового классификатора с использованием взве­


шенных данных, чтобы получить функцию у(х) Е {-1, 1}. На каждом этапе алго­

ритм AdaBoost обучает новый классификатор, используя множество данных, в


котором весовые коэффициенты корректируются в соответствии с точностью
ранее обученного классификатора, чтобы придать больший вес ошибочно клас­
сифицированным точкам данных. Наконец, когда необходимое количество базо­
вых классификаторов обучено, они объединяются в комитет, используя коэффи­
циенты, которые придают разный вес разным базовым классификаторам. Точная
форма алгоритма AdaBoost приведена ниже.

AdaBoost

1. Инициализируйте весовые коэффициенты данных {wп}, задав w~1 ) =_!_ для


N
n=1, ... ,N.
2. Длят=1,".,М:

а) Настройте классификатор Ут(х) на обучающие данные путем минимиза­


ции функции взвешенной ошибки

-
Jm - LWn(т) l(ут(хп)*tп),
N

n=l
(14.15)

где I(ут(хп) :;t tп) является индикаторной функцией и равна 1, если

Ут(хп) :;t tm и О в противном случае.

б) Вычислите величины

(14.16)

n=1
а затем используйте их для вычисления величин

ат =ln{1~:m }· (14.17)
864 ГЛАВА 14. КОМБИНИРОВАНИЕ МОДЕЛЕЙ

в) Обновите весовые коэффициенты данных

(14.18)

3. Сделайте прогнозы, используя окончательную модель, которая опреде­


ляется по формуле

(14.19)

Мы видим, что первый базовый классификатор у 1 (х) обучается с использова­


нием одинаковых весовых коэффициентов w~1 ), что соответствует обычной про­
цедуре обучения отдельного классификатора. Из формулы (14.18) вытекает, что

на последующих итерациях весовые коэффициенты w~m) увеличиваются для то­


чек данных, которые были неправильно классифицированы, и не изменяются
для точек данных, которые были правильно классифицированы. Следовательно,
последующие классификаторы вынуждены уделять больше внимания точкам,
которые были неправильно классифицированы предыдущими классификатора­
ми, а точки данных, которые продолжают ошибочно классифицироваться после­
дующими классификаторами, получают все больший вес. Величины Ет пред­
ставляют собой взвешенные показатели частоты ошибок каждого из базовых
классификаторов на множестве данных. Таким образом, мы видим, что весовые
коэффициенты ат, определенные формулой (14.17), придают больший вес более

точным классификаторам при вычислении общего результата, полученного по


формуле (14.19).
Алгоритм AdaBoost продемонстрирован на рис. 14.2 на примере подмноже­
ства из 30 точек данных, взятых из множества данных для классификации игру­
шек, показанного на рис. А. 7. Здесь каждый базовый обучаемый классификатор
состоит из порога, установленного для одной из входных переменных. Этот про­

стой классификатор соответствует форме деревьев решений, известной как "пни


решений" (decision stumps), представляющих собой деревья решений с одним
узлом. Таким образом, каждый базовый обучаемый классификатор классифици­
рует входные данные в соответствии с тем, превышает ли одна из входных ха­

рактеристик какой-либо порог, и поэтому разделяет пространство на две обла­


сти, разделенные линейной поверхностью принятия решений, перпендикуляр­

ной одной из осей (c.w. раздел 14.4).


14.3. Бустинr 865

2 о 1 оо m=I
2 т=2
2 т = З
1
"о· ••
о Оо р • о

q,
о о 1 о о
о .1
о о о

с9 ~<S> о
-2
о о ofo 'Ьо

-2
.~;:а
•• 1

1
-2 -
.
-
о -OL.·ь - -

-! о 2 -1 о 2 -1 о 2
2 т= 10 2 • т = 150
• о . • о • о 1.
о~ - r -о~ С)- -4 о
о о о о
о о ,_ - - · - _()._.-о_о_ 1~ о

-2 .
о о ."i:J
-2
о 8 •о
• о
-2
о 1~
"1
•tJ

1

-1 о 2 -1 о 2 -! о 2

Рис . 14.2. Бустинг, в котором базовые классификаторы состоят из простых порогов,

применяемых к одной или другой оси . На каждом рисунке показано количество т

обучающихся базовых классификаторов, а также граница принятия решения самого

последнего базового классификатора (пун1<.1ирная черная линия) и объединенная граница

принятия решения ансамбля (сплошная зеленая линия) . Каждая тоtfКа данных изображена

кружком, радиус которого отражает вес , нюначенный этой точке данных при обучении

последнего добавленного бюового классификатора . Таким образом , например, мы видим,

что точки , которые неправильно классифицированы базовым классификатором т = 1,


получают больший вес при обучении базового классификатора т = 2

14.3.1. Минимизация экспоненциальной ошибки

Бустинг был изначально обоснован с помощью статистической теории обу­


чения, позволявшей получить верхние границы ошибки обобщения. Тем не ме­
нее эти границы оказываются слишком неточными, чтобы иметь практическую
ценность, и фактическая эффективность бустинга намноrо выше, чем можно бы­
ло бы предположить, опираясь только на эти границы. Friedman et а/. (2000) дал
другую и очень простую интерпретацию бустинга с точки зрения последова­
тельной минимизации экспоненциальной функции ошибки.
Рассмотрим экспоненциальную функцию ошибки, определяемую формулой

N
Е= :Lexp{-tпfm(xп)}, (14.20)
n=\

где fm(x)- классификатор, определенный как линейная комбинация базовых


классификаторов у 1 (х) вида
866 ГЛАВА 14. КОМБИНИРОВАНИЕ МОДЕЛЕЙ

1 т
fт ( х) =- L
2 1=1
а, у1 ( х), (14.21)

и tn Е {-1, 1} - целевые значения обучающего множества. Наша цель - мини­

мизировать величину Е относительно весовых коэффициентов а 1 и параметров


базовых классификаторов у 1 (х).
Однако вместо минимизации функции глобальной ошибки будем предпола­
гать, что базовые классификаторы у 1 (х), ... , Ут-~(х) фиксированы, так же, как и их

коэффициенты а 1 , ••• , ат_ 1 , и поэтому минимизируем только по ат и Ут(х). От­


делив вклад базового классификатора Ут(х), функцию ошибки можно записать в
виде

(14.22)

где коэффициенты w~т) = ехр {-tпfт-I ( хп)} можно рассматривать как констан­
ты, потому что мы оптимизируем только а,,. иут(х). Если мы обозначим через Т,,.

множество точек данных, которые правильно классифицированы базовым клас­


сификатором Ут(х), и если обозначим оставшиеся ошибочно классифицирован-

ные точки через Мт, то можем переписать функцию ошибки в виде

Е = е-ат/2 L w~т) + еат/2 L w~т) =


nETm nЕ.М,,,

N N (14.23)
= (еат/2 -е-ат/2 )L W~т) l(Ут (хп) :# tn )+e-am/2L W~т).
n=I n=I

Минимизируя эту функцию по Ут(х), мы видим, что второе слагаемое является


постоянным, и поэтому это эквивалентно минимизации (14.15), поскольку общий

мультипликативный коэффициент перед знаком суммы не влияет на местополо­


жение минимума. Точно так же, минимизируя относительно ат, мы получа­
ем (14.17), в котором Ет определяется выражением (14.16) (см. упражнение 14.6).
Из формулы (14.22) следует, что, зная ат и Ут(х), можно уточнить веса на
точках данных с использованием формулы

(14.24)
14.3. Бустинг 867

Используя тот факт, что


lпУт(Хп) = 1-21(ут(Хп) 7' tп), (14.25)

мы видим, что веса w~m) обновляются на следующей итерации по формулам


(14.26)

Поскольку член exp(-am/2) не зависит от п, он взвешивает все точки данных с


помощью одного и того же множителя и поэтому может быть отброшен. Таким
образом, получаем формулу (14.18). Наконец, как только все базовые классифи­
каторы обучены, новые точки данных классифицируются путем оценки знака
объединенной функции, определенной в соответствии с формулой (14.21). По­
скольку коэффициент 1/2 не влияет на знак, его можно опустить, получив фор­
мулу (14.19).

14.3.2. Функции ошибки для бустинrа

Экспоненциальная функция ошибки, которая минимизируется алгоритмом


AdaBoost, отличается от тех, которые рассматривались в предыдущих главах.
Чтобы получить некоторое представление о природе экспоненциальной функ­
ции ошибки, сначала рассмотрим математическое ожидание ошибки:

Ex,t [ exp{-t у( х )} ] = Lf exp{-t у( х)} p(tlx )р( х )dx.


1
(14.27)

Если мы выполним вариационную минимизацию относительно всех возмож­

ных функций у(х), то получим (см. упраж11е11ие 14. 7)

у ( х) = _!_ ln { р ( t =11 х) }, (14.28)


2 p(t=-llx)

что составляет половину логарифма отношения шансов. Таким образом, алгоритм


AdaВoost ищет наилучшее приближение к логарифму отношения шансов в про­
странстве функций, представленных линейной комбинацией базовых классифика­
торов, при условии ограниченной минимизации, вьпекающей из стратегии после­
довательной шпимизации. Этот результат объясняет использование функции sign в
функции (14.19) для принятия окончательного решения о классификации.
Мы уже видели, что точка минимума у(х) функции ошибки в виде перекрест­
ной энтропии (4.90) для двухклассовой классификации задается вероятностью
апостериорного класса. В случае целевой переменной t Е {-1, 1} функция ошибки
задается как ln(l + exp(-yt)) (см. раздvt 7.1.2). Ее сравнение с экспоненциальной
868 ГЛАВА 14. КОМБИНИРОВАНИЕ МОДЕЛЕЙ

функцией ошибки продемонстрировано на рис. 14.3, где мы разделили функцию


ошибки в виде перекрестной энтропии на постоянный множитель ln 2, чтобы она

проходила через точку (О, 1) для удобства сравнения. Мы видим, что обе функции
могут рассматриваться как непрерывные приближения к идеальной функции
ошибки классификации. Преимущество экспоненциальной функции ошибки за­
ключается в том, что ее последовательная минимизация приводит к простой схеме
AdaВoost. Однако один из ее недостатков заключается в том, что она штрафует
большие отрицательные значения ty(x) гораздо сильнее, чем перекрестная энтро­
пия. В частности, мы видим, что для больших отрицательных значений ty пере­

крестная энтропия растет линейно с ростом 1ty I, тогда как экспоненциальная


функция ошибки растет экспоненциально. Таким образом, экспоненциальная
функция ошибки будет гораздо менее устойчивой к выбросам или ошибочно клас­
сифицированным точкам данных. Другое важное отличие между перекрестной эн­
тропией и экспоненциальной функцией ошибки заключается в том, что послед­
нюю невозможно интерпретировать как логарифмическую функцию правдоподо­
бия из какой-либо четко определенной вероятностной модели (см. упра;ш11еиие
14.8). Кроме того, экспоненциальная ошибка не обобщается на задачи классифи­
кации, имеющие К> 2 классов, опять же в отличие от перекрестной энтропии для

вероятностной модели, которая легко обобщается для получения формулы (4.108)


(см. раздел 4.3.4).

- 2 - 1 о 2

Рис. 14.3. График экспоненциальной функции ошибки (зеленая кривая)

и масштабированной функции ошибки в виде перекрестной энтропии (красная кривая),

а также шарнирной ошибки (синяя кривая) , используемой в методе опорных векторов,

и ошибки классификации (черная кривая) . Обратите внимание,

что при больших отрицательных значениях z= t у(х) перекрестная энтропия

дает линейно увеличивающийся штраф , тогда как экспоненциальные

потери дают экспоненциально увеличивающийся штраф


14.4. Древовидные модели 869

Интерпретация бустинга как последовательной оптимизации аддитивной моде­


ли при экспоненциальной ошибке (Friedman et а/., 2000) открывает двери для ши­
рокого спектра буст-подобных алгоритмов, включая многоклассовые расширения
за счет разного выбора функции ошибки . Это также позволяет решать задачи ре­
грессии (Friedman, 2001). Если мы рассмотрим функцию среднеквадратической

ошибки для регрессии, то последовательная минимизация аддитивной модели ви­


да (14.21) означает подгонку каждого нового базового классификатора к остаточ­
ным ошибкам tn - fm - l (хп) из предыдущей модели (см. упражиение 14.9). Однако,
как мы уже отмечали, сумма квадратов ошибок не является устойчивой к выбросам,
и этот недостаток можно устранить, основав алгоритм бустинга на абсолютном от­
клонении ly-tl. Эти две функции ошибки сравниваются на рис. 14.4.

E(z)

/
-1 о z

Рис. 14.4. Сравнение квадрата ошибки (кривая зел еного цвета)

с абсолютной ошибкой (кривая красного цвета) , показывающее,

что последняя з начител ьно меньше акцентирует внимание на больших ошибках и,

следовательно, более устойчива к выбросам и ошибочным меткам данных

14.4. Древовидные модели


Существуют различные простые, но широко используемые модели, которые

работают, разбивая входное пространство на кубические области, края которых


параллельны осям, а затем назначая простую модель (например, константу) для
каждой области. Их можно рассматривать как метод комбинирования моделей,
в котором только одна модель отвечает за прогнозирование в любой заданной точ­
ке входного пространства. Процесс выбора конкретной модели с учетом нового
входа х можно описать как последовательный процесс принятия решения, соот­
ветствующий обходу бинарного дерева (которое разбивается на две ветви

в каждом узле) . Здесь мы остановимся на конкретном методе, основанном на дере­


вьях классификации и регрессии, или CART (Вreiman et а/" 1984), хотя существует
много других вариантов, таких как IDЗ и С4.5 (Quinlan, 1986; Quinlan, 1993).
870 ГЛАВА 14. КОМБИНИРОВАНИЕ МОДЕЛЕЙ

На рис. 14.5-14.6 показано рекурсивное бинарное разделение входного про­


странства вместе с соответствующей древовидной структурой. В этом примере
первый шаг делит все входное пространство на две области в зависимости от
условий х 1 ~ () 1 или х 1 > 0 1, где 0 1 является параметром модели. Это создает две
подобласти, каждая из которых затем может быть разделена независимо.
Например, область х 1 ~ () 1 дополнительно подразделяется в зависимости от
условий х 2 ~ () 2 или х 2 > 02 , что приводит к областям, обозначенным как А и В.
Рекурсивное разбиение можно описать с помощью обхода бинарного дерева, по­
казанного на рис. 14.6. Для любого нового входах мы определяем, в какую об­
ласть он попадает, начиная с вершины дерева в корневом узле и следуя по пути

вниз к конкретному листовому узлу в соответствии с критериями принятия ре­

шения в каждом узле. Обратите внимание на то, что такие деревья решений не
являются вероятностными графовыми моделями.

с D

Рис. 14.5. Двумерное входное пространство, которое было разделено

на пять областей с использованием границ, выровненных по оси

Х2 ~ 82

А
•в
1

с D Е

Рис. 14.6. Бинарное дерево, соответствующее

разделению входного пространства, показанного на рис. 14.5


14.4. Древовидные модели 871

В каждой области существует отдельная модель для прогнозирования целе­


вой переменной. Например, в регрессии мы могли бы просто предсказать посто­

янную для каждой области, а в задаче классификации могли бы связать каждую


область с определенным классом. Ключевым свойством моделей на основе дере­
ва является то, что они легко интерпретируются людьми, поскольку соответ­

ствуют последовательности бинарных решений, применяемых к отдельным


входным переменным. Это делает их популярными в таких областях, как меди­
цинская диагностика. Например, чтобы предсказать болезнь пациента, мы могли
бы сначала спросить: "Его температура выше некоторого порога?" Если ответ
положительный, то мы могли бы затем спросить: "Является ли его кровяное
давление ниже некоторого порога?" Тогда каждый лист дерева был бы связан с
определенным диагнозом.

Чтобы обучить такую модель на обучающем множестве, следует определить


структуру дерева, включая то, какая входная переменная выбирается в каждом
узле для формирования критерия разделения, а также значение порогового па­
раметра 8; для разделения. Кроме того, необходимо определить значения про­
гнозируемой переменной в каждой области.
Сначала рассмотрим задачу регрессии, цель которой состоит в том, чтобы
предсказать одну целевую переменную t из D-мерного вектора входных пере­
менных х = (х 1 , "., хD)т. Обучающие данные состоят из входных векторов
{х 1 , "., xN} вместе с соответствующими непрерывными метками {! 1, ••• , tN}· Если
дано разделение входного пространства и мы минимизируем сумму квадратов

ошибок, то оптимальное значение прогнозирующей переменной в любой задан­


ной области дается средним значением величин tn для тех точек данных, которые
попадают в эту область (с,и. упражиеиие 14.10).
Теперь рассмотрим, как определить структуру дерева решений. Даже для

фиксированного количества узлов в дереве проблема определения оптимальной


структуры (включая выбор входной переменной для каждого разбиения, а также
соответствующих пороговых значений) для минимизации ошибки суммы квад­
ратов обычно вычислительно невозможна из-за комбинаторно большого числа
возможных решений. Вместо этого обычно выполняется жадная оптимизация,
которая начинается с одного корневого узла, соответствующего всему входному

пространству, а затем увеличивает дерево, добавляя узлы по одному за раз. На


каждом шаге во входном пространстве будет существовать определенное коли­
чество областей-кандидатов, которые можно разделить, что соответствует до­
бавлению пары листовых узлов в существующее дерево. Для каждого из них
есть выбор, какую из D входных переменных разделить, а также значение поро-
872 ГЛАВА 14. КОМБИНИРОВАНИЕ МОДЕЛЕЙ

га. Совместную оптимизацию выбора области для разделения и выбора входной


переменной и порога можно эффективно выполнить с помощью полного пере­
бора, заметив, что для данного выбора переменной разделения и порога опти­
мальный выбор прогнозной переменной задается локальным средним значением
данных, как отмечалось ранее. Эта процедура повторяется для всех возможных
вариантов выбора переменной, и сохраняется тот вариант, который дает

наименьшую остаточную сумму квадратов ошибок.


Учитывая жадную стратегию для роста дерева, остается вопрос: когда пре­

кратить добавлять узлы? Простой подход состоит в том, чтобы останавливаться,


когда уменьшение остаточной ошибки падает ниже некоторого порога. Однако
эмпирически установлено, что часто ни одно из доступных разделений не при­

водит к значительному уменьшению ошибки, и, тем не менее, после нескольких


дополнительных разделений обнаруживается существенное уменьшение оши­
бок. По этой причине обычной практикой является выращивание большого де­
рева с использованием критерия остановки, основанного на количестве точек

данных, связанных с листовыми узлами, с последующим усечением результи­

рующего дерева. У сечение основано на критерии, который уравновешивает

остаточную ошибку с мерой сложности модели. Если мы обозначим начальное


дерево для усечения через Т0 , то определим Т с Т0 как поддерево Т0 , если оно
может быть получено путем отсечения узлов из Т0 (иначе говоря, путем сверты­
вания внутренних узлов с помощью объединения соответствующих областей).
Предположим, листовые узлы проиндексированы как т= 1, "., 1 TI, где листовой
узел т представляет область Rт входного пространства, содержащую Nт точек
данных, а 1 TI обозначает общее количество листовых узлов. Тогда оптимальный
прогноз для области Rт задается формулой

(14.29)

а соответствующий вклад в остаточную сумму квадратов определяется по

формуле

Qr(T)= L {tп-Yr( (14.30)


x.eR..

Тогда критерий усечения принимает вид

С(Т) = f Qr (т)+ ЛITI.


r=l
(14.31)
14.4. Древовидные модели 873

Параметр регуляризации А определяет компромисс между общей остаточной


суммой квадратов ошибок и сложностью модели, измеряемой числом 1 TI листо­
вых узлов, и его значение выбирается путем перекрестной проверки.
Для задач классификации процесс наращивания и усечения дерева аналоги­
чен, за исключением того, что сумма квадратов ошибок заменяется более подхо­
дящим показателем точности. Если мы определим Ртk как пропорцию точек дан­
ных в области R"' отнесенных к классу k, где k= 1, ""К, то заметим, что чаще
остальных используется перекрестная энтропия:

Qr (т) =- LPrk lnprk' (14.32)


k=I

и индекс Джини
к

Qr (Т) = LPrk (1- Ртk) · (14.33)


k=I

Оба они равны нулю, если р тk = 1 для k = 1, "" К (в этом случае р 1* = О для
всех} =!:- k) и имеют максимум при Ртk = 1/К для k = 1, ""К. Они поощряют фор­
мирование областей, в которых большая часть точек данных относится к одному
классу. Перекрестная энтропия и индекс Джинн являются лучшими показателя­

ми, чем коэффициент ошибочной классификации для роста дерева, поскольку


они более чувствительны к вероятностям узла (с.-и. упражиение 14.11). Кроме
того, в отличие от степени ошибочной классификации, они дифференцируемы и,
следовательно, лучше подходят для градиентных методов оптимизации. Для по­
следующего усечения дерева обычно используется уровень ошибочной класси­
фикации.
Интуитивная понятность древовидной модели, такой как CART, часто рас­
сматривается как ее главная сила. Однако на практике выясняется, что опреде­
ленная обученная древовидная структура очень чувствительна к элементам
множества данных, так что небольшое изменение обучающих данных может
привести к совершенно другому набору разбиений (Hastie et а/., 2001).
Существуют и другие проблемы, связанные с древовидными методами, кото­
рые рассматриваются в этом разделе. Одна из них заключается в том, что грани­
цы разбиений параллельны осям пространства признаков, что может оказаться
очень неоптимальным. Например, для разделения двух классов, у которых гра­
ница оптимального решения проходит под углом 45 градусов к осям, потребует­
ся большое количество параллельных осей разделений входного пространства по
сравнению с одним разделением без выравнивания по оси. Кроме того, расщеп-
874 ГЛАВА 14. КОМБИНИРОВАНИЕ МОДЕЛЕЙ

ления в дереве решений являются сложными, поскольку каждая область входно­


го пространства связана с одной и только одной моделью листовых узлов. По­
следняя проблема особенно проблематична в регрессии, когда мы обычно стре­
мимся моделировать гладкие функции, и тем не менее древовидная модель дает
кусочно-постоянные предсказания с разрывами на границах разбиения.

14.5. Смеси моделей условных распределений


Мы видели, что стандартные деревья решений ограничены жесткими, вы­

ровненными по оси расщеплениями входного пространства. Эти ограничения


можно ослабить за счет интерпретируемости, допуская мягкие вероятностные
разбиения, которые могут быть функциями всех входных переменных, а не
только одной из них одновременно. Если мы также дадим листовым моделям

вероятностную интерпретацию, то получим полностью вероятностную древо­

видную модель, называемую иерархической смесью экспертов, которую мы рас­


смотрим в разделе 14.5.3.
Альтернативный способ обоснования модели иерархической смеси экспер­
тов - начать со стандартной вероятностной смеси моделей безусловной плотно­
сти, например нормальных распределений (см. главу 9), и заменить плотности
компонентов условными распределениями. Здесь мы рассмотрим смеси моделей
линейной регрессии (раздел 14. 5.1) и смеси моделей логистической регрессии
(раздел 14.5.2). В простейшем случае коэффициенты смешения не зависят от
входных переменных. Если мы сделаем дальнейшее обобщение, чтобы коэффици­
енть1 смешения также зависели от входных данных, то получим модель смеси экс­

пертов. Наконец, если мы допустим, чтобы каждый компонент в модели смеси


был сам по себе моделью экспертов, то получим иерархическую смесь экспертов.

14.5.1. Смеси моделей линейной регрессии

Одним из многих преимуществ предоставления вероятностной интерпрета­


ции модели линейной регрессии является то, что она может затем использовать­

ся в качестве компонента в более сложных вероятностных моделях. Это можно


сделать, например, путем просмотра условного распределения, представляюще­

го модель линейной регрессии в качестве узла в ориентированном вероятност­


ном графе. Здесь мы рассмотрим простой пример, соответствующий смеси мо­
делей линейной регрессии, которая представляет собой прямое продолжение
модели гауссовской смеси, рассмотренной в разделе 9. 2, в случае условных

нормальных распределений.
14.5. Смеси моделей условных распределений 875

Итак, мы рассматриваем К моделей линейной регрессии, каждая из которых


управляется собственным весовым параметром wk. Во многих приложениях бу­
дет целесообразно использовать общую дисперсию шума, определяемую пара­
метром точности fJ для всех К компонентов, и это именно тот случай, который
мы здесь рассмотрим. Мы еще раз ограничим свое внимание одной целевой пе­
ременной t, хотя расширение до нескольких выходов является простым. Если мы

будем обозначать коэффициенты смешения через яk, то смесь распределений


можно записать в следующем виде (см. упражнение 14.12):
к

p(tlO) = LяkN(tlwI;,p- 1 ), (14.34)


k=I

где О обозначает множество всех адаптивных параметров в модели, а именно


W = {wk}, я= {яk} и /J. Логарифмическая функция правдоподобия для этой мо­
дели при заданном множестве данных наблюдения {ф", t"} принимает вид

(14.35)

где t = (t 1, "" tN)т обозначает вектор целевых переменных.


Чтобы максимизироватъ эту функцию правдоподобия, мы можем еще раз обра­
титься к ЕМ-алгоритму, который окажется простым расширением ЕМ-алгоритма

для смесей безусловных нормальных распределений из раздела 9.2. Поэтому мы


можем опираться на наш опыт работы с безусловной смесью и ввести множество
Z = {z"} бинарных скрытых переменных, где z"k Е {О, 1}, в котором для каждой
точки данных п все элементы k = 1, "" К равны нулю, за исключением одного еди­
ничного значения, указывающего, какой компонент смеси отвечал за создание

этой точки данных. Совместное распределение по латентным и наблюдаемым пе­


ременным можно представить графовой моделью, показанной на рис. 14.7.

Рис. 14.7. Вероятностный ориентированный граф, представляющий собой смесь

линейных регрессионных моделей, определенных формулой (14.35)


876 ГЛАВА 14. КОМБИНИРОВАНИЕ МОДЕЛЕЙ

В таком случае логарифмическая функция правдоподобия при полных дан­


ных принимает вид
N К

ln p(t,ZIB) = L~~:Zпk ln {п-kN(tпlwrt, д-')}. (14.36)


n=I k=I
ЕМ-алгоритм начинается с выбора начального значения 8°1d для параметров мо­
дели. Затем на Е-шаге эти значения параметров используются для оценки апо­
стериорных вероятностей, или ответственности каждого компонента k за каж­

дую точки данных п:

п- N(t lwт~ р- 1 )
=Е( ]= (kl~ во'd)= п k~' (14.37)
Ynk znk Р ~· "
k
( 1 т
L.п-1 N tп w1 Фп,Р
-!)"
j

Затем эти обязанности используются для определения математического ожида­


ния относительно апостериорного распределения p(Zlt, 0°1d) логарифмической
функции правдоподобия при полных данных, которая принимает вид
N К

Q( B,B01d) = Ez [ lnp( t,z1в)] = LLYnk {lnп-k + InN(tn lwkФn,p-' )}. (14.39)


n=I k=I
На М-шаге мы максимизируем функцию Q(0,8°1d) по О, сохраняя фиксиро­
ванное значение Упk· Для оптимизации по коэффициентам смешивания п-k необ­
ходимо учесть ограничение L п- k =1 . Для этого можно использовать множители
k
Лагранжа, что приводит к следующим формулам М-шага для уточнения коэф-
фициентов 1Z"k (см. упражнение 14.14):
1 N
1Z"k = - LYnk· (14.38)
N n=I
Заметим, что эта формула имеет точно такую же форму, что и соответствующий
результат для простой смеси безусловных нормальных распределений (9.22).
Далее рассмотрим максимизацию по отношению к вектору параметров wk мо­
дели линейной регрессии. Подставляя нормальное распределение, мы видим, что
функция Q(0,0°1d) как функция вектора параметров wk принимает вид

где постоянный член содержит вклады других весовых векторов w1 для}= k. Об­

ратите внимание на то, что величина, которую мы максимизируем, аналогична


14.5. Смеси моделей условных распределений 877

(отрицательной) стандартной сумме квадратов ошибок (3.12) для одной модели


линейной регрессии, но с учетом ответственностей Упk· Она представляет собой
взвешенную задачу наименьших квадратов, в которой член, соответствующий п­
й точке данных, имеет весовой коэффициент fЗУпk• который можно интерпрети­
ровать как эффективную точность для каждой точки данных. Мы видим, что
каждая модель линейной регрессии компонентов в смеси, управляемая своим

собственным вектором параметров wk, на М-шаге подгоняется отдельно ко всему


набору данных, но при этом модель k учитывает каждую точку данных п, взве­
шенную по ответственности Упk· Приравнивая к нулю производную от (14.39) по
wk, получаем уравнение

N
О= LYnk (tn -wit )t, (14.40)
n=I

которое можно переписать в матричном виде:

о= ФTRk(t-Фwk ), (14.41)

где Rk = diag(rпk)- диагональная матрица размерностью NxN. Решая это урав­


нение относительно wk, получим

(14.42)

Эта система представляет собой набор модифицированных нормальных уравне­


ний, соответствующих задаче взвешенных наименьших квадратов той же фор­
мы, что и (4.99), найденной в контексте логистической регрессии. Обратите
внимание на то, что после каждого Е-шага матрица Rk будет меняться, и поэто­
му на следующем М-шаге нам придется заново решать нормальные уравнения.
Наконец, максимизируем Q(О, 0°1d) по fЗ. Сохраняя только члены, зависящие
от fЗ, можно записать функцию Q(0,0°1d) в следующем виде:

(14.43)

Приравнивая к нулю производную по fЗ и выполняя перестановки, получаем


формулы М-шага для /Зв виде

1 1 N К Т 2
-=-
/З N
LLYnk(tn -wkФп) ·
n=I k=I
(14.44)

На рис. 14.8 мы итпострируем этот ЕМ-алгоритм, используя простой пример


подгонки смеси двух прямых линий к набору данных, имеющему одну входную
878 ГЛАВА 14. КОМБИНИРОВАНИЕ МОДЕЛЕЙ

переменную х и одну целевую переменную t. Прогностическая плотность (14.34)


представлена на рис. 14.9 с использованием предельных значений параметров, по­
лученных из ЕМ-алгоритма, соответствующих правому графику на рис. 14.8. На
этом рисунке также показан результат подбора единственной модели mrnейной ре­
грессии, которая дает одномодальную прогностическую плотность. Мы видим, что
смешанная модель дает гораздо лучшее представление о распределении данных, и

это отражается в более высоком значении вероятности. Тем не менее смешанная


модель также присваивает значительную массу вероятности областям, в которых
нет данных, поскольку ее прогностическое распределение является двухмодаль­

ным для всех значений х. Эту проблему можно решить путем расширения модели,
чтобы позволить самим коэффициентам смешивания быть функциями от х. Это
приводит к таким моделям, как сети со смешанной плотностью, обсуждаемые
в разделе 5. 6, и иерархическая смесь экспертов, обсуждаемая в разделе 14. 5.3.

1,5 1,5 1,5


1 1 1
0,5 0,5 0,5
о о о
-0,5 -0,5 - 0,5
-1 -1 -1
- 1,5 ~--------~ - 1, 5 < - - - - - - - - - - - ' - 1,5 ' - - - - - - - - - - - '
-1 -{),5 о 0,5 -1 -{),5 о 0,5 -1 -{),5 о 0,5

0,8 0,8 0,8


0,6 0,6 0,6
0,4 0,4 0,4
0,2 0,2 0,2
о._._. . . . . . . . . . ._.__._. . . . . . . . . . . . . . . . . . . . . . . . . . . . . о .................... .......................
~ о . . . . . . . . . . . . . . ._.__._. . . . . . . . . . . . . . . . . . . . . . . . .
~

-1 -<J,5 о 0,5 -1 -<J,5 о 0,5 -1 -{),5 о 0,5

Рис. 14.8. Пример искусственного набора данных, показанного зелеными точками,

имеющего одну входную переменную х и одну целевую переменную t, вместе со смесью

двух моделей линейной регрессии, у которых функции математического ожидания

у (х, wk), где k Е: { 1, 2}, показаны синими и красными прямыми. На трех верхних

графиках показаны начальная конфигурация (слева), результат выполнения 30 итераций

ЕМ-алгоритма (в центре) и результат после 50 итераций ЕМ-алгоритма (справа).

Здесь параметр f3 был инициализирован обратной истинной дисперсией набора целевых

значений. На трех нижних графиках показаны соответствующие ответственности,

изображенные в виде вертикальных линий для каждой точки данных, в которых длина

синего сегмента отражает апостериорную вероятность синей линии для этой точки

данных (и аналогично для красного сегмента)


14.5. Смеси моделей условных распределений 879

1,5

-1

-1,5~--~---"'----'-----'-' - 1,-._.____ _~--~-----'---~-


-1 -Q,5 о 0,5 1 -1 - 0,5 о 0,5 1

Рис. 14.9. На графике слева пока:шна прогностическая условная плотность,

соответствующая предельному решению на рис . 14.8. Соответствующее значение

логарифмической функции правдоподобия равно ·-3 , О . Вертикальный срез на одном из

этих графиков при конкретном значении х пред ставляет соответствующее условное

распределение p(t lx), которое, как мы видим, является дuухмодальным. На графике

справа показана прогнозируемая пл отность для одной моде-1и линейной регрессии,

адаптированной к тому же набору данных с максимальным правдоподобием. Эта модель

имеет меньшее значение логарифмической функции правдоподобия , равное - 27,6

14.5.2. Смеси nоrистических моделей

Поскольку модель логистической регрессии определяет условное распреде­


ление для целевой переменной при заданном входном векторе, ее легко исполь­

зовать в качестве распределения компонентов в смешанной модели, что дает бо­


лее богатое семейство условных распределений по сравнению с одной моделью
логистической регрессии. Этот пример включает в себя прямую комбинацию
идей, встречающихся в предыдущих главах книги.

Условное распределение целевой переменной для вероятностной смеси К мо­


делей логистической регрессии определяется выражением

p(tjф,8) =LfrkY~ [1- Yk ]\-t' (14.45)


k=\

где ф- вектор признаков; Yk =a(wJФ)- выход компонента k; 8- настраива­


емые параметры, а именно : {яk} и {wk}.
Теперь предположим, что дан набор данных {Фп, tп}. Соответствующая функ­
ция правдоподобия имеет вид

(14.46)
880 ГЛАВА 14. КОМБИНИРОВАНИЕ МОДЕЛЕЙ

где Ynk = a(wJФn) и t = (t 1, .", tN)т. Мы можем максимизировать эту функцию ве­
роятности итеративно, используя ЕМ-алгоритм. Это подразумевает введение ла­

тентных переменных znk• которые соответствуют бинарной индикаторной пере­


менной с кодированием 1-из-К для каждой точки данных п. В таком случае

функция правдоподобия при полных данных определяется формулой

(14.47)

гдеZ - матрица латентных переменных с элементами znk· Мы инициализируем


ЕМ-алгоритм, выбирая начальное значение 0°1d для параметров модели. На Е­
шаге мы затем используем эти значения параметров для вычисления апостери­

орных вероятностей компонентов k для каждой точки данных п, которые зада­


ются как

(14.48)

Эти обязанности затем используются для определения математического ожи­


дания логарифмической функции правдоподобия при полных данных как функ­
ции от О, определяемой так:

Q( 0,0°1d) =1Ez [ln р( t,zj О)]=


N К (14.49)
= LLYnk {lnnk + tn lnynk +(1-tп)1n(1- Ynk )}.
n=I k=I
М-шаг включает в себя максимизацию этой функции по О при фиксированном
векторе 0°1d и, следовательно, при фиксированном Ynk· Максимизация по nk может
быть вьmшrnена обычным способом с использованием множителей Лагранжа для

выполнения ограничения на сумму Lп k =1 , что дает знакомый результат:


k

1 N
Л"k = - LYnk' (14.50)
N n=I
Чтобы определить {wk}, отметим, что функция Q(O, 0°ы) содержит сумму по
слагаемым с индексом k, каждое из которых зависит только от одного из векто­
ров wk, так что связи между разными векторами разрываются на М-шаге ЕМ­
алгоритма. Иначе говоря, разные компоненты взаимодействуют только через от­
ветственности, которые фиксируются на М-шаге. Обратите внимание на то, что
М-шаг не имеет решения в замкнутой форме и должен выполняться итеративно
14.5. Смеси моделей условных распределений 881

с использованием, например, метода наименьших квадратов с итеративным пе­

ресчетом весов (IRLS) (см. раздел 4.3.3). Градиент и гессиан для вектора wk
определяются как
N
У' kQ = LYnk (tп - Ynk )фп, (14.51)
n=I

N
Hk =-У' k У' kQ = LYnkYnk {1- Ynk }Фпtт, (14.52)
n=I

где Y't обозначает градиент по wk. Для фиксированного Упk они не зависят от {w1}
при j =/= k, поэтому мы можем решать уравнения для каждого wk отдельно, ис­
пользуя алгоритм IRLS (см. раздел 4.3.3). Таким образом, формулы М-шага для
компонента k соответствуют подгонке одной модели логистической регрессии к
взвешенному набору данных, в котором точка данных п имеет вес Упk· На
рис. 14.10 приведен пример смеси моделей логистической регрессии, применен­
ных к простой задаче классификации. Расширение этой модели до смеси моделей
softmax для более чем двух классов не составляет труда (см. упраж11е11ие 14.16).

3 3 3
2 2 2
1 1
о о о

-1 -1 -1
-2 -2 -2
-3 -3 -3
-2 о 2 -2 о 2 -2 о 2
Рис. 14.10. Смесь моделей логистической регрессии. На левом графике показаны точки

данных, взятые из двух классов, обозначенных красным и синим цветом, в которых цвет

фона (который варьируется от чисто-красного до чисто-синего) обозначает истинную

вероятность метки класса. Це1пральпый график показывает результат подбора одной

модели логистической регрессии с использованием максима.1ьного правдоподобия,

в котором цвет фона обозначает соответствующую вероятность метки класса.

Поскольку цвет является почти однородным фиолетовым, модель присваивает

всрояnюсть около 0,5 каждому классу в большей части входного пространства. На графике

справа показан результат подбора смеси двух моделей логистической регрессии,

которая теперь дает гораздо более высокую вероятность правильных меток для многих

точек в классе, обозначенном синим цветом


882 ГЛАВА 14. КОМБИНИРОВАНИЕ МОДЕЛЕЙ

14.5.3. Смеси экспертов

В разделе 14. 5.1 мы рассмотрели смесь моделей линейной регрессии, а в раз­

деле 14.5.2 обсудили аналогичную смесь линейных классификаторов. Хотя эти


простые смеси повышают гибкость линейных моделей и включают более сложные
(например, многомодальные) прогностические распределения, они все еще очень
ограничены. Мы можем еще больше расширить возможности таких моделей, поз­
воляя самим коэффициентам смешивания быть функциями входной переменной,
так что

p(tlx)= :~::Л·k(x)pk(tlx). (14.53)


k=I

Эта модель называется смесью экспертов (Jacobs et al" 1991), в которой коэф­
фициенты смешения 1l°k(x) называются шлюзовыми функциями, а плотности от­
дельных компонентов Pk(tlx) - экспертами. Идея, лежащая в основе этой тер­
минологии, состоит в том, что разные компоненты могут моделировать распре­

деление в разных областях входного пространства (они являются "экспертами"


при прогнозировании в своих собственных областях), а шлюзовые функции
определяют, какие компоненты доминируют в какой области.

Шлюзовые функции !l'k(x) должны удовлетворять обычным ограничениям

для коэффициентов смешивания, а именно О~ 1l°k(x) ~ 1 и Lll'k = 1. Поэтому


k
они могут быть представлены, например, линейнь1ми моделями softmax вида

(4.104) и (4.105). Если эксперты также являются линейными (регрессионными или

классификационными) моделями, то вся модель может быть эффективно подо­


гнана с использованием ЕМ-алгоритма, а на М-шаге используется метод

наименьших квадратов с итеративным пересчетом весов (Jordan and Jacobs, 1994).


Такая модель все еще имеет значительные ограничения из-за использования

линейных моделей для шлюзовых и экспертных функций. Гораздо более гибкая


модель получается с помощью многоуровневой шлюзовой функции, позволяю­
щей получить иерархическую смесь экспертов, или модель НМЕ (Jordan and
Jacobs, 1994). Чтобы понять структуру этой модели, представьте себе смесь рас­
пределений, в которой каждый компонент смеси сам является смесью распреде­
лений. Для простых безусловных смесей эта иерархическая смесь тривиально
эквивалентна распределению одной тривиальной смеси (см. упражне11ие 14.17).
Однако, когда коэффициенты смешивания зависят от входных данных, эта
иерархическая модель становится нетривиальной. Модель НМЕ также можно
рассматривать как вероятностную версию деревьев решений, обсуждаемых в
Упражнения 883

разделе 14.4, и снова можно эффективно обучать по методу максимального


правдоподобия с использованием ЕМ-алгоритма и метода IRLS на М-шаге. Бай­
есовский подход к модели НМЕ был изложен в работе Bishop and Svensen (2003)
на основе вариационного вывода (см. раздел 4.3.3).
Мы не будем обсуждать здесь модель НМЕ. Тем не менее стоит отметить ее
тесную связь с сетью со смешанной плотностью, рассмотренной в разделе 5.6.
Основное преимущество модели смесей экспертов заключается в том, что ее
можно оптимизировать с помощью ЕМ-алгоритма, в котором М-шаг для каждо­
го компонента смеси и шлюзовой модели включает в себя выпуклую оптимиза­
цию (хотя в целом оптимизация невыпуклая). В отличие от этого, преимущество
подхода, основанного на сети со смешанной плотностью, состоит в том, что
плотности компонентов и коэффициенты смешивания разделяют скрытые эле­
менты нейронной сети. Кроме того, в сети со смешанной плотностью расщепле­
ния входного пространства еще более ослаблены по сравнению с иерархической
смесью экспертов. Они не только слабые и не ограничены выравниванием по
оси, но также могут быть нелинейными.

Упражнения

14.1. (**) WWW Рассмотрим набор моделей видар(tlх, zh, (}h, h), в котором х­
входной вектор, t - целевой вектор, h - индекс моделей, zh -латентная
переменная для модели h, (}h - набор параметров для модели h. Предпо­
ложим, что модели имеют априорные вероятности p(h) и нам дан обуча­
ющий набор Х = {х 1 , .", xN} и Т = {t 1, "., tN}· Запишите формулы, необ­
ходимые для оценки прогностического распределения p(tlx, Х, Т), в ко­
тором латентные переменные и индекс модели маргинализированы.

Используйте эти формулы, чтобы подчеркнуть различие между байесов­


ским усреднением различных моделей и использованием латентных пе­
ременных в одной модели.

14.2. (*)Математическое ожидание суммы квадратов ошибок Елv для простой


модели комитета определено с помощью (14.10), .а математическое ожи­
дание ошибки самого комитета - по формуле ( 14.11 ). Предполагая, что
отдельные ошибки удовлетворяют условиям (14.12) и (14.13), получите
результат (14.14).

14.3. (*) WWW Используя неравенство Йенсена (1.115) для частного случая вы­
пуклой функции f(x) = х 2 , покажите, что средняя ожидаемая среднеквад­
ратическая ошибка Ел v членов простой модели комитета, заданная фор-
884 ГЛАВА 14. КОМБИНИРОВАНИЕ МОДЕЛЕЙ

мулой (14.10), и ожидаемая ошибка Есом самого комитета, заданная


формулой (14.11), удовлетворяют неравенству

Есом~Елv· (14.54)
14.4. (**)Используя равенство Йенсена (1.115), покажите, что результат (14.54),
полученный в предыдущем упражнении, подходит для любой функции
ошибки Е(у), а не только для среднеквадратичной, при условии, что она
является выпуклой функцией по у.

14.5. (**) WWW Рассмотрим комитет, в котором мы допускаем неравный вес со­
ставляющих моделей, так что
м

Усом (х) ~ LатУт (х). (14.55)


т=I

Чтобы гарантировать, что прогнозы Усом(х) остаются в разумных преде­


лах, потребуем, чтобы они были ограничены при каждом значении х ми­
нимальными и максимальными значениями, заданными любым из членов
комитета, так что

Ymin(x) ~Усом(х) ~Ymax(x). (14.56)


Покажите, что необходимым и достаточным условием этого ограничения
является то, что коэффициенты ат удовлетворяют условиям
м

ат ~о, Lат =1. (14.57)


т=I

14.6. (*) WWW Дифференцируя функцию ошибки (14.23) по ат, покажите, что
параметры ат в алгоритме AdaBoost обновляются с использованием
формулы ( 14.17), в которой ст определяется по формуле ( 14.16).
14.7. (*)Выполняя вариационную минимизацию функции ожидаемой экспо­
ненциальной ошибки, заданной формулой (14.27), относительно всех
возможных функций у(х), покажите, что функция минимизации задается
формулой (14.28).
14.8. (*) Покажите, что экспоненциальная функция ошибки (14.20), которая
минимизируется алгоритмом AdaBoost, не соответствует логарифмиче­
ской функции правдоподобия какой-либо корректной вероятностной мо­
дели. Это можно сделать, показав, что соответствующее условное рас­
пределение р(tl х) невозможно правильно нормировать.

14.9. (*) WWW Покажите, что последовательная минимизация функции суммы


квадратов ошибок для аддитивной модели вида (14.21) в стиле бустинга
Упражнения 885

включает в себя подгонку каждого нового базового классификатора к


остаточным ошибкам tn - fт-- 1 (хп) из предыдущей модели.

14.10. (*)Проверьте, что если мы минимизируем суммы квадратов ошибок по


набору обучающих значений {tп} с единственным прогностическим зна­
чением t, то оптимальное решение для t задается математическим ожида­

нием {tп}·

14.11. (**)Рассмотрим множество данных, состоящее из 400 точек класса С 1 и400


точек данных класса Cz. Предположим, что древовидная модель А разделя­
ет их на (300, 100) в первом листовом узле (предсказывая С1 ) и на (100, 300)
во втором листовом узле (предсказывая Cz), где (п, т) обозначает, что п то­
чек принадлежат классу С1 , ат точек - классу Cz. Аналогично предполо­
жим, что модель второго дерева В разбивает их на (200, 400) и (200, О).

Оцените уровни ошибочной классификации для двух деревьев и, как


следствие, покажите, что они равны. Аналогичным образом оцените кри­
терий усечения при перекрестной энтропии (14.32) и индекса Джи­

нн (14.33) для двух деревьев и покажите, что они оба меньше для дере­
ва В, чем для дерева А.

14.12. (**)Обобщите результаты из раздела 14.5.1 для смеси моделей линейной


регрессии на случай нескольких целевых значений, описываемых векто­

ром t. Для этого воспользуйтесь результатами раздела 3./.5.


14.13. (*) WWW Убедитесь, что логарифмическая функция правдоподобия при
полных данных для смеси моделей линейной регрессии задается форму­
лой (14.36).
14.14. (*)Используя метод множителей Лагранжа (с;н. прилож:ениеД), покажите,
<по формулы М-шага для уточнения коэффициентов смешения в смеси мо­
делей линейной регрессии, обученной по методу максимального правдопо­
добия с помощью ЕМ-алгоритма, определяются выражением (14.38).
14.15. (*) WWW Мы уже отметили, что при использовании квадратичной функ­
ции потерь в задаче регрессии соответствующее оптимальное предсказа­

ние целевой переменной для нового входного вектора задается условным


математическим ожиданием прогностического распределения. Покажите,
что условное математическое ожидание для смеси моделей линейной ре­
грессии, рассмотренной в разделе 14. 5.1, задается линейной комбинацией
математических ожиданий распределения каждого компонента. Обратите
внимание на то, что если условное распределение целевых данных явля-
886 ГЛАВА 14. КОМБИНИРОВАНИЕ МОДЕЛЕЙ

ется многомодальным, то условное математическое ожидание может да­

вать неточные прогнозы.

14.16. (***)Обобщите модель смеси логистической регрессии из раздела 14.5.2


до смеси классификаторов softmax, представляющих более двух классов.
Запишите ЕМ-алгоритм для определения параметров этой модели по ме­
тоду максимального правдоподобия.

14.17. (**) WWW Рассмотрите модель смеси условного распределенияр(tlх) вида


к

p(tlx) = Lll"kVfk (tlx), (14.58)


k=I

в которой каждый компонент смеси Vfk(tlx) сам является смесью. Покажи­


те, что эта двухуровневая иерархическая смесь эквивалентна обычной мо­
дели одноуровневой смеси. Теперь предположим, что коэффициенты

смешивания на обоих уровнях такой иерархической модели являются про­


извольными функциями от х. Как и прежде, покажите, что эта иерархиче­
ская модель снова эквивалентна одноуровневой модели с коэффициентами
смешивания, зависящими от х. Наконец, рассмотрите случай, когда коэф­
фициенты смешивания на обоих уровнях иерархической смеси ограниче­
ны линейными классификационными (логистическими или softmax) моде­

лями. Покажите, что иерархическая смесь в общем случае не может быть


представлена одноуровневой смесью, имеющей линейные модели класси­

фикации для коэффициентов смешивания. Подсказка: для этого достаточ­


но привести один контрпример, поэтому рассмотрите смесь двух компо­

нентов, в которой один из них сам является смесью двух компонентов с

коэффициентами смешивания, заданными линейно-логистическими моде­


лями. Покажите, что его невозможно представить одноуровневой смесью

из трех компонентов, имеющих коэффициенты смешивания, определен­


ные с помощью линейной softmax модели.
А

В этом приложении приведено краткое описание наборов данных, которые


используются для иллюстрации некоторых алгоритмов, описанных в этой книге.
Подробную информацию о форматах файлов, содержащих эти наборы данных, а
также сами файлы можно получить на веб-сайте книги:
http://research.microsoft.com/-cmЬishop/PRМL

Рукописные цифры

Данные о цифрах, используемые в этой книге, взяты из набора данных


МNIST (LeCun et al., 1998), который был создан путем модификации подмноже­
ства гораздо большего набора данных, созданного институтом NIST (National
Institute of Standards and Technology). Он состоит из обучающего множества, со­
держащего 60000 примеров, и тестового множества, содержащего 10000 приме­
ров. Некоторые данные были собраны сотрудниками Бюро переписей (Census
888 ПРИЛОЖЕНИЕ А. НАБОРЫ ДАННЫХ

Bureau), а остальная часть примеров была получена у школьников старших клас­


сов, причем особое внимание уделялось тому, чтобы тестовые и обучающие
примеры были написаны разными людьми.
Исходные изображения, собранные институтом NIST, имели бинарные (чер­
ные или белые) пиксели. При создании набора данных МNIST эти изображения
были приведены к одному размеру 20 х 20 пикселей с сохранением соотношения
их сторон. В результате сглаживания, используемого для изменения разрешения
изображений, цифры в наборе МNIST были представлены в шкале серого цвета.
Затем эти изображения были центрированы в квадрате 28 х 28 пикселей. Приме­
ры цифр МNIST показаны на рис. А.1.
Частота ошибок при классификации цифр варьируется от 12% для простого
линейного классификатора до 0,56% для тщательно разработанной машины
опорных векторов и до 0,4% для сверточной нейронной сети (LeCun et а/., 1998).

7 2- / 4 1 ч ~ ~ ?
()

о (Q Cf о J s q 7 ~ ч
"! ь (с 5' ч 01 4 о \
3 \ ~ ц 7 2 7- ~ l
) t ч )-. } 5 \ d. '1 ч '
6 ~ 5 s (9 о ч 1 9 )'
/ 2 q з т ~ (J; ч з о
7 о ;) J 1- 3 '2 f
'
'1 ~ ;2. 1 rg ч 7 ~ 1
""
3 ~ 9' \ 4 r- с q
'
Рис. А.1. Сто примеров цифр '
MNIST,
случайным образом из обучающего множества
выбранных

Поток нефти

Это искусственный набор данных, который возник в рамках проекта, направ­


ленного на бесконтактное измерение пропорций нефти, воды и газа в нефтепрово­
дах Северного моря (Bishop and James, 1993). Он основан на принципе двухэнер­
гетической рентгеновской денситометрии (dual energy gamma densitometry). Идея
закmочается в том, что если узкий гамма-луч проходит через трубу, ослабление
Поток нефти 889

интенсивности луча дает информацию о плотности материала вдоль его пути. Так,
например, луч будет более сильно ослаблен нефтью, чем газом.
Единственного измерения затухания недостаточно, потому что есть две сте­
пени свободы, соответствующие долям нефти и воды (доля газа значения не
имеет и добавлена только для того, чтобы сумма трех фракций равнялась едини­
це). Для решения этой задачи через трубу по одному и тому же пути пропуска­
ются два гамма-луча разной энергии (иначе говоря, с разными частотами или
длинами волн) и измеряется затухание каждого из них. Поскольку поглощаю­
щие свойства разных материалов по-разному зависят от энергии, измерение

ослабления гамма-лучей при двух уровнях энергии обеспечивает две независи­


мые части информации. Учитывая известные абсорбционные свойства нефти,
воды и газа при двух уровнях энергии, можно вычислить средние доли нефти и
воды (и, следовательно, газа), измеренные вдоль пути гамма-лучей.
Однако есть еще одно осложнение, связанное с движением материалов вдоль
трубы. Если скорость потока мала, то нефть плавает поверх воды, а газ располо­
жен над нефтью. Эта конфигурация потока называется ламинарной, или стра­
тифицированной (рис. А.2). По мере увеличения скорости потока могут возник­
нуть более сложные геометрические конфигурации нефти, воды и газа. Для ана­
лиза этого набора данных рассматриваются две идеализации. Предполагается,
что в кольцевой конфигурации нефть, вода и газ образуют концентрические ци­
линдры с водой по внешней стороне и газом внутри, тогда как в однородной
конфигурации предполагается, что нефть, вода и газ тщательно перемешивают­
ся, как это может происходить при высоком потоке скорости в турбулентных
условиях. Эти конфигурации также показаны на рис. А.2.
Итак, один луч с двумя энергиями позволяет определить доли нефти и воды,
измеренные вдоль его пути, в то время как нас интересуют объемные доли
нефти и воды. Эту задачу можно решить, используя несколько двухэнергетиче­
ских гамма-плотномеров, лучи которых проходят через разные области трубы.
Для создания этого конкретного набора данных использовалось шесть таких лу­
чей, а их пространственное расположение показано на рис. А.3. Таким образом,
одно наблюдение представлено 12-мерным вектором, содержащим доли нефти и
воды, измеренные вдоль путей каждого из лучей. Однако мы заинтересованы в
получении общих объемных долей трех фаз в трубе. Это очень похоже на клас­
сическую проблему томографической реконструкции, например, на медицин­
скую визуализацию, в которой двумерное распределение необходимо рекон­
струировать по многочисленным одномерным усреднениям. Однако в данной
задаче гораздо меньше линейных измерений, чем в типичном приложении для
890 ПРИЛОЖЕНИЕ А. НАБОРЫ ДАННЫХ

томографии. С другой стороны, диапазон геометрических конфигураций гораздо


более ограничен, поэтому конфигурацию и доли фаз можно с достаточной точ­
ностью предсказать по данным плотномера.

Стратифицированная Кольцевая

• Нефть
• вода
Газ

• Смесь
Однородная

Рис. А.2. Три геометрические конфигурации нефтяной, водной и газовой фаз,

используемых для создания набора данных о потоке нефти.

Для каждой конфигурации пропорции трех фаз могут различаться

Рис. А.3. Сечение трубы, показывающее расположение шести лучей,

каждый из которых содержит один двухэнергетический гамма-плотномер.

Обратите внимание на то, что вертикальные лучи асимметрично расположены

относительно центральной оси (показано пунктирной линией)

Из соображений безопасности интенсивность гамма-лучей остается относи­


тельно слабой, поэтому для точной оценки ослабления луча его измеренная ин­
тенсивность интегрируется по определенному временному интервалу. На конеч­

ном временном отрезке интегрирования наблюдаются случайные флуктуации


измеряемой интенсивности из-за того, что гамма-лучи содержат дискретные па­
кеты энергии, называемые фотонами. На практике время интегрирования выби-
Поток нефти 891

рается в результате компромисса между снижением уровня шума (что требует


длительного времени интегрирования) и обнаружением временных изменений в
потоке (что требует короткого времени интегрирования). Набор данных о потоке
нефти генерируется с использованием реалистичных известных значений аб­
сорбционных свойств нефти, воды и газа при двух используемых гамма­
энергиях и с конкретным выбором времени интегрирования ( 1О секунд), вы­
бранным в качестве характерного для практических условий.
Каждая точка в наборе данных генерируется независимо в результате выпол­
нения следующих этапов.

1. Выбираем одну из трех фазовых конфигураций случайным образом с рав­


ной вероятностью.

2. Выбираем три случайных числа,Ji,.12 иfз, из равномерного распределения


на интервале (О, 1) и определяем

!. J; (А.1)
нефти - J; + f2 + fз '
В результате все три фазы являются равновероятными, а сумма их объем­
ных долей равна единице.

3. Для каждой из шести траекторий луча вычисляем эффективные длины


пути через нефть и воду для данной конфигурации фаз.

4. Возмущаем длины пути с помощью распределения Пуассона, основанно­

го на известных значениях интенсивности луча и времени интегрирова­

ния, чтобы учесть статистическое влияние фотонов.

Каждая точка в наборе данных содержит 12 измерений длины пути вместе с


долями нефти и воды и бинарной меткой, описывающей конфигурацию фазы.
Набор данных разделен на обучающие, валидационные и тестовые наборы, каж­
дый из которых содержит 1ООО независимых точек данных. Подробная инфор­
мация о формате данных доступна на веб-сайте книги.
В статье Bishop and James (1993) для прогнозирования объемных долей фаз, а
также их геометрической конфигурации, показанных на рис. А.2, были исполь­
зованы методы статистического машинного обучения на основе 12-мерных век­
торов измерений. Эти векторы также могут использоваться для тестирования ал­

горитмов визуализации данных. Этот набор данных имеет богатую и интерес­


ную структуру, а именно: для любой заданной конфигурации существуют две
степени свободы, соответствующие фазам нефти и воды, и поэтому для беско­
нечного времени интегрирования данные будут локализованы в двумерном мно-
892 ПРИЛОЖЕНИЕ А. НАБОРЫ ДАННЫХ

гообразии. При конечном времени интегрирования отдельные точки данных бу­


дут выброшены из многообразия шумом фотонов. В однородной фазовой кон­
фигурации длина пути в нефти и воде линейно связана с долями нефти и воды,
поэтому точки данных лежат вблизи линейного многообразия . В кольцевой
конфигурации зависимость между долей фазы и длиной пути имеет нелинейный
характер, поэтому многообразие будет нелинейным. В случае ламинарной кон­
фигурации ситуация еще более сложная, поскольку небольшие изменения долей
фаз могут привести к тому, что одна из горизонтальных фазовых границ будет
перемещаться по одной из горизонтальных траекторий лучей, что приведет к
резкому скачку в 12-мерном пространстве наблюдения. Таким образом, двумер­
ное нелинейное многообразие для ламинарной конфигурации разбивается на де­
сять различных сегментов. Отметим также, что некоторые из многообразий для
различных фазовых конфигураций встречаются в определенных точках, напри­
мер, если труба полностью заполнена нефтью, она соответствует конкретным
случаям ламинарной, кольцевой и однородной конфигураций.

Гейзер "Старый служака"

Гидротермальный гейзер "Старый служака" (Old Faithful), показанный на

рис. А.4, находится в Йеллоустонском национальном парке штата Вайоминг,


США, и является известной достопримечательностью. Его название связано со
строгой регулярностью его извержений.

Рис. А.4. Гейзер "Старый служака" в Йеллоустонском национальном парке


(©Bruce Т. Gourley www . brucegourley. сот )
Искусственные данные 893

Набор данных содержит 272 наблюдения, каждое из которых соответствует


отдельному извержению и содержит две переменные: длительность извержения

в минутах и время до следующего извержения, также измеренное в минутах. На

рис. А.5 показана зависимость времени до следующего извержения от продол­


жительности извержений. Мы видим, что время до следующего извержения зна­

чительно варьируется, хотя знание о продолжительности текущего извержения

позволяет предсказать его более точно . Отметим, что существует несколько дру­
гих наборов данных, относящихся к извержениям "Старого служаки".

90

80

70

60

50

40~-~--~--~--~---'
1 2 з 4 5 6

Рис. А.5. Зависимость времени до следующего извержения в минутах (вертикальная

ось) от продолжительности извержения в минутах (горизонтальная ось)

для набора данных о гейзере "Старый служака"

Искусственные данные

Для иллюстрации многих алгоритмов во всей книге мы используем два про­


стых набора искусственных данных. Первый из них - это набор данных для ре­

грессии, основанный на синусоидальной функции (рис. А.6 .) Входные значения


{хп} генерируются равномерно в диапазоне (О, 1), а соответствующие целевые
значения {tп} равны сумме sin(2n:xп) и случайного шума, имеющего нормальное
распределение со стандартным отклонением, равным 0,3. В книге используются
разные формы этого набора данных, имеющие разное количество точек.
Второй набор данных предназначен для задачи бинарной классификации, в
которой классы имеют одинаковые априорные вероятности (рис. А. 7). Синий
класс генерируется с помощью одного нормального распределения, а крас­

ный - с помощью смеси двух нормальных распределений. Поскольку мы знаем


894 ПРИЛОЖЕНИЕ А. НАБОРЫ ДАННЫХ

априорные вероятности классов и условные по классу плотности, нетрудно оце­

нить и нарисовать истинные апостериорные вероятности, а также минимальную

границу решения с минимальным уровнем ошибок (рис. А. 7).

о о
о

о
о
о о
о о

о
о
о
-1 -1

о х
о
х

Рис. А.6. На графике слева показан искусственный набор данных для регрессии

вместе с лежащей ниже синусоидальной функцией, для которой генерируются точки.

На графике справа показано истинное условное распределение р (t 1 х), по которому

генерируются метки. Зеленая кривая обозначает математическое ожидание,

а закрашенная область охватывает полосу, шириной в одно стандартное отклонение

в каждую сторону от математического ожидания

о х
х
"><
9 х
2 2
о о~ о хх .)хх
о оО:Ь ~х х
~ О Оох "' х О
о ocJjз'0 ~~ю о
о \!) ~~~.
х
о о
о ~ < х хх,..
(Х)а:Р,0 х х х
~о ~о
О ~ х~ х
-2 о х jf *
,ю х 61<
о ох о

-2 о 2 -2 о 2

Рис. А.7. Слева показан искусственный набор данных классификации с данными из двух

классов, обозначенных красным и синим цветом. Справа приведен график истинных

апостериорных вероятностей, показанный в цветовой гамме от чисто-красного цвета,

обозначающего единичную вероятность красного класса, до чисто-синего цвета,

обозначающего нулевую вероятность красного класса. Так как эти вероятности

известны, граница оптимального решения для минимизации уровня ошибок

(соответствующая контуру, вдоль которого апостериорные вероятности каждого класса

равны 0,5) может быть вычислена и показана зеленой кривой. Эта граница решения

также нанесена на левую панель


Б
Плотности

В этом приложении описаны основные свойства некоторых из наиболее ши­


роко используемых распределений вероятностей, и для каждого распределения

приведены некоторые ключевые статистические параметры, такие как матема­

тическое ожидание JE[x], дисперсия (или ковариация) , мода и энтропия Н[х]. Все
эти распределения являются членами семейства экспоненциальных распределе­

ний и широко используются в качестве элементов более сложных вероятност­


ных моделей .

Распределение Бернулли

Это распределение одной бинарной переменной х Е {О, 1} , представляющей,


например, результат подбрасывания монеты . Оно зависит от одного непрерывного
параметраµ Е [О, 1], который представляет собой вероятность того, что х =1.
(Б . 1)
896 ПРИЛОЖЕНИЕ Б. ПЛОТНОСТИ РАСПРЕДЕЛЕНИЙ

Е[х] = µ, (Б 2)

var[x] = µ(1- µ), (Б.3)

1, еслиµ~ 0,5,
mode [ х ] ={ (Б.4)
О в противном случае.

Н[х] =-µ ln µ- (1 - µ)ln(l - µ). (Б.5)

Распределение Бернулли является частным случаем биномиального распре­


деления для единственного наблюдения. Его сопряженным априорным распре­
делением параметра µ является бета-распределение.

Бета-расnредеnение

Это распределение непрерывной переменной µ Е [О, 1], ко­

торое часто используется для представления вероятности би­

нарного события. Оно зависит от двух параметров, а и Ь, ко­


торые ограничены условиями а> О и Ь >О, чтобы обеспечить
нормирование распределения.

Г(а+Ь) a-t( )ь-1 (В.6)


Beta ( µ 1а,Ь
)
= Г(а)Г(Ь)µ 1-µ ,

Е[µ]=-а-, (В.7)
а+Ь

var(µ]= 2аЬ ' (В.8)


(а+Ь) (a+b+l)

mode[µ] =-а-1
-- (В.9)
а+ Ь- 2
Бета-распределение является сопряженным априорным распределением к
распределению Бернулли. При этом параметры а и Ь можно интерпретировать
как эффективное априорное число наблюдений событий х = 1 и х = О соответ­
ственно . Его плотность конечна, если а~ 1 и Ь~ 1, в противном случае суще­
ствует особенность приµ= О и/илиµ= 1. При а= Ь = 1 это распределение сводит­
ся к равномерному. Бета-распределение является частным случаем распределе­
ния Дирихле порядка К при К= 2.
Биномиальное распределение 897

Биномиаnьное распредеnение

Биномиальное распределение дает вероятность наблюде­


ния т событий х = 1в множестве из N выборок, извлеченных
из генеральной совокупности с распределением Бернулли,
где вероятность того, что х = 1, равнаµ е [О, 1].
Bin(mlN,µ)=C~µm(l-µ(-m, (Б.10)

Е[т] =Nµ, (Б.11)

var[m] = Nµ(l- µ), (Б.12)


mode[m] =L(N+ l)µJ, (Б.13)
где L(N + 1) µJ - это наибольшее целое число, которое меньше или равно (N + 1)
µ, а величина
ст- N! (Б.14)
N - m!(N-m)!

определяет количество способов выбора т объектов из N одинаковых объектов.


Здесь выражение т!, которое читается как "т-факториал", обозначает произве­
дение т · (т -1) · ". · 2 · 1. Частный случай биномиального распределения при
N = 1 известен как распределение Бернулли, а для больших N биномиальное рас­
пределение является приближенно нормальным. Сопряженным априорным рас­
пределением параметра µ является бета-распределение .

Распредеnение Дирихnе
.··.. многомерное распределение К слу­
Распределение Дирихле -

чайных величин О~ µk ~ 1, где k = 1, ""К, при ограничениях


. ; .. к

~ о ~µk~ 1, _Lµk =1. (Б.15)


k=I

т т
Обозначаяµ=(µ 1 , ""µк) и а=(а 1 , "" ак), имеем
к

Dir(µla) = С(а)Пµ:k- 1 , (Б.16)


k=l

(Б.17)

(Б.18)
898 ПРИЛОЖЕНИЕ Б. ПЛОТНОСТИ РАСПРЕДЕЛЕНИЙ

a 1 ak
cov [ µjµk ] = , (Б.19)
а2 (а+1)
а -1
mode[µk] =-~k _ , (Б.20)
а-К
IE[lnµk] = \//( ak )-\//(а), (Б.21)
к

Н [µ] =- L (ak -1 ){ \// ( ak )-\// (а)}- ln с (а), (Б.22)


k=I

где

(Б.23)

(Б.24)

Здесь функция
d
\//(a)=-lnГ(a) (Б.25)
da
известна как дигамма-функция (Abramowitz and Stegun, 1965). Параметры ak
подчиняются условию ak> О, чтобы обеспечить нормирование распределения.
Распределение Дирихле является сопряженным априорным распределением к

мультиномиальному распределению и представляет собой обобщение бета­


распределения. В этом случае параметры а k можно интерпретировать как эффек­
тивное число наблюдений соответствующих значений К-мерного вектора бинар­
нь~х наблюдений х. Как и в случае бета-распределения, распределение Дирихле
имеет конечную плотность всюду, если для всех kвыполняется условие ak"?.1.

Гамма-распределение

Гамма-распределение является распределением вероятно­

стей положительной случайной величины r >О, зависящей от


параметров а и Ь, которые подчиняются ограничениям а> О и
Ь >О, чтобы обеспечить нормирование распределения:

(Б.26)

(Б.27)
Нормальное распределение 899

var[ т] = 3z, (Б.28)


ь
а-1
mode[т]=- приа~l, (Б.29)
ь

Щln т] = \fl(a) - ln Ь, (Б.30)

H[т]=lnГ(a)-(a-1)\f/(a)-lnb+a. (Б.31)
где \f/(·)- дигамма-функция, определяемая формулой (Б.25). Гамма-распределе­
ние является сопряженным априорным распределением точности (обратной дис­
персии) одномерного нормального распределения. При а~ 1 плотность везде ко­
нечна, а частный случай а = 1 известен как экспоненциальное распределение.

Нормальное распределение

Нормальное распределение является наиболее широко ис­


пользуемым распределением непрерывных случайных вели­
чин. Оно также называется распределением Гаусса (Gaussian).
В случае одной переменной х Е (-оо, оо) оно определяется
двумя параметрами: математическим ожиданиемµ Е (-оо, оо) и
дисперсией а 2 >О.

N(xlµ,a 2 )= 1
112 ехр{-~(х-µ) 2 }, (Б.32)
( 2яа2 ) 2а

= µ,
IE.:[x] (Б.33)
2
var[x] = а , (Б.34)
mode[x] = µ, (Б.35)
1 1
Н [х] =- ln а 2 + -( 1+ln2я). (Б.36)
2 2
2
Величина, обратная к дисперсии, т= 1 /а , называется точностью, а квадрат-
ный корень из дисперсии, а, называется стандартным отклонением. Сопряжен­
ное априорное распределение параметра µ является нормальным, а сопряженное

априорное распределение параметра т- гамма-распределением. Если оба пара­


метра µ и т неизвестны, их совместное сопряженное априорное распределение

является гамма-нормальным.

Для D-мерного вектора х нормальное распределение определяется D--мерным


вектором математических ожиданий µ и ковариационной матрицей :Е размерно­
стью D х D, которая должна быть симметричной и положительно-определенной.
900 ПРИЛОЖЕНИЕ Б. ПЛОТНОСТИ РАСПРЕДЕЛЕНИЙ

N(xlµ,1:)= D~2 1/2 ехр{-~(х-µ)т1:- 1 (х-µ)}, (Б.37)


( 21Z") 11:1 2а
JE[x]= µ, (Б.38)

cov[x] = I, (Б.39)
mode[x] =µ, (Б.40)

Н [ х] = _!_ ln l1:1 + D ( 1+ ln 2JZ"). (Б.41)


2 2
Обрапюй ковариационной матрицей Л = Г 1 является матрица точности, которая
также симметрична и положигелъно определена. По центральной предельной тео­

реме распределение средних значений случайных величин стремится к нормально­


му распределению, а сумма двух нормально распределенных случайных величин

также нормально распределенная. Нормальное распределение- это распределе­

ние, которое максимизирует энтропию при заданной дисперсии (или ковариации).


Любое шrnейное преобразование нормальной случайной величины снова является
нормальным. Маргинальное распределение подмножества переменных, образую­
щих многомерную нормально распределенную случайную величину, само по себе
является нормальным, и аналогичным образом условное распределение также явля­
ется нормальным. Сопряженное априорное распределение параметра µ является

нормальным, сопряженное априорное распределение параметра Л - распределени­


ем Уитшарта, а сопряженное априорное распределение для пары (µ, Л)- распре­
делением Гаусса-Уитшарта.
Если мы имеем маргинальное нормальное распределение для х и условное

нормальное распределение для у при заданном х, определенные в виде

р(х) =N(xlµ,Л- 1 ), (Б.42)

р(х 1 у) =N(ylAx +b,L- 1), (Б.43)

то маргинальное распределение у и условное распределение х при заданном у

определяются формулами
p(y)=N(ylAµ+b,L- 1 +AЛ- 1 A\ (Б.44)
р(х 1 у)= N(xlI{AтL(y-b)+ Лµ}, I), (Б.45)
где

I = (Л + ATLA)- 1• (Б.46)

Если мы имеем совместное нормальное распределение N(x 1 µ, I) с Л = I- 1,


а векторы разделены следующим образом:
Гамма-нормальное распределение 901

х=(::). µ=(::). (Б.47)


(Б.48)

то условное распределение р(хаlхь) задается формулой

(Б.49)

µаlЬ =µа -А~~Ааь ( Хь - µЬ ), (Б.50)

а маргинальное распределение р(ха) задается формулой

Р( Ха)= N( xalµa,l:aa ). (Б.51)

Гамма-нормальное распределение

Это сопряженное априорное распределение для одномер­


ного нормального распределения N(x 1 µ, х\ в котором ма­
тематическое ожидание значение µи точность Л неизвестны.
Оно называется гамма-нормшzьным (gamma-noпnal distribu-
tion) и представляет собой произведение нормального рас­
пределения для µ, точность которого пропорциональна А., и гамма-распреде­
ления параметра А..

(Б.52)

Распределение Гаусса-Уиwарта

Это сопряженное априорное распределение к многомерному нормальному


распределению N(xlµ, Л), в котором как математическое ожидание µ, так
и точность Л неизвестны. Оно также называется нормшzьным распределением
Уишарта (noпnal-Wishart distribution). Оно представляет собой произведение
нормального распределения для µ, точность которого пропорциональна Л,
и распределения Уишарта по Л:

(Б.53)

Для частного случая скаляра х это распределение эквивалентно гамма-нор­

мальному распределению.
902 ПРИЛОЖЕНИЕ Б. ПЛОТНОСТИ РАСПРЕДЕЛЕНИЙ

Муnьтиномиальное распределение

Если обобщить распределение Бернулли на К-мерную бинарную переменную

х с компонентами xk е {О, 1}, такими, что Ixk = 1, то получим следующее дис­


k

кретное распределение:

р(х)= пµ:k, (Б.54)


k=I

E[xk] = µk, (Б 55)


var[xk] = µi1 - µk), (Б.56)
cov[x1xk] = -µ1 µъ j ":F- k (Б.57)
к

н [х J= - I µk ш µk. (Б.58)
k=I

Поскольку р (xk = 1) = µk, то параметры должны удовлетворять условиям О$ µk$ 1


и Iµk =1.
k

Мультиномиальное распределение представляет собой многомерное обобще­


ние биномиального распределения и является распределением частот mk наблю­
дений дискретной переменной, имеющей К значений и принимающей k-e значе­

ние при общем количестве наблюдений, равном N:

(Б.59)

Щтk] =Nµk, (Б.60)

var[mk] = Nµk(1- µk), (Б.61)


cov[m1mk] = -Nµ1µk, j * k, (Б.62)
т
гдеµ= (µ 1, ""µк) , а величина

(Б.63)

представляет собой количество способов, которыми можно распределить mk из

Nодинаковых объектов по k ячейкам при k=l, ""К. Значение µk- это вероят­
ность того, что случайная величина примет k-e значение, и поэтому эти парамет­

ры подчиняются ограничениям О $ µk $ 1 и L µk =1 . Сопряженное априорное


k
распределение параметров {µk} является распределением Дирихле.
Распределение Гаусса 903

Распределение Гаусса

Распределение Гаусса- это синоним нормального распределения. В этой


книге мы используем термин нормальное 1 , сохраняя традиционное использова­
ние символа N для обозначения этого распределения. Соответственно, нормаль­
ное гамма-распределение называют также гауссовским гамма-распределением, а

нормальное распределение Уишарта- распределением Гаусса-Уишарта.

Распределение Стьюдента

Это распределение было опубликовано Уильямом Госсе­


том в 1908 году, но его работодатель, компания Guiness
Breweries, потребовал, чтобы он публиковался под псевдони­
мом, поэтому он выбрал псевдоним "Student''. В одномерной
форме t-распределение Стьюдента получается путем разме­
щения сопряженного априорного гамма-распределения перед точностью одно­

мерного нормального распределения и последующего интегрирования по пере­

менной точности. Следовательно, его можно рассматривать как бесконечную


смесь нормальных распределений, имеющих одинаковые математические ожи­

дания, но разные стандартные дисперсии:

Г{v/2+1/2)( Л )1/2[ Л(х-µ)2]-v/2-1;2


St ( х 1 µ, Л, v =
)
( ) - 1+ , (Б.64)
Г v/ 2 1l'V V

llil[x] =µпри v> 1, (Б.65)

1 v
var[x]=--- при v>2, (Б.66)
Л v-2
mode[x] = µ. (Б.67)

Здесь v> О называется числом степеней свободы распределения. Частный


случай v = 1 называется распределением Коши (Cauchy distribution).
Для D-мерной переменной х t-распределение Стьюдента соответствует марги­
нализации матрицы точности многомерного нормального распределения по отно­

шению к сопряженному априорному распределению Уишарта и принимает вид

1 В оригинале автор использует термин Gaussian, но в русскоязычной научной лите­


ратуре более широкое распространение получил термин "нормальное распределение'',
который при переводе и был принят как основной вариант . - Примеч. ред.
904 ПРИЛОЖЕНИЕ Б. ПЛОТНОСТИ РАСПРЕДЕЛЕНИЙ

- Г(v/2+D/2) 1л1'/2 [ Л2]-v/2-D/2


St ( xj µ,А, v) - (/ ) D/ 2 1+ , (Б . 68)
Гv2 (vя) v
Е[х] =µ при v> 1, (Б.69)

cov[x] =-v-л- 1 при v> 2, (Б . 70)


v-2
mode[x] = µ, (Б . 71)

где Л2 - квадрат расстояния Махаланобиса, определяемый формулой


Л2 = (х - µ)тЛ(х - µ). (Б.72)

В пределе при v ~ оо t-распределение сводится к нормальному с математиче­


ским ожиданием µ и точностью Л. Распределение Стьюдента является обобще­
нием нормального распределения, у которого значения максимально правдопо­

добных параметров являются устойчивыми к выбросам.

Равномерное распределение

Это простое распределение для непрерывной переменной х, определенной на

конечном интервале х Е [а, Ь ], где Ь > а.

v(xja,b)=-1- , (Б.73)
Ь-а

Е[х]=а;ь, (Б.74)

( Ь- а ) 2
var[x]=-- ' (Б.75)
12
Н[х] = ln(b- а). (Б.76)
Если случайная величинах имеет распределение U(xlO, 1), то случайная вели­
чина а+ (Ь - а)х будет иметь распределение U(xla, Ь) .

Распределение фон Мизеса

Распределение фон Мизеса, также известное как круглое


нормальное распределение , является одномерным нормаль­

ным периодическим распределением для переменной

fJ Е [О, 2я) .
Распределение Уишарта 905

где 10 (т)- функция Бесселя первого рода нулевого порядка. Это распределение
имеет период 21r, так что р( () + 21r) =р( 8) для всех 8. При интерпретации этого
распределения необходимо проявлять осторожность, потому что простые мате­
матические ожидания будут зависеть от произвольного выбора точки отсчета
для переменной 8. Параметр ~ аналогичен математическому ожиданию одно­
мерного нормального распределения, а параметр т > О, известный как параметр

концентрации (concentration parameter), аналогичен точности (обратной диспер­


сии). При больших т распределение фон Мизеса приблизительно равно нор­
мальному с центром в 80 •

Распределение Уиwарта

Распределение Уишарта является сопряженным априорным распределением


матрицы точности многомерного нормального распределения.

W(ЛIW,v) = B(W,v )IAl(v-v-i)/2 ехр(-~ тr(w- 1 л )} (Б.78)

где

в(w,v) =1wг1' (2•v12 "D1v-111•1Jг( v +~ -i) J'. (Б.79)

Е[Л] = vW, (Б.80)

E[lnlAI] = ~lf/( v +~ -i) + Dln2 +InlWI, (Б.81)

(v-D-1) vD
H[Л]=-lnB(W,v)- E[lnlAIJ+-, (Б.82)
2 2
где W- симметричная положительно определенная матрица D х D, а 1/10- ди­
гамма-функция, определяемая формулой (Б.25). Параметр v называется числом
степеней свободы распределения и ограничивается условием v > D - 1, которое
гарантирует, что гамма-функция в нормировочном коэффициенте определена
корректно. В одном измерении распределение Уишарта сводится к гамма­

распределению Gam(A.I а, Ь), заданному формулой (Б.26) с параметрами а= v/2 и


Ь= 1/2W.
в

В этом приложении описано несколько полезных свойств и тождеств, отно­

сящихся к матрицам и определителям. Его не следует считать вводным курсом.


Предполагается, что читатель уже знаком с основами линейной алгебры. Для не­
которых результатов мы указываем, как их доказать, тогда как в более сложных
случаях приводим для заинтересованных читателей ссылку на стандартные

учебники по этой теме. Во всех случаях мы предполагаем, что существуют об­


ратные матрицы и что размерности матриц таковы, что формулы определены
корректно. Всестороннее обсуждение линейной алгебры можно найти в книге
Golub and Van Loan (1996), а обширную коллекцию свойств матриц- в книге
Liitkepohl (1996). Матричные производные обсуждаются в учебнике Magnus and
Neudecker (1999).
908 ПРИЛОЖЕНИЕ В. СВОЙСТВА МАТРИЦ

Основные матричные тождества

Матрица А имеет элементы Аи, где i индексирует строки, а j - столбцы. Мы


используем IN для обозначения единичной матрицы N х N (также называемой
тождественной), и там, где нет двусмысленности относительно размерности, ис­
т
пользуем обозначение 1. Транспонированная матрица А имеет элементы
(Ат )iJ = Aji· Из определения операции транспонирования имеем
(АВ/ =ВтАт. (В.1)

Это тождество можно проверить, выписав индексы. Матрица, обратная к А, обо­


значенная А- 1 , удовлетворяет тождеству
АА- 1 = А- 1 А = 1. (В.2)

Поскольку АВВ- 1 А-l = 1, имеем


(АВ)- 1 = в- 1 А- 1 (В.3)
Кроме того,
(В.4)

что легко доказать, применив транспонирование (В.2) и применяя тождество (В.1).


Полезным тождеством, включающим обратные матрицы, является следующее:

(В.5)

Это тождество легко проверяется путем умножения обеих сторон на ВРВ т + R.


Предположим, матрица Р имеет размерность N х N, а R имеет размерность М х М,
так что В имеет размерность М х N. Тогда, если М « N, будет намного проще вы­
числить правую часть (В.5), чем левую. Иногда возникает особый случай:

(1 + АВ)- 1 А= A(I + ВА)- 1 • (В.6)

Существует еще одно полезное тождество, включающее обратные матрицы:

(В.7)

которое известно как тождество Вудбери и может быть проверено путем


умножения обеих сторон на А+ BD- 1C. Это полезно, например, когда матрица А
является большой и диагональной и, следовательно, легко обращается, тогда как
матрица В имеет много строк и всего несколько столбцов (и наоборот, для мат­
рицы С), так что правую часть вычислить намного проще, чем левую.
Множество векторов {а 1 , "" aN} называется линейно независимым, если от-
ношение 'Lапап =О выполняется только в том случае, если все ап =О. Отсюда
п
Следы и определители 909

следует, что ни один из векторов не может быть выражен как линейная комби­
нация остальных. Рангом матрицы является максимальное количество линейно
независимых строк (или, что эквивалентно, максимальное количество линейно
независимых столбцов).

Следы и определители

Понятия следа и определителя относятся к квадратным матрицам. След Tr(A)


матрицы А - это сумма элементов на ее главной диагонали. Выписывая индек­

сы, мы видим, что

Тr(АВ) = Tr(BA). (В.8)

Применяя эту формулу несколько раз к произведению трех матриц, мы ви­


дим, что

Tr(ABC) = Tr(CBA) = Tr(BCA). (В.9)

Это тождество называется циклическим свойством оператора следа и, очевидно,


распространяется на произведение любого количества матриц. Определитель IAI
матрицы NxN определяется формулой

(В.10)

в которой сумма берется по всем произведениям, в которые входят ровно один


элемент из каждой строки и один элемент из каждого столбца с коэффициентом
+1 или -1, в зависимости от того, является ли перестановка i 1i 2 •• .iN четной или
нечетной соответственно. Заметим, что 111 = 1.
Таким образом, для матрицы 2 х 2 определитель принимает вид

(В.11)

Определитель произведения двух матриц задается формулой

IABI = IAllBI, (В.12)

что можно показать с помощью (В.10). Кроме того, определитель обратной мат­
рицы задается формулой

(В.13)

что можно показать, взяв определитель (В.2) и применив к (В.12).


Если А и В - матрицы размерностью N х М, то
910 ПРИЛОЖЕНИЕ В. СВОЙСТВА МАТРИЦ

IIN+ АВт 1= llм+ Ат В 1. (В.14)

Полезным частным случаем является тождество

IIN+ аЬт 1=1+ ать, (В.15)

где а и Ь - N-мерные вектор---<;толбцы.

Матричные производные

Иногда приходится рассматривать производные векторов и матриц относи­


тельно скаляров. Производная вектора а относительно скаляра х сама является
вектором, компоненты которого задаются формулами

(~:}
даi
(В.16)
дх

Производная матрицы вычисляется аналогично. Можно также определить про­

изводные по векторам и матрицам, например:

(В.17)

и, аналогично,

(В.18)

Следующее тождество легко доказывается путем выписывания его компо­


нентов:

_Е_ (х та) =_Е_ (ат х) = а. (В.19)


дх дх

Аналогично

~(АВ)= дАВ+А дВ. (В.20)


дх дх дх

Производная обратной матрицы может быть выражена как

~(А-1)=-А-1 дА А-1, (В.21)


дх дх

что можно доказать, дифференцируя уравнение А- 1 А = 1, используя (С.20), а за­


тем умножая его справа на А- 1 • Кроме того, имеет место тождество
Уравнение для собственноrо вектора 911

~InlAl=Tr(A- 1 дА), (В.22)


дх дх

которое мы докажем позже. Если мы выберем х как один из элементов матри­


цы А, то
д
-Tr(AB)=B1;. (В.23)
дАu

В этом леrко убедиться, выписывая матрицы с использованием индексных обо­


значений. Этот результат можно записать более компактно в виде

~Тr(АВ)=Вт. (В.24)
дА

Используя эти обозначения, можно записать следующие свойства:

а: тr(АТВ)=В, (В.25)

д
-Tr(A)=I, (В.26)
дА

а: тr(АвАт) = А(в+вт), (В.27)

которые снова можно доказать, выписав матричные индексы. Кроме того, вы­
полняется тождество

(В.28)

которое следует из (В.22) и (В.24).

Уравнение для собственного вектора

Для квадратной матрицы А размерностью МхМ уравнение для собственного


вектора имеет вид

(В.29)

для i = 1, ... , М, где u; называется собственным вектором, а~ - соответству­


ющим собственным значением. Это уравнение можно рассматривать как систе­
му М совместных однородных линейных уравнений, а условием существования

его решения является уравнение

IA-Л;I 1 =О, (В.30)


912 ПРИЛОЖЕНИЕ В. СВОЙСТВА МАТРИЦ

которое называется характеристическим. Поскольку это многочлен порядка М


относительно А;, он должен иметь М решений (хотя они не обязательно должны
быть разными). Ранг матрицы А равен количеству ненулевых собственных зна­
чений.

Особый интерес представляют симметричные матрицы, возникающие в виде


ковариационных матриц, матриц ядер и гессиана. Симметричные матрицы обла­

дают свойством А;; = А1 ; или, что эквивалентно, Ат = А. Обратная к симметрич­


ной матрице также является симметричной. Это можно доказать, выполнив
транспонирование А- 1 А = 1 и использовав тождество АА- 1 = 1 вместе с симмет­
рией матрицы 1.
В общем случае собственные значения матрицы являются комплексными
числами, но для симметричных матриц собственные значения А; являются дей-

ствительными. В этом можно убедиться, сначала умножив слева (В.29) на ( u;) т ,


где символ * обозначает комплексно сопряженное число. В результате получим
(В.31)

Затем возьмем комплексное сопряжение уравнения (В.29) и умножим слева

на (uТ):
тА •
U; U; =2•i U;т U;• , (В.32)

где мы использовали свойство А• = А, потому что рассматриваем только матри­


цы действительных чисел. Выполняя транспонирование второго из этих уравне­
ний и используя свойство Ат = А, видим, что левые части двух уравнений равны,
и, следовательно, А;• =А;, т.е. число А; является действительным.
Собственные векторы u; действительной симметричной матрицы могут быть
выбраны ортонормированными (т.е. ортогональными и единичной длины), так что

(В.33)

где 1;1 - элементы единичной матрицы 1. Чтобы показать это, сначала слева

умножим (С.29) на u} , чтобы получить

(В.34)

а затем выполним перестановку индексов:

ui Au 1 =21uJu 1 . (В.35)
Уравнение для собственного вектора 913

Теперь перейдем к транспонированию второго уравнения и воспользуемся


свойством симметрии Ат = А, а затем вычтем второе уравнение из первого:

(л; -Л1 )uJu 1 =0. (В.36)

Следовательно, при А;-:1:- Л.1 выполняется равенство uJ u 1 = О и, следовательно,


векторы u; и u1 являются ортогональными. Если два собственных значения рав­

ны, то любая линейная комбинация au 1 + f3u1 также является собственным век­


тором с тем же собственным значением, поэтому мы можем произвольно вы­
брать одну линейную комбинацию, а затем выбрать вторую так, чтобы она бьmа
ортогональной первой (можно показать, что вырожденные собственные векторы
никогда не являются линейно зависимыми). Следовательно, собственные векто­
ры могут быть выбраны ортогональными, а после нормировки они будут иметь
единичную длину. Поскольку имеется М собственных значений, соответствую­
щие М ортогональных собственных векторов образуют полное множество, и по­
этому любой М-мерный вектор можно выразить как линейную комбинацию
собственных векторов.
Мы можем взять собственные векторы U; как столбцы матрицы U размерно­

стью М х М, которые вследствие условия ортонормированности удовлетворяют


тождеству

(В.37)

Такая матрица называется ортогональной. Интересно, что строки этой матри-


т
цы также ортогональны, так что UU = 1. Чтобы показать это, обратите внима-
ние на то, что тождество (В.37) подразумевает uтuu- 1 = u- 1 = Uт и, следова­
тельно, uu- 1 =UUт=1. Из (В.12) также следует, что IUI = 1.
Уравнение для собственного вектора (В.29) можно выразить через Uв виде

AU=UЛ, (В.38)

где Л - диагональная матрица М х М, диагональные элементы которой задают­


ся собственными значениями Л;.
Если мы рассмотрим векто~толбец х, который преобразуется ортогональ­
ной матрицей Uв новый вектор
x=Ux, (В.39)

то длина вектора сохраняется, так как

хтх =хтuтuх =хтх, (В.40)


914 ПРИЛОЖЕНИЕ В. СВОЙСТВА МАТРИЦ

и, аналогичным образом, угол между любыми двумя такими векторами сохраня­


ется, поскольку

(В.41)

Таким образом, умножение на матрицу U можно интерпретировать как вра­


щение системы координат.

Из (В.38) следует, что


UTAU=Л. (В.42)

Поскольку Л - диагональная матрица, мы говорим, что матрица А диагонали­


зирована матрицей U. Если умножить матрицу А слева на U, а справа- на Uт,
то получим

(В.43)

Выполняя обращение этого уравнения и используя (В.3) вместе со свойством


U -1 = uт , имеем
(В.44)

Последние два уравнения также могут быть записаны в виде

А= LЛ;u;u;, (В.45)
i=l

I
А- 1 = _!__u;u;.
i=l Л;
(В.46)

Если взять определитель (В.43) и использовать (В.12), получим

IАl=ПЛ;. (В.47)
i=l

Аналогично, взяв след (В.43) и используя циклическое свойство оператора


следа (В.8) вместе с uru = 1, имеем
м

Tr(A)= LЛ;. (В.48)


i=l

Проверку свойства (В.22) с помощью (В.33), (В.45)-(В.47) мы оставляем как


упражнение.

Матрица А называется положительно определенной, что обозначается как


А >- О, если wтAw > О для всех ненулевых значений вектора w. Эквивалентно, у
положительно определенной матрицы все ее собственные значения удовлетво­
ряют условию Л;> О (в этом можно убедиться, приравнивая wк каждому из соб-
Уравнение для собственного вектора 915

ственных векторов по очереди и отмечая, что произвольный вектор можно раз­

ложить как линейную комбинацию собственных векторов). Обратите внимание,


что положительная определенность матрицы не означает, что все ее ненулевые

элементы являются положительными. Например, матрица

(В.49)

имеет собственные значения А.. 1 ~


5,37 и А.. 2 ~ -0,37. Матрица называется поло­
жительно полуопределенной, если .,,тAw ~ О выполняется для всех ненулевых
значений w, что обозначается как А~ О и эквивалентно условию Л; ~О.
г

Мы можем рассматривать функцию у(х) как оператор, который для любого


входного значениях возвращает результат у. Точно так же мы можем опреде­
лить функционШI F[y] как оператор, который принимает функцию у(х) и возвра­
щает действительное число F. Примером функционала является длина кривой,
проведенной на двумерной плоскости, на которой путь кривой задается функци­
ей. В контексте машинного обучения широко используемым функционалом яв­
ляется энтропия Н[х] непрерывной случайной величины х, потому что для любо­
го выбора плотности вероятности р(х) она возвращает скалярное значение, пред­

ставляющее энтропию х при этой плотности. Таким образом, энтропию р(х)


можно вполне корректно записать как Н[р].
Типичной задачей математического анализа является поиск значения х, кото­
рое максимизирует (или минимизирует) функцию у(х). Аналогично в вариаци­
онном исчислении мы ищем функцию у(х), которая максимизирует (или мини­
мизирует) функционал F[y]. Иначе говоря, из всех возможных функций у(х) мы
918 ПРИЛОЖЕНИЕ Г. ВАРИАЦИОННОЕ ИСЧИСЛЕНИЕ

хотим найти конкретную функцию, для которой функционал F[y] достигает


максимума (или минимума). Вариационное исчисление можно использовать,

например, чтобы показать, что кратчайший путь между двумя точками является
прямой линией или что максимальное распределение энтропии является нор­

мальным.

Если бы мы не знали правил математического анализа, то могли бы найти


обычную производную dy/dx, сделав небольшое изменение &переменной х, а за­
тем выполнив разложение по степеням с, так что

у(х+ с)= у(х)+: & +о( & 2 ), (Г.1)

и, наконец, перейдя к пределу при с~ О. Аналогично для функции нескольких


переменных у(х 1 , ... , хп) соответствующие частные производные определяются
формулой

(Г.2)

Аналогичное определение производной функционала возникает, когда мы


рассматриваем, насколько изменяется функционал F[y] при небольшом измене­
нии с17(х) функции у(х), где 11(х)- произвольная функция от х, как показано на
рис. Г.1. Производную функционала F[y] по у обозначим через oF/ бу и опреде­
лим ее следующим соотношением:

F[y(x)+c17(x)]=F[y(x)]+cf oF(
бу х
)17(x)dx+O(s 2 ). (Г.3)

Рис. Г.1. Проюводную функционала можно определить, рассмотрев,

как изменяется значение функционала / 7 lv] при изменении функции

у(х) нау(х) + п7(х), где l](x)-- произвольная функция от х


ПРИЛОЖЕНИЕ Г. ВАРИАЦИОННОЕ ИСЧИСЛЕНИЕ 919

Это выражение можно рассматривать как естественное обобщение форму­


лы (Г.2), в котором функционал F[y] зависит от непрерывного множества пере­
менных, а именно от значений у во всех точках х. Требование, чтобы функционал
был стационарным относительно малых вариаций функцииу(х), дает уравнение

J- ()17(x)dx=O.
бF
бу х
(Г.4)

Поскольку это уравнение должно выполняться при любых функциях 17(х),


производная функционала должна обращаться в нуль. Для этого предположим,
что возмущение 17(х) равно нулю всюду, кроме окрестности точки х, и в этом
случае производная функционала должна быть равна нулю при х = х . Однако,
поскольку это должно быть верно для каждого х , производная функционала
должна обращаться в нуль при всех значениях х.
Рассмотрим функционал, определяемый интегралом по функции G(y, у', х),
которая зависит как от у(х), так и от ее производной у' (х), а также имеет прямую
зависимость от х:

F[y] = JG(y(x),y'(x),x)dx, (Г.5)

где значение у(х) предполагается фиксированным на границе области интегри­


рования (которая может находиться на бесконечности). Если теперь рассмотреть
вариации функции у(х), получим

Теперь мы должны привести это к виду (Г.3). Для этого проинтегрируем вто­
рое слагаемое по частям и воспользуемся тем, что 17(х) должно исчезнуть на

границе интеграла (поскольку у(х) на границе зафиксировано). Это дает

F[y(x)+ "'7(х)] =F[у(х)]н f{ :- ~( :;)}ф)dх+о(с') (Г.7)


из которого производную функционала можно получить, сравнивая его с (Г.3).
Требование, чтобы производная функционала обращалась в нуль, дает урав­
нение

дG _!!.._(дG) =О (Г.8)
ду dx ду' '
920 ПРИЛОЖЕНИЕ Г. ВАРИАЦИОННОЕ ИСЧИСЛЕНИЕ

которое называется уравнением Эйлера-Лагранжа. Например, если

G = у(х) 2 + (у'(х)) 2 , (Г.9)

то уравнение Эйлера-Лагранжа принимает вид

d2y
у(х)- dx2 =0. (Г.10)

Это дифференциальное уравнение второго порядка можно решить относи­

тельно у(х), используя граничные условия на у(х).


Часто мы рассматриваем функционалы, определенные интегралами, подын­
тегральные выражения которых имеют вид G(y, х) и не зависят от производных
функции у(х). В ЭТОМ случае стационарность требует, чтобы oG/ су(х) = 0 ДЛЯ
всех значений х.
Если мы оптимизируем функционал по распределению вероятности, то нуж­

но выполнять ограничение нормирования. Обычно это удобно делать с исполь­


зованием метода множителей Лагранжа, который позволяет выполнять без­
условную оптимизацию (см. прило:жение Д).
Обобщение полученных результатов для многомерной переменной х не

представляет сложностей. Более подробное обсуждение вариационного исчис­


ления см. Sagan (1969).
д
Множители

Метод множителей Лагранжа, также иногда называемый методом неопре­


деленных множителей, используется для нахождения стационарных точек
функции нескольких переменных при одном или нескольких ограничениях .
Рассмотрим задачу о нахождении максимума функции/(х 1 , х 2 ) при ограниче­
нии, связывающем х 1 и х 2 , которое запишем в виде

(Д. 1)

Один из подходов мог бы состоять в том, чтобы репmть уравнение (Д.1) и таким
образом выразить х 2 как функцию х 1 в виде х 2 = h(x1). Затем его можно подставить в
f(x 1, х2 ), получив функцию только от х 1 вида/(х 1 , h(x 1)). Максимум по х 1 можно бы­
ло бы найти путем обычного дифференцирования, получив стационарное значе­
,
ние х; с соответствующим значением х; заданным выражением х; =h { х;) .
Один из недостатков этого подхода состоит в том, что может быть сложно
найти аналитическое решение уравнения связи, которое позволяет выразить х 2
922 ПРИЛОЖЕНИЕ Д. МНОЖИТЕЛИ ЛАГРАНЖА

как явную функцию от х 1 • Кроме того, этот подход по-разному рассматривает


переменные х 1 и х 2 и тем самым искажает естественную симметрию между эти­

ми переменными.

Более элегантный и часто более простой подход основан на введении пара­


метра А., называемого множителем Лагранжа. Мы объясним этот метод с гео­
метрической точки зрения. Рассмотрим D-мерную переменную х с компонента­
ми х 1 , "., хп. В этом случае уравнение ограничения g(x) =О описывает (D- 1)-
мерную поверхность в х-пространстве, как показано на рис. Д.1.

Рис. Д.J. Геометрическая иллюстрация метода множителей Лагранжа,

в котором мы стремимся максимизировать функцию/(х) при ограничении g(x) =О.

Если вектор х имеет размерность D, то ограничение g(x) =О соответствует

подпространству размерностью D - 1, обозначенной красной кривой. Задача может

быть решена путем оптимюацни функции Лагранжа L(x, Л) =Лх) + Лg(х)

Прежде всего отметим, что в любой точке поверхности ограничения градиент


Vg(x) функции, описывающей ограничение, будет ортогонален этой поверхно­
сти. Чтобы увидеть это, рассмотрим точку х, лежащую на поверхности ограни­

чения, и ближайшую точку х + с, которая также лежит на этой поверхности.

Выполнив разложение Тейлора в окрестности точки х, получим выражение

g(x +с)~ g(x) +с тVg(x). (Д.2)

Поскольку точки х и х + с лежат на поверхности ограничения, выполняется

равенство g(x) = g(x +с) и, следовательно, cтVg(x) ~О. В пределе при llcll ~О
имеем cтVg(x) =О, и поскольку в этом случае вектор с параллелен поверхности
ограничения g(x) =О, мы видим, что вектор Vg ортогонален к поверхности.
Затем мы ищем точку х· на поверхности ограничения, в которойf(х) дости­
гает максимума. Такая точка должна обладать тем свойством, что вектор Vf(x)
ПРИЛОЖЕНИЕ Д. МНОЖИТЕЛИ ЛАГРАНЖА 923

также ортогонален поверхности ограничения, как показано на рис. Д.1, посколь­


ку в противном случае мы могли бы увеличить значение /(х), перемещаясь на
небольшое расстояние вдоль этой поверхности. Таким образом, векторы Vf и Vg
являются параллельными (или антипараллельными), поэтому должен существо­
вать параметр Л такой, что
Vf+Л.Vg=O, (Д.3)

где параметр Л * О называется множителем Лагранжа. Обратите внимание, что


Л может иметь любой знак. На данном этапе удобно ввести функцию Лагранжа,
определяемую формулой
L(x, Л) =/(х) + Лg(х). (Д.4)

Условие стационарности при ограничении (Д.3) получается при VxL =О. Кроме

того, условие IJLllJЛ =О приводит к уравнению ограничения g(x) =О.


Таким образом, для нахождения максимума функции f(x) при ограничении
g(x) =О мы определяем функцию Лагранжа, заданную формулой (Д.4), а затем
находим стационарную точку L(x, Л) как по х, так и по Л. Для D-мерного векто­
ра х это дает D + 1 уравнений, которые определяют как стационарную точку х •,
так и значение Л. Если нас интересует только значение х •, то мы можем исклю­
чить множитель Л из уравнений стационарности, не интересуясь его значением
(этим и объясняется термин "неопределенный множитель").
В качестве простого примера предположим, что мы хотим найти стационарную

точку функции f(x1 ,x2 )=1-x~ -х; при ограничении g(x 1,x2)=x 1+x2 -1 =О
(рис. Д.2). Соответствующая функция Лагранжа задается формулой

L ( х, Л) =1- х~ - х; + Л ( х1 + х2 -1) . (Д.5)

Рис. Д.2. Простой пример испонь :ювания метода множителей Лагранжа, в котором

целью является максим1пация функции / (х 1 • х 2 ) = 1- х 12 -- х; при ограничении


g(x 1, х 2 ) = О, где g(x 1, х 2 ) ·-- х 1 + х 2 - 1.Круги - -- - 1то контуры функции/(х 1 , х 2 ), а

диагонапьная линия -- поверхность ограничения g(x 1, х 2 ) = О


924 ПРИЛОЖЕНИЕ Д. МНОЖИТЕЛИ ЛАГРАНЖА

Условия стационарности лагранжиана относительно х 1 , х 2 и Л дают следую­


щие связанные уравнения:

-2х1 + Л= О, (Д.6)

-2х2 + л =о, (Д.7)

Х1 + Xz - 1 = 0. (Д . 8)

Решение этих уравнений дает стационарную точку ( х;, х; )=( ±, ±) , а соот­


ветствующее значение для множителя Лагранжа равно А.= 1.
До сих пор мы рассматривали задачу о максимизации функции, подчиненной
ограничению, заданному в виде равенства g(x) = О. Рассмотрим теперь задачу мак­
симизацииf(х) с ограничением, заданным в виде неравенства g(x) ~О (рис. Д.3).

8Хв

g(x ) > О

Рис. Д.3. Задача максимизацииf(х) с учетом ограничения,

заданного в виде неравенства g(x) ~О

Теперь существуют два варианта решения в зависимости от того, находится


ли стационарная точка в области, гдеg(x) > О, и в этом случае ограничение не­
активно, или находится на границе g(x) =О, и в этом случае ограничение счита­
ется активным. В первом случае функция g(x) не играет никакой роли и поэто­
му стационарное условие принимает вид Vf(x) =О. Это снова соответствует ста­
ционарной точке функции Лагранжа (Д.4), но на этот раз с А.= О. Последний
случай, когда решение лежит на границе, аналогично рассмотренному ранее

ограничению в виде равенства и соответствует стационарной точке функции Ла­


гранжа (Д.4) с А.*- О. Теперь, однако, знак множителя Лагранжа имеет решающее
значение, так как функция f(x) будет максимальной, только если ее градиент
направлен вовне области g(x) >О, как показано на рис. Д.3 . Следовательно, для
некоторого значения А.> О имеем Vf(x) = -A.Vg(x).
ПРИЛОЖЕНИЕ Д. МНОЖИТЕЛИ ЛАГРАНЖА 925

Для любого из этих двух случаев произведение 2g(x) =О. Таким образом,
решение задачи максимизации f(x) при условии g(x) ~О получается путем оп­
тимизации функции Лагранжа (L.4) по х и А при условиях

g(x) ~О, (Д.9)

2~0, (Д.10)

2g(x) =О. (Д.11)

Они известны как условия Каруша-Куна-Такера (К.КТ) (Karush, 1939, Kuhn


and Tucker, 1951).
Заметим, что если мы хотим минимизировать (а не максимизировать) функ­
цию f(x) при ограничении в виде неравенства g(x) ~О, то минимизируем функ­
цию Лагранжа L(x, 2) =f(x) - 2g(x) по х, опять же при условии А~ О.

Наконец, нетрудно обобщить метод множителей Лагранжа на случай многих


ограничений, заданных в виде равенств и неравенств. Предположим, что мы хо­

тим максимизировать f(x) при условиях g1(x) = О при j = 1, "" J и hk(x) ~ О при
k = 1" ." К. Затем вводим множители Лагранжа {.41} и {µk}, а затем оптимизиру­
ем функцию Лагранжа, заданную формулой

J к

r(х.{л1 }. {µk})=t(x)+ L)1g 1 (x)+ :~:>khk(x), (Д.12)


J=I k=I

при условиях µk ~ О и µk ht( х) =О при k = 1, "" К. Обобщение на ограниченные


производные функционалов (см. прило.?1се1111е Г) выполняется аналогично. Бо­
лее подробное обсуждение метода множителей Лагранжа см. в книге Nocedal
and Wright (1999).
Библиография

Abramowitz, М. and 1. А. Stegun (1965). Handbook ofMathematica/ Functions. Dover.


Adler, S. L. (1981 ). Over-relaxation method for the Monte Carlo evaluation of the partition
function for multiquadratic actions. Physical Review D 23, 2901-2904.
Ahn, J. Н. and J. Н. Oh (2003). А constrained ЕМ algorithm for principa\ component analysis.
Neura/ Computation 15(1), 57-65.
Aizennan, М. А., Е. М. Braverman, and L. 1. Rozonoer (1964). The probaЬility proЫem of
pattem recognition leaming and the method of potential functions. Automation and Remote
Control 25, 1175-1190.
Akaike, Н. (1974). А new look at statistical model identification. !ЕЕЕ Transactions оп Auto-
matic Contro/ 19, 716-723.
Ali, S. М. and S. D. Silvey (1966). А general class of coefficients of divergence of one distri-
bution from another. Journa/ ofthe Roya/ Statistica/ Society, В 28(1), 131-142.
Allwein, Е. L., R. Е. Schapire, and У. Singer (2000). Reducing multiclass to Ьinary: а unifying
approach for margin classifiers. Journa/ of Machine Learning Research 1, 113-141.
Amari, S. (1985). Di.fferentia/-Geometrica/ Methods in Statistics. Springer.
Amari, S" А. Cichocki, and Н. Н. Yang (1996). А new leaming algorithm for Ыind signal sep-
aration. In D. S. Touretzky, М. С. Mozer, and М. Е. Hasselmo (Eds.), Advances in Neural
lnformation Processing Systems, Volume 8, рр. 757-763. МIТ Press.
Amari, S. (1998). Natural gradient works efficiently in learning. Neural Computation 10, 251-276.
Anderson, J. А. and Е. Rosenfeld (Eds.) (1988). Neurocomputing: Foundations of Research.
МIТ Press.
Anderson, T.W. (1963). Asymptotic theory for principal component analysis. Anna/s of Math-
ematica/ Statistics 34, 122-148.
Andrieu, С., N. de Freitas, А. Doucet, and М. 1. Jordan (2003). An introduction to МСМС for
machine leaming. Machine Learning 50, 5--43.
Anthony, М. and N. Biggs (1992). Ап Introduction to Computational Learning Тheory. Cam-
bridge University Press.
Attias, Н. (1999а). lndependent factor analysis. Neura/ Computation 11(4), 803-851.
928 БИБЛИОГРАФИЯ

Attias, Н. (1999Ь). Inferring parameters and structure oflatent variaЫe models Ьу variational
Bayes. In К. В. Laskey and Н. Prade (Eds.), Uncertainty in Artificial Intelligence: Pro-
ceedings ofthe Fifth Conference, рр. 21-30. Morgan Kaufmann.
Bach, F. R. and М.
1. Jordan (2002). Kemel independent component analysis. Journal of Ma-
chine Learning Research 3, 1-48.
Bakir, G. Н., J. Weston, and В. Schбlkopf (2004). Leaming to find pre-images. ln S. Тhrun,

L. К. Saul, and В. Schбlkopf (Eds.), Advances in Neural Information Processing Systems,


Volume 16, рр. 449-456. МIТ Press.
Baldi, Р. and S. Brunak (2001). Bioinformatics: Тhе Machine Learning Approach (Second
ed.). МIТ Press.
Baldi, Р. and К. Homik (1989). Neural networks and principal component analysis: leaming
from examples without local minima. Neural Networks 2(1), 53-58.
Barber, D. and С. М. Bishop (1997). Bayesian model comparison Ьу Monte Carlo chaining. ln
М. Mozer, М. Jordan, and Т. Petsche (Eds.), Advances in Neural Information Processing
Systems, Volume 9, рр. 333-339. МIТ Press.
Barber, D. and С. М. Bishop (1998а). EnsemЫe leaming for multi-layer networks. In М. 1.
Jordan, К. J. Keams, and S. А. Solla (Eds.), Advances in Neural Information Processing
Systems, Volume 10, рр. 395-401.
Barber, D. and С. М. Bishop (1998Ь). EnsemЫe leaming in Bayesian neural networks. In
С. М. Bishop (Ed.), Generalization in Neura/ Networks and Machine Learning, рр. 215-
237. Springer.
Bartholomew, D. J. (1987). Latent VariaЬ/e Models and Factor Analysis. Charles Griffin.
Basilevsky, А. (1994). Statistica/ Factor Analysis and Re/ated Methods: Theory and Applica-
tions. Wiley.
Bather, J. (2000). Decision Тheory: Ап Introduction to Dynamic Programming and Sequentia/
Decisions. Wiley.
Baudat, G. and F. Anouar (2000). Generalized discriminant analysis using а kemel approach.
Neura/ Computation 12(10), 2385-2404.
Baum, L. Е. (1972). An inequality and associated maximization technique in statistical estima-
tion ofprobabilistic functions ofMarkov processes. Inequalities 3, 1-8.
Becker, S. and У. Le Cun (1989). lmproving the convergence of back-propagation leaming
with second order methods. In D. Touretzky, G. Е. Hinton, and Т. J. Sejnowski (Eds.),
Proceedings of the 1988 Connectionist Models Summer Schoo/, рр. 29-37. Morgan Kauf-
mann.
БИБЛИОГРАФИЯ 929

Bell, А. J. and Т. J. Sejnowski (1995). An infoпnation maximization approach to Ыind separa-


tion and Ыind deconvolution. Neura/ Computation 7(6), 1129-1159.
Bellrnan, R. ( 1961 ). Adaptive Coпtrol Processes: А Guided Tour. Princeton University Press.
Bengio, У. and Р. Frasconi (1995). An input output НММ architecture. In G. Tesauro,
D.S. Touretzky, and Т. К. Leen (Eds.), Advaпces iп Neural Iпformatioп Processiпg Sys-
tems, Volume 7, рр. 427-434. МIТ Press.
Bennett, К. Р. (1992). Robust linear programming discrirnination of two linearly separaЫe
sets. Optimizatioп Methods апd Software 1, 23-34.
Berger, J. О. (1985). Statistical Decisioп Тheory апd Bayesiaп Aпalysis (Second ed.). Springer.
Bernardo, J. М. and А. F. М. Smith (1994). Bayesiaп Тheory. Wiley.
Berrou, С., А. Glavieux, and Р. Тhitimajshima (1993). Near Shannon lirnit error-correcting
coding and decoding: Turbo-codes (1). In Proceedings /СС'93, рр. 1064-1070.
Besag, J. (1974). On spatio-temporal models and Markov fields. In Traпsactioпs of the 7th
Prague Сопfеrепсе оп Iпformatioп Тheory, Statistical Decisioп Fuпctioпs апd Raпdom

Processes, рр. 47-75. Academia.


Besag, J. (1986). On the statistical analysis of dirty pictures. Journal of the Royal Statistica/
Society В-48, 259-302.
Besag, J., Р. J. Green, D. Hidgon, and К. Megersen (1995). Bayesian computation and stochas-
tic systems. Statistica/ Scieпce 10(1), 3.66.
Bishop, С. М. (1991). А fast procedure for retraining the multilayer perceptron. Iпternatioпal

Journal of Neural Systems 2(3), 229-236.


Bishop, С. М. (1992). Exact calculation of the Hessian matrix for the multilayer perceptron.
Neural Computatioп 4(4), 494.501.
Bishop, С. М. (1993). Curvature-driven smoothing: а learning algorithm for feedforward net-
works. IEEE Traпsactioпs оп Neural Networks 4(5), 882.884.
Bishop, С. М. (1994). Novelty detection and neural network validation. /ЕЕ Proceedings: Vi-
sioп, lmage апd Sigпa/ Processiпg 141(4), 217-222. Special issue on applications ofneu-
ral networks.
Bishop, С. М. (1995а). Neural Networksfor Pattern Recogпitioп. Oxford University Press.
Bishop, С. М. (1995Ь). Training with noise is equivalent to Tikhonov regularization. Neural
Computatioп 7(1), 108-116.
Bishop, С. М. (1999а). Bayesian РСА. In М. S. Kearns, S. А. Solla, and D. А. Cohn (Eds.),
Advaпces iп Neural Iпformatioп Processiпg Systems, Volume 11, рр. 382-388. МIТ Press.
930 БИБЛИОГРАФИЯ

Bishop, С. М. (1999Ь). Variational principal components. ln Proceediпgs Niпth Iпternatioпal

Сопfеrепсе оп Artificial Neural Networks, ICANN'99, Volume 1, рр. 509-514. IEE.


Bishop, and G. D. James (1993). Analysis ofmultiphase flows using dual-energy gam-
С. М.

ma densitometry and neural networks. Nuclear Iпstrumeпts апd Methods iп Physics Re-
search А327, 580-593.
Bishop, С. М. and 1. Т. Nabney (1996). Modelling conditional probaЬility distributions for pe-
riodic variaЫes. Neural Computatioп 8(5), 1123-1133.
Bishop, С. М. and 1. Т. Nabney (2008). Pattern Recognition апd Machiпe Learniпg: А Matlab
Сотрапiоп. Springer.
Bishop, С. М" D. Spiegelhalter, and J. Winn (2003). VIВES: А variational inference engine
for Bayesian networks. In S. Becker, S. Thrun, and К. Obermeyer (Eds.), Advaпces iп Neu-
ral Informatioп Processiпg Systems, Volume 15, рр. 793-800. МIТ Press.
Bishop, С. М. and М. Svensen (2003). Bayesian hierarchical mixtures of experts. In
U. Kjaerulff and С. Meek (Eds.), Proceediпgs Niпeteeпth Confereпce оп Uпcertaiпty in
Artificial Iпtelligeпce, рр. 57-64. Morgan Kaufmann.
Bishop, С. М" М. Svensen, and G. Е. Hinton (2004). Distinguishing text from graphics in
online handwritten ink. In F. Kimura and Н. Fujisawa (Eds.), Proceediпgs Niпth Iпterna­

tioпal Workshop оп Frontiers iп Haпdwritiпg Recognition, IWFHR-9, Tokyo, Japan,


рр. 142-147.
Bishop, С. М" М. Svensen, and С. К. 1. Williams (1996). ЕМ optimization of latent variaЫe

density models. ln D. S. Touretzky, М. С. Mozer, and М. Е. Hasselmo (Eds.), Advaпces in


Neural Iпformatioп Processiпg Systems, Volume 8, рр. 465--471. МIТ Press.
Bishop, С. М" М. Svensen, and С. К. 1. Williams (1997а). GTM: а principled altemative to
the Self-Organizing Мар. ln М. С. Mozer, М. 1. Jordan, and Т. Petche (Eds.), Advaпces in
Neural Iпformatioп Processiпg Systems, Volume 9, рр. 354-360. МIТ Press.
Bishop, С. М" М. Svensen, and С. К. 1. Williams (1997Ь). Magnification factors for the GTM
algorithm. ln Proceediпgs !ЕЕ Fifth Iпterпatioпal Coпference оп Artificial Neural Net-
works, Cambridge, И.К., рр. 64-69. lnstitute ofElectrical Engineers.
Bishop, С. М" М. Svensen, and С. К. 1. Williams (1998а). Developments of the Generative
Topographic Mapping. Neurocomputing 21, 203-224.
Bishop, С. М" М. Svensen, and С. К. 1. Williams (1998Ь). GTM: the Generative Topographic
Mapping. Neural Computation 10(1), 215-234.
Bishop, С. М. and М. Е. Tipping (1998). А hierarchical latent variaЫe model for data visuali-
zation. IEEE Transactioпs оп Pattern Aпalysis and Machine Intelligeпce 20(3), 281-293.
БИБЛИОГРАФИЯ 931

Bishop, С. М. and J. Winn (2000). Non-linear Bayesian image model\ing. ln Proceediпgs

Sixth Еиrореап Coпference оп Computer Visioп, DиЬ/iп, Volume 1, рр. 3-17. Springer.
Вlei, D. М" М. 1. Jordan, and А. У. Ng (2003). Нierarchica\ Bayesian models for applications
in infoпnation retrieval. ln J. М. Bemardo et а/. (Ed.), Bayesiaп Statistics, 7, рр. 25-43.
Oxford University Press.
Block, Н. D. (1962). The perceptron: а model for brain functioning. Reviews of Moderп Phys-
ics 34(1), 123-135. Reprinted in Anderson and Rosenfeld (1988).
Blum, J. А. (1965). Multidimensional stochastic approximation methods. Аппа/s of Mathemat-
ica/ Statistics 25, 737-744.
Bodlaender, Н. (1993). А tourist guide through treewidth. Acta Cyberпetica 11, 1-21.
Boser, В. Е" 1. М. Guyon, and V. N. Vapnik (1992). А training algorithm for optimal margin
classifiers. In D. Haussler (Ed.), Proceediпgs Fifth Аппиа/ Workshop оп Computatioпal

Learniпg Theory (СОLТ), рр. 144-152. АСМ.

Bourlard, Н. and У. Каmр (1988). Auto-association Ьу multilayer perceptrons and singular


value decomposition. Biological Cybernetics 59, 291-294.
Вох, G. Е. Р" G. М. Jenkins, and G. С. Reinsel (1994). Time Series Aпalysis. Prentice Hall.
Вох, G. Е. Р. and G. С. Тiао (1973). Bayesian !пfеrепсе in Statistica/ Aпalysis. Wiley.
Boyd, S. and L. Vandenberghe (2004). Сопvех Optimizatioп. Cambridge University Press.
Boyen, Х. and D. Koller (1998). TractaЬ\e inference for complex stochastic processes. ln
G. F. Cooper and S. Moral (Eds.), Proceediпgs 14th Аппиа/ Сопfеrепсе оп Uпcertaiпty iп
Artificial Intelligeпce (UAI), рр. 33-42. Morgan Kaufrnann.
Boykov, У., О. Veks\er, and R. ZaЬih (2001). Fast approximate energy minimization via graph
cuts. IEEE Traпsactioпs оп Pattern Aпalysis апd Machiпe Iпtelligeпce 23(11), 1222-1239.
Breiman, L. (1996). Bagging predictors. Machiпe Learniпg 26, 123-140.
Breiman, L" J. Н. Friedman, R. А. Olshen, and Р. J. Stone (1984). Classificatioп and Regres-
sioп Trees. Wadsworth.
Brooks, S. Р. (1998). Markov chain Monte Car\o method and its application. The Statisti-
ciaп 47(1), 69-100.
Broomhead, D. S. and D. Lowe (1988). MultivariaЬ\e functional interpolation and adaptive
networks. Сотр/ех Systems 2, 321-355.
Buntine,W. and A.Weigend (1991). Bayesian backpropagation. Сотр/ех Systems S, 603.643.
Buntine, W. L. and А. S. Weigend (1993). Computing second derivatives in feed-forward net-
works: а review. IEEE Traпsactioпs оп Neura/ Networks 5(3), 480-488.
932 БИБЛИОГРАФИЯ

Burges, С. J. С. (1998). А tutorial on support vector machines for pattem recognition.


Kпowledge Discovery апd Data Miпiпg 2(2), 121-167.
Cardoso, J.-F. (1998). Blind signal separation: statistical principles. Proceediпgs of the IEEE
9(10), 2009-2025.
Casella, G. and R. L. Berger (2002). Statistical Iпfereпce (Second ed.). Duxbury.
Castillo, Е" J. М. Gutierrez, and А. S. Hadi (1997). Expert Systems апd Probabllistic Network
Models. Springer.
Chan, К" Т. Lee, and Т. J. Sejnowski (2003). Variational Bayesian leaming ofICA with miss-
ing data. Neural Computatioп 15(8), 1991-2011.
Chen, А. М" Н. Lu, and R. Hecht-Nielsen (1993). On the geometry of feedforward neural
network error surfaces. Neural Computatioп 5(6), 910-927.
Chen, М. Н" Q. М. Shao, and J. G. IЬrahim (Eds.) (2001). Мопtе Carlo Methodsfor Bayesiaп
Computatioп. Springer.
Chen, S" С. F. N. Cowan, and Р. М. Grant (1991). Orthogonal least squares leaming algorithm
for radial basis function networks. IEEE Traпsactioпs оп Neural Networks 2(2), 302-309.
Choudrey, R. А. and S. J. Roberts (2003). Variational mixture of Bayesian independent com-
ponent analyzers. Neural Computatioп 15(1), 213-252.
Clifford, Р. (1990). Markov random fields in statistics. In G. R. Grimmett and D. J. A.Welsh
(Eds.), Disorder iп Physical Systems. А Volume iп Нопоиr of Johп М. Hammersley,
рр. 19-32. Oxford University Press.
Collins, М" S. Dasgupta, and R. Е. Schapire (2002). А generalization of principal component
analysis to the exponential family. In Т. G. Dietterich, S. Becker, and Z. Ghahramani (Eds.),
Advaпces iп Neural lnformatioп Processiпg Systems, Volume 14, рр. 617-624. МIТ Press.
Comon, Р" С. Jutten, and J. Herault (1991). Blind source separation, 2: proЫems statement.
Sigпal Processiпg 24(1), 11-20.
Corduneanu, А. and С. М. Bishop (2001). Variational Bayesian model selection for mixture
distributions. In Т. Richardson and Т. Jaakkola (Eds.), Proceediпgs Eighth Iпternatioпal

Сопfеrепсе оп Artificial Iпtelligeпce апd Statistics, рр. 27-34. Morgan Kaufmann.


Cormen, Т. Н" С. Е. Leiserson, R. L. Rivest, and С. Stein (2001). Iпtroductioп to Algorithms
(Second ed.). МIТ Press.
Cortes, С. and V. N. Vapnik (1995). Support vector networks. Machiпe Learniпg 20, 273-297.
Cotter, N. Е. (1990). The Stone-Weierstrass theorem and its application to neural networks.
IEEE Traпsactioпs оп Neural Networks 1(4), 290-295.
БИБЛИОГРАФИЯ 933

Cover, Т. and Р. Hart (1967). Nearest neighbor pattem classification. IEEE Transactions оп

Information Тheory IТ-11, 21-27.


Cover, Т. М. and J. А. Thomas (1991). Elements ofInformation Тheory. Wiley.
Cowell, R. G., А. Р. Dawid, S. L. Lauritzen, and D. J. Spiegelhalter (1999). Probabllistic Net-
works and Expert Systems. Springer.
Сох, R. Т. (1946). ProbaЬility, frequency and reasonaЫe expectation. American Joumal of
Physics 14(1), 1-13.
Сох, Т. F. and М. А. А. Сох (2000). Multidimensional Scaling (Second ed.). Chapman and
Hall.
Cressie, N. (1993). Statisticsfor Spatia/ Data.Wiley.
Cristianini, N. and J. Shawe-Taylor (2000). Support vector machines and other kernel-based
/eaming methods. Cambridge University Press.
Csat6, L. and М. Opper (2002). Sparse on-line Gaussian processes. Neural Computation 14(3),
641-668.
Csiszar, 1. and G. Tusnardy (1984). Infoпnation geometry and altemating minimization proce-
dures. Statistics and Decisions 1(1), 205-237.
Cybenko, G. (1989). Approximation Ьу superpositions of а sigmoidal function. Mathematics
of Control, Signa/s and Systems 2, 304-314.
Dawid, А. Р. (1979). Conditional independence in statistical theory (with discussion). Joumal
of the Royal Statistical Society, Series В 4, 1-31.
Dawid, А. Р. (1980). Conditional independence for statistical operations. Annals of Statistics 8,
598-617.
deFinetti, В. (1970). Тheory of Probabllity. Wiley and Sons.
Dempster, А. Р., N. М. Laird, and D. В. RuЬin (1977). Maximum likelihood from incomplete
data via the ЕМ algorithm. Joumal of the Royal Statistical Society, В 39(1), 1-38.
Denison, D. G. Т., С. С. Holmes, В. К. Mallick, and А. F. М. Smith (2002). Bayesian Methods
for Nonlinear Classification and Regression. Wiley.
Diaconis, Р. and L. Saloff-Coste (1998). What do we know about the Metropolis algorithm?
Journal of Computer and System Sciences 57, 20-36.
Dietterich, G. and G. Bakiri (1995). Solving multiclass leaming proЫems via error-
Т.

correcting output codes. Journal ofArtificial Intelligence Research 2, 263-286.


Duane, S., А. D. Kennedy, В. J. Pendleton, and D. Roweth (1987). Hybrid Monte Carlo. Phys-
ics Letters В 195(2), 216-222.
Duda, R. О. and Р. Е. Hart (1973). Pattern Classification and Scene Analysis. Wiley.
934 БИБЛИОГРАФИЯ

Duda, R. О" Р. Е. Hart, and D. G. Stork (2001). Pattern Classificatioп (Second ed.). Wiley.
Durbin, R" S. Eddy, А. Кrogh, and G. Mitchison (1998). Biological Sequeпce Aпalysis. Cam-
bridge University Press.
Dybowski, R. and S. Roberts (2005). An anthology of probaЬilistic models for medical infor-
matics. ln D. Husmeier, R. Dybowski, and S. Roberts (Eds.), Probabllistic Modeliпg iп Bi-
oiпformatics апd Medical Iпformatics, рр. 297-349. Springer.
Efton, В. (1979). Bootstrap methods: another look at the jackknife. Аппаls of Statistics 1, 1-26.
Elkan, С. (2003). Using the triangle inequality to accelerate k-means. In Proceediпgs of the
Twelfth Iпternatioпal Confereпce оп Machiпe Learniпg, рр. 147-153. AAAI.
Elliott, R. J" L. Aggoun, and J. В. Moore (1995). Нiddeп Markov Models: Estimatioп апd

Coпtrol. Springer.
Ephraim, У" D. Malah, and В. Н. Juang (1989). On the application ofhidden Markov models
for enhancing noisy speech. IEEE Traпsactioпs оп Acoustics, Speech апd Sigпal Pro-
cessiпg 37(12), 1846-1856.
Erwin, Е" К. Obermayer, and К. Schulten (1992). Self-organizing maps: ordering, conver-
gence properties and energy functions. Biological Cyberпetics 61, 47-55.
Everitt, В. S. (1984). Ап Iпtroductioп to Lateпt VariaЬle Models. Chapman and Hall.
Faul, А. С. and М. Е. Tipping (2002). Analysis of sparse Bayesian leaming. In Т. G. Diet-
terich, S. Becker, and Z. Ghahramani (Eds.), Advaпces iп Neural Iпformatioп Processiпg

Systems, Volume 14, рр. 383-389. МIТ Press.


Feller, W. (1966). Ап Iпtroductioп to Probabl/ity Theory апd its Applicatioпs (Second ed.),
Volume 2. Wiley.
Feynman, R. Р" R. В. Leighton, and М. Sands (1964). The Fеуптап Lectures of Physics, Vol-
ume Two. Addison-Wesley. Chapter 19.
Fletcher, R. (1987). Practical Methods ofOptimizatioп (Second ed.). Wiley.
Forsyth, D. А. and J. Ponce (2003). Computer Visioп: А Modern Approach. Prentice Hall.
Freund, У. and R. Е. Schapire (1996). Experiments with а new boosting algorithm. In L. Sait-
ta (Ed.), Thirteeпth Iпternatioпal Сопfеrепсе оп Machiпe Learniпg, рр. 148-156. Morgan
Kauftnann.
Frey, В. J. (1998). Graphical Models for Machiпe Learniпg апd Digital Commuпicatioп. МIТ

Press.
Frey, В. J. and D. J. С. МасКау (1998). А revolution: Belief propagation in graphs with cy-
cles. In М. 1. Jordan, М. J. Keams, and S. А. Solla (Eds.), Advaпces iп Neural Iпformatioп
Processiпg Systems, Volume 10. МIТ Press.
БИБЛИОГРАФИЯ 935

Friedman, J. Н. (2001). Greedy function approximation: а gradient boosting machine. Annals


of Statistics 29(5), 1189-1232.
Friedman, J. Н., Т. Hastie, and R. Tibshirani (2000). Additive logistic regression: а statistical
view ofboosting. Annals of Statistics 28, 337-407.
Friedman, N. and D. Koller (2003). Being Bayesian about network structure: А Bayesian ap-
proach to structure discovery in Bayesian networks. Machine Learning 50, 95-126.
Frydenberg, М. (1990). The chain graph Markov property. Scandinavian Journal of Statistics 17,
333-353.
Fukunaga, К. (1990). Introduction to Statistical Pattern Recognition (Second ed.). Academic
Press.
Funahashi, К. (1989). On the approximate realization of continuous mappings Ьу neural net-
works. Neural Networks 2(3), 183-192.
Fung, R. and К. С. Chang (1990). Weighting and integrating evidence for stochastic simulation in
Bayesian networks. In Р. Р. Bonissone, М. Henrion, L. N. Кanal, and J. F. Lemmer (Eds.),
Uncertainty in Artificial Intelligence, Volume 5, рр. 208-219. Elsevier.
Gallager, R. G. (1963). Low-Density Parity-Check Codes. МIТ Press.
Gamerman, D. (1997). Markov Chain Monte Carlo:Stochastic Simulationfor Bayesian lnfer-
ence. Chapman and Hall.
Gelman, А, J. В. Carlin, Н. S. Stem, and D. В. Rubin (2004). Bayesian Data Analysis (Se-
cond ed.). Chapman and Hall.
Geman, S. and D. Geman (1984). Stochastic relaxation, Gibbs distributions, and the Bayesian res-
toration of images. IEEE Transactions оп Pattern Analysis and Machine Intelligence 6(1 ),
721-741.
Ghahramani, Z. and М. J. Beal (2000). Variational inference for Bayesian rnixtures of factor
analyzers. In S. А Solla, Т. К. Leen, and К. R. Muller (Eds.), Advances in Neural lnfor-
mation Processing Systems, Volume 12, рр. 449-455. МIТ Press.
Ghahramani, Z. and G. Е. Hinton (1996а). The ЕМ algorithm for rnixtures of factor analyzers.
Technical Report CRG-TR-96-1, University of Toronto.
Ghahramani, Z. and G. Е. Hinton (1996Ь). Parameter estimation for linear dynarnical systems.
Technical Report CRG-TR-96-2, University ofToronto.
Ghahramani, Z. and G. Е. Hinton (1998). Variational leaming for switching state-space
models. Neural Computation 12(4), 963-996.
936 БИБЛИОГРАФИЯ

Ghahramani, Z. and М. 1. Jordan (1994). Supervised learning from incomplete data via an ЕМ

appproach. ln J. D. Cowan, G. Т. Tesauro, and J. Alspector (Eds.), Advaпces iп Neura/ Iп­


formatioп Processiпg Systems, Volume 6, рр. 120-127. Morgan Kaufmann.
Ghahramani, Z. and М. 1. Jordan (1997). Factorial hidden Markov models. Machiпe Learniпg 29,
245-275.
Gibbs, М. N. (1997). Bayesiaп Gaussiaп processes for regressioп апd classificatioп. Phd
thesis, University of Cambridge.
Gibbs, М. N. and D. J. С. МасКау (2000). Variational Gaussian process classifiers. IEEE
Traпsactioпs оп Neural Networks 11, 1458-1464.
Gilks, W. R. (1992). Derivative-free adaptive rejection sampling for Gibbs sampling. ln
J. Bemardo, J. Berger, А. Р. Dawid, and А. F. М. Smith (Eds.), Bayesiaп Statistics, Volu-
me 4. Oxford University Press.
Gilks, W. R., N. G. Best, and К. К. С. Tan (1995). Adaptive rejection Metropolis sampling.
Applied Statistics 44, 455-472.
Gilks, W. R., S. Richardson, and D. J. Spiegelhalter (Eds.) (1996). Markov Chaiп Мопtе Carlo
iп Practice. Chapman and Hall.
Gilks, W. R. and Р. Wild (1992). Adaptive rejection sampling for Gibbs sampling. Applied
Statistics 41, 337-348.
Gill, Р. Е., W. Murray, and М. Н. Wright (1981). Practical Optimizatioп. Academic Press.
Goldberg, Р. W., С. К. 1. Williams, and С. М. Bishop (1998). Regression with input-
dependent noise: А Gaussian process treatment. ln Advaпces iп Neural Iпformatioп Pro-
cessiпg Systems, Volume 10, рр. 493-499. МIТ Press.
Golub, G. Н. and С. F. Van Loan (1996). Matrix Computatioпs (Third ed.). John Hopkins
University Press.
Good, 1. ( 1950). ProbaЬility апd the Weighiпg of Evideпce. Hafners.
Gordon, N. J" D. J. Salmond, and А. F. М. Smith (1993). Novel approach to nonlinear/non-
Gaussian Bayesian state estimation. !ЕЕ Proceediпgs-F 140(2), 107-113.
Graepel, Т. (2003). Solving noisy linear operator equations Ьу Gaussian processes: Applica-
tion to ordinary and partial differential equations. In Proceediпgs of the Tweпtieth Iпterna­

tioпal Сопfеrепсе оп Machiпe Learniпg, рр. 234-241.


Greig, D., В. Porteous, and А. Seheult (1989). Exact maximum a-posteriori estimation for Ьi­

nary images. Journal ofthe Royal Statistical Society, Series В 51(2), 271-279.
Gull, S. F. (1989). Developments in maximum entropy data analysis. ln J. Skilling (Ed.), Maxi-
mum Eпtropy апd Bayesiaп Methods, рр. 53-71. Кluwer.
БИБЛИОГРАФИЯ 937

HassiЬi, В. and D. G. Stork (1993). Second order derivatives for network pruning: optimal
brain surgeon. In S. J. Hanson, J. D. Cowan, and С. L. Giles (Eds.), Advances in Neural In-
formation Processing Systems, Volume 5, рр. 164-171. Morgan Kaufmann.
Hastie, Т. and W. Stuetzle (1989). Principal curves. Journal of the American Statistical Asso-
ciation 84(106), 502-516.
Hastie, Т" R. Тibshirani, and J. Friedman (2001). The Elements of Statistica/ Learning.
Springer.
Hastings, W. К. (1970). Monte Carlo sampling methods using Markov chains and their appli-
cations. Biometrika 57, 97-109.
Hathaway, R. J. (1986). Another interpretation ofthe ЕМ algorithm for mixture distributions.
Statistics and Probabllity Letters 4, 53-56.
Haussler, D. (1999). Convolution kemels on discrete structures. Technical Report UCSC-
CRL-99-1 О, University of Califomia, Santa Cruz, Computer Science Department.
Henrion, М. (1988). Propagation of uncertainty Ьу Jogic sampling in Bayes' networks. In
J. F. Lemmer and L. N. Kanal (Eds.), Uncertainty in Artificial Inte//igence, Volume 2,
рр. 149-164. North Holland.
Herbrich, R. (2002). Learniпg Kernel C/assijiers. МIТ Press.
Hertz, J" А. Кrogh, and R. G. Palmer (1991). Introduction to the Тheory of Neural Computa-
tion. Addison Wesley.
Нinton, G. Е" Р. Dayan, and М. Revow (1997). Modelling the manifolds of images of hand-
written digits. IEEE Traпsactions оп Neural Networks 8(1), 65-74.
Hinton, G. Е. and D. van Camp (1993). Keeping neural networks simple Ьу rninimizing the
description Jength of the weights. In Proceediпgs of the Sixth Аппиа/ Confereпce оп Com-
putational Learniпg Тheory, рр. 5-13. АСМ.

Hinton, G. Е" М. Welling, У. W. Teh, and S. Osindero (2001). А new view of ICA. In Pro-
ceedings of the Internatioпal Conference оп Jndependent Сотропепt Analysis and Вlind
Signal Separation, Volume 3.
Hodgson, М. Е. (1998). Reducing computational requirements of the minimum-distance classi-
fier. Remote Sensiпg of Environments 25, 117-128.
Hoerl, А. Е. and R. Kennard (1970). Ridge regression: Ьiased estimation for nonorthogonal
proЫems. Technometrics 12, 55-67.
Hofmann, Т. (2000). Learning the sirnilarity of documents: an information-geometric approach to
document retrieval and classification. In S. А. Solla, Т. К. Leen, and К. R. MU.ller (Eds.), Ad-
vances in Neural Information Processing Systems, Volume 12, рр. 914-920. МIТ Press.
938 БИБЛИОГРАФИЯ

Hojen-Sorensen, Р. А., O.Winther, and L. К. Hansen (2002). Mean field approaches to inde-
pendent component analysis. Neural Computation 14(4), 889-918.
Homik, К. (1991). Approximation capabilities of multilayer feedforward networks. Neural
Networks 4(2), 251-257.
Homik, К., М. Stinchcombe, and Н. White (1989). Multilayer feedforward networks are uni-
versal approximators. Neural Networks 2(5), 359-366.
Hotelling, Н. (1933). Analysis of а complex of statistical variaЫes into principal components.
Journal ofEducational Psychology 24, 417-441.
Hotelling, Н. (1936). Relations between two sets ofvariaЫes. Biometrika 28, 321-377.
Hyviirinen, А. and Е. Oja (1997). А fast fixed-point algorithm for independent component
analysis. Neural Computation 9(7), 1483-1492.
lsard, М. and А. Blake (1998). CONDENSATION - conditional density propagation for vis-
ual tracking. International Journal ofComputer Vision 29(1), 5.18.
lto, У. (1991). Representation offunctions Ъу superpositions ofa step or sigmoid function and
their applications to neural network theory. Neural Networks 4(3), 385-394.
Jaakkola, Т. and М. 1. Jordan (2000). Bayesian parameter estimation via variational methods.
Statistics and Computing 10, 25-37.
Jaakkola, Т. S. (2001). Tutorial on variational approximation methods. ln М. Opper and
D. Saad (Eds.), Advances in Меап Field Methods, рр. 129-159. МIТ Press.
Jaakkola, Т. S. and D. Haussler (1999). Exploiting generative models in discriminative classi-
fiers. ln М. S. Keams, S. А. Solla, and D. А. Cohn (Eds.), Advances in Neural lnformation
Processing Systems, Volume 11. МIТ Press.
Jacobs, R. А., М. 1. Jordan, S. J. Nowlan, and G. Е. Hinton (1991). Adaptive mixtures oflocal
experts. Neural Computation 3(1), 79-87.
Jaynes, Е. Т. (2003). Probabllity Theory: The Logic of Science. Cambridge University Press.
Jebara, Т. (2004). Machine Learning: Discriminative and Generative. Кluwer.

Jeffreys, Н. (1946). An invariant form for the prior probaЬility in estimation proЫems. Pro.
Roy. Soc. АА 186, 453-461.
Jelinek, F. (1997). Statistical Methodsfor Speech Recognition. МIТ Press.
Jensen, С., А. Kong, and U. Kjaerulff (1995). Blocking gibbs sampling in very large probaЬi­
listic expert systems. International Journal of Нитап Computer Studies. Special /ssue оп

Real-World Applications of Uncertain Reasoning. 42, 647-666.


Jensen, F. V. (1996). Ап Introduction to Bayesian Networks. UCL Press.
БИБЛИОГРАФИЯ 939

Jerrum, М. and А. Sinclair (1996). Тhе Markov chain Monte Carlo method: an approach to
approximate counting and integration. ln D. S. Hochbaurn (Ed.), Approximation Algo-
rithmsfor NP-Hard Prohlems. PWS PuЬlishing.

Jolliffe, 1. Т. (2002). Principal Component Analysis (Second ed.). Springer.


Jordan, М. 1. (1999). Learning in Graphical Mode/s. МIТ Press.
Jordan, М. 1. (2007). Ап Introduction to Probabl/istic Graphical Mode/s. In preparation.
Jordan, М. 1" Z. Ghahramani, Т. S. Jaakkola, and L. К. Saul (1999). An introduction to varia-
tional methods for graphical models. ln М. I. Jordan (Ed.), Learning in Graphical Models,
рр. 105-162. МIТ Press.
Jordan, М. 1. and R. А. Jacobs (1994). Hierarchical mixtures ofexperts and the ЕМ algorithm.
Neural Computation 6(2), 181-214.
Jutten, С. and J. Herault (1991). Blind separation ofsources, 1: An adaptive algorithm based
on neuromimetic architecture. Signa/ Processing 24(1), 1-10.
Kalman, R. Е. (1960). А new approach to linear filtering and prediction proЫems. Transac-
tions of the American Society for Mechanical Engineering, Series D, Journal of Basic En-
gineering 82, 35-45.
Kambhatla, N. and Т. К. Leen (1997). Dimension reduction Ьу local principal component
analysis. Neural Computation 9(7), 1493-1516.
Kanazawa, К" D. Koller, and S. Russel (1995). Stochastic simulation algorithms for dynamic
probaЬilistic networks. ln Uncertainty in Artificial Intelligence, Volume 11. Morgan
Kaufmann.
Kapadia, S. ( 1998). Discriminative Training of Нidden Markov Models. Phd thesis, University
ofCambridge, U.K.
Kapur, J. (1989). Maximum entropy methods in science and engineering. Wiley.
Karush, W. (1939). Minima of functions of several variaЫes with inequalities as side con-
straints. Master's thesis, Department ofMathematics, University ofChicago.
Kass, R. Е. and А. Е. Raftery (1995). Bayes factors. Journal of the American Statistical Asso-
ciation 90, 377-395.
Keams, М. J. and U. V. Vazirani (1994). Ап Introduction to Computational Learning Theory.
МIТ Press.
Кindermann, R. and J. L. Snell (1980). Markov Random Fields and Their App/ications. Ame-
rican Mathematical Society.
Кittler, J. and J. Fбglein (1984). Contextual classification of multispectral pixel data. Jmage
and Vision Computing 2, 13-29.
940 БИБЛИОГРАФИЯ

Kohonen, Т. (1982). Self-organized formation of topologically correct feature maps. Biologi-


cal Cybernetics 43, 59-69.
Kohonen, Т. (1995). Self-Orgaпiziпg Maps. Springer.
Kolmogorov, V. and R. ZaЬih (2004). What energy functions can Ье minimized via graph
cuts? IEEE Traпsactioпs оп Pattern Aпalysis апd Machiпe Iпtelligeпce 26(2), 147-159.
Кreinovich, V. У. (1991). ArЬitrary nonlinearity is sufficient to represent all functions Ьу neu-
ral networks: а theorem. Neural Networks 4(3), 381-383.
Кrogh, А., М. Brown, 1. S. Mian, К. Sjolander, and D. Haussler (1994). Нidden Markov models
in computational Ьiology: Applications to protein modelling. Jourпal of Molecular Biology
235, 1501-1531.
Kschischnang, F. R., В. J. Frey, and Н. А. Loeliger (2001). Factor graphs and the sum-product
algorithm. JEEE Traпsactioпs оп Iпformatioп Тheory 47(2), 498-519.
Kuhn, Н. W. and А. W. Tucker (1951). Nonlinear prograrnming. In Proceediпgs of the 2пd

Berkeley Symposium оп Mathematical Statistics апd Probabllities, рр. 481--492. University


of Califomia Press.
Kullback, S. and R. А. LeiЫer (1951). On information and sufficiency. Аппаls of Mathemati-
cal Statistics 22(1), 79-86.
Kйrkova, V. and Р. С. Kainen (1994). Functionally equivalent feed-forward neural networks.
Neural Computatioп 6(3), 543-558.
Kuss, М. and С. Rasmussen (2006). Assessing approxirnations for Gaussian process classifica-
tion. In Advaпces iп Neural lnformatioп Processiпg Systems, Number 18. МIТ Press. in press.
Lasserre, J., С. М. Bishop, and Т. Minka (2006). Principled hybrids of generative and discrim-
inative models. In Proceediпgs 2006 IEEE Сопfеrепсе оп Computer Visioп апd Pattern
Recogпitioп, New York.
Lauritzen, S. and N. Wermuth (1989). Graphical models for association between variaЫes,

some ofwhich are qualitative some quantitative. Аппаls of Statistics 17, 31-57.
Lauritzen, S. L. ( 1992). Propagation of probaЬilities, means and variances in mixed graphical
association models. Jourпal ofthe Americaп Statistical Associatioп 87, 1098-1108.
Lauritzen, S. L. (1996). Graphical Models. Oxford University Press.
Lauritzen, S. L. and D. J. Spiegelhalter (1988). Local computations with probabailities оп
graphical structures and their application to expert systems. Journal of the Royal Statistica/
Society 50, 157-224.
БИБЛИОГРАФИЯ 941

Lawley, D. N. (1953). А modified method of estimation in factor analysis and some large sam-
ple results. In Uppsala Symposium оп Psychologica/ Factor Analysis, Number 3 in Nordisk
Psykologi Monograph Series, рр. 35-42. Uppsala: Almqvist and Wiksell.
Lawrence, N. D., А. 1. Т. Rowstron, С. М.Bishop, and М. J. Taylor (2002). Optimising synchro-
nisation times for moЬile devices. In Т. G. Dietterich, S. Becker, and Z. Ghahramani (Eds.),
Advances in Neural Information Processing Systems, Volume 14, рр. 1401-1408. МIТ Press.
Lazarsfeld, Р. F. and N. W. Нету (1968). Latent Structure Analysis. Houghton Mifflin.
Le Cun, У" В. Boser, J. S. Denker, D. Henderson, R. Е. Howard, W. Hubbard, and L. D.

Jackel (1989). Backpropagation applied to handwritten zip code recognition. Neural Com-
putation 1(4), 541-551.
Le Cun, У" J. S. Denker, and S. А.
Solla (1990). Optimal brain damage. In D. S. Touretzky
(Ed.), Advances in Neural Information Processing Systems, Volume 2, рр. 598-605.
Morgan Kaufmann.
Le Cun, У" L. Bottou, У. Bengio, and Р. Haffner (1998). Gradient-based learning applied to
document recognition. Proceedings of the /ЕЕЕ 86, 2278-2324.
Lee, Lin, and G.Wahba (2001). Multicategory support vector machines. Technical Re-
У" У.

port 1040, Department of Statistics, University of Madison, Wisconsin.


Leen, Т. К. (1995). From data distributions to regularization in invariant learning. Neural
Computation 1, 974-981.
Lindley, D. V. (1982). Scoring rules and the inevitaЬility ofprobaЬility. Internationa/ Statisti-
cal Review 50, 1-26.
Liu, J. S. (Ed.) (2001). Monte Car/o Strategies in Scientific Computing. Springer.
Lloyd, S. Р. (1982). Least squares quantization in РСМ. IEEE Transactions оп Information
Тheory 28(2), 129-137.
LШkepohl, Н. (1996). Handbook ofMatrices.Wiley.
МасКау, D. J. С. (1992а). Bayesian interpolation. Neural Computation 4(3), 415-447.
МасКау, D. J. С. (1992Ь). Тhе evidence framework applied to classification networks. Neural
Computation 4(5), 720-736.
МасКау, D. J. С. (1992с). А practical Bayesian framework for back-propagation networks.
Neural Computation 4(3), 448-472.
МасКау, (1994). Bayesian methods for backprop networks. In Е. Domany, J. L. van
D. J. С.

Hemmen, and К. Schulten (Eds.), Models of Neura/ Networks, ///, Chapter 6, рр. 211-254.
Springer.
942 БИБЛИОГРАФИЯ

МасКау, D. J. С. (1995). Bayesian neural networks and density networks. Nuclear Iпstru­

meпts апd Methods iп Physics Research, А 354(1), 73-80.


МасКау, D. J. С. (1997). EnsemЫe leaming for hidden Markov models. UnpuЫished manu-
script, Department of Physics, University of Cambridge.
МасКау, D. J. С. (1998). Introduction to Gaussian processes. In С. М. Bishop (Ed.), Neural
Networks апd Machiпe Learniпg, рр. 133-166. Springer.
МасКау, D. J. С. (1999). Comparison of approximate methods for handling hyperparameters.
Neura/ Computatioп 11(5), 1035-1068.
МасКау, D. J. С. (2003). Informatioп Theory, Iпfereпce апd Learniпg Algorithms. Cambridge
University Press.
МасКау, D. J. С. and М. N. Gibbs (1999). Density networks. In J. W. Кау and D. М. Titter-
ington (Eds.), Statistics апd Neural Networks: Advaпces at the Iпterface, Chapter 5,
рр. 129-145. Oxford University Press.
МасКау, D. J. С. and R. М. Neal (1999). Good errorcorrecting codes based on very sparse
matrices. IEEE Traпsactioпs оп Iпformation Тheory 45, 399-431.
MacQueen, J. (1967). Some methods for classification and analysis of multivariate observations.
In L. М. LeCam and J. Neyman (Eds.), Proceediпgs ofthe Fifth Berkeley Symposium оп Math-
ematical Statistics апd Probabllity, Volume 1, рр. 281-297. University ofCalifornia Press.
Magnus, J. R. and Н. Neudecker (1999). Matrix Differeпtial Calculus with Applicatioпs iп Sta-
tistics апd Ecoпometrics. Wiley.
Mallat, S. (1999). А Wave/et Tour of Signal Processiпg (Second ed.). Academic Press.
Manning, С. D. and Н. Schiitze (1999). Fouпdatioпs of Statistical Natural Laпguage Pro-
cessiпg. МIТ Press.
Mardia, К. V. and Р. Е. Jupp (2000). Directioпal Statistics. Wiley.
Maybeck, Р. S. (1982). Stochastic models, estimatioп апd coпtrol. Acadernic Press. McAllester,
D. А. (2003). PAC-Bayesian stochastic model selection. Machiпe Learniпg 51(1), 5-21.
McCullagh, Р. and J. А. Nelder (1989). Geпeralized Liпear Models (Second ed.). Chapman
and Hall.
McCulloch, W. S. and W. Pitts (1943). А logical calculus ofthe ideas immanent in nervous ac-
tivity. Bulletiп of Mathematical Biophysics 5, 115-133. Reprinted in Anderson and Rosen-
feld (1988).
McEliece, R. J" D. J. С. МасКау, and J. F. Cheng (1998). Turbo decoding as an instance of
Pearl's 'Belief Ppropagation' algorithm. IEEE Journal оп Selected Areas iп Commuпica­

tioпs 16, 140-152.


БИБЛИОГРАФИЯ 943

McLachlan, G. J. and К. Е. Basford (1988). Mixture Models: Inference and Applications to


Clustering. Marcel Dekker.
McLachlan, G. J. and Т. Кrishnan (1997). Тhе ЕМ A/gorithm and its Extensions. Wiley.
McLachlan, G. J. and D. Peel (2000). Finite Mixture Mode/s. Wiley.
Meng, Х. L. and D. В. RuЬin (1993). Maximum likelihood estimation via the ЕСМ algorithm:
а general framework. Biometrika 80, 267-278.
Metropolis, N" А. W. RosenЫuth, М. N. RosenЫuth, А. Н. Teller, and Е. Teller (1953). Equa-
tion of state calculations Ьу fast computing machines. Journal of Chemical Physics 21(6),
1087-1092.
Metropolis, N. and S. Ulam (1949). The Monte Carlo method. Journal ofthe American Statis-
tical Association 44(247), 33 5-341.
Mika, S" G. Ratsch, J. Weston, and В. Schбlkopf (1999). Fisher discriminant analysis with
kernels. In У. Н. Ни, J. Larsen, Е. Wilson, and S. Douglas (Eds.), Neural Networks for
Signal Processing IX, рр. 41-48. IEEE.
Minka, Т. (1998) Infeттing а Gaussian distribution. МIТ Media Lab note. AvailaЫe from
http://research.microsoft.com/-minka/.
Minka, Т. (2001а). Expectation propagation for approximate Bayesian inference. In J. Breese
and D. Koller (Eds.), Proceedings of the Seventeenth Conference оп Uncertainty in Artifi-
cial Intelligence, рр. 362-369. Morgan Kaufmann.
Minka, Т. (2001 Ь). А family ofapproximate algorithms for Bayesian inference. Ph. D. thesis, МIТ.
Minka, Т. (2004). Power ЕР. Technical Report MSR-TR-2004-149, Microsoft Research Cam-
bridge.
Minka, Т. (2005). Divergence measures and message passing. Technical Report MSR-TR-
2005-173, Microsoft Research Cambridge.
Minka, Т. Р. (2001с). Automatic choice of dimensionality for РСА. In Т. К. Leen, Т. G. Diet-
terich, and V. Tresp (Eds.), Advances in Neural Jnformation Processing Systems, Volume
13, рр. 598-604. МIТ Press.
Minsky, М. L. and S. А. Papert (1969). Perceptrons. МIТ Press. Expanded edition 1990.
Miskin, J. W. and D. J. С. МасКау (2001). EnsemЫe learning for Ыind source separation.
In S. J. Roberts and R. М. Everson (Eds.), Independent Component Analysis: Principles
and Practice. Cambridge University Press.
M0ller, М. (1993). Efficient Training ofFeed-Forward Neural Networks. Ph. D. thesis, Aarhus
University, Denmark.
944 БИБЛИОГРАФИЯ

Moody, J. and С. J. Darken (1989). Fast leaming in networks oflocally-tuned processing units.
Neural Computatioп 1(2), 281-294.
Moore, А. W. (2000). The anchors hierarch: using the triangle inequality to survive high di-
mensional data. In Proceediпgs of the Twelfth Confereпce оп Uпcertaiпty iп Artificial lп­
telligeпce, рр. 397-405.
Miiller, К. R" S. Mika, G. Riitsch, К. Tsuda, and В. Schбlkopf (2001 ). An introduction to ker-
nelbased leaming algorithms. IEEE Traпsactioпs оп Neural Networks 12(2), 181-202.
Miiller, Р. and F. А. Quintana (2004). Nonparametric Bayesian data analysis. Statistical Sci-
eпce 19(1), 95-110.
Nabney, 1. Т. (2002). Netlab: Algorithmsfor Pattern Recognitioп. Springer.
Nadaraya, Е. А. (1964). On estimating regression. Theory of Probahi/ity апd its App/icatioпs
9(1), 141-142.
Nag, R" К. Wong, and F. Fallside (1986). Script recognition using hidden markov models. ln
ICASSP86, рр. 2071-2074. IEEE.
Neal, R. М. (1993). ProbaЬilistic inference using Markov chain Monte Carlo methods. Technical
Report CRG-TR-93-1, Department ofComputer Science, University ofToronto, Canada.
Neal, R. М. (1996). Bayesiaп Learniпgfor Neura/ Networks. Springer. Lecture Notes in Statis-
tics 118.
Neal, R. М. ( 1997). Monte Carlo implementation of Gaussian process models for Bayesian re-
gression and classification. Technical Report 9702, Department of Computer Statistics,
University ofToronto.
Neal, R. М. (1999). Suppressing random walks in Markov chain Monte Carlo using ordered
overrelaxation. In М. 1. Jordan (Ed.), Learпiпg iп Graphica/ Mode/s, рр. 205-228.
МIТ Press.
Neal, R. М. (2000). Markov chain sampling for Dirichlet process mixture models. Journa/ of
Computatioпa/ апd Graphica/ Statistics 9, 249-265.
Neal, R. М. (2003). Slice sampling. Аппа/s of Statistics 31, 705-767.
Neal, R. М. and G. Е. Hinton (1999). А new view ofthe ЕМ algorithm thatjustifies incremen-
tal and other variants. ln М. 1. Jordan (Ed.), Learniпg iп Graphica/ Mode/s, рр. 355-368.
МIТ Press.
Nelder, J. А. and R.W. M.Wedderbum (1972). Generalized linear models. Journa/ of the
Royal Statistica/ Society, А 135, 370-384.
Nilsson, N. J. (1965). Learniпg Machiпes. McGraw-Hill. Reprinted as The Mathematical
Fouпdatioпs ofLearniпg Machiпes, Morgan Kaufmann, (1990).
БИБЛИОГРАФИЯ 945

Nocedal, J. and S. J. Wright (1999). Numerical Optimization. Springer.


Nowlan, S. J. and G. Е. Hinton (1992). Simplifying neural networks Ьу soft weight sharing.
Neural Computation 4(4), 473--493.
Ogden, R. Т. (1997). Essential Wavelets for Statistical App/ications and Data Analysis.
Birkhauser.
Opper, М. and О. Winther (1999). А Bayesian approach to on-line learning. ln D. Saad (Ed.),
On-Line Learning in Neural Networks, рр. 363-378. Cambridge University Press.
Opper, М. and О. Winther (2000а). Gaussian processes and SVМ: mean field theory and
leave-one-out. In А. J. Smola, Р. L. Bartlett, В. Schбlkopf, and D. Shuurmans (Eds.),
Advances in Large Margin Classifiers, рр. 311-326. МIТ Press.
Opper, М. and О. Winther (2000Ь). Gaussian processes for classification. Neural Computation
12(11), 2655-2684.
Osuna, Е., R. Freund, and F. Girosi (1996). Support vector machines: training and applica-
tions. А.1. Memo AIM-1602, МIТ.

Papoulis, А. (1984). Probahility, Random Variahles, and Stochastic Processes (Second ed.).
McGraw-Hill.
Parisi, G. (1988). Statistical Field Theory. Addison-Wesley.
Pearl, J. (1988). Probahilistic Reasoning in Inte/ligent Systems. Morgan Kaufmann.
Pearlmutter, В. А. (1994). Fast exact multiplication Ьу the Hessian. Neural Computation 6(1),
147-160.
Pearlmutter, В. А. and L. С. Parra (1997). Maximum likelihood source separation: а context-
sensitive generalization of ICA. In М. С. Mozer, М. I. Jordan, and Т. Petsche (Eds.), Ad-
vances in Neural Information Processing Systems, Volume 9, рр. 613--619. МIТ Press.
Pearson, К. ( 1901 ). On lines and planes of closest fit to systems of points in space. Тhе London,
Edinburgh and Duhlin Philosophica/ Magazine and Journal of Science, Sixth Series 2, 559-
572.
Platt, J. С.
(1999). Fast training of support vector machines using sequential rninirnal optirniza-
tion. ln В. Scholkopf, С. J. С. Burges, and А. J. Smola (Eds.), Advances in Кете/ Methods -
Support Vector Learning, рр. 185-208. МIТ Press.
Platt, J. С. (2000). ProbaЬilities for SV machines. In А. J. Smola, Р. L. Bartlett, В. Schбlkopf,

and D. Shuurmans (Eds.), Advances in Large Margin Classifiers, рр. 61-73. МIТ Press.
Platt, J. С., N. Cristianini, and J. Shawe-Taylor (2000). Large margin DAGs for multiclass
classification. In S. А. Solla, Т. К. Leen, and К. R. Miiller (Eds.), Advances in Neura/
Information Processing Systems, Volume 12, рр. 547-553. МIТ Press.
946 БИБЛИОГРАФИЯ

Poggio, Т. and F. Girosi (1990). Networks for approximation and learning. Proceediпgs ofthe
IEEE 78(9), 1481-1497.
Powell, М. J. D. (1987). Radial basis functions for multivariaЫe interpolation: а review.
ln J. С. Mason and М. G. Сох (Eds.), Algorithmsfor Approximatioп, рр. 143-167. Oxford
University Press.
Press, W. Н., S. А. Teukolsky, W. Т. Vetterling, and В. Р. Flannery (1992). Numerica/ Recipes
iп С: The Art of Scieпtific Computiпg (Second ed.). Cambridge University Press.
Qazaz, С. S., С. К. 1. Williams, and С. М. Bishop (1997). An upper bound on the Bayesian error
bars for generalized linear regression. In S. W. Ellacott, J. С. Mason, and 1. J. Anderson (Eds.),
Mathematics ofNeural Networb: Mode/s, A/gorithms апd Applications, рр. 295-299. Кluwer.
Quinlan, J. R. (1986). lnduction of decision trees. Machiпe Learniпg 1(1 ), 81-106.
Quinlan, J. R. (1993). С4.5: Programsfor Machiпe Learniпg. Morgan Kaufmann.
Rabiner, L. and В. Н. Juang (1993). Fuпdameпta/s of Speech Recogпitioп. Prentice Hall.
RaЬiner, L. R. (1989). А tutorial on hidden Markov models and selected applications in speech
recognition. Proceediпgs of the IEEE 77(2), 257-285.
Ramasubramanian, V. and К. К. Paliwal (1990). А generalized optimization ofthe k-d tree for
fast nearest-neighbour search. ln Proceediпgs Fourth IEEE Regioп 10 Iпterпatioпal Соп­
fеrепсе (ТENCON'89), рр. 565-568.
Ramsey, F. (1931). Truth and probaЬility. ln R. Braithwaite (Ed.), The Fouпdatioпs of Mathe-
matics апd other Logical Essays. Humanities Press.
Rao, С. R. and S. К. Mitra (1971). Geпeralized Iпverse of Matrices апd Its Applicatioпs.
Wiley.
Rasmussen, С. Е. ( 1996). Evaluatioп of Gaussiaп Processes апd Other Methods for Noп­

Liпear Regressioп. Ph. D. thesis, University of Toronto.


Rasmussen, С. Е. and J. Quiiionero-Candela (2005). Healing the relevance vector machine Ьу
augmentation. ln L. D. Raedt and S. Wrobel (Eds.), Proceediпgs of the 22пd Iпternatioпal

Confereпce оп Machiпe Learniпg, рр. 689-696.


Rasmussen, С. Е. and С. К. 1. Williams (2006). Gaussiaп Processes for Machiпe Learniпg.

МIТ Press.
Rauch, Н. Е., F. Tung, and С. Т. Striebel (1965). Maximum likelihood estimates of linear dy-
namical systems. AIAA Journal 3, 1445-1450.
Ricotti, L. Р., S. Ragazzini, and G. Martinelli (1988). Learning ofword stress in а sub-optimal
second order backpropagation neural network. In Proceediпgs of the IEEE International
Confereпce оп Neural Networks, Volume 1, рр. 355-361. IEEE.
БИБЛИОГРАФИЯ 947

Ripley, В. D. (1996). Pattern Recognition and Neura/ Networks. Cambridge University Press.
RobЬins, Н. and S. Monro (1951). А stochastic approximation method. Annals of Mathemati-
cal Statistics 22, 400-407.
Robert, С. Р. and G. Casella (1999). Monte Car/o Statistica/ Methods. Springer.
Rockafellar, R. (1972). Convex Ana/ysis. Princeton University Press.
RosenЫatt, F. ( 1962). Princip/es of Neurodynamics Perceptrons and the Тheory of Brain
Mechanisms. Spartan.
Roth, V. and V. Steinhage (2000). Nonlinear discriminant analysis using kemel functions.
In S. А. Solla, Т. К. Leen, and К. R. Miiller (Eds.), Advances in Neura/ Information Pro-
cessing Systems, Volume 12. МIТ Press.
Roweis, S. (1998). ЕМ algorithms for РСА and SPCA. In М. 1. Jordan, М. J. Kearns, and
S. А. Solla (Eds.), Advances in Neura/ Information Processing Systems, Volume 10,
рр. 626--632. МIТ Press.
Roweis, S. and Z. Ghahramani (1999). А unifying review of linear Gaussian models. Neura/
Computation 11(2), 305-345.
Roweis, S. and L. Saul (2000, December). Nonlinear dimensionality reduction Ьу locally linear
embedding. Science 290, 2323-2326.
RuЬin, D. В. (1983). lteratively reweighted least squares. In Encyc/opedia of Statistica/ Sci-
ences, Volume 4, рр. 272-275. Wiley.
RuЬin, D. В. and D. Т. Thayer (1982). ЕМ algorithms for ML factor analysis. Psychometrika
47(1), 69-76.
Rumelhart, D. Е" G. Е. Hinton, and R. J. Williarns (1986). Learning intemal representations Ьу

error propagation. In D. Е. Rumelhart, J. L. Mc-Clelland, and the PDP Research Group (Eds.),
Para//e/ Distributed Processing: Exp/orations in the Microstructure of Cognition, Volume 1:
Foundations, рр. 318-362. МIТ Press. Reprinted in Anderson and Rosenfeld (1988).
Rumelhart, D. Е" J. L. McClelland, and the PDP Research Group (Eds.) (1986). Paral/e/ Dis-
tributed Processing: Exp/orations in the Microstructure of Cognition, Volume 1: Founda-
tions. МIТ Press.
Sagan, Н. (1969). Introduction to the Ca/cu/us of Variations. Dover.
Savage, L. J. (1961). Тhе subjective basis ofstatistical practice. Technical report, Department
of Statistics, University of Michigan, Ann Arbor.
SchOlkopf, В" J. Platt, J. Shawe-Taylor, А. Smola, and R. C.Williamson (2001). Estimating
the support of а high-dimensional distribution. Neural Computation 13(7), 1433-1471.
948 БИБЛИОГРАФИЯ

Schбlkopf, В., А. Smola, and К.-R. Miiller (1998). Nonlinear component analysis as а kemel
eigenvalue proЫem. Neural Computatioп 1О(5), 1299-1319.
Schбlkopf, В., А. Smola, R. C.Williamson, and Р. L. Bartlett (2000). New support vector algo-
rithms. Neural Computatioп 12(5), 1207-1245.
Scholkopf, В. and А. 1. Smola (2002). Learniпg with Kerпels. МIТ Press.
Schwarz, G. ( 1978). Estimating the dimension of а model. Аппаls of Statistics 6, 461-464.
Schwarz, Н. R. (l 988). Fiпite elemeпt methods. Academic Press.
Seeger, М. (2003). Bayesiaп Gaussiaп Process Models: PAC-Bayesiaп Geпeralizatioп Error
Bouпds апd Sparse Approximatioпs. Ph. D. thesis, University ofEdinburg.
Seeger, М., С. К. I. Williams, and N. Lawrence (2003). Fast forward selection to speed up
sparse Gaussian processes. In С. М. Bishop and В. Frey (Eds.), Proceediпgs Niпth Iпterna­

tioпal Workshop оп Artificial Iпtelligeпce апd Statistics, Кеу West, Florida.


Shachter, R. D. and М. Peot (1990). Simulation approaches to general probaЬilistic inference
on beliefnetworks. In Р. Р. Bonissone, М. Henrion, L. N. Kanal, and 1. F. Lemmer (Eds.),
Uпcertaiпty iп Artificial Iпtelligeпce, Volume 5. Elsevier.
Shannon, С. Е. (1948). А mathematical theory of communication. The Bell System Techпical
Journal 27(3), 379-423 and 623--656.
Shawe-Taylor, 1. and N. Cristianini (2004). Kernel Methods for Pattern Aпalysis. Cambridge
University Press.
Sietsma, 1. and R. 1. F. Dow (1991). Creating artificial neural networks that generalize. Neural
Networks 4(1), 67-79.
Simard, Р., У. Le Cun, and 1. Denker (1993). Efficient pattem recognition using а new trans-
formation distance. In S. 1. Hanson, 1. D. Cowan, and С. L. Giles (Eds.), Advaпces iп
Neural Iпformatioп Processiпg Systems, Volume 5, рр. 50--58. Morgan Kaufmann.
Simard, Р., В. Victorri, У. Le Cun, and 1. Denker (1992). Tangent prop - а formalism for
specifying selected invariances in an adaptive network. In 1. Е. Moody, S. 1. Hanson, and
R. Р. Lippmann (Eds.), Advaпces iп Neural Iпformatioп Processiпg Systems, Volume 4,
рр. 895-903. Morgan Kaufmann.
Simard, Р. У., D. Steinkraus, and 1. Platt (2003). Best practice for convolutional neural net-
works applied to visual document analysis. In Proceediпgs Iпternatioпal Сопfеrепсе оп
Documeпt Aпalysis апd Recogпitioп (ICDAR), рр. 958-962. IEEE Computer Society.
Sirovich, L. (1987). Turbulence and the dynamics of coherent structures. Quarterly Applied
Mathematics 45(3), 561-590.
БИБЛИОГРАФИЯ 949

Smola, А. J. and Р. Bartlett (2001). Sparse greedy Gaussian process regression. In Т. К. Leen,
Т. G. Dietterich, and V. Tresp (Eds.), Advaпces iп Neura/ Iпformatioп Processiпg Systems,
Volume 13, рр. 619--625. МIТ Press.
Spiegelhalter, D. and S. Lauritzen (1990). Sequential updating of conditional probabilities on
directed graphical structures. Networks 20, 579-605.
Stinchecombe, М. and Н. White (1989). Universal approximation using feed-forward networks
with non-sigmoid hidden layer activation functions. In Iпternatioпal Joiпt Сопfеrепсе оп

Neural Network.s, Volume 1, рр. 613--618. IEEE.


Stone, J. V. (2004). Iпdepeпdeпt Сотропепt Aпalysis: А Tutorial Iпtroductioп. МIТ Press.
Sung, К. К. and Т. Poggio (1994). Example-based leaming for view-based human face detec-
tion. A.I. Memo 1521, МIТ.
Sutton, R. S. and А. G. Barto (1998). Reiпforcemeпt Learniпg: Ап Jпtroductioп. МIТ Press.
Svensen, М. and С. М. Bishop (2004). Robust Bayesian mixture modelling. Neurocomputiпg 64,
235-252.
Tarassenko, L. (1995). Novelty detection for the identification of masses in mamograms.
In Proceediпgs Fourth !ЕЕ Iпternatioпal Сопfеrепсе оп Artificial Neural Networks,
Volume 4, рр. 442-447. IEE.
Тах, D. and R. Duin (1999). Data domain description Ьу support vectors. In М. Verleysen
(Ed.), Proceediпgs Еиrореап Symposium оп Artificial Neural Networks, ESANN, рр. 251-
256. D. Facto Press.
Teh, У. W., М. 1. Jordan, М. J. Beal, and D. М. Blei (2006). Hierarchical Dirichlet processes.
Journal of the Americal Statistical Associatioп. to appear.
Tenenbaum, J. В" V. de Silva, and J. С. Langford (2000, December). А global framework for
nonlinear dimensionality reduction. Scieпce 290, 2319-2323.
Tesauro, G. (1994). TD-Gammon, а self-teaching backgammon program, achieves master-
level play. Neural Computatioп 6(2), 215-219.
Thiesson, В., D. М. Chickering, D. Heckeпnan, and С. Meek (2004). АRМА time-series mod-
elling with graphical models. In М. Chickering and J. Halpem (Eds.), Proceediпgs of the
Tweпtieth Сопfеrепсе оп Uncertainty in Artificia/ Iпtelligeпce, Вапf!, Сапаdа, рр. 552-
560. AUAI Press.
Тibshirani, R. (1996). Regression shrinkage and selection via the lasso. Journal of the Royal
Statistical Society, В 58, 267-288.
Tiemey, L. (1994). Markov chains for exploring posterior distributions. Aпnals of Statistics
22(4), 1701-1762.
950 БИБЛИОГРАФИЯ

Tikhonov, А. N. and V. У. Arsenin (1977). Solutioпs ofIll-Posed Prohlems. V. Н. Winston.


Tino, Р. and 1. Т. Nabney (2002). Hierarchical GTM: constructing localized non-linear projec-
tion manifolds in а principled way. IEEE Traпsactioпs оп Pattern Aпalysis апd Machiпe

Iпtelligeпce 24(5), 639-656.


Tino, Р., 1. Т. Nabney, and У. Sun (2001). Using directional curvatures to visualize folding patterns
ofthe GTM projection manifolds. In G. Dorffner, Н. Bischof, and К. Hornik (Eds.), Artificial
Neural Networks - ICANN 2001, рр. 421-428. Springer.
Tipping, М. Е. (1999). ProbaЬilistic visualisation of high-dimensional Ьinary data. ln М. S.
Kearns, S. А. Solla, and D. А. Cohn (Eds.), Advaпces iп Neural lnformatioп Processiпg
Systems, Volume 11, рр. 592-598. МIТ Press.
Тipping, М. Е. (2001). Sparse Bayesian learning and the relevance vector machine. Journal of
Machiпe Learniпg Research 1, 211-244.
Tipping, М. Е. and С. М. Bishop (1997). ProbaЬilistic principal component analysis. Technical
Report NCRG/97/010, Neural Computing Research Group, Aston University.
Tipping, М. Е. and С. М. Bishop (1999а). Mixtures of probaЬilistic principal component ana-
lyzers. Neural Computatioп 11(2), 443-482.
Tipping, М. Е. and С. М. Bishop (1999Ь). ProbaЬilistic principal component analysis. Journal
ofthe Royal Statistical Society, Series В 21(3), 611-622.
Tipping, М. Е. and А. Faul (2003). Fast marginal likelihood maximization for sparse Bayesian
models. ln С. М. Bishop and В. Frey (Eds.), Proceediпgs Niпth Iпternatioпal Workshop оп
Artificial Iпtelligeпce апd Statistics, Кеу West, Florida.
Tong, S. and D. Koller (2000). Restricted Bayes optimal classifiers. ln Proceediпgs 17th Na-
tioпal Сопfеrепсе оп Artificial Iпtelligeпce, рр. 658-664. AAAI.

Tresp, V. (2001). Scaling kemel-based systems to large data sets. Data Miпiпg апd Kпowledge
Discovery 5(3), 197-211.
Uhlenbeck, G. Е. and L. S. Omstein (1930). On the theory ofBrownian motion. Phys. Rev. 36,
823-841.
Valiant, L. G. (1984). А theory ofthe leamaЫe. Commuпicatioпs of the Associatioпfor Com-
putiпg Machiпery 27, 1134-1142.
Vapnik, V. N. (1982). Estimatioп of depeпdeпces based оп empirical data. Springer.
Vapnik, V. N. (1995). Тhе пature of statistical learniпg theory. Springer.
Vapnik, V. N. (1998). Statistical learniпg theory.Wiley.
БИБЛИОГРАФИЯ 951

Veropoulos, К., С. Campbell, and N. Cristianini ( 1999). Controlling the sensitivity of support
vector machines. In Proceediпgs of the lпternatioпal Joiпt Сопfеrепсе оп Artificial lпtelli­
geпce (/JCA/99), Workshop МLЗ, рр. 55-60.
Vidakovic, В. (1999). Statistical Modelliпg Ьу Wavelets. Wiley.
Viola, Р. and М. Jones (2004). Robust real-time face detection. lпternatioпa/ Jourпal of Com-
puter Visioп 57(2), 137-154.
ViterЬi, А. J. (1967). Error bounds for convolutional codes and an asymptotically optimum de-
coding algorithm. /EEE Traпsactioпs оп Jnformatioп Тheory IТ-13, 260-267.
ViterЬi, А. J. and J. К. Omura (1979). Priпciples of Digital Commuпicatioп апd Codiпg.

McGraw-Hill.
Wahba, G. (1975). А comparison of GCV and GML for choosing the smoothing parameter in
the generalized spline smoothing proЫem. Numerical Mathematics 24, 383-393.
Wainwright, М. J., Т. S. Jaakkola, and А. S. Willsky (2005). А new class ofupper bounds on
the log partition function. /EEE Traпsactioпs оп Iпformatioп Theory 51, 2313-2335.
Walker, А. М. (1969). On the asymptotic behaviour of posterior distributions. Journal of the
Royal Statistical Society, В 31(1 ), 80-88.
\Valker, S. G., Р. Damien, Р. W. Laud, and А. F. М. Smith (1999). Bayesian nonparametric in-
ference for random distributions and related functions (with discussion). Journal of the
Royal Statistical Society, В 61(3), 485-527.
Watson, G. S. (1964). Smooth regression analysis. Saпkhyв: The Iпdiaп Journal of Statistics.
Series А 26, 359-372.
Webb, А. R. (1994). Functional approximation Ьу feed-forward networks: а least-squares ap-
proach to generalisation. /ЕЕЕ Traпsactioпs оп Neural Networks 5(3 ), 363-3 71.
Weisstein, E.W. (1999). CRC Coпcise Eпcyclopedia of Mathematics. Chapman and Hall, and
CRC.
Weston, J. and С. Watkins (1999). Multi-class support vector machines. In М. Verlysen (Ed.),
Proceediпgs ESANN'99, Brussels. D-Facto PuЬlications.

Whittaker, J. (1990). Graphical Models iп Applied Multivariate Statistics. Wiley.


Widrow, В. and М. Е. Hoff (1960). Adaptive switching circuits. In IRE WESCON Сопvепtiоп

Record, Volume 4, рр. 96-104. Reprinted in Anderson and Rosenfeld (1988).


Widrow, В. and М. А. Lehr (1990). 30 years of adaptive neural networks: perceptron, made-
line, and backpropagation. Proceediпgs ofthe IEEE 78(9), 1415-1442.
952 БИБЛИОГРАФИЯ

Wiegerinck, W. and Т. Heskes (2003). Fractional belief propagation. ln S. Becker, S. Тhrun,

and К. Obermayer (Eds.), Advaпces iп Neura/ Jпformatioп Processiпg Systems, Volume 15,
рр. 455--462. МIТ Press.
Williams, С. К. l. (1998). Computation with infinite neural networks. Neural Computatioп

10(5), 1203-1216.
Williams, С. К. 1. (1999). Prediction with Gaussian processes: from linear regression to linear
prediction and beyond. ln М. 1. Jordan (Ed.), Learniпg iп Graphica/ Mode/s, рр. 599-621.
МIТ Press.
Williams, С. К. 1. and D. Barber (1998). Bayesian classification with Gaussian processes.
IEEE Traпsactioпs оп Patterп Aпalysis апd Machiпe Jпtelligeпce 20, 1342-1351.
Williams, С. К. 1. and М. Seeger (2001). Using the Nystrom method to speed up kemel ma-
chines. ln Т. К. Leen, Т. G. Dietterich, and V. Tresp (Eds.), Advaпces iп Neural lnfor-
matioп Processiпg Systems, Volume 13, рр. 682-688. МIТ Press.
Williams, О., А. Blake, and R. Cipolla (2005). Sparse Bayesian leaming for efficient visual
tracking. IEEE Traпsactioпs оп Pattern Aпa/ysis апd Machiпe lпtelligeпce 27(8), 1292-
1304.
Williams, Р. М. (1996). Using neural networks to model conditional multivariate densities.
Neural Computatioп 8(4), 843-854.
Winn, J. and С. М. Bishop (2005). Variational message passing. Journal of Machiпe Learniпg
Research 6, 661-694.
Zarchan, Р. and Н. Musoff (2005). Fuпdameпtals of Ка/тап Filteriпg: А Practical Approach
(Second ed.). AIAA.
Предметный
указатель

А
Автоматическое определение Аппроксимация
релевантности,421 векторного произведения, 344
Активация нейронной сети, 312 Лапласа,300,383,425
Алгоритм Левенберга-Марквардта, 344
AdaBoost, 862 обоснованности модели, 235
ЕМ
Монте-Карло, 705 Б
стохастический, 705 Базис
К-средних, 566 Фурье, 202
LMS, 208 Байесовский подход, 33
max-product, 548 Бустинг,857, 862
max-sum, 520, 525, 536, 546, 549 Бутстрэп, 52
Баума-Велча, 813
Витерби, 825 в
дерева сочленений, 553 Вариационное исчисление, 611, 91 7
дополнения данных, 705 Вейвлет,203
ЕМ Вектор
обобщенный, 602 весов,254
общий, 585 кодовой книги, 571
условный, 603 опорный, 441
К-медоидов, 569 релевантный, 464
конденсации, 849 собственный, 911
К-средних Векторное квантование, 571
эллиптический,590 Вероятность
Метрополиса, 707 апостериорная, 44
Метрополиса-Гастингса, 711 априорная,44
прямого-обратного хода, 813 маргинальная, 40
разреза графа, 51 7 перехода,802
распространения доверия, 536 совместная, 39
Роббинса-Монро, 145 условная, 40
Анализ эмиссии, 804
главных компонентов, 737 Вершина, 480
канонический корреляционный, 743 Вес, 167
латентного класса, 590 важности, 701
независимых компонентов, 737 макросостояния,90
факторный, 750 нейронной сети, 3 12
независимый, 778 Визуализация, 26
Выбеливание, 746
954 ПРЕДМЕТНЫЙ УКАЗАТЕЛЬ

Выбор
з
SIR, 703 Задача
взвешенный по правдоподобию, 702 квадратичного программирования, 439
логический,689
обратная, 370
модели, 30; 231 прямая, 370
наследственный, 487, 689 Зазор, 437
по важности, 689, 694, 699
мягкий,444
по Гиббсу, 713
Замена ядра, 396
блокирующий, 719
Значение
по собственной важности, 703 собственное, 911
по уровням, 719 среднее выборочное, 112
признаков,25
равномерный, 702 и
с отклонением, 694 Идентифицируемость, 577
адаптивный, 697
Инвариантность
Метрополиса, 698
к сдвигу, 175, 357
Выборочная дисперсия, 58 масштабная, 175, 357
Выброс, 156, 293 Интерпретация вероятности
Вывод
байесовская,48
вариационный, 425, 611 классическая, 48
логический, 72 частотная,48
Информационная геометрия, 404
г
Информация
Гамильтониан, 722 взаимная, 98
Гессиан, 238
Гиперпараметр,62, 115 к
Главное подпространство, 738 Карта
Граница решения, 74, 251 зависимости, 523
Граф, 480 независимости, 523
двудольный, 533 признаков,365
моральный, 522 самоорганизующаяся, 786
ориентированный, 483 совершенная,523
ациклический,483 Квадрат смещения, 214
полный, 482 Квадратные ограничения, 445
цепной,524 Классификация, 25
один против всех,255
д
попарная, 256
Двойственная Кластеризация, 26
выпуклость, 651 Клика, 514
Дерево,531 максимальная, 514
классификации, 869 Ковариация, 48
максимальное остовное, 553 внутриклассовая,263
регрессии, 869 изотропная, 13 1
решений, 858 межклассовая, 263
сочленений,553 Количество степеней свободы, 155
Диаграмма Комитет, 857
решетчатая, 551, 803 Компонент смеси, 165
Дивергенция Кульбака-Лейблера, 95; 234 Компромисс между смещением и
Дисперсия,48,214 дисперсией,212
Дополнение Шура, 135 Корень дерева, 531
Древесная ширина, 554 Коэффициент
Дуга, 480 Байеса, 230
ПРЕДМЕТНЫЙ УКАЗАТЕЛЬ 955

доверия,26 транспонированная,908
смешивания, 166 Якоби, 338
Кратность, 89 Машина релевантных векторов, 230
Критерий Медиана условная, 106
информационный Мера искажения, 565
Акаике, AIC, 66 Метод
байесовский, ВIС, 66, 299 isomap, 784
персептрона, 269 мсмс, 706
Шварца,299 sмо, 448
апостериорного максимума, 62
л ближайших соседей, 183
Линейная Бокса-Мюллера, 692
динамическая система, 132 главных компонентов

независимость, 908 вероятностный, 750


разделимость, 251 ядерный, 771
Линейный дискриминант Фишера, 261 главных

Линия задержки с отводами, 800 кривых, 783


Логарифм поверхностей, 784
отношения шансов, 274 градиентногоспуска,329
Логистическая сигмоида, 169, 274 последовательный, 208
стохастический,208
м декомпозиции, 448
Макросостояние, 90 зацепления, 730
Марковская граница, 51 О касательного

Марковское распространения,359

покрытие, 51 О расстояния, 361


случайное поле, 131, 511 квазиньютоновский, 329
Математическое ожидание, 47 локально линейного вложения, 784
условное,47 максимального правдоподобия, 33
Матрица,908 множителей Лагранжа, 210, 921
выигрыша Калмана, 839 Монте-Карло
Гессе, 238 гибридный, 726
Грама,398 наименьших квадратов, 208
диагонализированная,914 ортогональных, 407
единичная, 908 регуляризованный, 208
информационная с итеративным пересчетом весов, 282
Фишера, 404 наискорейшего спуска, 329
ковариационная, 899 неопределенных множителей, 921
обратная,900 Ньютона-Рафсона, 286
корреляционная, 745 обучения
ортогональная, 913 в реальном времени,207
плана,205 на основе памяти,396
положительно определенная, 128, пакетный, 207, 329

327,914 последовательный, 207


положительно полуопределенная, опорных векторов, 436
128,915 DAGSVМ,453
потерь,76 одноклассовый, 453
сглаживания, 227 последовательного градиентного

симметричная, 912 спуска,330


тождественная, 908 последовательных условных мод, 51 7
точности, 900
956 ПРЕДМЕТНЫЙ УКАЗАТЕЛЬ

распространения доверия порождающая, 79, 488


циклический, 555 пространства состояний, 797
распространения ожидания, 425; 665
на графах, 675 н
редукции Наивное предположение Байеса, 280
весов,35, 209 Нат, 89
параметров, 209 Независимость
релевантных векторов, 460 условная,497
для классификации, 4 72 Нейронная сеть, 3 1О
для регрессии, 461 байесовская, 377
сжатия, 35 сверточная, 364
сопряженных градиентов, 329 со смешанной плотностью, 372
защищенный, 448 Непринятие решения, 77
степенной, 740 Неравенство Йенсена, 96
стохастического градиентного Нормированная экспонента, 170
спуска,330
фраrментации,447 о
1\1икросостояние,90 Обнаружение
1\1инимум выбросов, 80
глобальный, 325 новизны, 80
локальный, 325 Обобщение, 24
1\1ногомерное масштабирование, 784 Обоснованность модели, 230
1\1ножество Обратное распространение ошибки, 331
контрольное,37 Обучение, 24
отложенное, 37 РАС, 459
тестовое, 24 без учителя, 26
1\1ножитель Лагранжа, 923 вычислительное, 437
1\1ода, 55 дискриминантное, 282
условная, 106 с остановкой, 355
1\1одель с подкреплением, 26
авторегрессионная, 800 с учителем, 25
Байеса статистическое,437
наивная, 83 Ограничение
иерархическая,497 активное,438,924
гетероскедастическая, 372 неактивное,438,924
графовая Определитель матрицы, 909
неориентированная,511 Ответственность,574
дискриминантная, 79 Отображение
латентных признаков, 785 автоассоциативное, 779
линейная, 29 изометрическое, 784
обобщенная, 253, 294 топографическое, 786
гауссовская, 136 Оценка
марковская, 797 максимального правдоподобия, 51
скрытая, 797 Парзена, 182
вход-выход, 831 плотности,26, 109
переключаемая, 84 7 непараметрическая, 110
факторная,
832 ядерная, 179
Надарая-Ватсона, 406 Ошибка
однородная,804 зазора, 447
переключений пространства среднеквадратическая, 31
состояний,846
ПРЕДМЕТНЫЙ УКАЗАТЕЛЬ 957

п Производная
вектора по скаляру, 910
Параметр
матрицы по скаляру, 91 О
естественный, 168 обратной матрицы по вектору, 91 О
интенсивный, 646 по вектору,910
концентрации, 161 по матрице, 910
масштаба, 175 функционала, 918
положения, 175 Проклятие размерности, 71
смещения, 201 Пространство
экстенсивный, 646 фазовое, 722
Перекрестная проверка, 65 Процесс
поэлементная, 65 гауссовский, 228
Переменная морализации, 522
входная, 199 Орнштейна-Уленбека, 413
импульса, 722 стохастический,412
латентная, 131,485 Псевдообращение Мура-Пенроуза, 205
наблюдаемая, 485
р
независимая, 44
ненаблюдаемая, 13 1 Разделение весов
положения, 722 жесткое, 367
скрытая, 131, 485 мягкое, 367
фиктивная, 443 Разложение
целевая, 199 сингулярное, 207
Переобучение, 3 1 Холецкого, 694
Персептрон Размерность
многослойный, 31 о Вапника-Червоненкиса,460
Розенблата, 268 Разность
Плата, 484 конечная,345
Плотность вероятности, 44 центральная, 346
Поверхность решения, 74, 251 Разреженность, 469
Подход Ранг матрицы, 912
Р АС-байесовский, 460 Расписание
байесовский лавинное,555
эмпирический, 235 передачи сообщений, 555
непараметрический, 177 последовательное, 555
параметрический, 177 Распределение
последовательный, 11 7 априорное

Поиск неинформативное,52, 173


с возвратом, 551 несобственное, 174
Полидерево, 531 сопряженное, 110, 172
Порог, 254 Бернулли, 111, 895
Порождающее моделирование, 282 бета, 114, 896
Правдоподобие биномиальное, 113,897
марrинальное,230 Больцмана, 516
обобщенное максимальное, 235 вариационное,642
Правило вспомогательное, 694
сложения вероятностей,40 гамма, 151, 898
умножения вероятностей, 40 обратное, 152
Предварительная обработка, 24 нормальное, 153,901
Преобразование Карунена-Лоэва, 737 Гаусса, 53
Программирование Гаусса-Уишарта, 154, 901
динамическое, 546 гипераприорное,497
Дирихле, 110, 121,897
958 ПРЕДМЕТНЫЙ УКАЗАТЕЛЬ

Коши, 903 Сеть


мультиномиальное, 121, 902 байесовская,480
нормальное,53, 123,899 марковская, 511
крутовое, 161 IШОТНОСТИ, 785
маргинальное, 136 Сжатие данных
условное, 132 без потерь, 571
одномодальное, 164 с потерями, 571
параметрическое, 110
Симrшекс, 121
прогностическое,61,223
Система
равновесное, 710 динамическая, 721
равномерное, 904 линейная динамическая, 797
собственное, 174
нормальных уравнений, 205
Стьюдента, 154, 903
Скорость обучения, 329
Уишарта, 153, 905
Слабый ученик, 862
нормальное, 154
След матрицы, 909
обратное, 154
циклическое свойство, 909
условное,47
Слепое разделение источников, 777
фон Мизеса, 159, 904
Случайная величина
экспоненциальное,899
периодическая, 158
Распространение информации
Случайное поле
обратное,335
прямое, гауссовское,412
333
Расстояние Смесь

геодезическое, 784 моделей,874


Махаланобиса, 126 распределений, 164,231
Хеллингера, 620 нормальных, 164
Ребро,480 экспертов, 858
Регрессия, 25 иерархическая, 874
гребневая, 35 Смещение, 58, 254
линейная, 200 нейронной сети, 312
байесовская, 218 Соединение с пропуском слоев, 315
вариационная,641 Сообщение, 525
логистическая,284 ожидающее, 555
байесовская, 300 Сопоставление моментов, 666
вариационная,656 Сопряженность, 114
пробит,291,293 Сравнение моделей, 30
ядерная,409 Среднее выборочное значение, 57
Регуляризация, 34 Стандартизация, 566
Тихонова, 364 Стандартное отклонение, 54
Решетка, 803 Статистика
Робастностъ, 156 достаточная, 112
Сферинг, 746
с
Схема
Сверхрелаксация, каждый против каждого, 452
упорядоченная, 717 кодирования 1 из К, 565
Свойство один против остальных, 452
детального равновесия, 71 О чехарда, 725
текущих пересечений, 553
Связь, 480 т
Сглаживатель Теорема

линейный, 227 Байеса, 41


Семейство распределений Лиувилля, 723
экспоненциальное,646 о кодировании без помех, 88
ПРЕДМЕТНЫЙ УКАЗАТЕЛЬ 959

о среднем значении, 91 базисная, 199


о сходимости персептрона, 272 гауссовская, 202
центральная предельная, 124 полиномиальная, 201
Теория радиальная,397,405
среднего поля, 613 сигмоидальная,202
меры, 46 синусоидальная,202
Тождество Бесселя,161
Вудбери, 908 выгнутая, 96
Точность, 54 выпуклая, 95

Триангуляция графа, 553 Грина,405


дигамма, 898
у
дискриминатная, 78
Узел, 480 Лагранжа, 923
логистическая
голова к голове, 502
голова к хвосту, 500 сигмоидальная,202

дочерний,481 логит,274

потомок, 502 маргинального правдоподобия, 235


родительский, 481 ошибок, 29
хвост к хвосту, 499 полезности, 76
Универсальная аппроксимация, 316 потенциала, 514
Уникальность, 769 потерь, 76
Уравнение Минковского, 85
Рауха-Тунга-lllтрибеля, 837 правдоподобия,51

сглаживания Калмана, 837 логарифмическая, 51


собственного вектора, 911 пробит,293

фильтра Калмана, 837 обратная,


292
характеристическое, 912 разбиения, 729
Чепмена-Колмогорова, 529 разделения, 514

Эйлера-Лагранжа, 920 распределения,46

Условия масс, 46
Каруша-Куна-Таккера, 440 регрессии, 84, 145
У славная независимость, 82 связи, 253, 294
каноническая,294
ф сжатия, 274
Фактор-граф, 532 сплайн,201
Факторизация, 483 стоимости, 76
индуцированная,639 строго вогнутая, 96
ориентированная,509 строго выпуклая, 96
Факторная нагрузка, 769 шлюзовая, 882
Фильтр энергии, 516
бутстреп, 849 ядра, 181
Калмана
расширенный, 846 ц
предполагаемой плотности, 671 Цепь
847
частиц, Маркова, 529
Функционал, 611 Цепь Маркова
Функция обратимая, 71 О
erf, 292 однородная, 709, 799
softmax, 170,275 эргодическая, 710
активации,253,294 Цикл
нейронной сети, 312 ориентированный, 483
960 ПРЕДМЕТНЫЙ УКАЗАТЕЛЬ

э
Эксперт, 882 Эргодичность, 710
Экспонента Этап
нормированная, 275 исследования,26
Экспоненциальное семейство зксплуатации,26
распределений, 110, 168 Эффективное число наблюдений, 116
Элемент
выходной,312 я
скрытый, 312 Ядерный трюк, 396
Энергия Ядро, 396
кинетическая, 722 гауссово,401
потенциальная, 722 линейное,396
Энтропия, 87 однородное,397
дифференциальная, 91 стационарное,397
относительная, 95 Фишера, 403
перекрестная,285 зквивалентное,227
условная,94
Бурное развитие практи ч еских приложений ма­
шинного обучения за последние десять лет со­
провождается интенсивной разработкой важных
алгоритмов и методов, лежащих в его основе.

Например, байесовские методы перестали быть


предметом изучения узких спе1.;,иалистов и стали

основным трендом, а графы стали общепринятым


инструментом для описания и применения веро­

ятностных методов. Практическое значение байе­


РАСПОЗНАВАНИЕ ОБРАЗОВ совских методов все больше усиливается благодаря
развитию многочисле н ных алгоритмов приближен­
И МАШИННОЕ ОБУЧЕНИЕ ного вывода, таких как вариационный байесовский
подход и метод распространения ожидания . Кроме

КРИСТОФЕР М. БИШОП того, все большее значение для алгоритмов и при­


ложений приобретают новые ядерные модели.

Этот совершенно новый учебник отражает современные достижения распознавания образов


и машинного обучения и п редставляет собой всеобъемлющее введение в эту область. Он пред­
назначен для студентов старших курсов и аспирантов первого года обучения, а также исследова­
телей и практ и ков. От читателей н е требуется предварительных з н аний в области распознавания
об разов и ма шин ного обуче ни я. Достаточ н о знать основы многомер н ого математического ана­
лиза и линейной алгеб р ы. Опыт пр и менения теории вероятностей желателен, но не обязателен,
поскольку книга содержит самостоятельное введение в теорию вероятностей.

Книгу удобно использовать для преподавания курсов по машинному обучению, статистике, ком­
пьютерным наукам, интеллектуальному анализу данных и биоинформатике. Для удобства препо­
давания учебник содержит большой методический материал, включающий более чем 400 упраж­
нений, ранжированных по сложности. Решения некоторых упражнений можно найти на веб-сай­
те, посвященном книге . К н ига сопровождается публикацией большого объема дополнительного
материала на английском языке на веб-сайте, который содержит новейшую информацию.

Все иллюстрации к книге в цветном


варианте доступны по адресу
Кристофер М. Бишоп - заместитель дирек­
htt p ://go. d ialektika .com/
тора лаборатории Microsoft Research Cambridge
recogn ition
и заведующий кафедрой компьютерных наук
в Эдинбургском университете. Он работает пре­
подавателем в колледже Дарвина Кембриджского
университета и недавно был избран членом Ко­
ролевской инженерной академии. Его предыду­
щий учебник Neural Networks for Patlern Recog-
nilion получил широкое признание .

ISBN 978-5-907144-55-2
19 о 71

www. w i lliam spuЬlish i ng .com

~ Springer

Вам также может понравиться