Вы находитесь на странице: 1из 51

Статистическая теория обучения

Н. Пучкин
nikita.puchkin@phystech.edu

Аннотация
Данный материал является конспектом лекций по курсу «Основы статистической
теории машинного обучения», читающегося студентам 5-го курса МФТИ. Изложенные
здесь результаты не претендуют на оригинальность, большинство из них можно найти
в [2], [11], [12]. О найденных опечатках просьба писать на указанный почтовый адрес.

Содержание

1 Лекция 1 3
1.1 Постановка задачи обучения . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2 Явление переобучения . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3 PAC-обучаемость . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.4 Минимаксные порядки . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.5 Необучаемость множества всех функций . . . . . . . . . . . . . . . . . . . . . . 5

2 Лекция 2 7
2.1 Принцип равномерной сходимости . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.2 Агностическая обучаемость конечных классов . . . . . . . . . . . . . . . . . . 7

3 Лекция 3 10
3.1 Обучаемость бесконечных классов в бесшумном случае. Функция роста . . . 10

4 Лекция 4 13
4.1 Размерность Вапника-Червоненкиса . . . . . . . . . . . . . . . . . . . . . . . . 13
4.2 Лемма Зауэра . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

5 Лекция 5 16
5.1 Среднее по Радемахеру . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

6 Лекция 6 20
6.1 Свойства средних по Радемахеру . . . . . . . . . . . . . . . . . . . . . . . . . . 20
6.2 Покрытия и упаковки . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
6.3 Средние по Радемахеру для классов с конечной размерностью Вапника-
Червоненкиса . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
7 Лекция 7 24
7.1 Фундаментальная теорема PAC-обучения . . . . . . . . . . . . . . . . . . . . . 24

8 Лекция 8 25
8.1 Условия малого шума и быстрые порядки . . . . . . . . . . . . . . . . . . . . . 25

9 Лекция 9 29
9.1 Метод k ближайших соседей . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
9.2 Быстрые порядки для plug-in классификаторов . . . . . . . . . . . . . . . . . . 31

10 Лекция 10 33
10.1 Метод опорных векторов. Случай разделимой выборки . . . . . . . . . . . . . 33

11 Лекция 11 36
11.1 Метод опорных векторов. Случай неразделимой выборки. Переменные мяг-
кого отступа . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
11.2 Обобщающая способность метода опорных векторов в случае неразделимой
выборки . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

12 Лекция 12 40
12.1 Переход в пространство более высокой размерности . . . . . . . . . . . . . . . 40
12.2 Теорема о представителе . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
12.3 Положительно и отрицательно определенные ядра. Теорема Мерсера . . . . . 41
12.4 Оценка для метода опорных векторов в Гильбертовом пространстве . . . . . 43

13 Лекция 13 44
13.1 Схемы сжатия выборок . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
13.2 Персептрон . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

14 Лекция 14 48
14.1 Нейронные сети . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

2
1 Лекция 1

1.1 Постановка задачи обучения

Рассмотрим классическую задачу обучения с учителем (supervised learning). Статистику


дается обучающая выборка Sn = {(Xi , Yi )}16i6n , где Xi ∈ X , Yi ∈ Y для всех i, X – неко-
торое пространство признаков, Y – пространство меток. Цель статистика – на основании
обучающей выборки Sn и набора признаков X (который может не совпадать ни с одним Xi
из Sn ) предоставить некоторое правило fb = fbSn (X) для предсказания метки Y .
В рамках курса будет рассмотрена задача (бинарной) классификации, то есть Y = {0, 1}
или Y = {−1, 1}. Предполагается, что на множестве X × Y задано распределение D и
пары (Xi , Yi ) сгенерированы независимо из этого распределения. Далее из распределения D
независимо от обучающей выборки Sn генерируется еще одна (тестовая) пара (X, Y ) и метка
Y сравнивается с предсказанием fb(X). Особенность описанной модели состоит в том, что на
распределение D не накладывается ограничений. Вместо этого задается класс допустимых
решающих правил F, и анализ алгоритмов обучения происходит на основании свойств F.
Для измерения качества предсказания используется функция потерь ` : Y × Y → R+ .

Пример 1.1 Примеры функции потерь:

• `(Y, Y 0 ) = 1(Y 6= Y 0 ) – бинарные потери;

• `(Y, Y 0 ) = (Y − Y 0 )2 – квадратичные потери;

• `(Y, Y 0 ) = (1 − Y Y 0 )+ – hinge loss.

Тогда качество правила f : X → Y можно охарактеризовать с помощью величины

R(f ) = E(X,Y )∼D `(Y, f (X)),

называемой риском классификатора. В рамках курса будет рассматриваться бинарная


функция потерь `(Y, Y 0 ) = 1(Y 6= Y 0 ).

Замечание Стоит отметить, что так как решающее правило fb строится на основе слу-
чайной выборки Sn , то h i
R(fb) = E(X,Y )∼D `(Y, fb(X))|Sn

является случайной величиной. Поэтому при исследовании теоретических свойств fb мож-


но либо рассматривать R(fb) на множестве, вероятность которого близка к единице, либо
анализировать усредненный по всем выборкам риск ESn R(fb).

1.2 Явление переобучения

Наиболее естественным алгоритмом обучения является выбор правила fb ∈ F, которое ми-


нимизирует количество ошибок на обучающей выборке, то есть

fbERM ∈ argmin Rn (f ),
f ∈F

где
n
1X
Rn (f ) = `(Yi , f (Xi )).
n
i=1

3
Алгоритмы такого вида называются минимизаторами эмпирического риска и будут подроб-
но проанализированы в рамках курса. Но не всегда классификаторы, делающие мало оши-
бок на тренировочных данных, работают так же хорошо на тестовых данных. Рассмотрим
следующий пример.

Пример 1.2 Пусть X имеет равномерное распределение на [0, 1], а Y имеет вырожден-
ное условное распределение (Y |X) = f ∗ (X), f ∗ (X) = 1(X < 1/2). Пусть дана некоторая
выборка Sn = {(Xi , Yi ) : 1 6 i 6 n}. Рассмотрим следующее правило:
(
Yi , если ∃i : X = Xi ,
fb(X) =
0, иначе.

Нетрудно заметить, что Rn (fb) = 0, но R(fb) = 1/2, какой бы ни была выборка Sn .

Явление, при котором алгоритм вместо предсказания меток подстраивается под трениро-
вочные данные, называется переобучением.

1.3 PAC-обучаемость

Насколько хорошим может быть обучение по конечной выборке? Из курса статистики из-
вестно, что наилучшим решающим правилом является байесовское правило f Bayes (X) =
1(η(X) > 1/2), где η(X) = E(Y |X). К сожалению, построение байесовского классификато-
ра требует знания неизвестного распределения D.
Рассмотрим случай R(f Bayes ) = 0. Тогда условное распределение (Y |X) – вырожденное, то
есть Y = f Bayes (X) почти-наверное. Такой случай называется бесшумным.
Пусть теперь R(f Bayes ) > 0. Тогда для любой функции f ∈ F R(f ) > 0. В этом случае
уместно сравнивать классификатор fb с лучшим в классе F и рассмотреть величину
R(fb) − inf R(f ),
f ∈F

называемую избыточным риском. Заметим, что байесовское решающее правило может как
принадлежать F, так и не принадлежать. В любом случае анализ избыточного риска про-
изводится на основании свойств класса F.

Определение 1.1 (PAC-обучаемость) Пусть выполнено условие


∃f ∗ ∈ F : ∀(X, Y ) ∼ D Y = f ∗ (X).
Класс функций F называется PAC-обучаемым (probably approximately correct), если суще-
ствует алгоритм A и функция N : (0, 1)2 → N такие, что для любого распределения D,
для любой функции f ∗ ∈ F и для любых ε, δ ∈ (0, 1) алгоритм A, получив выборку из
n > N (ε, δ) элементов, сгенерированных независимо из распределения D, выдает функцию
fb такую, что с вероятностью хотя бы 1 − δ (по всем обучающим выборкам размера n)
PD (fb(X) 6= f ∗ (X)) 6 ε.

Пример 1.3 Зафиксируем некоторое множество X и рассмотрим класс функций, прини-


мающих значение 1 ровно в одной точке. Пусть f ∗ (X) = 1(X = X ∗ ) Рассмотрим
(
Yi , если ∃i : X = Xi ,
fb(X) =
0, иначе.

4
Заметим, что fb(X) ошибется только в том случае, когда пара (X ∗ , 1) не попала в обучающую
выборку. При этом все остальные точки будут классифицированы правильно. Значит, R(fb)
будет не меньше ε только в случае, когда PD ((X ∗ , 1)) > ε. Тогда
n
Y
PSn (R(fb) > ε) = PSn ((X ∗ , 1) ∈
/ Sn ) = P (X ∗ 6= Xi ) 6 (1 − ε)n 6 e−nε .
i=1

Если n > d1/ε log(1/δ)e, то с вероятностью не меньше 1 − δ R(fb) < ε. Таким образом, класс
функций, принимающих значение 1 ровно в одной точке, является PAC-обучаемым.

Определение 1.2 (агностическая PAC-обучаемость) Класс функций F называется


агностически PAC-обучаемым, если существует алгоритм A и функция N : (0, 1)2 → N
такие, что для любого распределения D и для любых ε, δ ∈ (0, 1) алгоритм A, получив
выборку из n > N (ε, δ) элементов, сгенерированных независимо из распределения D, выда-
ет функцию fb такую, что с вероятностью хотя бы 1 − δ (по всем обучающим выборкам
размера n)
PD (Y 6= fb(X)) 6 inf PD (Y 6= f (X)) + ε.
f ∈F

1.4 Минимаксные порядки

Кроме ответа на вопрос, является ли класс F PAC-обучаемым, нас также будет интересо-
вать, насколько быстро усредненный риск или усредненный избыточный риск стремится к
нулю, и является ли такая скорость сходимости оптимальной. Введем следующее опреде-
ление.

Определение 1.3 Обозначим E(f ) = R(f )− inf R(g). Последовательность чисел {ψn }n∈N
g∈F
будем называть оптимальной скоростью обучения в классе F, если

• существует константа C > 0 и алгоритм A такой, что sup ESn E(fbA,Sn ) 6 Cψn для
D
всех n ∈ N;

• существует константа c > 0 такая, что inf sup ESn E(fb) > cψn для всех n ∈ N, где
fb D
инфинум берется по всем измеримым функциям выборки.

Позже будет показано, что минимаксные порядки в задачах PAC-обучения и агностического


PAC-обучения разные.

1.5 Необучаемость множества всех функций

Следующая теорема показывает необходимость ограничений на класс функций F.

Теорема 1.1 (No-Free-Lunch-теорема) Пусть A – произвольный алгоритм обучения и


пусть n < |X |/2 – размер обучающей выборки. Тогда существует распределение D на
X × {0, 1} такое, что

• существует функция f такая, что PD (Y 6= f (X)) = 0;

5
• с вероятностью хотя бы 1/7 по всем обучающим выборкам Sn ∼ Dn PD (Y 6=
fbA,Sn (X)) > 1/8.

Следствие 1.1 Класс всех функций не является PAC-обучаемым.

6
2 Лекция 2

2.1 Принцип равномерной сходимости

На прошлой лекции был приведен пример, когда минимизация эмпирического риска приво-
дит к переобучению. Переобучения не произойдет, если для любой функции f ∈ F ошибка
на обучающей выборке сравнима с вероятностью неправильной классификации. Введем
следующее определение.

Определение 2.1 Обучающая выборка Sn называется ε-репрезентативной (относитель-


но класса F, функции потерь ` и распределения D), если
|Rn (f ) − R(f )| 6 ε, ∀ f ∈ F.

Если выборка Sn ε/2-репрезентативна, то


ε ε
R(fb) 6 Rn (fb) + 6 Rn (f ∗ ) + 6 R(f ∗ ) + ε.
2 2

Определение 2.2 (Равномерная сходимость) Будем говорить, что класс функций F


удовлетворяет условию равномерной сходимости (относительно функции потерь `), ес-
ли существует функция N : (0, 1)2 → N такая, что для любых ε, δ ∈ (0, 1) для любого
распределения D на X × Y, если Sn – выборка из n > N (ε, δ) элементов (сгенерированных
независимо в соответствии с распределением D), то с вероятностью хотя бы (1 − δ) Sn
является ε-репрезентативной.

Легко видеть, что равномерной сходимости достаточно для агностического PAC-обучения.

Следствие 2.1 Если класс F удовлетворяет условию равномерной сходимости, то он


является агностически PAC-обучаемым. При этом обучение производится минимизацией
эмпирического риска.

2.2 Агностическая обучаемость конечных классов

В этой главе будет показано, что конечные классы удовлетворяют условию равномерной
сходимости и, следовательно, являются агностически PAC-обучаемыми.

Лемма 2.1 (Хеффдинг) Пусть ξ – случайная величина, причем Eξ = 0 и ξ ∈ [a, b]


почти-наверное. Тогда
2 2
Eeλξ 6 eλ (b−a) /8 .

Доказательство
Рассмотрим функцию
ψ(λ) = log Eeλξ .
Заметим, что
Eξeλξ

0
ψ (0) = = Eξ = 0,
Eeλξ λ=0
2
Eξ 2 eλξ Eξeλξ

00
ψ (λ) = − .
Eeλξ Eeλξ

7
Рассмотрим случайную величину Z с функцией распределения
Zx
1
FZ (x) = eλt dFξ (t).
Eeλξ
−∞

Заметим, что FZ (a) = 0, FZ (b + 0) = 1, то есть Z ∈ [a, b] почти-наверное. Значит, Var(Z) 6


(b − a)2 /4. Тогда
ψ 00 (λ) = Var(Z) 6 (b − a)2 /4.


Упражнение 2.1 Докажите, что если случайная величина Z ∈ [a, b] почти-наверное, то


Var(Z) 6 (b − a)2 /4.
Зафиксируем произвольную f ∈ F. Рассмотрим эмпирический риск
n
1X
Rn = 1(Yi 6= f (Xi )).
n
i=1

Обозначим Z = 1(Y 6= f (X)). Заметим, что случайная величина Z ограничена. С помощью


леммы Хеффдинга можно доказать, что значение Rn (f ) = (Z1 + · · · + Zn )/n будет близко к
R(f ) = EZ с большой вероятностью.

Теорема 2.1 (неравенство Хеффдинга) Пусть Z1 , . . . , Zn – независимые одинаково


распределенные случайные величины, причем Z1 ∈ [a, b] почти-наверное. Тогда для любого
t>0
n
!
1X 2 2
P Zi − EZ > t 6 e−2nt /(b−a)
n
i=1
и
n
!
1 X 2 2
Zi − EZ > t 6 2e−2nt /(b−a) .

P
n
i=1

Доказательство
Обозначим ξi = Zi − EZ. Используя обобщенное неравенство Маркова, получаем, что для
любых λ, t > 0 выполнено
n n
! ! ( n )
1X X
−λnt
X
P Zi − EZ > t = P ξi > nt 6 e E exp λξi
n
i=1 i=1 i=1
n
Y
−λnt
=e Eeλξi 6 exp{nλ2 (b − a)2 /8 − λnt}.
i=1

Взяв λ = 4t/(b − a)2 , получим


n
!
1X 2 /(b−a)2
P Zi − EZ > t 6 e−2nt .
n
i=1

Аналогично доказывается оценка


n
!
1X 2 2
P Zi − EZ < −t 6 e−2nt /(b−a) , ∀t > 0
n
i=1

8
Значит,

n n
! !
1 X 1X
Zi − EZ > t 6 P Zi − EZ > t

P
n n
i=1 i=1
n
!
1 X
+P Zi − EZ < −t
n
i=1
−2nt2 /(b−a)2
6 2e .

Используя неравенство Хеффдинга и неравенство Бонферрони, получаем


 ε X  ε
P ∃f ∈ F : |Rn (f ) − R(f )| > 6 P |Rn (f ) − R(f )| >
2 2
f ∈F
2 2
X
6 2e−nε /2 = 2|F|e−nε /2 .
f ∈F

Таким образом, доказана агностическая обучаемость конечных классов, причем с вероят-


ностью хотя бы 1 − δ выполнено
r
∗ 2 log(2|F|/δ)
R(f ) − R(f ) 6
b .
n

Упражнение 2.2 В бесшумном случае докажите оценку

log(|F|/δ)
R(fb) 6
n
Для этого для каждой функции f ∈ F рассмотрите множество Ef = {(x, y) : y 6= f (x)} и
оцените вероятность PSn (Sn ∩ Ef = ∅) в случае P(Ef ) > ε.

9
3 Лекция 3

3.1 Обучаемость бесконечных классов в бесшумном случае. Функция ро-


ста

Следующий пример показывает, что существуют бесконечные PAC-обучаемые классы.

Пример 3.1 Рассмотрим класс функций F = {fa,b : fa,b (x) = 1(x ∈ [a, b]), a 6 b} и
следующий минимизатор эмпирического риска: fb = fba,bb , где

a = min Xi ,
b
i:Yi =1
bb = max Xi .
i:Yi =1

Предположим, что существует f ∗ , R(f ∗ ) = 0. Тогда с вероятностью хотя бы 1 − δ по всем


обучающим выборкам выполнено
2 2
R(fb) 6 log .
n δ
В случае конечного класса F в доказательстве обучаемости ключевую роль сыграло нера-
венство Бонферрони, благодаря которому удалось получить равномерные оценки на вели-
чину ошибки. Теперь, когда класс F бесконечен, такой прием сразу применить не получится.

Лемма 3.1 Если nε/2 > 1, то



PSn (∃f ∈ F : RSn (f ) = 0, R(f ) > ε) 6 2PSn ,Sn0 ∃f ∈ F : RSn (f ) = 0, RSn0 (f ) > ε/2

Доказательство
Заметим, что

1 (RSn (f ) = 0) ∧ (RSn0 (f ) > ε/2) >


 

1 [(RSn (f ) = 0) ∧ (R(f ) > ε)] 1 R(f ) − RSn0 (f ) 6 ε/2


 


Рассмотрим PSn0 R(f ) − RSn0 (f ) 6 ε/2, R(f ) > ε .

PSn0 R(f ) − RSn0 (f ) 6 ε/2, R(f ) > ε
n
!
X
= PSn0 `(Yi , f (Xi )) > nE`(Y1 , f (X1 )) − nε/2, E`(Y1 , f (X1 )) > ε
i=1
n
!
X 1
> PSn0 `(Yi , f (Xi )) > nE`(Y1 , f (X1 )) − 1 >
2
i=1

n
P
Последнее неравенство следует из того, что `(Yi , f (Xi )) ∼ Binom(n, p), p = E`(Y1 , f (X1 )).
i=1
Для биномиального распределения известно, что его медиана mn,p – ближайшее к np целое
число. Значит, mn,p > np − 1 и справедлива оценка

1
P (Binom(n, p) > np − 1) > P (Binom(n, p) > mn,p ) > ,
2
где последнее неравенство следует из определения медианы распределения.

10
Тогда

PSn ,Sn0 ∃f ∈ F : RSn (f ) = 0, RSn0 (f ) > ε/2
> ESn ,Sn0 1 [(RSn (f ) = 0) ∧ (R(f ) > ε)] 1 R(f ) − RSn0 (f ) 6 ε/2
 

> ESn 1 [(RSn (f ) = 0) ∧ (R(f ) > ε)] PSn0 R(f ) − RSn0 (f ) 6 ε/2
 

1
> PSn [(RSn (f ) = 0) ∧ (R(f ) > ε)]
2


Благодаря лемме 3.1, можно рассматривать не сам класс F, а только его ограничение на
множестве из 2n точек.

Определение 3.1 Для множества A = {x1 , . . . , xn } ⊆ X обозначим

FA = {(f (x1 ), . . . , f (xn )) : f ∈ F}

Функцией роста класса F будем называть функцию

τF (n) = max |FA |


x1 ,...,xn ∈X

Теорема 3.1 Пусть существует f ∗ ∈ F такая, что R(f ∗ ) = 0. Тогда с вероятностью


хотя бы 1 − δ по всем обучающим выборкам выполнено
 
4 2τF (2n)
R(fb) 6 log
n δ

Доказательство
Докажем, что

PSn ,Sn0 ∃f ∈ F : RSn (f ) = 0, RSn0 (f ) > ε/2 6 τF (2n)e−nε/4




Далее утверждение теоремы будет следовать из леммы 3.1.


Зафиксируем f ∈ F и состав выборки Υ (состав выборки Sn ∪ Sn0 – неупорядоченное мно-
жество, состоящее из элементов Sn ∪ Sn0 ). Заметим, что при данном составе выборки число
ошибок, которое делает функция f на Sn ∪Sn0 одинаково. Пусть при данном составе выборки
Υ функция f делает m > nε/2 ошибок. Вероятность того, что все эти ошибки сосредоточены
в одной половине, равна
n

 m n!(2n − m)!
PSn ,Sn0 RSn (f ) = 0, RSn0 (f ) = m/n|Υ = 2n =
m
(2n)!(n − m)!
n−1
(2n − m)(2n − m − 1) . . . (n − m + 1) Y 2n − m − k
= =
2n(2n − 1) . . . (n + 1) 2n − k
k=0
n−1
Y 2n − m  m n
6 = 1− 6 e−m/2 6 e−nε/4
2n 2n
k=0

Тогда

PSn ,Sn0 RSn (f ) = 0, RSn0 (f ) > ε/2 = EΥ PSn ,Sn0 RSn (f ) = 0, RSn0 (f ) > ε/2|Υ 6 e−nε/4
 

11
Значит,

PSn ,Sn0 ∃f ∈ F : RSn (f ) = 0, RSn0 (f ) > ε/2

= PSn ,Sn0 ∃f ∈ F{x1 ,...x2n } : RSn (f ) = 0, RSn0 (f ) > ε/2
1 RSn (f ) = 0, RSn0 (f ) > ε/2
X 
= ESn ,Sn0
f ∈F{x1 ,...x2n }

6 τF (2n)e−nε/4

12
4 Лекция 4

4.1 Размерность Вапника-Червоненкиса

Определение 4.1 Говорят, что класс F разделяет множество A = {a1 , . . . , an } ⊆ X ,


если |FA | = 2n , то есть ограничение F на множестве A есть множество всех функций
из A в {0, 1}.

Определение 4.2 Размерностью Вапника-Червоненкиса (или емкостью) класса F назы-


вается максимальный размер разделимой выборки. Если такого числа нет, то VCdim(F) =
∞.

Приведем несколько примеров классов с конечной размерностью Вапника-Червоненкиса.

Пример 4.1 Любой конечный класс функций F имеет конечную размерность Вапника-
Червоненкиса, причем VCdim(F) 6 log2 |F|.

Пример 4.2 Рассмотрим класс F = fw,b : Rd → {0, 1} : fw,b (x) = 1(wT x + b > 0) . Легко


проверить, что класс F разделяет множество {0} ∪ {ej : 1 6 j 6 d}, где ej – вектор с
единицей на j-ой позиции и нулями на остальных. Значит, VC-размерность класса F не
меньше d + 1. Следующий результат доказывает, что VCdim(F) = d + 1.

Теорема 4.1 (Радон) Пусть X1 , . . . , Xd+2 ∈ Rd . Тогда существует множество индексов


I ⊆ {1, . . . , d + 2} такое, что

conv (Xi )i∈I ∩ conv (Xi )i∈I


/ 6= ∅.

Доказательство
Найдем ненулевой вектор ν ∈ Rd+2 , удовлетворяющий линейной системе
d+2
P
νi Xi = 0,



i=1
d+2
P

 νi = 0.
i=1

Так как в линейной системе всего d+1 уравнение, у нее существует нетривиальное решение.
Далее, определим

I = {i : νi > 0},
X
S+ = νi ,
i∈I
|νi |
λi = , 1 6 i 6 d + 2.
S+
d+2
P P P
Заметим, что так как νi = 0, то λi = 1 и λi = 1. Но тогда вектор
i=1 i∈I i∈I
/
X X
X0 = λi Xi = λi Xi
i∈I i∈I
/

13
принадлежит conv (Xi )i∈I и conv (Xi )i∈I
/ .


Пример 4.3 Рассмотрим еще один пример класса с конечной размерностью Вапника-
Червоненкиса. Пусть F – класс индикаторных функций всех выпуклых многоугольников
на плоскости с не более чем d углами. Тогда VCdim(F) = 2d + 1. Приведем пример раз-
делимой выборки размера 2d + 1. Рассмотрим точки, являющиеся вершинами правильного
2d + 1-угольника, и рассмотрим произвольный набор меток {Y1 , . . . , Y2d+1 }. Если не более
d точек имеют метку 1, то нужно рассмотреть индикаторную функцию многоугольника с
вершинами в этих точках. В противном случае нужно рассмотреть индикаторную функцию
многоугольника, стороны которого касаются окружности, на которой лежат все точки.

4.2 Лемма Зауэра

Лемма 4.1 (Зауэр, Шелах, Перлес, Вапник, Червоненкис) Пусть класс функций
F имеет конечную размерность Вапника-Червоненкиса d. Тогда для любого n ∈ N вы-
полнено
d  
X n
τF (n) 6
i
i=0

В частности, если n > d, то τF (n) 6 (en/d)d .

Доказательство
Зафиксируем произвольное множество A = {a1 , . . . , an }. Достаточно доказать, что

|FA | 6 |{B ⊆ A : F разбивает B}|

Доказательство будем проводить индукцией по n. Обозначим A0 = {a2 , . . . , an } и

F 0 = f ∈ F : ∃ g ∈ F : f (x) = g(x) ∀ x ∈ A0 , но f (a1 ) 6= g(a1 )




Тогда |FA | = |FA0 | + |FA0 0 |. По предположению индукции,

|FA0 | 6 {B ⊆ A0 : F разбивает B}

и
|FA0 0 | 6 {B ⊆ A0 : F 0 разбивает B}

Заметим, что
{B ⊆ A0 : F разбивает B} + {B ⊆ A0 : F 0 разбивает B}

= |{B ⊆ A : a1 ∈
/ B, F разбивает B}| + |{B ⊆ A : a1 ∈ B, F разбивает B}|
= |{B ⊆ A : F разбивает B}|

Первая часть леммы доказана.


Теперь заметим, что для n > d выполнено
d   d    i n    i
X n  n d X n d  n d X n d
6 6
i d i n d i n
i=0 i=0 i=0
 n d  n
d  en d
= · 1+ 6 ,
d n d

14
где последний переход следует из неравенства Йенсена.


Из теоремы 3.1 и леммы 4.1 следует следующая оценка риска для классов с конечной раз-
мерностью Вапника-Червоненкиса.

Следствие 4.1 Пусть класс F таков, что VCdim(F) = d и существует f ∗ ∈ F, R(f ∗ ) =


0. Тогда для минимизатора эмпирического риска fb с вероятностью хотя бы 1 − δ по
обучающим выборкам выполнено
 
4 2en 2
R(f ) 6
b d log + log
n d δ

Замечание Оценка R(fb) . d/n log(n/d) в общем случае является неулучшаемой для
классов с размерностью Вапника-Червоненкиса d. Например, для класса функций, прини-
мающих значение 1, не более, чем в d точках, такой порядок сходимости является оптималь-
ным. Однако, в общем случае справедлива нижняя оценка ER(fb) & d/n, и есть примеры
классов с VC-размерностью d, для которых она достигается. Например, класс индикатор-
ных функций параллелепипедов в Rd со сторонами, параллельными осям координат, имеет
VC-размерность 2d. Для этого класса минимизатор эмпирического риска, равный индика-
торной функции наименьшего параллелепипеда, содержащего все положительные примеры,
имеет риск R(fb) . (d + log(1/δ))/n с вероятностью хотя бы 1 − δ по обучающим выборкам.
Это частный случай результата, полученного в [6]: аналогичная оценка будет справедлива
для классов, замкнутых относительно пересечения, если обучение производится с помощью
так называемого closure-алгоритма.

15
5 Лекция 5

5.1 Среднее по Радемахеру

Как и ранее, для функции f ∈ F и функции потерь ` : Y × Y → R+ , будем обозначать


n
R(f ) = E`(Y, f (X)), Rn (f ) = n1
P
`(Yi , f (Xi )). Далее будем обозначать Z = (X, Y ), Zi =
i=1
(Xi , Yi ) и
` ◦ f : z → `(y, f (x)).
Также введем обозначение для класса потерь ` ◦ F = {` ◦ f : f ∈ F }. Тогда для любой
n
функции f ∈ F R(f ) = E(` ◦ f )(Z), Rn (f ) = n1
P
(` ◦ f )(Zi ).
i=1
В главе 2.1 было показано, что если величина sup (Rn (f ) − R(f )) мала с большой вероят-
f ∈F
ностью, то класс F PAC-обучаем с помощью минимизатора эмпирического риска. Зафик-
сируем произвольную f ∈ F и рассмотрим E sup (Rn (f ) − R(f )).
f ∈F
n
!
1X
E sup (Rn (f ) − R(f )) = E sup (` ◦ f )(Zi ) − E(` ◦ f )(Z)
f ∈F f ∈F n
i=1
n n n
! !
1X 1X 01
X
0
= E sup g(Zi ) − Eg(Z) = E sup g(Zi ) − E g(Zi ) .
g∈`◦F n g∈`◦F n n
i=1 i=1 i=1

В последнем выражении Zi0 E0


– независимая копия Zi и означает математическое ожидание
по Z10 , . . . , Zn0 . Применяя неравенство Йенсена, получаем
n
!
0 1X 0
E sup (Rn (f ) − R(f )) 6 EE sup (g(Zi ) − g(Zi )) . (1)
f ∈F g∈`◦F n
i=1
Введем независимые радемахеровские случайные величины σi , 1 6 i 6 n:
1
P(σi = 1) = P(σi = −1) = , 1 6 i 6 n.
2
Заметим, что в силу симметричности выражения (1) по парам Zi и Zi0 , для любой реализа-
ции σ1 , . . . , σn будет выполнено
n n
! !
1 X 1 X
EE0 sup (g(Zi ) − g(Zi0 )) = EE0 sup σi (g(Zi ) − g(Zi0 )) .
g∈`◦F n g∈`◦F n
i=1 i=1
Следовательно,
n n
! !
0 1X 1X
EE sup (g(Zi ) − g(Zi )) = EE0 Eσ sup
0 0
σi (g(Zi ) − g(Zi ))
g∈`◦F n g∈`◦F n
i=1 i=1
n
!
2 X
= EEσ sup σi g(Zi ) .
g∈`◦F n
i=1

Определение 5.1 Для данного класса G, случайную величину


n
!
1X
Rn (G) = Eσ sup σi g(Zi )
g∈G n
i=1

называют выборочным средним по Радемахеру класса G. Величину R(G) = ERn (G) назы-
вают средним по Радемахеру класса G.

16
Таким образом, было доказано, что

E sup (Rn (f ) − R(f )) 6 2R(` ◦ F).


f ∈F

Аналогично можно доказать, что

E sup (R(f ) − Rn (f )) 6 2R(` ◦ F).


f ∈F

Если fb ∈ argmin Rn (F), f ∗ ∈ argmin R(F), то выполнено


f ∈F f ∈F
   
ER(fb) − R(f ∗ ) = E R(fb) − Rn (fb) + (ERn (f ∗ ) − R(f ∗ )) + E Rn (fb) − ERn (f ∗ )
 
6 E R(fb) − Rn (fb) + (ERn (f ∗ ) − R(f ∗ )) 6 4R(` ◦ F).

Теперь зафиксируем индикаторную функцию потерь `(Y, Y 0 ) = 1(Y 6= Y 0 ) и получим верх-


ние оценки на вероятности больших уклонений sup (Rn (f ) − R(f )) и sup (R(f ) − Rn (f )).
f ∈F f ∈F

Теорема 5.1 (неравенство МакДиармида) Пусть X1 , . . . , Xn – независимые случай-


ные величины, а функция ϕ = ϕ(X1 , . . . , Xn ) имеет ограниченные приращения, то есть
существуют такие константы c1 , . . . , cn , что

|ϕ(X1 , . . . , Xi , . . . , Xn ) − ϕ(X1 , . . . , Xi0 , . . . , Xn )| 6 ci . (2)

выполнено для всех i от 1 до n, для всех Xi , Xi0 , и всех X1 , . . . , Xn . Тогда для любого t > 0
 P n

−t2 2 c2i
P (ϕ(X1 , . . . , Xn ) − Eϕ(X1 , . . . , Xn ) > t) 6 e i=1

и  n

−t2 c2i
P
2
P (ϕ(X1 , . . . , Xn ) − Eϕ(X1 , . . . , Xn ) < −t) 6 e i=1 .

Доказательство
Обозначим Fk , 1 6 k 6 n сигма-алгебру, порожденную случайными величинами X1 , . . . , Xk
и F0 – тривиальную сигма-алгебру. Тогда
n
X
ϕ(X1 , . . . , Xn ) − Eϕ(X1 , . . . , Xn ) = [E (ϕ(X1 , . . . , Xn )|Fi ) − E (ϕ(X1 , . . . , Xn )|Fi−1 )] .
i=1

Рассмотрим случайную величину

ηi = E (ϕ(X1 , . . . , Xn )|Fi ) − E (ϕ(X1 , . . . , Xn )|Fi−1 ) .

Очевидно, что EXi ηi = 0 и в силу свойства ограниченных приращений функции ϕ, ηi ∈


[−ci , ci ] почти-наверное. По лемме Хеффдинга (Лемма 2.1),
  2 2
E eληi |Fi−1 6 eλ ci /2 , ∀ λ

почти-наверное. Тогда
n n
( ) ( ) ! !
X X
E exp λ ηi = EE . . . E exp λ ηi Fn−1 . . . F1 .

i=1 i=1

17
n
   
ηi Fn−1 . Заметим, что η1 , . . . , ηn−1 измеримы относительно
P
Рассмотрим E exp λ

i=1
сигма-алгебры Fn−1 . Значит,
( n ) ! ( n−1 )
X X
E exp λ ηi Fn−1 = exp λ ηi E (exp {ληn } |Fn−1 )

i=1 i=1
n−1
( )
2 c2 /2
X
6 exp λ ηi · eλ i .
i=1

Повторяя те же рассуждения, получаем


( n ) ( n
)
X λ2 X 2
E exp λ ηi 6 exp ci .
2
i=1 i=1

Значит, для любых t, λ > 0 выполнено

P (ϕ(X1 , . . . , Xn ) − Eϕ(X1 , . . . , Xn ) > t)


( n ) ( n
)
X λ 2 X
6 e−λt E exp λ ηi 6 exp −λt + c2i .
2
i=1 i=1

Взяв
t
λ= n ,
c2i
P
i=1
получаем
n
−t2 /(2 c2i )
P
P (ϕ(X1 , . . . , Xn ) − Eϕ(X1 , . . . , Xn ) > t) 6 e i=1 .
Оценка
n
−t2 /(2 c2i )
P
P (ϕ(X1 , . . . , Xn ) − Eϕ(X1 , . . . , Xn ) < −t) 6 e i=1

доказывается аналогично.

Замечание Неравенство МакДиармида является частным случаем более общего нера-


венства Азумы-Хеффдинга.

Для задачи классификации с индикаторной функцией потерь получаем, что значения функ-
ции f равны 0 или 1 и sup (Rn (f ) − R(f )) удовлетворяет условию ограниченной разности с
f ∈F
константами c1 , . . . , cn , равными 1/n. Применяя неравенство МакДиармида, получаем, что
с вероятностью хотя бы 1 − δ одновременно выполнено
r
2 log(2/δ)
sup (Rn (f ) − R(f )) 6 2R(` ◦ F) + ,
f ∈F n
r
2 log(2/δ)
sup (R(f ) − Rn (f )) 6 2R(` ◦ F) + .
f ∈F n

Из этого следует, что с вероятностью не менее 1−δ для минимизатора эмпирического риска
fb выполнено r
∗ 2 log(2/δ)
R(fb) − R(f ) 6 4R(` ◦ F) + 2 ,
n

18
где f ∗ ∈ argmin R(f ).
f ∈F

Упражнение 5.1 Докажите, что с вероятностью не менее 1 − δ выполнено


r
2 log(2/δ)
sup (Rn (f ) − R(f )) 6 2Rn (` ◦ F) + 3 .
f ∈F n

19
6 Лекция 6

6.1 Свойства средних по Радемахеру

Зафиксируем множество точек X1 , . . . , Xn . Как и ранее, для класса функций G будем обо-
значать
n
1X
Rn (G) = Eσ sup σi g(Xi ).
g∈G n i=1
Справедливы следующие свойства выборочных средних по Радемахеру:

1. Rn (c · G) = |c|Rn (G), где c · G = {cg : g ∈ G};


2. Rn (G + H) = Rn (G) + Rn (H), где G + H = {g + h : g ∈ G, h ∈ H};
( )
N
P N
P
3. Rn (conv(G)) = Rn (G), где conv(G) = λj gj : N ∈ N, λj > 0, λj = 1, gj ∈ G ;
j=1 j=1

C√
n
где C 2 = max g 2 (Xi );
P
4. (лемма Массара) если |G{X1 ,...,Xn } | 6 N , то Rn (G) 6 n 2 log N , g∈G i=1

5. (принцип сжатия Талаграна) Если функция ϕ : R → R удовлетворяет условию Лип-


шица с константой L, то есть
|ϕ(u) − ϕ(v)| 6 L|u − v|, ∀ u, v
то выборочные средние по Радемахеру классов G и ϕ(G) = {ϕ(g) : g ∈ G} связаны
соотношением
Rn (ϕ(G)) 6 LRn (G).

Следствие 6.1 Для задачи классификации и индикаторной функции потерь имеем


|`(Y, u) − `(Y, v)| = |1(Y 6= u) − 1(Y 6= v)| = 1(u 6= v) = |u − v|, u, v ∈ {0, 1}
Значит, по принципу сжатия, Rn (` ◦ F) 6 Rn (F).

Доказательство леммы Массара

Обозначим ограничение G на X1 , . . . , Xn множеством n-мерных векторов A:


G{X1 ,...,Xn } = A = {a(1) , . . . , a(N ) }
и
n n
1X 1X (j)
Rn (A) = Eσ sup σi ai = Eσ max σi ai .
a∈A n 16j6N n
i=1 i=1
Тогда для любого λ > 0 будет выполнено
n
n P (j)
X (j) λEσ max σi ai
16j6N i=1
λEσ max σi ai = log e
16j6N
i=1
n
 n

N
P (j)
! P (j)
λEσ σi ai X λEσ σi ai
= log max e i=1 6 log  e i=1 
16j6N
j=1
 n

N P (j)
X λ σi ai
6 log  Eσ e i=1 .
j=1

20
Последний переход следует из неравенства Йенсена. Так как σi ∈ {−1, 1}, то, по лемме
Хеффдинга,
(j) 2
 
λ2 a
(j) i
λσi ai
Eσi e 6e 2 .
Так как σ1 , . . . , σn независимы, то
 n     
n N λ2 P (j) 2 N
X (j)
X 2
ai X λ2 (j) 2
λEσ max σi ai 6 log  e i=1  = log  e 2 ka k 
16j6N
i=1 j=1 j=1

λ2 (j) 2 C 2 λ2
6 log N + max ka k = log N + .
16j6N 2 2
Значит,
n
X (j) log N C 2λ
Eσ max σi ai 6 + .
16j6N λ 2
i=1

Взяв λ = 2 log N /C, получаем
n
(j)
X p
Eσ max σi ai 6C 2 log N .
16j6N
i=1


6.2 Покрытия и упаковки

Определение 6.1 (Число покрытия) Пусть (X , ρ) – метрическое пространство, A ⊆


X . Множество Aε называется ε-покрытием A (по метрике ρ), если для любого x ∈ A
ρ(x, Aε ) = inf ρ(x, a) < ε.
a∈Aε

Числом покрытия N (A, ρ, ε) множества A называется минимальный размер ε-покрытия


A.

Определение 6.2 (Число упаковки) Пусть (X , ρ) – метрическое пространство, A ⊆


X . Множество B ⊆ X называется ε-отделимым (по метрике ρ), если для любых b1 , b2 ∈ B
ρ(b1 , b2 ) > ε Числом упаковки M(A, ρ, ε) множества A называется максимальный размер
ε-отделимого подмножества A.

Упражнение 6.1 Докажите, что для любого множества A и метрики ρ выполнено


M(A, ρ, 2ε) 6 N (A, ρ, ε) 6 M(A, ρ, ε).

6.3 Средние по Радемахеру для классов с конечной размерностью Вапника-


Червоненкиса

Теорема 6.1 Для любого множества A ⊆ {0, 1}n выполнено


n Z1 p
1X 12
Rn (A) = Eσ sup σi ai 6 √ log N (A, k · kn , ε)dε,
a∈A n i=1
n
0
n
1
где kak2n = a2i .
P
n
i=1

21
Доказательство
Для краткости будем обозначать a = (a1 , . . . , an ) и σ = (σ1 , . . . , σn ). Зафиксируем реализа-
цию σ, и пусть вектор a∗ максимизирует hσ, ai по a ∈ A. Обозначим A(k) , 0 6 k 6 K, где
K > log2 n, минимальное 2−k -покрытие A по норме k · kn . Обозначим a(k) ближайший к a∗
элемент A(k) . Тогда
K
X
∗ ∗ (K)
Eσ suphσ, ai = Eσ hσ, a i = Eσ hσ, a − a i + Eσ hσ, a(k) − a(k−1) i.
a∈A k=1

Так как K > log2 n, то ka∗ − a(K) kn < 1/n. Поскольку a∗ и a(K) принадлежат булеву кубу
{0, 1}n , то условие ka∗ − a(K) kn < 1/n означает, что a∗ = a(K) .
K
hσ, a(k) − a(k−1) i. Используя неравенство треугольника,
P
Теперь рассмотрим слагаемое Eσ
k=1
получаем

ka(k) − a(k−1) kn 6 ka(k) − a∗ kn + ka∗ − a(k−1) kn


6 2−k + 2−k+1 = 3 · 2−k .

Значит,
Eσ hσ, a(k) − a(k−1) i 6 Eσ max hσ, b(k) − b(k−1) i.
b(k) ∈A(k) ,
b (k−1) ∈A(k−1) ,
kb(k) −b(k−1) kn 63·2−k

В сумме hσ, b(k) − b(k−1) i каждое слагаемое – случайная величина, ограниченная по модулю
kb(k) − b(k−1) kn . Используя независимость σi и лемму Хеффдинга, получаем
n
(k) −b(k−1) i
Y (k) (k−1)
−bi
Eσ eλhσ,b = Eσi eλσi (bi )

i=1
n
(k) (k−1) 2
λ2 (bi −bi 2 kb(k) −b(k−1) k2 /2
Y
) /2
6 e = enλ n .
i=1

Применяя те же рассуждения, как и при доказательстве леммы Массара, для математиче-


ского ожидания максимума случайных величин получаем

Eσ max hσ, b(k) − b(k−1) i


b(k) ∈A(k) ,
b (k−1) ∈A(k−1) ,
kb(k) −b(k−1) kn 63·2−k
√ q
6 3 n · 2−k 2 log |A(k) | · |A(k−1) |


√ q
6 6 n · 2−k log N (A, k · kn , 2−k ),

где N (A, k · kn , ·) – число покрытия множества A. Значит,


K
√ X q
Eσ suphσ, ai 6 6 n 2−k log N (A, k · kn , 2−k ).
a∈A k=1

Заметим, что

K
X q Z1 p
−k−1 −k
2 log N (A, k · kn , 2 ) 6 log N (A, k · kn , ε)dε,
k=1 0

22
и, таким образом, окончательно получаем,

Z1 p
12
Rn (A) 6 √ log N (A, k · kn , ε)dε.
n
0


Следующая лемма дает вверхнюю оценку на число упаковок, а значит, и на число покрытия.

Лемма 6.1 (Хаусслер [7]) Пусть множество A ⊆ {0, 1}n состоит из векторов (f (X1 ), . . . , f (Xn )),
f ∈ F, V Cdim(F) = d. Тогда
 d
2e
M(A, k · kn , ε) 6 e(d + 1) .
ε2

Из Теоремы 6.1 и Леммы 6.1 следует верхняя оценка радемахеровской сложности для клас-
сов с конечной размерностью Вапника-Червоненкиса.

Следствие 6.2 В задаче классификации с индикаторной функцией потерь для класса F


с конечной размерностью Вапника-Червоненкиса выполнено
r
d
Rn (F) .
n

23
7 Лекция 7

7.1 Фундаментальная теорема PAC-обучения

Теорема 7.1 Пусть F = {f : X → {0, 1}} – некоторый класс функций, и пусть функция
потерь ` бинарная: `(Y, Y 0 ) = 1(Y 6= Y 0 ). Тогда следующие утверждения эквивалентны:

1. F удовлетворяет условию равномерной сходимости;

2. F агностически PAC-обучаем с помощью любого минимизатора эмпирического рис-


ка;

3. F PAC-обучаем с помощью любого минимизатора эмпирического риска;

4. F имеет конечную размерность Вапника-Червоненкиса.

Доказательство
Переход 1 → 2 следует из Следствия 2.1, переход 2 → 3 очевиден, переход 3 → 4 следует из
No-Free-Lunch-теоремы 1.1, переход 4 → 1 следует из Следствия 6.2.

24
8 Лекция 8

8.1 Условия малого шума и быстрые порядки

В лекции 6 было доказано, что в классах с конечной размерностью Вапника-Червоненкиса


обучение можно проводить с помощью минимизатора эмпирического риска, причем спра-
ведлива оценка ER(fb) − R(f ∗ ) = O(n−1/2 ), которая является неулучшаемой в общем случае
(см. [11], гл. 28.2). Для получения более быстрых порядков сходимости требуется сделать
дальнейшие предположения. Одним из таких предположений является условие малого шу-
ма. Идея состоит в следующем. Обозначим η(x) = P(Y = 1|X = x). В задаче классификации
с бинарной функцией потерь лучшим классификатором является байесовское решающее
правило f Bayes , которое задается формулой
 
1
f Bayes
(x) = 1 η(x) >
2
Далее в этой лекции будем предполагать, что f Bayes ∈ F. Можно легко доказать, что для
любого другого классификатора f R(f ) − R(f Bayes ) > 0, что означает f ∗ ∈ argmin R(f ) =
f ∈F
f Bayes . Проблема состоит в том, что байесовское решающее правило использует априорное
знание распределения D на парах (X, Y ), которое недоступно в процессе обучения. Зада-
ча статистика состоит в том, чтобы попытаться сделать вывод, какое значение принимает
f Bayes (x) в точке x. Очевидно, самым сложным является случай, когда η(x) близка к 1/2.
Наоборот, если значение η(x) удалено от 1/2, то классифицировать точку x становится
проще. Условие малого шума гарантирует, что значение η(X) близко к 1/2 с малой вероят-
ностью (по мере PX ).

Определение 8.1 (Маммен, Цыбаков, [9]) Будем говорить, что распределение D =


PX × PY |X на X × Y удовлетворяет условиям малого шума Маммена-Цыбакова, если су-
ществуют B > 0 и α ∈ [0, 1) такие, что
α
PX (|2η(X) − 1| 6 t) 6 Bt 1−α , ∀t > 0 (3)

Главный результат сформулирован в следующей теореме.

Теорема 8.1 Пусть |F| = N и выполнено условие малого шума (3). Тогда для минимиза-
тора эмпирического риска fb с вероятностью 1 − δ справедливо
  1
∗ log(N/δ) 2−α
R(fb) − R(f ) .
n

Прежде чем перейти к доказательству Теоремы 8.1, нам потребуется доказать несколько
вспомогательных утверждений. Во-первых, справедливо следующее замечание.

Лемма 8.1 Для всех f ∈ F выполнено


R(f ) − R(f ∗ ) = EX |2η(X) − 1|1(f (X) 6= f ∗ (X))

Упражнение 8.1 Докажите Лемму 8.1.

Во-вторых, используя условие малого шума, можно оценить вероятность PX f (X) 6=


f ∗ (X) .


25
Лемма 8.2 Пусть выполнено условие малого шума (3). Тогда существует такая кон-
станта c > 0, что
PX (f (X) 6= f ∗ (X)) 6 c(R(f ) − R(f ∗ ))α

Замечание Заметим, что в общем случае

R(f ) − R(f ∗ ) = EX |2η(X) − 1|1(f (X) 6= f ∗ (X))


6 EX 1(f (X) 6= f ∗ (X)) = PX (f (X) 6= f ∗ (X))

Доказательство Леммы 8.2.

PX f (X) 6= f ∗ (X) = EX 1(f (X) 6= f ∗ (X))1(|2η(X) − 1| > t)




+ EX 1(f (X) 6= f ∗ (X))1(|2η(X) − 1| < t)


1
6 EX |2η(X) − 1|1(f (X) 6= f ∗ (X))1(|2η(X) − 1| > t)
t
+ PX (|2η(X) − 1| < t)
1
6 EX |2η(X) − 1|1(f (X) 6= f ∗ (X)) + PX (|2η(X) − 1| < t)
t
1
6 (R(f ) − R(f ∗ )) + Btα/(1−α)
t
Минимизируя (R(f ) − R(f ∗ ))/t + Btα/(1−α) по t, получаем, что

PX (f (X) 6= f ∗ (X)) 6 c(R(f ) − R(f ∗ ))α


Основным ингредиентом в доказательстве Теоремы 8.1 является неравенство Бернштейна.

Лемма 8.3 (неравенство Бернштейна) Пусть ξ1 , . . . , ξn – независимые копии случай-


ной величины ξ, причем Var(ξ) = σ 2 и |ξ| 6 b, b ∈ R. Тогда
n
!
nt2
 
1X
P Eξ − ξi > t 6 exp − 2
n 2σ + 2bt/3
i=1

Доказательство
n n n
! ( )
X X Y
P nEξ − ξi > nt 6 E exp λnEξ − λ ξi − λnt = e−λnt EeλEξi −λξi
i=1 i=1 i=1

Рассмотрим EeλEξi −λξi .


∞ ∞
X λk E(Eξi − λξi )k X λk E|Eξi − λξi |k
EeλEξi −λξi = 1 + 61+
k! k!
k=2 k=2
∞ ∞
λk bk−2 E(Eξi − λξi )2
X λ2 σ 2 X 2λk bk
61+ =1+
k! 2 (k + 2)!
k=2 k=0

!
λ2 σ 2 X λk bk λ2 σ 2 /2 λ2 σ 2 /2
61+ 1+ 61+ 6 e 1−bλ/3 , 0 < λ < 3/b
2 3 1 − bλ/3
k=1

26
Выберем λ из условия
bλ σ2
1− = bt
3 σ2 + 3
Тогда легко проверить, что

nλ2 σ 2 /2 nt2
− λnt = −
1 − bλ/3 2σ 2 + 2bt
3

Значит,
n
!
nt2
 
1X
P Eξ − ξi > t 6 exp − 2
n 2σ + 2bt/3
i=1

Доказательство теоремы 8.1
Из неравенства Бернштейна следует, что с вероятностью 1 − δ
n
r
1X 2b log(1/δ) 2 log(1/δ)
Eξ − ξi 6 +σ
n 3n n
i=1

Зафиксируем f ∈ F и рассмотрим ξ = 1(f (X) 6= Y ) − 1(f ∗ (X) 6= Y ). Очевидно, что


Eξ = R(f ) − R(f ∗ ) и

Var(ξ) 6 Eξ 2 = E (1(f (X) 6= Y ) − 1(f ∗ (X) 6= Y ))2 6


EX 1(f (X) 6= f ∗ (X)) = PX (f (X) 6= f ∗ (X)) 6 c(R(f ) − R(f ∗ ))α

Тогда для f с вероятностью 1 − δ выполнено


r
2b log(1/δ) 2c(R(f ) − R(f ∗ ))α log(1/δ)
R(f ) − R(f ∗ ) − Rn (f ) + Rn (f ∗ ) 6 +
3n n
Если класс |F| = N , то используя неравенство Бонферрони, получаем, что одновременно
для всех f ∈ F с вероятностью 1 − δ выполнено
r
2b log(N/δ) 2c(R(f ) − R(f ∗ ))α log(N/δ)
R(f ) − R(f ∗ ) − Rn (f ) + Rn (f ∗ ) 6 +
3n n

Рассмотрим минимизатор эмпирического риска fb. Очевидно, что Rn (fb) 6 Rn (f ∗ ). Тогда


s
2b log(N/δ) c(R(fb) − R(f ∗ ))α log(N/δ)
R(fb) − R(f ∗ ) 6 +
3n n
 s 
 2b log(N/δ) ∗ α
c(R(f ) − R(f )) log(N/δ) 
b
6 2 max ,
 3n n 

Возможны два случая. Если


s
2b log(N/δ) 2c(R(fb) − R(f ∗ ))α log(N/δ)
6 ,
3n n
то   1
8c log(N/δ) 2−α
R(fb) − R(f ∗ ) 6
n

27
Если, наоборот, s
2b log(N/δ) 2c(R(fb) − R(f ∗ ))α log(N/δ)
> ,
3n n
то
(  2  1)
4b log(N/δ) 2b α log(N/δ) α
R(fb) − R(f ∗ ) 6 min , √ ·
3n 3 2c n
 1∧ 1     1
log(N/δ) α log(N/δ) log(N/δ) 2−α
. = .
n n n

Таким образом, мы доказали, что для конечного класса функций выполнено


  1
∗ log(N/δ) 2−α
R(fb) − R(f ) .
n

Замечание Аналогичные рассуждения можно провести для случая, когда выполнено


условие
PX (|2η(X) − 1| > h) = 1 (4)
Такое условие называется условием малого шума Массара (см. подробнее [2], гл. 5.2, и
[10]). Также в [10] доказывается верхняя оценка на скорость обучения минимизатора эмпи-
рического риска для классов с конечной размерностью Вапника-Червоненкиса в условиях
малого шума (4).

28
9 Лекция 9

9.1 Метод k ближайших соседей

Метод k ближайших соседей является одним из наиболее популярных методов непараметри-


ческой классификации. Как и ранее, пусть дана обучающая выборка {(Xi , Yi ) : 1 6 i 6 n},
где Xi ∈ X ⊆ Rd . Зафиксируем некоторую тестовую точку x ∈ X и упорядочим элементы
обучающей выборки по возрастанию расстояния kXi − xk: {(X(i) , Y(i) ) : 1 6 i 6 n}. Стоит
отметить, что X(i) = X(i) (x), Y(i) = Y(i) (x). Обозначим η(x) = P(Y = 1|X = x). Метод k
ближайших соседей состоит в оценке функции η(x) на основании меток k ближайших к x
точек:
k
1X
ηb(x) = Y(i) ,
k
i=1

и решающее правило fb(x) определяется формулой


 
1
f (x) = 1 ηb(x) >
b .
2
Метод ближайших соседей относится к так называемым plug-in классификаторам, то есть
к решающим правилам, которые имитируют байесовский классификатор f ∗ (x) = 1(2η(x) >
1), заменяя неизвестную функцию η(x) ее оценкой.
Несмотря на то, что метод прост и давно известен, неасимптотический анализ оценок k
ближайших соседей был проведен в относительно недавних работах (например, [3], [4]).
На лекции будет получена верхняя оценка на ошибку классификатора fb при следующих
предположениях. Во-первых, предполагается, что η(x) является α-непрерывной по Гельдеру
функцией, то есть существует такая константа L, что для любых x, x0 ∈ X выполнено
|η(x) − η(x0 )| 6 Lkx − x0 kα . (5)
Во-вторых, выполнено условие малого шума Маммена-Цыбакова: существуют положитель-
ные константы B > 0 и β > 0 такие, что для любого t > 0 выполнено
PX (|2η(X) − 1| 6 t) 6 Btβ . (6)
В-третьих, маргинальное распределение PX имеет плотность p(x), отделенную от нуля, то
есть существует такая константа p0 , что
p(x) > p0 , x ∈ supp(PX ). (7)

Замечание Условие (7) является довольно строгим. Есть несколько результатов (напри-
мер, [1], [3] и [4]) о скорости сходимости метода k ближайших соседей и plug-in классифи-
каторов при более слабых ограничениях.
Сначала покажем, что оценка ηb(x) является состоятельной оценкой η(x) для любого фик-
сированного x ∈ X .

Теорема 9.1 Пусть выполнены условия (5) и (7). Тогда для любого x ∈ supp(PX ) с веро-
ятностью не менее 1 − δ по всем обучающим выборкам выполнено
! 2α r
2 √
r d
−α 2 log(4/δ)
|b
η (x) − η(x)| 6 L(np0 ωd ) d 2 log + k + ,
3 δ 2k

где ωd – объем единичного шара B(0, 1) ⊂ Rd .

29
Доказательство
Зафиксируем некоторую точку x ∈ supp(PX ) и пусть X(1) , . . . , X(k) – координаты k ближай-
ших к x точек обучающей выборки. Обозначим
k
1X
η̄(x) = η(X(i) ).
k
i=1

Очевидно, ESn ηb(x) = η̄(x). Тогда ошибку оценки |b


η (x) − η(x)| можно разбить на 2 части:

|b
η (x) − η(x)| 6 |b
η (x) − η̄(x)| + |η̄(x) − η(x)|

Рассмотрим первое слагаемое. Из неравенства Хеффдинга следует, что для любого t > 0 и
почти всех X1 , . . . , Xn

P |b
η (x) − η̄(x)| > t X1 , . . . , Xn
k
!
1 X 2
Y(i) − η(X(i) ) > t X1 , . . . , Xn 6 2e−2kt .

=P |
k
i=1

Значит,
2
η (x) − η̄(x)| > t) 6 2e−2kt ,
P (|b
из чего следует, что с вероятностью хотя бы (1 − δ/2) выполнено
r
log(4/δ)
|b
η (x) − η̄(x)| 6 . (8)
2k

Теперь рассмотрим слагаемое |η̄(x) − η(x)|. Из условия (5) легко получить

k k
1X 1X
|η̄(x) − η(x)| 6 |η(X(i) ) − η(x)| 6 LkX(i) − xkα 6 kX(k) − xkα .
k k
i=1 i=1

Зафиксируем t > 0 и рассмотрим событие {kX(k) − xk > t}. Это событие происходит, когда
в шар B(x, t) попадает менее k точек. Значит,
n
!
1(Xi ∈ B(x, t)) < k 6 P (Binom(n, q) < k) ,
 X
P kX(k) − xk > t = P
i=1

где q = p0 ωd , ωd – объем единичного шара в Rd . Последнее неравенство следует из того, что


1(Xi ∈ B(x, t)), 1 6 i 6 n, – независимые случайные величины с распределением Бернулли,
причем PX (X ∈ B(x, t)) > p0 ωd td . Применяя неравенство Бернштейна, получаем, что при
n > k/q выполнено

P (Binom(n, q) < k) = P (Binom(n, q) − nq < k − nq)


(nq−k)2 3(nq−k)2
− 2nq(1−q)+2(nq−k)/3 −
6e 6e 8nq .


q √
Можно легко убедиться, что nq = 2 23 log 2δ + k удовлетворяет неравенству
r
2 2
nq − 2 nq log − k > 0,
3 δ

30
3(nq−k)2

а значит, e 8nq 6 δ/2. Таким образом, с вероятностью хотя бы (1 − δ/2) по всем обуча-
ющим выборкам выполнено
!2

r d
1 2 2
kX(k) − xk 6 (np0 ωd )− d 2 log + k
3 δ
и ! 2α
2 √
r d
−α 2
|η̄(x) − η(x)| 6 L(np0 ωd ) d 2 log + k . (9)
3 δ
Из неравенств (8) и (9) и неравенства Бонферрони следует утверждение теоремы.

Из Теоремы 9.1 следует

Следствие 9.1 В условиях Теоремы 9.1, для любого x ∈ supp(PX ) и любого r > 1 выпол-
нено   αr
k d r
ESn |b r
η (x) − η(x)| . + k− 2 .
n
В частности, выбор k  n2α/(2α+d) гарантирует
αr
η (x) − η(x)|r . n− 2α+d .
ESn |b

9.2 Быстрые порядки для plug-in классификаторов

Теперь перейдем к оценке ошибки классификации метода k ближайших соседей. На самом


деле, докажем более общий результат.

Теорема 9.2 Пусть выполнено условие малого шума 6 и для оценки ηb(x) функции η(x)
выполнено
η (x) − η(x)|r 6 Cµr , ∀ x ∈ supp(PX ), ∀ r > 1,
ESn |b
где µr – некоторая функция n и r (и не зависит от x!). Тогда для классификатора fb(x) =
1 (2bη(x) > 1) выполнено
1+β
ESn R(fb) − R(f ∗ ) . µr r ,
где f ∗ (x) = 1 (2η(x) > 1) – байесовское решающее правило.

Доказательство
По Лемме 8.1,

ESn R(fb) − R(f ∗ ) = ESn EX (2η(X) − 1)1(fb(X) 6= f ∗ (X)).

Зафиксируем δ > 0 и обозначим

A0 = {|2η(X) − 1| 6 δ}
Aj = {2j−1 δ < |2η(X) − 1| 6 2j δ}, j ∈ N.

Тогда

ESn EX (2η(X) − 1)1(fb(X) 6= f ∗ (X)) = EX (2η(X) − 1)1(fb(X) 6= f ∗ (X))1(Aj ).
X

j=0

31
Для j = 0 справедлива оценка

ESn EX (2η(X) − 1)1(fb(X) 6= f ∗ (X))1(A0 ) 6 δP(A0 ) 6 Bδ β .

Для остальных j получаем

ESn EX (2η(X) − 1)1(fb(X) 6= f ∗ (X))1(Aj )


 
6 ESn EX (2η(X) − 1)1 |b η (X) − η ∗ (X)| > 2j−2 δ 1(Aj ),

так как на событии Aj fb(X) 6= f ∗ (X) только в случае, когда

η (X) − 2η(X)| > |2η(X) − 1| > 2j−1 δ


|2b

Таким образом, используя неравенство Маркова, получаем

η (X) − η(X)| > 2j−2 δ X 1(Aj )


ESn EX (2η(X) − 1)1(fb(X) 6= f ∗ (X))1(Aj ) 6 2j δ · EX PSn |b


Cµr
6 2j δ · r(j−2) r · B(2j δ)β .
2 δ
−1/r
Взяв r > 1 + β и δ = µr , получаем

E(2η(X) − 1)1(fb(X) 6= f ∗ (X))1(Aj )
X
ESn R(fb) − R(f ∗ ) =
j=0
 

− 1+β X − 1+β
6 Bµr r 1 + 4 r C 2−r+1+β  . µr r
.
j=1


Из Теорем 9.1 и 9.2 получаем оценку на ошибку классификации метода k ближайших сосе-
дей.

Следствие 9.2 Пусть выполнены условия (5), (6) и (7). Тогда для классификатора fb,
построенного по методу k ближайших соседей при k  n2α/(2α+d) , выполнено
α(1+β)
ESn R(fb) − R(f ∗ ) . n− 2α+d .

Замечание В [1] показано, что при условиях (5), (6) и (7) порядок n−α(1+β)/(2α+d) явля-
ется оптимальным.

32
10 Лекция 10

10.1 Метод опорных векторов. Случай разделимой выборки

Рассмотрим простой случай. Пусть дана обучающая выборка Sn = {(Xi , Yi )}16i6n , где Xi ∈
Rd , Yi ∈ {−1, 1}. Допустим, что существует разделяющая гиперплоскость hw∗ , xi + b∗ = 0
такая, что Y (hw∗ , Xi + b∗ ) > 0 почти-наверное. Случай разделимой выборки крайне редко
встречается на практике, но тем не менее, на нем можно наглядно продемонстрировать
работу метода опорных векторов (в англ. литературе SVM – Support Vector Machine).
Идея метода опорных векторов – построить гиперплоскость, максимизирующую расстояния
до ближайшего положительного и ближайшего отрицательного примеров. Используя фор-
мулу для нахождения расстояния от точки X до гиперплоскости α, задаваемую уравнением
hw, xi + b = 0,
|hw, Xi + b|
ρ(X, α) = ,
kwk
можно записать следующую задачу оптимизации

 min |hw, Xi i + b| → max
16i6n
 w,b
Yi (hw, Xi i + b) > 0, 1 6 i 6 n (10)


kwk = 1

Задача (10) имеет следующую эквивалентную формулировку



kwk2 → min
w,b (11)
Y (hw, X i + b) > 1, 16i6n
i i

w b
В самом деле, обозначим C = min |hw, Xi i + b| и сделаем замену w
e= C,
eb =
C. Тогда для
16i6n
любого i, 1 6 i 6 n, будет выполнено
  Y
i
Yi hw,
e Xi i + eb = (hw, Xi i + b) > 1
C
1
В то же время задача максимизации C эквивалентна минимизации kwk
e = C.
Задача (11) является задачей выпуклой оптимизации и может быть решена эффективно
 w,
(например, с помощью метода стохастического градиентного спуска). Пусть b bb – решение

задачи (11). Тогда решающее правило выражается формулой fb(x) = sign hw,b xi + bb .
Лагранжиан для задачи (11) выражается формулой
n
X
L(w, b, µ) = kwk2 +

µi 1 − Yi (hw, Xi i + b) ,
i=1

где µ ∈ Rn+ . Запишем условия Каруша-Куна-Таккера:



Pn


2w − µi Yi Xi = 0

 i=1
n
P
 µi = 0


i=1 
µi 1 − Yi (hw, Xi i + b) = 0

33
Из первого уравнения следует, что w является линейной комбинацией векторов Xi , для
которых коэффициенты µi отличны от нуля. Из условий дополняющей нежесткости следует,
что µi не равны 0 только для тех точек Xi , которые удовлетворяют равенству Yi (hw, Xi i +
b) = 1, то есть для ближайших к разделяющей гиперплоскости точек. Такие векторы Xi
называются опорными векторами.
Ранее на лекциях обсуждалось, что класс индикаторных функций полупространств в Rd
имеет VC-размерность d + 1. Так как существуют w∗ , b∗ такие, что R(w∗ , b∗ ) = 0, а метод
опорных векторов является частным случаем минимизатора эмпирического риска, то
(d + 1) (log(n/(d + 1)) + log(1/δ))
R(fb) .
n
с вероятностью 1 − δ по обучающим выборкам. Однако можно доказать и другую оценку
для классификатора fb.
Для теоретического анализа удобнее рассматривать однородный случай, то есть случай,
когда b = 0. Переход от неоднородного случая к однородному может быть осуществлен с
помощью преобразования X 7−→ (X, 1) ∈ Rd+1 .

Теорема 10.1 Пусть существует такой вектор w∗ , что kw∗ k 6 B и Y hw∗ , Xi > 1
почти-наверное. Пусть также kXk 6 R почти-наверное. Тогда для классификатора
fb(x) = hw,
b xi, где w
b – решение задачи
(
kwk2 → min
w
Yi hw, Xi i > 1, 1 6 i 6 n,

с вероятностью не менее (1 − δ) по обучающим выборкам выполнено


r
  2BR 2 log(2/δ)
R(fb) = P(X,Y )∼D Y 6= fb(X) 6 √ +
n n

Доказательство
Обозначим
`ramp (Y 0 , Y ) = min 1, max{1 − Y 0 Y, 0}


а также

Rramp (w) = E(X,Y )∼D `ramp (hw, Xi, Y )


n
ramp 1 X ramp
Rn (w) = ` (hw, Xi i, Yi )
n
i=1

Заметим, что R(fb) ≡ R(w)b 6 Lramp (w).


b Также заметим, что в силу условий теоремы,
kwk
b 6 B. Применяя рассуждения, аналогичные проведенным в Лекции 5, получаем, что с
вероятностью 1 − δ по обучающим выборкам выполнено
r
ramp ramp ramp 2 log(2/δ)
R(w)
b 6R (w)
b 6 Rn (w) b + ESn Rn (` ◦ A) + ,
n
где
A = {(hw, X1 i, . . . , hw, Xn i) : kwk 6 B}
и
n
1 X ramp
Rn (`ramp ◦ A) = Eσ sup σi ` (ai , Yi )
a∈A n i=1

34
По принципу сжатия, Rn (`ramp ◦ A) 6 Rn (A). Ограничим Rn (A).
n n
1X 1X
Rn (A) = Eσ sup σi ai = Eσ sup σi hw, Xi i
a∈A n i=1 kwk6B n i=1

n n
1 X B X
6 Eσ sup kwk · σi Xi 6 Eσ σi Xi

n kwk6B n
i=1 i=1
 2  12
n
B X
6 Eσ σi Xi 

n
i=1

В силу независимости σ1 , . . . , σn , имеем


2
Xn Xn n
X
σi Xi = Eσ σi σj hXi , Xj i = Eσ kXi k2 6 nR2



i=1 i,j=1 i=1

и окончательно получаем
BR
R(A) = ERn (A) 6 √
n
Наконец, учитывая, что Rnramp (w)
b = 0 в силу условий теоремы, получаем
r
  2BR 2 log(2/δ)
R(fb) = P(X,Y )∼D Y 6= fb(X) 6 √ +
n n

Замечание В оценке, полученной в Теореме 10.1 отсутствует размерность d. Вместо этого


присутствует параметр B, который показывает, насколько хорошо выборка разделима. Если
Y hw∗ , Xi > 1 почти-наверное и kw∗ k 6 B, то с вероятностью 1 расстояние ρ от точки X до
разделяющей гиперплоскости, задаваемой вектором w∗ , удовлетворяет неравенству

|hw∗ , Xi| 1
ρ= >
kw∗ k B

Таким образом, чем меньше B, тем лучше разделима выборка.

На первый взгляд может показаться, что верхняя оценка для риска R(fb), полученная в
Теореме (10.1), хуже, чем оценка, основанная на VC-размерности класса гиперплоскостей.

Однако возможны случаи, когда BR n < d (см., например, [11], .

35
11 Лекция 11

11.1 Метод опорных векторов. Случай неразделимой выборки. Перемен-


ные мягкого отступа

Рассмотрим теперь случай неразделимой выборки. В этом случае задача (11) модифициру-
ется, и добавляются переменные мягкого отступа ξ1 , . . . , ξn > 0:
n

λkwk2 + 1
P

 n ξi → min
 i=1 w,b
Yi (hw, Xi i + b) > 1 − ξi , 1 6 i 6 n, (12)



ξ > 0, 1 6 i 6 n,
i

где λ > 0 – подбираемый параметр.


Вместо решения задачи (12) удобнее перейти к двойственной задаче. Лагранжиан в данном
случае запишется в виде
n n n
1X
2
X  X
L(w, b, ξ, α, µ) = λkwk + ξi + αi 1 − ξi − Yi hw, Xi i − Yi b − µi ξi ,
n
i=1 i=1 i=1

где α, µ ∈ Rn+ . Приравнивая к нулю производные L по w, b и ξ, получаем систему



Pn


 2λw − αi Yi Xi = 0,

 i=1
1
n − αi − µi = 0, 16i6n

 Pn
 αi Yi = 0


i=1

Выражая w, b и ξ через α и µ и подставляя в L(w, b, ξ, α, µ), получаем двойственную задачу


Тогда двойственная задача запишется в виде
P n n
1 P

 αi − 4λ αi αj Yi Yj hXi , Xj i → max

i=1
 i,j=1 α
n
P
αi Yi = 0 (13)

i=1


0 6 αi 6 n1 , 1 6 i 6 n

Решив задачу (13), весовой вектор w можно найти по формуле


n
1 X
w= αi Yi Xi

i=1

Как и в случае разделимой выборки, векторы Xi , для которых αi 6= 0, называются опор-


ными. Запишем условия Каруша-Куна-Таккера для задачи (12):
 n
P
2λw − αi Yi Xi = 0,





 i=1
1

n − αi − µi = 0, 1 6 i 6 n,



n

P

αi Yi = 0,
 i=1 




 αi 1 − ξi − Yi hw, Xi i − Yi b = 0, 1 6 i 6 n,




 µi ξi = 0, 1 6 i 6 n,

α , µ , ξ > 0, 1 6 i 6 n
i i i

36
1
 
Если Yi hw, Xi i + b > 1, то ξi = 0, αi = 0. Если Yi hw, Xi i + b < 1, то ξi > 0, α
i = n и
в этом случае точка Xi классифицирована неверно. Наконец, если Yi hw, Xi i + b = 1, то
ξi = 0, 0 6 αi 6 n1 . Таким образом, опорными векторами являются векторы, которые лежат
на граничных гиперплоскостях или классифицированы  неверно. Зная значение w, значение
параметра b можно найти из условия Yi hw, Xi i + b = 1, где Xi – произвольная точка на
граничной гиперплоскости.

11.2 Обобщающая способность метода опорных векторов в случае нераз-


делимой выборки

Как и в случае с разделимой выборкой, будем рассматривать однородный случай: b = 0.


Тогда задача (12) эквивалентна

Rnhinge (w) + λkwk2 → min (14)


w

где
n
1X
Rnhinge (w) = `(hw, Xi i, Yi )
n
i=1

и `(Y 0, Y 0Y
) = max{0, 1−Y } – функция hinge-потерь. Задача (14) похожа на задачу миними-
зации эмпирического риска с той лишь разницей, что добавлено регуляризующее слагаемое
λkwk2 .

Определение 11.1 Пусть ψn – монотонно убывающая по n функция. Обозначим Sn =


(i)
{Zi = (Xi , Yi ) : 1 6 i 6 n} и Sn = Sn \{Zi } ∪ {Z 0 }, где пара Z 0 = (X, Y ) сгенерирована неза-
висимо из того же распределения D, что и элементы Sn . Будем говорить, что алгоритм
обучения A устойчив в среднем (относительно функции потерь `) с порядком ψn , если
n
1 X (i)

ESn ,Z 0 ∼Dn+1 `(A(Sn ), Zi ) − `(A(Sn ), Zi ) 6 ψn
n
i=1

Следующая теорема показывает, что устойчивые в среднем алгоритмы обучения не приво-


дят к переобучению.

(i)
Лемма 11.1 Sn = {Zi = (Xi , Yi ) : 1 6 i 6 n} и Sn = Sn \{Zi } ∪ {Z 0 }, где пара Z 0 = (X, Y )
сгенерирована независимо из того же распределения D, что и элементы Sn . Тогда для
любого алгоритма обучения A выполнено
n
1 X 
ESn (R(A(S)) − Rn (A(S))) = ESn ,Z 0 ∼Dn+1 `(A(Sn(i) ), Zi ) − `(A(Sn ), Zi )
n
i=1

Доказательство
Утверждение теоремы следует из равенства

ESn R(A(Sn )) = ESn ,Z 0 `(A(Sn ), Z 0 ) = ESn ,Z 0 `(A(Sn(i) ), Zi )

37
Далее будет показано, что алгоритм обучения (14), основанный на минимизации регуляри-
зованного эмпирического риска, устойчив в среднем. Далее в этой лекции будем использо-
вать следующие обозначения:

`hinge (Y 0 , Y ) = max{0, 1 − Y 0 Y }
Rhinge (w) = E(X,Y )∼D `(hw, Xi, Y ) ≡ EZ∼D `(w, Z)
n
1X 1 X
Rnhinge (w) = `(hw, Xi i, Yi ) ≡ `(w, Z)
n n
i=1 Z∈Sn
1 X
Rnhinge,(i) (w) = `(w, Z)
n (i)
Z∈Sn

b ∈ argmin Rnhinge (w) + λkwk2


w
w
(i)
w
b ∈ argmin Rnhinge,(i) (w) + λkwk2
w

q 11.1 Пусть kXk 6 R почти-наверное. Тогда для решения w


Теорема b задачи (14) при
R 2
λ = B n выполнено
r
hinge hinge 2
ESn R(w)
b 6 ESn R (w)
b 6 min R (w) + 2RB
w:kwk6B n

Доказательство
hinge,(i)
Обозначим f (w) = Rnhinge (w) + λkwk2 , f (i) (w) = Rn (w) + λkwk2 . Так как функция
hinge 2
Rn (w) является выпуклой, а λkwk – 2λ-сильно выпуклой, то f (w) – 2λ-сильно выпуклая
функция. Значит, если v минимизирует f (v), то для любого u ∈ Rd выполнено

f (u) − f (v) > λku − vk2 .

С другой стороны,

`hinge (u, Zi ) − `hinge (v, Zi ) `hinge (u, Z 0 ) − `hinge (v, Z 0 )


f (u) − f (v) = f (i) (u) − f (i) (v) + −
n n
b(i) , v = w
Взяв u = w b и учитывая f (i) (w
b(i) ) 6 f (i) (w),
b f (w) b(i) ), получаем
b 6 f (w

|`hinge (w,
b Zi ) − `hinge (w b Z 0 ) − `hinge (w
b(i) , Zi )| |`hinge (w, b(i) , Z 0 )|
λkw−
b wb(i) k2 6 |f (w)−f
b b(i) )| 6
(w +
n n
Заметим, что так как kXk 6 R почти-наверное, то с вероятностью 1 функция `hinge (w, Z)
является R-Липшицевой по w для любого Z, то есть

|`hinge (w, Z) − `hinge (w0 , Z)| 6 Rkw − w0 k, ∀ w, w0 , Z

Значит,
2R
λkw b(i) k2 6
b−w kw b(i) k,
b−w
n
из чего следует
2R
kw b(i) k 6
b−w
λn
и   2R2
ESn ,Z 0 ∼Dn+1 `hinge (w,
b Zi ) − `hinge (w
b(i) , Zi ) 6 , 16i6n
λn

38
Таким образом, алгоритм минимизации регуляризованного эмпирического риска (14) явля-
2
ется устойчивым с порядком 2R
λn .
Теперь заметим, что
 
b 6 ESn Rhinge (w)
ESn R(w) b = ESn Rnhinge (w)
b + ESn Rhinge (w)
b − Rnhinge (w)
b

Из Леммы 11.1 следует, что

2R2
b 6 ESn Rhinge (w)
ESn R(w) b 6 ESn Rnhinge (w)
b +
λn

Теперь ограничим ESn Rnhinge (w).


b Для любого вектора w выполнено

Rnhinge (w)
b 6 Rnhinge (w) b 2 6 Rnhinge (w) + λkwk2
b + λkwk

Таким образом, для любого вектора w выполнено

2R2
b 6 ESn Rhinge (w)
ESn R(w) b 6 Rhinge (w) + λkwk2 +
λn
q
R 2
Если kwk 6 B, то взяв λ = B n, получаем утверждение теоремы.


39
12 Лекция 12

12.1 Переход в пространство более высокой размерности

До сих пор мы имели дело со случаем, когда решающее правило было индикаторной функ-
цией некоторого полупространства. Несложно привести простые примеры, когда даже луч-
ший классификатор такого вида имеет слабую предсказательную способность. Поэтому
для решения практических задач используется следующий прием: сначала исходное про-
странство признаков X отображается в некоторое Гильбертово пространство H большей
размерности с помощью некоторого отображения φ : X → H, а затем находится разделяю-
щая гиперплоскость в пространстве
 H. При этом предсказание в точке x осуществляется по
формуле sign hw, φ(x)i + b , где w ∈ H и b ∈ R задают разделяющую гиперплоскость. Опи-
санный прием позволяет существенно расширить множество допустимых решающих правил
и улучшить качество классификации. Задача оптимизации для метода опорных векторов в
данном случае формулируется следующим образом:
n

λkwk2 + 1
P

 n ξi → min
 i=1 w,b

Yi hw, φ(Xi )i + b > 1 − ξi , 1 6 i 6 n, (15)



ξ > 0, 1 6 i 6 n,
i

12.2 Теорема о представителе

Теорема 12.1 (о представителе) Рассмотрим задачу оптимизации



f hw, φ(X1 )i, . . . , hw, φ(Xn )i + R(kwk), (16)
где f : Rn → R – произвольная функция, R : R+ → R – неубывающая функция. Тогда суще-
n
ствуют такие коэффициенты α1 , . . . , αn , что вектор w∗ =
P
αi φ(Xi ) является решением
i=1
задачи оптимизации (16).

Доказательство
n
Рассмотрим произвольное решение w∗ задачи (16), w∗ =
P
αi φ(Xi )+u, u 6= 0, hu, φ(Xi )i = 0,
i=1
1 6 i 6 n. Рассмотрим вектор w = w∗ − u. Тогда kw∗ k2 = kwk2 + kuk2 > kwk2 . Значит,
∗ ∗ ∗

R(kw k) > R(kwk) и f hw, φ(X1 )i, . . . , hw, φ(Xn )i = f hw , φ(X1 )i, . . . , hw , φ(Xn )i . Таким
образом, w также является решением задачи (16).

n
P
Из Теоремы 12.1 следует, что решение задачи (15) можно искать в виде w = αi φ(Xi ).
i=1
n
P 
Тогда предсказание в точке x будет осуществляться по правилу sign αi hφ(Xi ), φ(x)i+b .
i=1
При этом заметим, что нет необходимости вычислять значения φ(x), φ(X1 ), . . . , φ(Xn ), до-
статочно уметь вычислять скалярные произведения hφ(x), φ(x0 )i для любой заданной пары
точек x, x0 ∈ X . Функция K(x, x0 ) = hφ(x), φ(x0 )i называется ядром.

Пример 12.1 Рассмотрим полиномиальное ядро


d
K(x, x0 ) = 1 + hx, x0 i , x, x0 ∈ Rn .

40
n+d
Покажем, что существует отображение φ : Rn → R( d ) , для которого выполнено K(x, x0 ) =
hφ(x), φ(x0 )i.
 i
d   X n
X d 
K(x, x0 ) = xj x0j 
i
i=0 j=1

K(x, x0 ) может быть представлено как скалярное произведение двух векторов φ(x) и φ(x0 ),
элементами которых являются линейно независимые одночлены от n переменных степени
не более, чем d. Число таких одночленов равно n+d
d .

12.3 Положительно и отрицательно определенные ядра. Теорема Мерсе-


ра

Определение 12.1 Ядро K(x, x0 ) называется симметричным положительно определен-


ным на X × X , если для любого натурального n и любых X1 , . . . , Xn ∈ X матрица
K = (K(Xi , Xj ) : 1 6 i, j 6 n) является симметричной положительно полуопределенной,
то есть для всех c ∈ Rn выполнено cT Kc > 0.

Теорема 12.2 (Мерсер) Симметричная функция K : X × X → R задает скалярное про-


изведение в некотором гильбертовом пространстве тогда и только тогда, когда она яв-
ляется неотрицательно определенной.

Доказательство
Первая часть теоремы тривиальна. Если функция K задает скалярное произведение в неко-
тором гильбертовом пространстве, то она является неотрицательно определенной. Докажем
теперь обратное утверждение. Для каждого x ∈ X определим функцию φx , равную K(·, x)
и рассмотрим векторное пространство H0 , состоящее из всевозможных конечных линейных
комбинаций векторов φx . Определим скалярное произведение
* I J
+ * I J
+ I X
J
X X X X X
0
αi φxi , βj φxj =
0 αi K(·, xi ), βj K(·, xj ) = αi βj K(xi , x0j ).
i=1 j=1 i=1 j=1 i=1 j=1

Легко проверить, что скалярное произведение введено корректно в силу симметричности


и положительной определенности функции K. Заметим важное свойство K: для любой
I
P
функции f (x) = αi K(x, xi ) выполнено
i=1

I
X
f (x) = αi K(x, xi ) = hf, φx i.
i=1

Такое свойство называется воспроизводящим свойством ядра.


Дополним пространство H0 до Гильбертова пространства H. Заметим, что, по неравенству
Коши-Буняковского, для любого фиксированного x ∈ X отображение f 7−→ hf, φx i = f (x)
является kφx k-Липшицевым, поэтому сходимость fn → f , n → ∞ в H влечет поточечную
сходимость fn (x) → f (x), n → ∞.


Свойства положительно определенных ядер:

41
1. если K и K 0 – симметричные положительно определенные ядра, то K + K 0 – симмет-
ричное положительно определенное ядро;

2. если K и K 0 – симметричные положительно определенные ядра, то K · K 0 – симмет-


ричное положительно определенное ядро;

3. если {Km }∞
m=1 – симметричные положительно определенные ядра и для всех x и x
0
0 0
существует поточечный предел lim Km (x, x ) = K(x, x ), то K – симметричное поло-
m→∞
жительно определенное ядро;

4. если K – симметричное положительно определенное ядро, причем для всех x и x0


∞ ∞
|K(x, x0 )| < ρ, и ряд am xm , am > 0, имеет радиус сходимости ρ, то am K m –
P P
m=0 m=0
симметричное положительно определенное ядро.

Пример 12.2 Легко проверить, что ядро K(x, x0 ) = hx, x0 i является симметричным по-
ложительно определенным. Используя свойства положительно определенных ядер, легко
получить, что экспоненциальное ядро


X hx, x0 im hx,x0 i
K 0 (x, x0 ) = = e σ2 ,
σ 2m m!
m=0

также является положительно определенным. Далее можно показать, что если ядро K 0
положительно определено, то положительно определено и ядро

K 0 (x, x0 )
K 00 (x, x0 ) = p p
K 0 (x, x) K 0 (x0 , x0 )

Такое преобразование называется нормировкой. После нормировки экспоненциального ядра


получаем гауссовское ядро:

hx,x0 i kxk2 kx0 k2 kx−x0 k2


− 2 −
e σ2 2σ 2σ 2 = e− 2σ 2

Определение 12.2 Ядро K(x, x0 ) называется симметричным отрицательно определен-


ным на X × X , если для любого натурального n и любых X1 , . . . , Xn ∈ X матрица
K = (K(Xi , Xj ) : 1 6 i, j 6 n) является симметричной и для всех c ∈ Rn , таких что
cT ~1 = 0 выполнено cT Kc 6 0.

Теорема 12.3 Пусть K : X × X → R – симметричное ядро. Тогда

• K – отрицательно определенное тогда и только тогда, когда e−tK – положительно


определенное для всех t > 0;

• зафиксируем произвольное x0 и определим K 0 (x, x0 ) = K(x, x0 ) + K(x0 , x0 ) − K(x, x0 ) −


K(x0 , x0 ). Тогда K – отрицательно определенное в том и только том случае, когда
K 0 – положительно определенное.

42
12.4 Оценка для метода опорных векторов в Гильбертовом пространстве

Обозначим
GB = {g(x) = hw, φ(x)i + b : w ∈ H, kwk 6 B, b ∈ R}
и
FB = {f (x) = sign(g(x)) : g ∈ GB }
Справедлива следующая теорема.

Теорема 12.4 Для произвольной f ∈ FB и произвольного δ ∈ (0, 1) с вероятностью не


менее (1 − δ) по обучающим выборкам выполнено
n
r
0−1 1X 2B p log(2/δ)
R (f ) 6 ξn + Tr(K) + 3 ,
n n 2n
i=1

где K = (K(Xi , Xj ) : 1 6 i, j 6 n) – матрица Грама.

Доказательство
Для любой функции f ∈ FB с вероятностью (1 − δ) по обучающим выборкам выполнено
(см. Упражнение 5.1)
r
0−1 ramp ramp ramp log(2/δ)
R (f ) 6 R (f ) 6 Rn (f ) + 2R (` ◦ FB ) + 3 ,
2n
где `ramp (Y, f (X)) = min 1, max{1 − Y f (X)} – функция ramp-потерь. Легко заметить, что


n
1X
Rnramp (f ) 6 Rnhinge (f ) = ξi
n
i=1

Теперь рассмотрим R (`ramp ◦ FB ). Так как `ramp 1-Липшицева функция, то, по принципу
сжатия,
n
1X
R (`ramp ◦ FB ) 6 R (FB ) = Eσ sup σi f (Xi )
f ∈FB n
i=1
n n
1 X 1X
= Eσ sup σi hw, φ(Xi )i + σi b = Eσ sup σi hw, φ(Xi )i
kwk6B,b n i=1 kwk6B n i=1

n n
* +
1 X 1 X
= Eσ sup w, σi φ(Xi ) 6 Eσ sup kwk σi φ(Xi )

n kwk6B n kwk6B
i=1 i=1
v 2 v
u n u n
Bu X
Bu X
6 σi φ(Xi ) = σi σj hφ(Xi ), φ(Xj )i

t Eσ t Eσ
n n
i=1 i,j=1
v
u n
Bu X Bp
= t σi K(Xi , Xi ) = Tr(K)
n n
i=1

43
13 Лекция 13

13.1 Схемы сжатия выборок

Определение 13.1 (Схема сжатия в бесшумном случае) Будем говорить, что класс
функций F имеет схему сжатия размера k, если существуют функции κn : (X × Y)n →
(X × Y)k и ρ : ×(X × Y)k → F такие, что

• для любой выборки Sn = {(Xi , f (Xi )) : 1 6 i 6 n} κn (Sn ) ⊂ Sn ;


• для любой выборки Sn = {(Xi , f (Xi )) : 1 6 i 6 n} и для любого i от 1 до n
ρ[κ(Sn )](Xi ) = f (Xi ), то есть RSn (ρ[κ(Sn )]) = 0.

Пример 13.1 Пусть Sn = {(Xi , Yi ) : 1 6 i 6 n} – линейно разделимая выбор-


ка, Xi ∈ Rd , Yi ∈ {−1, 1}, то есть ∃w∗ : Yi hw, Xi i > 1. Рассмотрим набор векторов
Y1 X1 , . . . , Yn Xn . Заметим, что в силу разделимости выборки 0 ∈ / conv (Y1 X1 , . . . , Yn Xn ).
Рассмотрим метод опорных векторов. Решением w его задачи оптимизации будет проек-
ция нуля на conv (Y1 X1 , . . . , Yn Xn ). По теореме Каратеодори, существуют d + 1 векторов
Yi1 Xi1 , . . . , Yid+1 Xid+1 среди Y1 X1 , . . . , Yn Xn таких, что любой вектор в conv (Y1 X1 , . . . , Yn Xn )
представим в виде выпуклой комбинации этих векторов. Значит, w также представим в ви-
де выпуклой комбинации Yi1 Xi1 , . . . , Yid+1  Xid+1 . Тогда схема сжатия выборки может быть 
записана следующим образом: κ(Sn ) = Yi1 Xi1 , . .. , Yid+1 Xid+1 , ρ[κ(Sn )](X) = sign hw, b Xi ,
где wb – проекция 0 на conv Yi1 Xi1 , . . . , Yid+1 Xid+1 . Несложно видеть, что w b является реше-
нием задачи SVM.

Теорема 13.1 Пусть в классе F существует такая функция f , что R(f ) = 0. Пусть
также F имеет схему сжатия κn , ρ размера k. Тогда с вероятностью не менее 1 − δ по
обучающим выборкам выполнено
k log(en/k) + log(1/δ)
R(fb) 6 ,
n−k
где fb = ρ[κn (Sn )].

Доказательство
Зафиксируем произвольное k-элементное множество A и обозначим fA = ρ(A). Оценим
вероятность того, что функция fA имеет риск больше ε, но при этом правильно восстанав-
ливает всю выборку:
P ({R(fA ) > ε} ∩ {fA (Xi ) = Yi , 1 6 i 6 n})
6 P ({R(fA ) > ε} ∩ {fA (Xi ) = Yi , ∀ i : (Xi , Yi ) ∈
/ A})
6 (1 − ε)n−k 6 e−ε(n−k)
Тогда для функции fb = ρ(κn (Sn )) имеем
 
P {R(fb) > ε} ∩ {fb(Xi ) = Yi , 1 6 i 6 n}
6 P (∃A : |A| = k, R(fA ) > ε, fA (Xi ) = Yi , 1 6 i 6 n})
X
P ({R(fA ) > ε} ∩ {fA (Xi ) = Yi , 1 6 i 6 n})
A⊂{1,...,n},
|A|=k
 
n −ε(n−k)
6 e
k

44
en k
Учитывая, что nk 6
 
k , получаем, что с вероятностью хотя бы 1 − δ по обучающим
выборкам выполнено
k log(en/k) + log(1/δ)
R(fb) 6
n−k


Определение 13.2 (Схема сжатия с потерями) Будем говорить, что класс функций
F имеет схему сжатия с потерями размера k, если существуют функции κn : (X ×Y)n →
(X × Y)k и ρ : ×(X × Y)k → F такие, что для любой выборки Sn = {(Xi , Yi ) : 1 6 i 6 n}
выполнено следующее:

• для любой выборки Sn = {(Xi , Yi ) : 1 6 i 6 n} κn (Sn ) ⊂ Sn ;

• для любой выборки Sn = {(Xi , Yi ) : 1 6 i 6 n} RSn (ρ[κ(Sn )]) 6 inf RSn (f );


f ∈F

• для любой выборки Sn = {(Xi , f (Xi )) : 1 6 i 6 n} и для любой пары (X, Y ) ∈ κ(Sn )
ρ[κ(Sn )](X) = Y .

Теорема 13.2 Пусть также F имеет схему сжатия с потерями κn , ρ размера k. Тогда
с вероятностью не менее 1 − δ по обучающим выборкам выполнено
s
6k log(en/k) + 6 log (2/δ) 8RSn \A (k log(en/k) + log (2/δ))
R(fb) 6 Rn (fb) + +
n−k n−k

где fb = ρ[κn (Sn )].

Доказательство
Зафиксируем множество A ⊂ Sn размера k и обозначим fA = ρ(A). Применим неравенство
Бернштейна к случайным величинам ξi = 1 Yi 6= fA (Xi ) , i ∈ Sn \A:
r
2 log(2/δ) 2R(fA ) log(2/δ)
|R(fA ) − RSn \A (fA )| 6 +
3(n − k) n−k

с вероятностью хотя бы 1 − δ. На этом событии


r  
2R(fA ) log(2/δ) 2 log(2/δ)
R(fA ) − − RSn \A (fA ) + 60
n−k 3(n − k)

Из неравенства получаем
r s  
p 2 log(2/δ) 2 log(1/δ) 2 log(2/δ)
R(fA ) 6 + + 4 RSn \A +
n−k n−k 3(n − k)

и, применяя неравенство (a + b)2 6 2a2 + 2b2 , имеем

8 log(2/δ) 8 log(2/δ) 11 log(2/δ)


R(fA ) 6 + 4RSn \A + 6 + 4RSn \A
n−k 3(n − k) n−k

45
Подставляя оценку для R(fA ) в правую часть неравенства Бернштейна, получаем, что с
ввероятностью не менее 1 − δ выполнено
r
2 log(2/δ) 2R(fA ) log(2/δ)
|R(fA ) − RSn \A (fA )| 6 +
3(n − k) n−k
v  
u 11 log(2/δ)
u2 + 4R
2 log(2/δ) t n−k Sn \A log(2/δ)
6 +
3(n − k) n−k
s
6 log(2/δ) 8RSn \A log(2/δ)
6 +
n−k n−k

Так как по определению схемы сжатия с потерями ρ[A](Xi ) = Yi для всех (Xi , Yi ) ∈ A, то
RSn \A (fA ) = RSn (fA ) ≡ Rn (fA ). Далее, используя неравенство Бонферрони, приходим к
выводу, что с вероятностью не менее 1 − δ одновременно для всех подмножеств размера k
выполнено
  s
6 log 2 nk /δ 8RSn \A log 2 nk /δ
 
R(fA ) − Rn (fA ) 6 +
n−k n−k
Так как nk 6 (en/k)k , то окончательно получаем


s
6k log(en/k) + 6 log (2/δ) 8RSn \A (k log(en/k) + log (2/δ))
R(fA ) − Rn (fA ) 6 +
n−k n−k

Так как fb = ρ[κ(Sn )] совпадает с fA для некоторого подмножества A, то


s
6k log(en/k) + 6 log (2/δ) 8RSn \A (k log(en/k) + log (2/δ))
R(fb) 6 Rn (fb) + +
n−k n−k

13.2 Персептрон

Рассмотрим еще один алгоритм, который является примером схемы сжатия выборки.
Алгоритм Персептрон (Алгоритм 1) строит разделяющую гиперплоскость для выборки
Sn = {(Xi , Yi ) : 1 6 i 6 n}, итеративно исправляя ошибки.

Алгоритм 1 Персептрон
1: w(0) = 0
2: Цикл t = 0, 1, . . . :
3: Если ∃ i : Yi hw(t) , Xi i 6 0, то
4: w(t+1) = w(t) + Yi Xi ,
5: иначе
6: Вернуть w(t)
7: Конец цикла

Теорема 13.3, приведенная ниже, гарантирует, что если существует вектор kwk такой, что
Yi hw, Xi i > 1 для всех i, то Алгоритм (1) остановится. Допустим, что алгоритм сделал T ите-
раций. Тогда вектор w(T ) задается с помощью T точек выборки Sn . Рассмотрим следующую
схему сжатия. Пусть κ(Sn ) состоит из тех элементов Sn , на которых алгоритм Персептрон

46
допускал ошибку. Без Tограничения  общности, пусть это пары (X1 , Y1 ), . . . , (XT , YT ). Тогда
P
ρ[κ(Sn )](X) = sign Yt Xt , X .
t=1

Теорема 13.3 Пусть B = min{kwk : Yi hw, Xi i > 1, 1 6 i 6 n} и R = max kXi k. Тогда


i
алгоритм персептрон сделает не более T 6 B 2 R2 итераций и, когда он остановится, для
всех i от 1 до n будет выполнено Yi hw(T ) , Xi i > 1.

Доказательство
Обозначим w∗ ∈ argmin{kwk : Yi hw, Xi i > 1, 1 6 i 6 n}. Докажем, что hw∗ , w(T ) i > T :
T
X T
X
hw∗ , w(T ) i = hw∗ , w(t+1) − wt i = Yi hw∗ , Xi i > T
t=0 t=0

Из неравенства Коши-Буняковского следует, что T 6 kw∗ kkw(T ) k = Bkw(T ) k. Далее имеем

kw(t+1) k2 = kw(t) k2 + 2Yi hw(t) , Xi i + kXi k2 6 kw(t) k2 + kXi k2 6 kw(t) k2 + R2 ,



и, таким образом, kw(T ) k2 6 T R2 . Значит, T 6 BR T , из чего следует утверждение теоре-
мы.


47
14 Лекция 14

14.1 Нейронные сети

Нейронная сеть описывается ориентированным взвешенным ациклическим графом G =


(V, E, W ). Вершины v ∈ V графа соответствуют нейронам. Каждый нейрон моделируется
как скалярная функция σ : R → R, которая называется функцией активации. В рамках
лекции будут рассмотрены Липшицевы положительно однородные функции активации, од-
ним из примеров которых является функция ReLU (Rectified Linear Unit): σ(z) = max{z, 0}.
Каждое ребро графа G соединяет выход одного нейрона с входом другого. Каждый нейрон
получает на вход взвешенную сумму выходов нейронов, с которыми он соединен.
Для упрощения описания вычислений, проводимых нейронной сетью, предполагаем, что
она представима в виде слоев. То есть V = ∪dj=1 Vj , где V1 , . . . , Vd – непустые непересекаю-
щиеся множества, и каждое ребро e ∈ E соединяет вершину из Vj−1 с некоторой вершиной
из Vj . Считаем, что последний слой Vd состоит только из одной вершины. Число слоев d
называется глубиной нейронной сети, а наибольшее из значений |V1 |, . . . , |Vd | – ее шириной.
Нейронная сеть может быть представлена в виде набора векторнозначных функций fj :
R|Vj−1 | → R|Vj |
fj (x) = Wj σ(x),
где Wj – матрица параметров и предполагается, что функция σ(·) действует на вектор
x покомпонентно. Выход нейронной сети задается одномерной функцией – композицией
f = fd ◦ fd−1 ◦ · · · ◦ f2 ◦ f1

f (x) = Wd σ(Wd−1 σ(. . . σ(W1 x)))

Далее считаем, что дана обучающая выборка Sn = {(Xi , Yi ) : 1 6 i 6 n}, Xi ∈ X = {x :


kxk 6 R} и функция активации σ удовлетворяет следующим условиям:

• для любых z, z 0 |σ(z) − σ(z 0 )| 6 |z − z 0 |;

• для любого z и любого α > 0 σ(αz) = ασ(z).

Ниже будет доказана полиномиальная (по глубине сети) оценка на обучаемость классов
нейронных сетей, полученная в [5]. Также в [5] были получены оценки, не зависящие от
размера нейронной сети.

Лемма 14.1 Пусть σ – 1-Липшицева, положительно однородная функция, g : R → R+ –


выпуклая монотонно возрастающая функция. Тогда
! !
Xn Xn
sup g εi σ(W f (Xi )) 6 Eε sup g B · εi f (Xi )


f ∈F ,kW kF 6B
i=1
f ∈F
i=1

Доказательство
Пусть w1 , . . . , wm – строки матрицы W . Тогда
n 2 m n
!!2
X  X X wjT f (Xi )
εi σ W f (Xi ) = kwj k2 εi σ

kwj k


i=1 j=1 i=1

48
m
kwj k2 = kW k2F 6 B 2 ,
P
Максимум по всем w1 , . . . , wm , удовлетворяющим неравенству
j=1
достигается, когда kwj ∗ k = B, kwj k = 0 для всех j 6= j ∗ , где
wjT f (Xi )
j ∗ ∈ argmax
16j6m kwj k
Тогда
! !
Xn Xn
εi σ wT f (Xi )
 
sup g εi σ W f (Xi ) = Eε sup g


f ∈F ,kW kF 6B
i=1
f ∈F ,kwk=B
i=1

Так как функция g неотрицательна, то g(|z|) 6 g(z) + g(−z) и


!
n n
!
X  X
T T

sup g εi σ w f (Xi ) 6 Eε sup g εi σ w f (Xi )


f ∈F ,kwk=B
i=1
f ∈F ,kwk=B i=1
n n
! !
X X
εi σ wT f (Xi ) εi σ wT f (Xi )
 
+ Eε sup g − = 2Eε sup g
f ∈F ,kwk=B i=1 f ∈F ,kwk=B i=1

Последнее равенство следует из симметрии распределения εi . По принципу сжатия (см.


уравнение (4.20) в [8]),
n n
! !
X X
T T

2Eε sup g εi σ w f (Xi ) 6 2Eε sup g εi w f (Xi )
f ∈F ,kwk=B i=1 i=1 f ∈F ,kwk=B
! !
Xn Xn
6 2Eε sup g kwk · εi f (Xi ) = 2Eε sup g B · εi f (Xi )

f ∈F ,kwk=B
i=1
f ∈F
i=1

Лемма доказана.


Теорема 14.1 Пусть Fd – класс всех нейронных сетей глубины d на X , MF (j) = kWj kF ,
σ – 1-Липшицева, положительно однородная функция. Тогда
v
d u n
1 Y  p  uX
Rn (Fd ) 6 MF (j) 2 2d log 2 + 1 t kXi k2
n
j=1 i=1

√  d
Q
R 2 2d log 2 + 1 MF (j)
j=1
6 √
n

Доказательство
Используя неравенство Йенсена, получаем
n
X 
nRn (Fd ) = Eε sup εi Wd σd−1 fd−1 (Xi )
fd−1 ,Wd i=1
n
!
1 X 
6 log Eε sup exp λ εi Wd σd−1 fd−1 (Xi )
λ fd−1 ,Wd i=1
!
n
1 X 
6 log Eε sup exp MF (d) λ εi σd−1 fd−1 (Xi )

λ fd−1
i=1

49
По Лемме 14.1,
!
n
1 X 
log Eε sup exp MF (d) λ εi σd−1 Wd−1 fd−2 (Xi )

λ fd−2 ,Wd−1
i=1
!!
n
1 X
6 log 2Eε sup exp MF (d)MF (d − 1)λ εi fd−2 (Xi )

λ fd−2 ,Wd−1
i=1

Повторяя, рассуждения, получаем неравенство


n !!
1 X
nRn (Fd ) 6 log 2d Eε exp λM εi Xi ,

λ
i=1

d
Q
где M = MF (j). Рассмотрим случайную величину
j=1
n
X
Z =M · εi Xi


i=1

Тогда
1   1 
log 2d EeλZ = d log 2 + log Eeλ(Z−EZ) + EZ
λ λ
Заметим, что Z удовлетворяет условию ограниченных разностей (2):
Z(ε1 , . . . , εi , . . . , εn ) − Z(ε1 , . . . , ε0i , . . . , εn ) 6 2M kXi k

Используя те же рассуждения, что и при доказательстве Теоремы 5.1, получаем


n
2λ2 M 2 kXi k2
P
λ(Z−EZ)
Ee 6e i=1

Осталось ограничить EZ:


v 2 v v
Xn u n
u X u Xn u n
u u X
EZ = M · E εi Xi 6 M E εi Xi = M E εi εj hXi , Xj i = M tE kXi k2
t t

i=1 i=1 i,j=1 i=1

Таким образом,
v
n u n
1 X u X
nRn (Fd ) 6 d log 2 + 2λM 2 2
kXi k + M tE kXi k2
λ
i=1 i=1

s !
n
kXi k2 , получаем
P
Взяв λ = d log 2/ M 2
i=1

v
 u n
p uX
nRn (Fd ) 6 M 1 + 2 2d log 2 t kXi k2
i=1

50
Список литературы

[1] J.-Y. Audibert and A. B. Tsybakov. Fast learning rates for plug-in classifiers. Ann. Statist.,
35(2):608–633, 2007.

[2] S. Boucheron, O. Bousquet, and G. Lugosi. Theory of classification: a survey of some recent
advances. ESAIM Probab. Stat., 9:323–375, 2005.

[3] K. Chaudhuri and S. Dasgupta. Rates of convergence for nearest neighbor classification. In
Proceedings of the 27th International Conference on Neural Information Processing Systems
- Volume 2, NIPS’14, pages 3437–3445, Cambridge, MA, USA, 2014. MIT Press.

[4] S. Gadat, T. Klein, and C. Marteau. Classification in general finite dimensional spaces with
the k-nearest neighbor rule. Ann. Statist., 44(3):982–1009, 2016.

[5] N. Golowich, A. Rakhlin, and O. Shamir. Size-independent sample complexity of neural


networks. In S. Bubeck, V. Perchet, and P. Rigollet, editors, Proceedings of the 31st
Conference On Learning Theory, volume 75 of Proceedings of Machine Learning Research,
pages 297–299. PMLR, 06–09 Jul 2018.

[6] S. Hanneke. Refined error bounds for several learning algorithms. J. Mach. Learn. Res.,
17(1):4667–4721, Jan. 2016.

[7] D. Haussler. Sphere packing numbers for subsets of the boolean n-cube with bounded
vapnik-chervonenkis dimension. J. Comb. Theory Ser. A, 69(2):217–232, Feb. 1995.

[8] M. Ledoux and M. Talagrand. Probability in Banach spaces, volume 23 of Ergebnisse der
Mathematik und ihrer Grenzgebiete (3) [Results in Mathematics and Related Areas (3)].
Springer-Verlag, Berlin, 1991. Isoperimetry and processes.

[9] E. Mammen and A. B. Tsybakov. Smooth discrimination analysis. Ann. Statist., 27(6):1808–
1829, 1999.

[10] P. Massart and E. Nédélec. Risk bounds for statistical learning. Ann. Statist., 34(5):2326–
2366, 2006.

[11] S. Shalev-Shwartz and S. Ben-David. Understanding Machine Learning: From Theory to


Algorithms. Cambridge University Press, New York, NY, USA, 2014.

[12] B. Вьюгин. Математические основы машинного обучения и прогнозирования. МЦН-


МО, Москва, 2013.

51