Вы находитесь на странице: 1из 3

Статистическая теория обучения

Задание 2

Срок сдачи: 13 декабря, 10:50

Полное решение каждой задачи оценивается в 1 балл. Если задача состоит из нескольких
подпунктов, то каждый подпункт имеет одинаковую стоимость. По результатам решения
домашнего задания можно получить от 0 до 2 баллов в итоговую оценку, которые потом
будут складываться с оценками за первое задание и с оценкой за экзамен. Баллы начис-
ляются следующим образом: > 5 баллов за задание – 2 балла в итоговую оценку; < 5, но
> 3.5 – 1 балл в итоговую оценку; < 3.5 – 0 баллов в итоговую оценку.

Покрытия и упаковки

1. Докажите, что для любого A ⊆ {0, 1}n справедлива следующая верхняя оценка среднего
по Радемахеру:

n
r !
1X 2 log N (A, k · kn , α)
Rn (A) = Eσ sup σi ai 6 inf α+ ,
a∈A n α∈[0,1]
i=1
n

n
1
где kak2n = a2i .
P
n
i=1

Указание. Воспользуйтесь леммой Массара.

Байесовское решающее правило

2. Докажите, что для любого классификатора f : X → {0, 1} выполнено

R(f ) − R(f ∗ ) = EX |2η(X) − 1|1 f (X) 6= f ∗ (X) ,




где η(x) = P(Y = 1|X = x) и f ∗ – байесовское решающее правило.

Из этой задачи следует оптимальность байесовского решающего правила в задаче класси-


фикации с индикаторной функцией потерь, то есть для любого классификатора f выпол-
нено R(f ) − R(f ∗ ) > 0.

1
Метод опорных векторов

В случае неразделимой выборки задача SVM формулируется следующим образом:


n

1 2+C
P


2
 kwk ξi → min,
i=1 w,b


Yi (hw, Xi i + b) > 1 − ξi , 1 6 i 6 n,

ξ > 0, 1 6 i 6 n.
i

Переменные ξ1 , . . . , ξn называются переменными мягкого отступа, C – некоторая фиксиро-


ванная константа.

3. Функция переменных мягкого отступа, использованная в методе опорных векторов для


неразделимой выборки, имеет вид
Xn
ξ 7→ ξi .
i=1

Вместо этой функции будем использовать


n
ξip ,
X
ξ 7→ p > 1.
i=1

Сформулируйте двойственную задачу к задаче SVM в этом случае.

RKHS

Ядро K : X × X → R называется симметричным положительно определенным, если для


любого n и для любых x1 , . . . , xn ∈ X матрица K = kK(xi , xj )k16i,j6n симметричная поло-
жительно полуопределенная, то есть для любого вектора c ∈ Rn cT Kc > 0.

Ядро K : X × X → R называется симметричным отрицательно определенным, если для


любого n и для любых x1 , . . . , xn ∈ X матрица K = kK(xi , xj )k16i,j6n такова, что для
n
любого вектора c ∈ Rn , удовлетворяющего условию ci = 0, выполнено cT Kc 6 0.
P
i=1

Следующие свойства могут быть полезными при доказательстве положительной/отрицательной


определенности ядер.

Теорема 1. Пусть K : X × X → R – симметричное ядро. Тогда

• K – отрицательно определенное тогда и только тогда, когда e−tK – положительно


определенное для всех t > 0;

• зафиксируем произвольное x0 и определим K 0 (x, x0 ) = K(x, x0 ) + K(x0 , x0 ) − K(x, x0 ) −


K(x0 , x0 ). Тогда K – отрицательно определенное в том и только том случае, когда
K 0 – положительно определенное.

4. Докажите следующие свойства:


1. если K и K 0 – симметричные положительно определенные ядра, то K + K 0 – симмет-
ричное положительно определенное ядро;

2. если K и K 0 – симметричные положительно определенные ядра, то K · K 0 – симмет-


ричное положительно определенное ядро;

3. если {Km }∞
m=1 – симметричные положительно определенные ядра и для всех x и x
0
0 0
существует поточечный предел lim Kn (x, x ) = K(x, x ), то K – симметричное поло-
m→∞
жительно определенное ядро;

4. если K – симметричное положительно определенное ядро, причем для всех x и x0


∞ ∞
|K(x, x0 )| < ρ, и ряд am xm , am > 0, имеет радиус сходимости ρ, то am K m –
P P
m=0 m=0
симметричное положительно определенное ядро.

5. Пусть K : X × X → R – симметричное положительно определенное ядро и α : X →


K(x,x0 )
R – положительная функция. Докажите, что ядро K 0 (x, x0 ) = α(x)α(x 0 ) – положительно
определенное.

6. Покажите, что следующие ядра симметричные положительно определенные:

1. K(x, y) = cos(x − y) на R × R;
1
2. K(x, y) = x+y на (0, +∞) × (0, +∞);

3. K(x, y) = exp(−λ sin2 (x − y)) на R × R для всех λ > 0.

7. Покажите, что следующие ядра симметричные отрицательно определенные:

1. K(x, y) = sin2 (x − y) на R × R;

2. K(x, y) = log(x + y) на (0, +∞) × (0, +∞).

Метод k ближайших соседей

8∗ . Пусть функция η(x) является α-непрерывной по Гельдеру, выполнено условие малого


шума Маммена-Цвбакова с константами B, β > 0 и плотность p(x) маргинального распре-
деления X отделена от нуля: p(x) > p0 для всех x ∈ supp(PX ) (см. Лекцию 9). Докажите,
что в этом случае для метода k ближайших соседей при k  n2α/(2α+d) выполнено
 αβ/(2α+d)
log(1/δ)
R(fb) − R(f ∗ ) . δ +
n

с вероятностью хотя бы 1 − δ по всем обучающим выборкам, где f ∗ (x) = 1(2η(x) > 1) –


байесовский классификатор, fb(x) = 1(2b
η (x) > 1), ηb(x) – оценка η(x) по методу k ближайших
соседей.

Вам также может понравиться