Вы находитесь на странице: 1из 3

Статистическая теория обучения

Задание 1

Срок сдачи: 18 октября, 10:50

Полное решение каждой задачи оценивается в 1 балл. Если задача состоит из


нескольких подпунктов, то каждый подпункт имеет одинаковую стоимость. По ре-
зультатам решения домашнего задания можно получить от 0 до 2 баллов в итоговую
оценку, которые потом будут складываться с оценками за второе задание и с оцен-
кой за экзамен. Баллы начисляются следующим образом: > 7 баллов за задание – 2
балла в итоговую оценку; < 7, но > 5 – 1 балл в итоговую оценку; < 5 – 0 баллов в
итоговую оценку.

1. Случайная величина ξ такова, что P (ξ ∈ [a, b]) = 1. Докажите, что Var(ξ) 6 (b −


a)2 /4.

2. Случайная величина ξ, Eξ = 0, называется субгауссовской с параметром σ 2 , если


2 2
для любого λ ∈ R выполнено Eeλξ 6 eλ σ /2 . Докажите, что

2 σ 2 /2
1. если ξ ∼ N (0, σ 2 ), то Eeλξ = eλ ;

2. для любой субгауссовской случайной величины с параметром σ 2 выполнено


σ 2 > Eξ 2 ;

3. если ξ и η – субгауссовские случайные величины с параметрами σ12 и σ22 со-


ответственно, то (ξ + η) – субгауссовская случайная величина с параметром
(σ1 + σ2 )2 .

3. Пусть F – класс индикаторных функций концентрических кругов на плоскости с


центром в начале координат: F = {fr (x) = 1(x21 + x22 6 r)}. Пусть дана обучающая
выборка Sn = {(Xi , Yi = fr∗ (Xi ))}ni=1 . Рассмотрим минимизатор эмпирического риска
fb, равный индикаторной функции наименьшего круга c центром в начале координат,
содержащего все Xi , для которых Yi = 1. Докажите, что если размер выборки больше
> log(1/δ)
ε
, то с вероятностью > 1 − δ по всем обучающим выборкам R(fb) 6 ε.

1
4. Обозначим fa1 ,b1 ,a2 ,b2 индикаторную функцию прямоугольника со сторонами, па-
раллельными осям координат:
(
1, если a1 6 x1 6 b1 и a2 6 x2 6 b2
fa1 ,b1 ,a2 ,b2 (x1 , x2 ) =
0, иначе

Обозначим Frec = {fa1 ,b1 ,a2 ,b2 : a1 6 b1 , a2 6 b2 }. Пусть дана обучающая вы-
борка Sn = {(Xi , Yi )}ni=1 из n > 4 log(4/δ) ε
независимых наблюдений, где Xi ∼ PX ,
Yi = fa∗1 ,a∗2 ,b∗1 ,b∗2 (Xi ). Рассмотрим минимизатор эмпирического риска fb, равный инди-
каторной функции наименьшего прямоугольника, содержащего все Xi , для которых
Yi = 1. Докажите, что с вероятностью > 1−δ по всем обучающим выборкам R(fb) 6 ε.

5. Докажите, что следующие утверждения эквивалентны (для любого алгоритма


обучения A и для любого распределения D):

1. для любых ε, δ ∈ (0, 1) существует N (ε, δ) такое, что для всех n > N (ε, δ)
выполнено
PSn ∼Dn (R(fA,Sn ) > ε) < δ

2.
lim ESn ∼Dn R(fA,Sn ) = 0
n→∞

6. Рассмотрим класс функций F, VCdim(F) = d, и конечное множество A =


{x1 , . . . , xn } ⊆ X , n > d. Известно, что
d  
X n
|FA | 6 |{B ⊆ A : F разбивает B}| 6 ,
i=0
i

где FA = {(f (x1 ), f (x2 ), . . . , f (xn )) : f ∈ F}. Для каждой из 4 комбинаций знаков “<”
и “= ” приведите пример соответствующего класса F и множества A.

7. Найдите VC-размерность следующих классов :

1. множество индикаторных функций концентрических кругов на плоскости (см.


задачу 2);
2. множество индикаторных функций прямоугольников на плоскости с осями, па-
раллельными осям координат (см. задачу 3);
   
P ..
3. F = fJ : {0, 1} → {0, 1} : fJ (x1 , . . . , xn ) = 1
n
xi . 2 J ⊆ {1, . . . , n} .
i∈J

Указание. В пункте 3 рассмотрите набор точек e1 , . . . , en , где ei – вектор, содер-


жащий 1 на i-ой позиции и 0 на всех остальных. Может ли VC-размерность в этой
задаче быть больше n?

8. Докажите, что VC-размерность следующих классов функций бесконечна:

2
1. множество индикаторных функций выпуклых многоугольников на плоскости;

2. F = {sign(sin(tx)) : t > 0}.

Указание. В пункте 2 рассмотрите последовательность точек xi = 2π · 10−i , 1 6


i 6 n. Для произвольного набора y1 , . . . , yn ∈ {−1, 1}, задающих принадлежность
элементов xi двум классам разбиения, докажите, что при
n
!
1 X
t= (1 − yj )10j + 2
4 j=1

будет выполнено sign(sin(txi )) = yi для всех i.

9. Для множества A ⊆ Rn среднее по Радемахеру определяется как


n
1 X
Rn (A) = Eσ1 ,...,σn sup σ i ai ,
n a∈A
i=1

где σ1 , . . . , σn – независимые одинаково распределенные случайные величины, P(σ1 =


±1) = 21 .

Пусть A и B – ограниченные множества в Rn , c ∈ R – некоторая константа. Докажите


следующие свойства:

1. Rn (c · A) = |c|Rn (A), где c · A = {ca : a ∈ A};

2. Rn (A + B) = Rn (A) + Rn (B), где A + B = {a + b : a ∈ A, b ∈ B};


( )
N N
3. Rn (A) = Rn (A0 ), где A0 = cj a(j) : N ∈ N, cj > 0, cj = 1, a(j) ∈ A .
P P
j=1 j=1

Оценить