07 Lasso

лассо-регуляризация и байесовские
предсказания
Сергей Николенко
НИУ ВШЭ − Санкт-Петербург

03 февраля 2017 г.
Random facts:
• 3 февраля 1637 г. в харлемской коллегии спекулянтов провалился аукцион по продаже
луковиц тюльпанов, что в итоге привело к краху голландской тюльпаномании.
• 3 февраля 1972 г. в Саппоро открылись XI Зимние Олимпийские игры, а в Иране
началась самая страшная метель в истории: она продолжалась неделю, принесла от
трёх до восьми метров снега и унесла жизни более 4000 совершенно такого не
ожидавших иранцев.
в предыдущих сериях...
• Теорема Байеса:
𝑝(𝜃)𝑝(𝐷|𝜃)
𝑝(𝜃|𝐷) = .
𝑝(𝐷)
• Две основные задачи байесовского вывода:
• найти апостериорное распределение
𝑝(𝜃 ∣ 𝐷) ∝ 𝑝(𝐷|𝜃)𝑝(𝜃)
(и/или найти максимальную апостериорную гипотезу

arg max𝜃 𝑝(𝜃 ∣ 𝐷));
• найти апостериорное распределение исходов дальнейших
экспериментов:
𝑝(𝑥 ∣ 𝐷) ∝ ∫ 𝑝(𝑥 ∣ 𝜃)𝑝(𝐷|𝜃)𝑝(𝜃)d𝜃.

𝜃∈Θ
• Мы выяснили, что метод наименьших квадратов – это метод

максимального правдоподобия для нормально
распределённого шума. 2
и снова о регуляризации
ещё раз о регуляризации
• Мы знаем, что наименьшие квадраты не всегда хорошо

работают. Две причины:
1. плохая предсказательная сила – часто лучше регуляризовать,
пожертвовав bias’ом в пользу variance;
2. сложности в интерпретации – хотелось бы понимать, что
происходит, если переменных с ненулевыми коэффициентами
слишком много, не получится.
• Мораль: хотелось бы сделать так, чтобы было поменьше

ненулевых компонент в векторе w.
4
subset selection
• Может быть, давайте так и сделаем? Будем искать самые

лучшие компоненты и делать их ненулевыми.
• Это называется subset selection.
• Можно просто делать best subset selection: выбирать
подмножество из 𝑘 входных переменных, которые дают
самые лучшие результаты.
5
subset selection
• Это долго, даже если делать с умом, потому что subsets много.
• Forward-stepwise selection: начинаем со свободного члена,
потом добавляет на каждом шаге предиктор, который
максимально уменьшает ошибку.
• Т.е. подмножества тут получаются вложенные.
• Backward-stepwise selection: начинаем с полной регрессии и
на каждом шаге убираем предиктор, который оказывает
меньше всего влияния на ошибку.
5
subset selection
6
svd и гребневая регрессия
• Запишем SVD (разложение X = UDV⊤ ) для матрицы X в

линейной регрессии сначала с обычным least squares;
посмотрим на предсказание ŷ = Xw:
−1
Xwls = X (X⊤ X) X⊤ y = UU⊤ y,
где, кстати, U⊤ y – просто координаты y в базисе U.
7
• А теперь запишем SVD для гребневой регрессии:
−1
Xwridge = X (X⊤ X + 𝜆I) X⊤ y =
𝑝
−1 𝑑𝑗2
UD (D2 + 𝜆I) DU⊤ y = ∑ u𝑗 u⊤ y,
𝑗=1
𝑑𝑗2+𝜆 𝑗
где u𝑗 – столбцы U.
7
𝑑2
• Xwridge = ∑𝑝𝑗=1 u𝑗 𝑑2 +𝜆
𝑗
u⊤
𝑗 y.
𝑗
• Иначе говоря, гребневая регрессия стягивает координаты

вектора y в базисе U (т.е. u⊤
𝑗 y), причём сильнее всего
уменьшаются самые маленькие координаты.
• Гребневая регрессия больше всего стягивает X по тем
направлениям, где дисперсия X минимальна.
7
лассо
• Теперь давайте рассмотрим лассо-регрессию:

𝑝
1 𝑁
𝐿(w) = ∑(𝑓(𝑥𝑖 , w) − 𝑦𝑖 )2 + 𝜆 ∑ |𝑤𝑗 |.
2 𝑖=1 𝑗=0
• Главное отличие – теперь форма ограничений (т.е. форма

априорного распределения) такова, что весьма вероятно
получить строго нулевые 𝑤𝑗 .
• Кстати, что значит «форма ограничений»?
8
лассо
• Мы можем переписать регрессию с регуляризатором

по-другому:
𝑝
1 𝑁
∗
w = arg minw { ∑(𝑓(𝑥𝑖 , w) − 𝑦𝑖 )2 + 𝜆 ∑ |𝑤𝑗 |} ,
2 𝑖=1 𝑗=0
эквивалентно
𝑝
1 𝑁
w∗ = arg minw { ∑(𝑓(𝑥𝑖 , w) − 𝑦𝑖 )2 } при ∑ |𝑤𝑗 | ≤ 𝑡.
2 𝑖=1 𝑗=0
Упражнение. Докажите это.
8
гребень и лассо
9
гребень и лассо
10
обобщение
• Можно рассмотреть обобщение гребневой и

лассо-регрессии:
𝑝
1 𝑁
𝐿(w) = ∑(𝑓(𝑥𝑖 , w) − 𝑦𝑖 )2 + 𝜆 ∑(|𝑤𝑗 |)𝑞 .
2 𝑖=1 𝑗=0
Упражнение. Какому априорному распределению на параметры w

соответствует эта задача?
11
разные 𝑞
12
предсказание в линейной регрессии
• Теперь давайте вернёмся к байесовской постановке:

1. найти апостериорное распределение на
гипотезах/параметрах:
𝑝(𝜃 ∣ 𝐷) ∝ 𝑝(𝐷|𝜃)𝑝(𝜃)
(и/или найти максимальную апостериорную гипотезу

arg max𝜃 𝑝(𝜃 ∣ 𝐷));
2. найти апостериорное распределение исходов дальнейших
экспериментов:
𝑝(𝑥 ∣ 𝐷) ∝ ∫ 𝑝(𝑥 ∣ 𝜃)𝑝(𝐷|𝜃)𝑝(𝜃)d𝜃.

𝜃∈Θ
13
• В прошлый раз мы нашли апостериорное распределение:

для гауссовского априорного
1
𝑝(w ∣ 𝛼) = 𝒩(w ∣ 0, I)
𝛼
мы нашли
𝑝(w ∣ t, 𝛼, 𝛽) = 𝒩(w ∣ 𝜇𝑁 , Σ𝑁 ),
𝜇𝑁 = Σ𝑁 (Σ−1 ⊤
0 𝜇0 + 𝛽Φ t) ,
−1
Σ𝑁 = (Σ−1 ⊤
0 + 𝛽Φ Φ) ,
где 𝛽 = 1 (precision нормального распределения).

𝜎2
13
• Теперь сделаем следующий шаг – найдём апостериорное

распределение наших предсказаний
𝑝(𝑡 ∣ t, 𝛼, 𝛽) = ∫ 𝑝(𝑡 ∣ w, 𝛽)𝑝(w ∣ t, 𝛼, 𝛽)𝑑w.
• Это свёртка двух гауссианов, и получается...
13
• ...тоже гауссиан:
𝑝(𝑡 ∣ t, 𝛼, 𝛽) = 𝒩(𝑡 ∣ 𝜇⊤
𝑁
2
𝜙(x), 𝜎𝑁 ),
2 1
где 𝜎𝑁 = + 𝜙(x)⊤ Σ𝑁 𝜙(x).
𝛽
• Т.е. дисперсия складывается из шума в данных 𝛽 и

дисперсии параметров w; гауссианы независимы, и их
дисперсии просто складываются.
2
Упражнение. Оценка всё время уточняется: 𝜎𝑁+1 2 .
≤ 𝜎𝑁
13
14
14
14
14
спасибо!
Спасибо за внимание!
15

07 Lasso

Загружено:

Сведения о документе

Оригинальное название

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

07 Lasso

Загружено:

Авторское право:

Доступные форматы

лассо-регуляризация и байесовские

НИУ ВШЭ − Санкт-Петербург

(и/или найти максимальную апостериорную гипотезу

𝑝(𝑥 ∣ 𝐷) ∝ ∫ 𝑝(𝑥 ∣ 𝜃)𝑝(𝐷|𝜃)𝑝(𝜃)d𝜃.

• Мы выяснили, что метод наименьших квадратов – это метод

• Мы знаем, что наименьшие квадраты не всегда хорошо

• Мораль: хотелось бы сделать так, чтобы было поменьше

• Может быть, давайте так и сделаем? Будем искать самые

• Запишем SVD (разложение X = UDV⊤ ) для матрицы X в

где, кстати, U⊤ y – просто координаты y в базисе U.

• А теперь запишем SVD для гребневой регрессии:

• Иначе говоря, гребневая регрессия стягивает координаты

• Теперь давайте рассмотрим лассо-регрессию:

• Главное отличие – теперь форма ограничений (т.е. форма

• Мы можем переписать регрессию с регуляризатором

Упражнение. Докажите это.

• Можно рассмотреть обобщение гребневой и

Упражнение. Какому априорному распределению на параметры w

• Теперь давайте вернёмся к байесовской постановке:

(и/или найти максимальную апостериорную гипотезу

𝑝(𝑥 ∣ 𝐷) ∝ ∫ 𝑝(𝑥 ∣ 𝜃)𝑝(𝐷|𝜃)𝑝(𝜃)d𝜃.

• В прошлый раз мы нашли апостериорное распределение:

где 𝛽 = 1 (precision нормального распределения).

• Теперь сделаем следующий шаг – найдём апостериорное

𝑝(𝑡 ∣ t, 𝛼, 𝛽) = ∫ 𝑝(𝑡 ∣ w, 𝛽)𝑝(w ∣ t, 𝛼, 𝛽)𝑑w.

• Это свёртка двух гауссианов, и получается...

• Т.е. дисперсия складывается из шума в данных 𝛽 и

Вам также может понравиться