Xgboost

XGBoost
Евгений Соколов
sokolov.evg@gmail.com
5 сентября 2016 г.
Мы уже разобрались с двумя классами методов построения композиций — бу-

стингом и бэггингом, и познакомились с градиентным бустингом и случайным лесом,
которые являются наиболее яркими представителями этих классов. На практике ре-
ализация градиентного бустинга оказывается очень непростой задачей, в которой
успех зависит от множества тонких моментов. В этом тексте мы рассмотрим кон-
кретную реализацию градиентного бустинга — пакет XGBoost [1], который считается
одним из лучших на сегодняшний день. Это подтверждается, например, активным
его использованием в соревнованиях по анализу данных на kaggle.com.
1 Градиентный бустинг
Вспомним, что на каждой итерации градиентного бустинга вычисляется вектор
сдвигов s, который показывает, как нужно скорректировать ответы композиции на
обучающей выборке, чтобы как можно сильнее уменьшить ошибку:
!ℓ ℓ
∂L X
s= − = −∇s L(yi , aN −1 (xi ) + si )
∂z z=aN−1 (xi ) i=1
i=1
После этого новый базовый алгоритм обучается путем минимизации среднеквадра-

тичного отклонения от вектора сдвигов s:
ℓ
X
bN (x) = arg min (b(xi ) − si )2
b∈A i=1
Также можно вычислять шаг с помощью методов второго порядка. В этом случае
задача поиска базового алгоритма примет вид
ℓ 2
X si
bN (x) = arg min b(xi ) − , (1.1)
b∈A
i=1
hi
где через hi мы обозначили вторые производные функции потерь:

∂ 2 L
hi =
∂z 2 z=aN−1 (xi )
1
2
1.0.1 Альтернативный подход

Мы аргументировали использование среднеквадратичной функции потерь тем,
что она наиболее проста для оптимизации. Попробуем найти более адекватное обос-
нование этому выбору.
Мы хотим найти алгоритм b(x), решающий следующую задачу:
ℓ
X
L(yi , aN −1 (xi ) + b(xi )) → min
b
i=1
Разложим функцию L в каждом слагаемом в ряд Тейлора до второго члена с центром

в ответе композиции aN −1 (xi ):
ℓ
X
L(yi , aN −1 (xi ) + b(xi )) ≈
i=1
ℓ
X 1 2
≈ L(yi , aN −1 (xi )) − si b(xi ) + hi b (xi )
i=1
2
Первое слагаемое не зависит от нового базового алгоритма, и поэтому его можно
выкинуть. Получаем функционал
ℓ
X 1 2
−si b(xi ) + hi b (xi ) (1.2)
i=1
2
Покажем, что он очень похож на среднеквадратичный из формулы (1.1). Пре-

образуем его:
ℓ 2
X si
b(xi ) −
i=1
hi
ℓ
X
2 si s2i
= b (xi ) − 2 b(xi ) + 2 = {последнее слагаемое не зависит от b}
i=1
hi hi
ℓ
X si
= b2 (xi ) − 2 b(xi )
i=1
hi
ℓ
X 2 1 2
= −si b(xi ) + hi b (xi )
i=1 i
h 2
Видно, что последняя формула совпадает с (1.2) с точностью до коэффициентов h2i .

Можно считать, что в (1.2) они отброшены для большей устойчивости функциона-
ла — из-за них может произойти деление на ноль в окрестности оптимума.
2 Регуляризация
Будем далее работать с функционалом (1.2). Он измеряет лишь ошибку ком-
позиции после добавления нового алгоритма, никак при этом не штрафуя за излиш-
нюю сложность модели. Ранее мы решали проблему переобучения путем ограниче-
ния глубины деревьев, можно подойти к вопросу и более гибко. Мы выясняли, что
3
дерево b(x) можно описать формулой

J
X
b(x) = bj [x ∈ Rj ]
j=1
Его сложность зависит от двух показателей:
1. Число листьев J. Чем больше листьев имеет дерево, тем сложнее его разделяю-
щая поверхность, тем больше у него параметров и тем выше риск переобучения.
P
2. Норма коэффициентов в листьях kbk2 = Jj=1 b2j . Чем сильнее коэффициенты
отличаются от нуля, тем сильнее данный базовый алгоритм будет влиять на
итоговый ответ композиции.
Добавляя регуляризаторы, штрафующие за оба этих вида сложности, получаем сле-

дующую задачу:
ℓ J
X 1 2 µX 2
−si b(xi ) + hi b (xi ) + λJ + b → min
i=1
2 2 j=1 j b
Если вспомнить, что дерево b(x) дает одинаковые ответы на объектах, попадающих
в один лист, то можно упростить функционал:
J
( ! ! )
X X 1 X
− si bj + µ+ hi b2j + λ
j=1 i∈Rj
2 i∈Rj
| {z } | {z }
=−Sj =Hj
Каждое слагаемое здесь можно минимизировать по bj независимо. Заметим, что от-

дельное слагаемое представляет собой параболу относительно bj , благодаря чему
можно аналитически найти оптимальные коэффициенты в листьях:
Sj
bj =
Hj + µ
Подставляя данное выражение обратно в функционал, получаем, что ошибка дерева

с оптимальными коэффициентами в листьях вычисляется по формуле
J
1 X Sj2
H(b) = + λJ (2.1)
2 j=1 Hj + µ
3 Обучение решающего дерева

Мы получили функционал H(b), который для заданной структуры дерева вы-
числяет минимальную ошибку, которую можно получить путем подбора коэффици-
ентов в листьях. Заметим, что он прекрасно подходит на роль критерия информа-
тивности — с его помощью можно принимать решение, какое разбиение вершины
4
является наилучшим! Значит, с его помощью мы можем строить дерево. Будем вы-
бирать разбиение так, чтобы оно решало следующую задачу максимизации:
Q = H(bl ) + H(br ) − H(b) − λ → max
За счет этого мы будем выбирать структуру дерева так, чтобы оно как можно лучше
решало задачу минимизации исходной функции потерь. При этом введем вполне
логичный критерий останова: вершину нужно объявить листом, если даже лучшее
из разбиений приводит к отрицательному значению функционала Q.
4 Заключение
Итак, градиентный бустинг в XGBoost имеет ряд важных особенностей.
1. Базовый алгоритм приближает направление, посчитанное с учетом вторых про-

изводных функции потерь.
2. Отклонение направления, построенного базовым алгоритмом, измеряется с по-

мощью модифицированного функционала — из него удалено деление на вторую
производную, за счет чего избегаются численные проблемы.
3. Функционал регуляризуется — добавляются штрафы за количество листьев и

за норму коэффициентов.
4. При построении дерева используется критерий информативности, зависящий

от оптимального вектора сдвига.
5. Критерий останова при обучении дерева также зависит от оптимального сдвига.
Список литературы
[1] Tianqi Chen, Carlos Guestrin (2016). XGBoost: A Scalable Tree Boosting System. //
http://arxiv.org/abs/1603.02754

Xgboost

Загружено:

Сведения о документе

Оригинальное название

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Xgboost

Загружено:

Авторское право:

Доступные форматы

XGBoost

Мы уже разобрались с двумя классами методов построения композиций — бу-

После этого новый базовый алгоритм обучается путем минимизации среднеквадра-

где через hi мы обозначили вторые производные функции потерь:

1.0.1 Альтернативный подход

Разложим функцию L в каждом слагаемом в ряд Тейлора до второго члена с центром

Покажем, что он очень похож на среднеквадратичный из формулы (1.1). Пре-

Видно, что последняя формула совпадает с (1.2) с точностью до коэффициентов h2i .

дерево b(x) можно описать формулой

Его сложность зависит от двух показателей:

Добавляя регуляризаторы, штрафующие за оба этих вида сложности, получаем сле-

Каждое слагаемое здесь можно минимизировать по bj независимо. Заметим, что от-

Подставляя данное выражение обратно в функционал, получаем, что ошибка дерева

3 Обучение решающего дерева

Q = H(bl ) + H(br ) − H(b) − λ → max

1. Базовый алгоритм приближает направление, посчитанное с учетом вторых про-

2. Отклонение направления, построенного базовым алгоритмом, измеряется с по-

3. Функционал регуляризуется — добавляются штрафы за количество листьев и

4. При построении дерева используется критерий информативности, зависящий

5. Критерий останова при обучении дерева также зависит от оптимального сдвига.

Вам также может понравиться