Академический Документы
Профессиональный Документы
Культура Документы
ГРАДИЕНТНЫЙ БУСТИНГ
a( xi ) b( xi ) yi , i {1,2,, m} , (0)
Главный вопрос здесь – как обучить второй алгоритм. Вообще говоря, нельзя
считать, что мы получили новую задачу с обучающей выборкой ( xi , i )im1 и
функцией ошибки L( y, a) , поскольку наша задача
m
L( yi , a( xi ) b( xi )) min , (1)
i 1
1
А. Дьяконов «Введение в анализ данных и машинное обучение»
bi L( yi , a( xi )) , i {1,2,, m} ,
( xi , L( yi , at ( xi )))im1
и at 1 ( x) at ( x) bt ( x) .
2
А. Дьяконов «Введение в анализ данных и машинное обучение»
1
L( y , a ) ( y a ) 2 .
2
Заметим, что тогда
L( y, a) ( y a) .
( xi , yi at ( xi ))im1 ,
Задача классификации
1, a 0,
1, a 0.
1
2do: вот тут-то принципиально MSE!!!
3
А. Дьяконов «Введение в анализ данных и машинное обучение»
тогда
y
L( y, a) .
1 e ya
L( y, a) ye ya .
4
А. Дьяконов «Введение в анализ данных и машинное обучение»
Также важно отметить, что в итоге (после решения задачи (5)) мы шагнём не в
направлении антиградиента, а в близком направлении вектора ответов нашего
алгоритма b , т.е. в чистом виде алгоритм градиентного спуска не реализуется.
Наискорейший спуск
at 1( x) at ( x) t bt ( x) 1 b1 ( x) t bt ( x)
at 1 ( x) at ( x) bt ( x) .
m .
5
А. Дьяконов «Введение в анализ данных и машинное обучение»
b( x ) j I [ x X j ] ,
j
L( yi , a( xi ) j ) min
.
xiX j j
заметим, что
m m
1
F L( yi , a( xi ) bi ) L( yi , a( xi )) L( yi , a( xi )) bi L( yi , a( xi )) bi2
i 1 i 1 2
gi L( yi , a( xi )) , hi L( yi , a( xi )) .
7
А. Дьяконов «Введение в анализ данных и машинное обучение»
T 1 2 1 2
gi j hi j j T
xiX j
j 1 2 2
T 1
j gi 2j ( hi ) T
xiX j
j 1 2 xiX j
gi
xi X j
j .
hi
xiX j
min T . (8)
2 j 1 hi
xiX j
Эта формула может использоваться при построении дерева для его оценки. При
этом очередное расщеплении в дереве при его итеративном построении можно
выбирать минимизируя (8). Именно так делается в библиотеке XGBoost2.
2
https://github.com/dmlc/xgboost
8
А. Дьяконов «Введение в анализ данных и машинное обучение»
( y h ( x ))2
p( x | y ) const e 2 2 , (1)
( yi h( xi ))2 min ,
i
9
А. Дьяконов «Введение в анализ данных и машинное обучение»
2. Основные параметры:
10
А. Дьяконов «Введение в анализ данных и машинное обучение»
5. Параметры регуляризации:
12
А. Дьяконов «Введение в анализ данных и машинное обучение»
Несмотря на то, что бустинг сам является ансамблем, к нему можно применять
другие схемы ансамблирования, например, усреднять несколько бустнигов.
Даже если мы усредняем бустинги с одинаковыми параметрами, они
различаются из-за стохастической природы реализации: выбора случайных
подвыборок на каждом шаге и признаков при построении деревьев. Важно
понимать, что оптимальные значения параметров для одного бустинга уже
могут быть неоптимальными для среднего арифметического нескольких
бустингов, см. рис.
13
А. Дьяконов «Введение в анализ данных и машинное обучение»