Вы находитесь на странице: 1из 2

Практика

Как уже упоминалось, пошаговая регрессия исследует большое пространство всех возможных
моделей, и поэтому существует опасность переобучения – она часто будет намного лучше в
выборке, чем при новых данных за пределами последней.

Вам не нужно переучивать модели на каждом шаге этих подходов, поскольку существуют
прекрасные способы увидеть, как ваша целевая функция( иначе говоря, критерий выбора)
меняется по мере изменения поднабора признаков, которые вы проверяете. Они называются
«конечными разностями» и, по сути, основываются на разложении в ряд Тейлора целевой
функции.

Последнее замечание: если в вашей команде есть эксперт, то не выходите в кроличью нору
машинного обучения при выборе признаков, прежде чем задействуете своего специалиста
полностью!

Встроенные методы: деревья решений


Деревья решений интуитивно привлекательны, поскольку за пределами контекста науки о данных
в нашей повседневной жизни мы можем думать о том, чтобы разбить большие решения на ряд
вопросов. На рис.7.3 представлено дерево решений студентки колледжа, стоящей перед очень
важным решением: как провести время.

Данное решение на самом деле зависит от множества факторов: есть ли какие-нибудь вечеринки
или сроки сдачи, насколько эта студентка ленива и что ей больше всего нравится (вечеринки).
Возможность интерпретации – одна из лучших характеристик деревьев решений.

В контексте задачи обработки данных дерево решений является алгаритмом классификации.


Возьмем пример Chasing Dragons; вы хотите классифицировать пользователя как «Да, вернется
следующем месяце» или «Нет, не вернется в следующем месяце». На самом деле это не решение
в обиходном понимании, пусть это вас не смущает. Вы знаете, что класс любого пользователя
зависит от многих факторов (количество драконов, которых убил пользователь, его возраст,
сколько часов он уже играл в игру). И вы хотите это классифицировать на основе данных, которые
собрали. Но как вы построите деревья решений из данных и какие математические свойства
можете ожидать от них?

В конечном счете вам нужно дерево, чем-то напоминающее изображенное на рис. 7.4
ЕстьЛиВечеринка?
=Нет
=Да

СрокСдачи? Вечеринка

=Скоро =Нет =Срочн


о

Лень? Бар Учеба

=Нет =Да

Учеба Телевизор

Рис. 7.3. Дерево решений для студентки колледжа, также известное как дерево вечеринки (взято с
решения Стефена Марсланда (Stephen Marsland) из книги Machine Learning: An Algorithmic
Perspective («Машинное обучение: алгоритмическая перспектива») (Chapman and Hall/CRC)

Но вы хотите, чтобы дерево было основано на данных, а не на только на том, что вы чувствуете.
Выбрать признак на каждом шаге – это как успешно пройти игру 20 Questions ( «20 вопросов»).
Сначала вы берете то, что является наиболее информативным. Формализуем это: нам нужно
понятие «информативный».

Для этого обсуждения предположим, что разбиваем сложные вопросы на несколько требующих
ответа «да» или «нет» и обозначаем ответы 0 или 1. Учитывая случайную величину X, обозначим
как p(X = 1) и p(X = 0) вероятность того, что X истинно или ложно соответственно.

Вам также может понравиться