Академический Документы
Профессиональный Документы
Культура Документы
Как уже упоминалось, пошаговая регрессия исследует большое пространство всех возможных
моделей, и поэтому существует опасность переобучения – она часто будет намного лучше в
выборке, чем при новых данных за пределами последней.
Вам не нужно переучивать модели на каждом шаге этих подходов, поскольку существуют
прекрасные способы увидеть, как ваша целевая функция( иначе говоря, критерий выбора)
меняется по мере изменения поднабора признаков, которые вы проверяете. Они называются
«конечными разностями» и, по сути, основываются на разложении в ряд Тейлора целевой
функции.
Последнее замечание: если в вашей команде есть эксперт, то не выходите в кроличью нору
машинного обучения при выборе признаков, прежде чем задействуете своего специалиста
полностью!
Данное решение на самом деле зависит от множества факторов: есть ли какие-нибудь вечеринки
или сроки сдачи, насколько эта студентка ленива и что ей больше всего нравится (вечеринки).
Возможность интерпретации – одна из лучших характеристик деревьев решений.
В конечном счете вам нужно дерево, чем-то напоминающее изображенное на рис. 7.4
ЕстьЛиВечеринка?
=Нет
=Да
СрокСдачи? Вечеринка
=Нет =Да
Учеба Телевизор
Рис. 7.3. Дерево решений для студентки колледжа, также известное как дерево вечеринки (взято с
решения Стефена Марсланда (Stephen Marsland) из книги Machine Learning: An Algorithmic
Perspective («Машинное обучение: алгоритмическая перспектива») (Chapman and Hall/CRC)
Но вы хотите, чтобы дерево было основано на данных, а не на только на том, что вы чувствуете.
Выбрать признак на каждом шаге – это как успешно пройти игру 20 Questions ( «20 вопросов»).
Сначала вы берете то, что является наиболее информативным. Формализуем это: нам нужно
понятие «информативный».
Для этого обсуждения предположим, что разбиваем сложные вопросы на несколько требующих
ответа «да» или «нет» и обозначаем ответы 0 или 1. Учитывая случайную величину X, обозначим
как p(X = 1) и p(X = 0) вероятность того, что X истинно или ложно соответственно.