Вы находитесь на странице: 1из 29

Understanding Client Profiles and

Forecasting Payment Difficulties


using Decision Tree and Random
Forest

Насутион Рафли Аулиа Ризки


932101
Introduction
В этом проекте анализируем данные претендентов на кредит,
предоставленные индонезийской компанией Home Credit Indonesia.
Цель состоит в том, чтобы определить количество клиентов,
испытывающих трудности с оплатой, и тех, у кого проблем нет, а
также изучить различные характеристики клиентов, такие как пол,
количество детей, доход и род занятий.

Используя методы классификации и создавая модели машинного


обучения, мы стремимся предсказать условия оплаты будущих
клиентов.
Task Goals
Основные цели данного проекта заключаются в следующем:
1. Создавайте модели машинного обучения, чтобы прогнозировать
трудности с оплатой будущих клиентов.
2. Разделите клиентов на две категории: с трудностями с оплатой и
без трудностей с оплатой.
Methodology
В этой задаче будут использоваться методы классификации для прогнозирования
трудностей с оплатой клиента. Будут выполнены следующие шаги:
• Визуализация данных: выполните исследовательский анализ данных и
визуализируйте набор данных.
• Разработка функций: подготовьте набор данных путем преобразования и
очистки данных.
• Построение моделей: постройте несколько моделей машинного обучения,
включая дерево решений и случайный лес.
• Оценка модели: Оцените точность построенных моделей с использованием
таких показателей оценки, как матрица путаницы, отзыв, точность, показатель
AUC-ROC, среднеквадратическая ошибка (MSE) и перекрестная проверка.
Дерево решений
— это метод обучения с учителем (eng: Supervised learning
technique), который можно использовать как для задач
классификации, так и для регрессии, но в основном он
предпочтителен для решения задач классификации. Это
классификатор с древовидной структурой, где внутренние узлы
представляют особенности набора данных, ветви представляют
правила принятия решений, а каждый листовой узел представляет
результат.
Зачем использовать деревья решений?
• Деревья решений обычно имитируют мыслительные
способности человека при принятии решения, поэтому
их легко понять.
• Логику дерева решений легко понять, поскольку оно
имеет древовидную структуру.
Дерево решений
В дереве решений есть два узла: узел решения и листовой узел
(eng: Decision Node and Leaf Node). Узлы решений используются для
принятия любого решения и имеют несколько ветвей, тогда как
конечные узлы являются результатом этих решений и не содержат
дальнейших ветвей.
Дерево решений
• Decision tree classifier - это класс, способный выполнять
мультиклассовую классификацию набора данных

• Как и в случае с другими классификаторами, DecisionTreeClassifier


принимает в качестве входных данных два массива: массив X,
разреженный или плотный, формы (n_samples, n_features),
содержащий обучающие образцы, и массив Y целочисленных
значений, формы (n_samples,), содержащий метки классов для
обучающих образцов
Случайный лес
Случайный лес (Random Forest) — это широко используемый
алгоритм машинного обучения, зарегистрированный под
торговой маркой Лео Бреймана и Адель Катлер, который
объединяет результаты нескольких деревьев решений для
достижения единого результата. Простота использования и
гибкость способствовали его распространению, поскольку он
решает проблемы классификации и регрессии.
Случайный лес
The Random Forest classifier shows many different parameters we can select for the model.
Some of the important parameters are highlighted below:
• n_estimators — the number of decision trees you will be running in the model
• max_depth — this sets the maximum possible depth of each tree
• max_features — the maximum number of features the model will consider when determining
a split
• bootstrapping — the default value for this is True, meaning the model follows bootstrapping
principles (defined earlier).
• max_samples — This parameter assumes bootstrapping is set to True, if not, this parameter
doesn’t apply. In the case of True, this value sets the largest size of each sample for each tree.
• Other important parameters are criterion, min_samples_split, min_samples_leaf,
class_weights, n_jobs, and others.
What’s the different?
Дерево решений и случайный лес - два связанных алгоритма
машинного обучения.

Дерево решений - это модель прогнозирования, которая


принимает решения на основе набора правил, построенных на
тренировочных данных. Случайный лес, с другой стороны,
представляет собой метод ансамбля, состоящий из множества
деревьев решений.
Различия между ними

Дерево решений Случайный лес


• Одиночное дерево: Дерево решений • Ансамбль из деревьев: Состоит из
- это отдельная модель, которая множества деревьев решений,
создает правила решения на основе обученных независимо, и
функций тренировочных данных. предсказания берутся через
• Переобучение: Склонно к голосование или усреднение.
переобучению, особенно при • Снижение переобучения: Обычно
недостаточной настройке. Возможно более устойчив к переобучению из-за
изучение мелких деталей объединения нескольких деревьев,
тренировочных данных, которые что может уменьшить влияние
фактически не имеют отношения к слишком специфичных решений
прогнозированию. одного дерева.
Дерево решений
Плюсы: Минусы:
• Легко интерпретировать. • Склонно к переобучению
• Подходит для небольших и (overfitting)
средних наборов данных. • Менее эффективно для
сложных данных.
Случайный лес
Плюсы: Минусы:
• Справляется с переобучением • Не так ясно, как дерево
благодаря ансамблю. решений с точки зрения
• Подходит для больших и интерпретации.
сложных данных. • Требует больше времени и
• Может обрабатывать вычислительных ресурсов для
различные типы данных и обучения.
функций.
Confusion Matrix
Data Visualization
Data Visualization
Источники
1. https://colab.research.google.com/drive/12KryUdgRCGQzcGMRA3
G8v1k0sA048DqS?usp=sharing
2. https://ru.wikipedia.org/wiki/%D0%9C%D0%B5%D1%82%D0%BE%
D0%B4_%D1%81%D0%BB%D1%83%D1%87%D0%B0%D0%B9%D0%
BD%D0%BE%D0%B3%D0%BE_%D0%BB%D0%B5%D1%81%D0%B0
3. https://alexanderdyakonov.wordpress.com/2016/11/14/%D1%81%
D0%BB%D1%83%D1%87%D0%B0%D0%B9%D0%BD%D1%8B%D0%
B9-%D0%BB%D0%B5%D1%81-random-forest/
4. https://scikit-learn.ru/1-10-decision-trees/#tree-classification
5. https://www.javatpoint.com/machine-learning-decision-tree-classif
ication-algorithm
Спасибо за внимание

Вам также может понравиться