Открыть Электронные книги
Категории
Открыть Аудиокниги
Категории
Открыть Журналы
Категории
Открыть Документы
Категории
ОТЧЕТ
по лабораторной работе №5
Москва 2021
ОГЛАВЛЕНИЕ
ОГЛАВЛЕНИЕ 2
ЗАКЛЮЧЕНИЕ 8
ОТВЕТЫ НА ВОПРОСЫ 9
ЗАДАНИЕ ЛАБОРАТОРНОЙ РАБОТЫ
3
ВЫПОЛНЕНИЕ ЛАБОРАТОРНОЙ РАБОТЫ
4
Рисунок 3 — Результат Decision Tree Mining Model с применения алгоритма ID3
к данным из файла intershop.arff
5
Рисунок 7 — Результат применения модели к данным из файла iris-
intershop.arff
6
Рисунок 8 — Результат применения модели к данным из файла iris-
nontransact.arff
7
ЗАКЛЮЧЕНИЕ
В результате проделанной работы были изучены основные принципы
разработки алгоритмов data mining, строящих supervised модели, применения
этих моделей к новым данным. А также реализован алгоритм, строящий
supervised модель, которая могла бы быть использована для предсказания на
новых данных.
8
ОТВЕТЫ НА ВОПРОСЫ
1. Что такое supervised модели.
Обучение с учителем — это направление машинного обучения,
объединяющее алгоритмы и методы построения моделей на основе
множества примеров, содержащих пары «известный вход — известный
выход».
Иными словами, чтобы алгоритм относился к обучению с учителем, он
должен работать с примерами, которые содержат не только вектор
независимых переменных (атрибутов, признаков), но и значение, которое
должна выдавать модель после обучения (такое значение называется
целевым). Разность между целевым и фактическим выходами модели
называется ошибкой обучения (невязкой, остатками), которая минимизируется
в процессе обучения и выступает в качестве «учителя». Значение выходной
ошибки затем используется для вычисления коррекций параметров модели на
каждой итерации обучения.
В анализе данных машинное обучение используется в задачах
классификации и регрессии. В первом случае в качестве целевой переменной
используется метка класса, а во втором — числовая переменная целого или
вещественного типа.
В настоящее время разработано большое число алгоритмов обучения с
учителем, каждый из которых имеет свои сильные и слабые стороны. Не
существует единого алгоритма, который лучше всего подходит для всех задач
анализа.
10
Решающее дерево (decision tree, DT) — это логический алгоритм
классификации, основанный на поиске конъюнктивных закономерностей.
1. ID3. В основе этого алгоритма лежит понятие информационной энтропии
– то есть, меры неопределенности информации (обратной мере
информационной полезности величины). Для того чтобы определить
следующий атрибут, необходимо подсчитать энтропию всех
неиспользованных признаков относительно тестовых образцов и выбрать
тот, для которого энтропия минимальна. Этот атрибут и будет считаться
наиболее целесообразным признаком классификации.
2. C5. Этот алгоритм – усовершенствование предыдущего метода,
позволяющее, в частности, «усекать» ветви дерева, если оно слишком
сильно «разрастается», а также работать не только с атрибутами-
категориями, но и с числовыми. В общем-то, сам алгоритм выполняется
по тому же принципу, что и его предшественник; отличие состоит в
возможности разбиения области значений независимой числовой
переменной на несколько интервалов, каждый из которых будет являться
атрибутом. В соответствии с этим исходное множество делится на
подмножества. В конечном итоге, если дерево получается слишком
большим, возможна обратная группировка – нескольких узлов в один
лист. При этом, поскольку перед построением дерева ошибка
классификации уже учтена, она не увеличивается.
3. CART. Алгоритм разработан в целях построения так называемых
бинарных деревьев решений – то есть тех деревьев, каждый узел которых
при разбиении «дает» только двух потомков. Грубо говоря, алгоритм
действует путем разделения на каждом шаге множества примеров ровно
напополам – по одной ветви идут те примеры, в которых правило
выполняется (правый потомок), по другой – те, в которых правило не
выполняется (левый потомок). Таким образом, в процессе «роста» на
каждом узле дерева алгоритм проводит перебор всех атрибутов, и
11
выбирает для следующего разбиения тот, который максимизирует
значение показателя, вычисляемого по математической формуле и
зависящего от отношений числа примеров в правом и левом потомке к
общему числу примеров.
12