Вы находитесь на странице: 1из 12

МИНИСТЕРСТВО НАУКИ И ВЫСШЕГО ОБРАЗОВАНИЯ РОССИЙСКОЙ ФЕДЕРАЦИИ

Федеральное государственное бюджетное образовательное учреждение


высшего образования
«Московский авиационный институт
(национальный исследовательский университет)»

ОТЧЕТ
по лабораторной работе №5

«Реализация алгоритмов построения supervised моделей»

Институт №3 «Системы управления, информатика и электроэнергетика»


Кафедра 316 «Системное моделирование и автоматизированное
проектирование»

Преподаватель: Исполнитель: студент группы М3О-433Б-18


Прудников Кохановский Владислав Евгеньевич
Виталий Отметка:
Анатольевич Дата:

Москва 2021
ОГЛАВЛЕНИЕ

ОГЛАВЛЕНИЕ 2

ЗАДАНИЕ ЛАБОРАТОРНОЙ РАБОТЫ 3

ВЫПОЛНЕНИЕ ЛАБОРАТОРНОЙ РАБОТЫ 4

ЗАКЛЮЧЕНИЕ 8

ОТВЕТЫ НА ВОПРОСЫ 9
ЗАДАНИЕ ЛАБОРАТОРНОЙ РАБОТЫ

Цель работы: изучить основные принципы разработки алгоритмов data mining


строящих supervised модели. А также применения этих моделей к новым
данным.
Задание: реализовать алгоритм в соответствии с вариантом задания строящий
supervised модель, которая могла бы быть использована для предсказания на
новых данных.

3
ВЫПОЛНЕНИЕ ЛАБОРАТОРНОЙ РАБОТЫ

Рисунок 1 — Данные из файла intershop.arff

Рисунок 2 — Данные из файла iris-nontransact. arff

4
Рисунок 3 — Результат Decision Tree Mining Model с применения алгоритма ID3
к данным из файла intershop.arff

Рисунок 4 — Результат Decision Tree Mining Model с применения алгоритма


General к данным из файла intershop.arff

Рисунок 5 — Результат Decision Tree Mining Model с применения алгоритма ID3


к данным из файла iris-nontransact.arff

Рисунок 6 — Результат Decision Tree Mining Model с применения алгоритма


General к данным из файла intershop.arff

5
Рисунок 7 — Результат применения модели к данным из файла iris-
intershop.arff

6
Рисунок 8 — Результат применения модели к данным из файла iris-
nontransact.arff

7
ЗАКЛЮЧЕНИЕ
В результате проделанной работы были изучены основные принципы
разработки алгоритмов data mining, строящих supervised модели, применения
этих моделей к новым данным. А также реализован алгоритм, строящий
supervised модель, которая могла бы быть использована для предсказания на
новых данных.

8
ОТВЕТЫ НА ВОПРОСЫ
1. Что такое supervised модели.
Обучение с учителем — это направление машинного обучения,
объединяющее алгоритмы и методы построения моделей на основе
множества примеров, содержащих пары «известный вход — известный
выход».
Иными словами, чтобы алгоритм относился к обучению с учителем, он
должен работать с примерами, которые содержат не только вектор
независимых переменных (атрибутов, признаков), но и значение, которое
должна выдавать модель после обучения (такое значение называется
целевым). Разность между целевым и фактическим выходами модели
называется ошибкой обучения (невязкой, остатками), которая минимизируется
в процессе обучения и выступает в качестве «учителя». Значение выходной
ошибки затем используется для вычисления коррекций параметров модели на
каждой итерации обучения.
В анализе данных машинное обучение используется в задачах
классификации и регрессии. В первом случае в качестве целевой переменной
используется метка класса, а во втором — числовая переменная целого или
вещественного типа.
В настоящее время разработано большое число алгоритмов обучения с
учителем, каждый из которых имеет свои сильные и слабые стороны. Не
существует единого алгоритма, который лучше всего подходит для всех задач
анализа.

2. Что такое предсказательные модели?


Предсказательное моделирование — это инженерный подход, который
помогает специалистам отвечать на следующие вопросы:
● Как предсказать поведение изделия в различных условиях?
9
● Как обрабатывать данные экспериментов и численного моделирования
совместно?
● Как использовать большие наборы данных и численные модели
быстрее?
Предсказательное моделирование основывается на построении,
управлении и расчете моделей при помощи техник аппроксимации. Их
также называют поверхностями отклика, суррогатными моделями,
метамоделями, моделями пониженного порядка и т. п.
Предсказательные модели используются для прогнозирования значений
отклика функции или поведения конструкции изделия без проведения
дополнительных полномасштабных экспериментов или численных расчетов.
В своей основе предсказательная модель – это сложный полином, который
описывает поверхность отклика параметров модели или, другими словами,
является подменой («черным ящиком») существующих данных или
расчетной модели.

3. Какие существуют алгоритмы построения функций регрессии?


● Нейросетевая регрессия
● Регрессия дерева решений
● Регрессия LASSO
● Гребневая регрессия (ридж-регрессия)
● Регрессия ElasticNet

4. Какие существуют алгоритмы построения классификационных правил


● Алгоритм построения 1-правил
● Метод Naive Bayes

5. Какие существуют алгоритмы построения деревьев решений

10
Решающее дерево (decision tree, DT) — это логический алгоритм
классификации, основанный на поиске конъюнктивных закономерностей.
1. ID3. В основе этого алгоритма лежит понятие информационной энтропии
– то есть, меры неопределенности информации (обратной мере
информационной полезности величины). Для того чтобы определить
следующий атрибут, необходимо подсчитать энтропию всех
неиспользованных признаков относительно тестовых образцов и выбрать
тот, для которого энтропия минимальна. Этот атрибут и будет считаться
наиболее целесообразным признаком классификации.
2. C5. Этот алгоритм – усовершенствование предыдущего метода,
позволяющее, в частности, «усекать» ветви дерева, если оно слишком
сильно «разрастается», а также работать не только с атрибутами-
категориями, но и с числовыми. В общем-то, сам алгоритм выполняется
по тому же принципу, что и его предшественник; отличие состоит в
возможности разбиения области значений независимой числовой
переменной на несколько интервалов, каждый из которых будет являться
атрибутом. В соответствии с этим исходное множество делится на
подмножества. В конечном итоге, если дерево получается слишком
большим, возможна обратная группировка – нескольких узлов в один
лист. При этом, поскольку перед построением дерева ошибка
классификации уже учтена, она не увеличивается.
3. CART. Алгоритм разработан в целях построения так называемых
бинарных деревьев решений – то есть тех деревьев, каждый узел которых
при разбиении «дает» только двух потомков. Грубо говоря, алгоритм
действует путем разделения на каждом шаге множества примеров ровно
напополам – по одной ветви идут те примеры, в которых правило
выполняется (правый потомок), по другой – те, в которых правило не
выполняется (левый потомок). Таким образом, в процессе «роста» на
каждом узле дерева алгоритм проводит перебор всех атрибутов, и

11
выбирает для следующего разбиения тот, который максимизирует
значение показателя, вычисляемого по математической формуле и
зависящего от отношений числа примеров в правом и левом потомке к
общему числу примеров.

12

Вам также может понравиться