Вы находитесь на странице: 1из 7

1. Дати визначення методу Data Mining.

DM – это исследование и обнаружение «машиной» (алгоритмами, средствами


искусственного интеллекта) в сырых данных скрытых знаний, которые ранее не
были известны, нетривиальны, практически полезны, доступны для
интерпретации человеком
 новизна (знания должны быть ранее неизвестными);
 нетривиальность; (своеобразность)
 практическая полезность;
 доступность для понимания человеком.
Новизна знаний(знания ранее неизвестные) предполагает, что выявление уже
известных аналитику знаний не окупает затрат на проведение Data Mining (DM)
Нетривиальность знаний предполагает, что результаты DM должны отражать
неочевидные, неожиданные, скрытые закономерности в данных. Очевидные
закономерности, которые можно получить более простыми способами, не
оправдывают высоких затрат на проведение DM
Практическая полезность данных заключается в том, что найденные знания
должны быть применимы на новых данных с высокой степенью достоверности, а
также могли принести определенную выгоду при их применении на практике (при
поддержке принятия управленческих решений)
Доступность для понимания человеком заключается в том, что найденные
закономерности должны быть логически объяснимы. В противном случае
существует вероятность, что найденные знания являются случайным
совпадением. Кроме того, обнаруженные знания должны быть представлены в
понятном для человека виде
В DM для представления полученных знаний служат модели. Виды моделей
зависят от методов их создания
Под методами DM будем понимать совокупность частных методик
проведения анализа, которые реализованы в используемой OLAPсреде
OLAP (On-Line Analytical Processing) – это технология оперативной
аналитической обработки данных, которая использует методы и средства для
сбора, хранения и анализа многомерных данных в целях поддержки процессов
принятия решений
2. Яке завдання називається завданням класифікації?
Задача классификации, в которой по характеристикам объекта определяется
класс, к которому относится этот объект (при этом множество классов известно
заранее);
3. До чого зводиться завдання класифікації?
Требуется построить алгоритм, способный классифицировать произвольный
объект из исходного множества А. Под словом «классифицировать» будем
понимать процедуру указания номера или наименования класса, к которому
относится классифицируемый объект
Множество классов должно быть:
 конечно;
 счетно;
 априорно определено (все классы должны быть известны до начала решения
задачи).
4. З чого складаються класифікаційні правила?
Понятие «модель» в DM используется для описания способа представления
знаний, полученных в ходе проведения DM
Основные модели задачи классификации:
 классификационные правила;
 деревья решений;
 математические функции.
Классификационные правила состоят из двух частей – условия и заключения
– и имеют вид «Если {условие} то {заключение}»
Условие представляет собой проверку одной или нескольких независимых
переменных, которые могут быть объединены между собой в результате
выполнения логических операций «и», «или» и «не»;
Заключение представляет собой номер или наименование класса или же
значение вероятности принадлежности объекта к классу
5. Перерахувати основні переваги і недоліки
класифікаційних правил.
Достоинства классификационных правил:
 Легкость восприятия;
 запись на языке, близком к естественному;
 легкость модификации базы правил.
Главным недостатком классификационных правил является
противоречивость отдельных правил друг другу. Это приводит к тому, что,
например, при одних и тех же признаках исходного объекта различные правила
одной и той же базы, сформулированные в разное время, могут отнести этот
объект к различным классам
6. Що таке залежні і незалежні змінні?
7. Дати загальну характеристику методу Naive Bayes.
Метод Naive Bayes использует формулу Байеса для расчета условных
вероятностей исхода классификации.
Этапы метода Naive Bayes:
 Этап 1. Формирование обучающей выборки объектов и выделение множества
классов.
 Этап 2. Проверка гипотезы о независимости отдельных признаков объектов из
обучающей выборки друг от друга. Проверка гипотез о нормальном или
Гауссовом распределении числовых значений признаков объектов из
обучающей выборки (при необходимости).
 Этап 3. Расчет вероятностей исходов классификации для каждого из
выделенных классов на основе обучающей выборки.
 Этап 4. Расчет вероятностей того, что исход классификации зависит от
выбранного значения конкретного признака для каждого из значений каждого
из признаков объекта и каждого из классов на основе обучающей выборки.
 Этап 5. Решение задачи классификации для объекта, отсутствующего в
обучающей выборке.
Проблемы применения метода Naive Bayes:
 отсутствие объектов, имеющих конкретные значения независимых
переменных и относящихся к конкретному классу (добавление к каждой
вероятности малого значения, отличного от нуля (оценочная функция
Лапласа));
 наличие в выборке пустых значений для метода проблемы не представляют
(при подсчете вероятностей такие строки пропускаются для всех правил);
 для числовых значений независимых переменных необходима проверка
гипотезы о том, что все они имеют нормальное или Гауссово распределение.
8. Чому метод Naive Bayes названо "наївним".
Свое название метод получил из-за довольно «наивного» предположения, что
все рассматриваемые переменные (признаки) независимы друг от друга
9. Дати загальну характеристику методу Decision Tree.
Общая методика построения деревьев решений:
Методика «разделяй и властвуй» заключается в рекурсивном разбиении
множества объектов обучающей выборки на подмножества, содержащие объекты,
относящиеся к одинаковым классам
 Ситуация 1. Множество объектов обучающей выборки содержит один или
более объектов, относящихся только к одному классу. В этом случае дерево
решений будет иметь вид одного листа, определяющего этот единственный
класс.
 Ситуация 2. Множество объектов обучающей выборки не содержит ни одного
объекта, то есть является пустым множеством. В этом случае дерево решений
будет иметь вид одного листа, а класс, ассоциированный с этим листом,
выбирается из другого множества, отличного от исходного.
 Ситуация 3. Множество объектов обучающей выборки содержит объекты,
относящиеся к разным классам. Тогда следует разбить данное множество по
одному из независимых признаков на подмножества, каждое из которых
содержит все объекты с заранее определенным значением этого
независимого признака. В этом случае дерево решений будет иметь вид узла,
в котором записывается условие разделения исходного множества на
подмножества по выбранному признаку, и набора ветвей, количество которых
равно количеству уникальных значений этого признака.
10. Що описують листя дерева-графа?
Дерево решений позволяет представить классификационные правила в виде
иерархической структуры (чаще всего графически)
Содержание узлов дерева решений:
 проверка определенной независимой переменной (признака, атрибута);
 сравнение друг с другом двух независимых переменных (признаков,
атрибутов);
 вычисление некоторой функции от одной или нескольких независимых
переменных (признаков, атрибутов).
Особенности ветвления дерева решений:
 если проверяемая в узле переменная принимает категориальные значения, то
каждому возможному значению соответствует ветвь, выходящая из этого узла;
 если проверяемая в узле переменная принимает числовое значение,
выделяются две ветви, описывающие результат проверки, больше или
меньше это значение некоей пороговой константы;
 если проверяемая в узле переменная должна попасть в один из двух или
более числовых интервалов, выделяются ветви, каждая из которых
соответствует попаданию значения переменной в конкретный интервал.
Особенности формирования листьев дерева решений:
 Каждый лист дерева решений соответствует значения зависимой переменной
и, соответственно, конкретному классу;
 объект принадлежит конкретному классу, если значения его независимых
переменных удовлетворяют условиям, записанным в узлах дерева на пути от
корня к листу, соответствующему этому классу.
Достоинства деревьев решений:
 наглядность;
 простота преобразования в правила классификации.
Проблемы построения дерева решений:
 проблема выбора признака, по которому будет проводиться разбиение
множества обучающей выборки на отдельные подмножества;
 проблема остановки разбиения дерева решений на уровни;
 проблема сложности и запутанности структуры формируемого дерева
решений.
11. Які обмеження існують на застосування методів
побудови дерев рішень в практичних умовах?

Без ограничения «роста» дерево решений станет слишком большим и


сложным, что сделает невозможной дальнейшую интерпретацию. А если делать
решающие правила для создания узлов, в которые будут попадать по 2-3 примера,
они не лишатся практической ценности.
Поэтому многие специалисты отдают предпочтение альтернативному
варианту — построить все возможные деревья, а потом выбрать те, которые при
разумной глубине обеспечивают приемлемый уровень ошибки распознавания.
Основная задача в такой ситуации — поиск наиболее выгодного баланса между
сложностью и точностью дерева.
Но и тут есть проблема: такая задача относится к классу NP-полных задач, а
они, как известно, эффективных решений не имеют. Поэтому прибегают к методу
отсечения ветвей, который реализуется в 3 шага:
1. Строительство полного дерева, в котором листья содержат примеры
одного класса.
2. Определение двух показателей: относительную точность модели
(отношение числа правильно распознанных примеров к общему числу примеров)
и абсолютную ошибку (число неправильно классифицированных примеров).
3. Удаление листов и узлов, потеря которых минимально скажется на
точности модели и увеличении ошибки.
Отсечение ветвей проводят противоположно росту дерева, то есть снизу
вверх, путем последовательного преобразования узлов в листья.
Главное отличие метода «отсечение ветвей» от преждевременной остановки
— получается найти оптимальное соотношение между точностью и понятностью.
При этом уходит больше времени на обучение, потому что в рамках этого подхода
изначально строится полное дерево.
Преимущества:
 Формируют четкие и понятные правила классификации. Например, «если
возраст < 40 и нет имущества для залога, то отказать в кредите». То есть деревья
решений хорошо и быстро интерпретируются.
 Способны генерировать правила в областях, где специалисту трудно
формализовать свои знания.
Легко визуализируются, то есть могут «интерпретироваться» не только как
модель в целом, но и как прогноз для отдельного тестового субъекта (путь в
дереве).
 Быстро обучаются и прогнозируют.
 Не требуется много параметров модели.
 Поддерживают как числовые, так и категориальные признаки.
Недостатки:
 Деревья решений чувствительны к шумам во входных данных. Небольшие
изменения обучающей выборки могут привести к глобальным корректировкам
модели, что скажется на смене правил классификации и интерпретируемости
модели.
 Разделяющая граница имеет определенные ограничения, из-за чего дерево
решений по качеству классификации уступает другим методам.
 Возможно переобучение дерева решений, из-за чего приходится прибегать
к методу «отсечения ветвей», установке минимального числа элементов в листьях
дерева или максимальной глубины дерева.
 Сложный поиск оптимального дерева решений: это приводит к
необходимости использования эвристики типа жадного поиска признака с
максимальным приростом информации, которые в конечном итоге не дают 100-
процентной гарантии нахождения оптимального дерева.
 Дерево решений делает константный прогноз для объектов, находящихся в
признаковом пространстве вне параллелепипеда, который охватывает не все
объекты обучающей выборки.

Вам также может понравиться