Вы находитесь на странице: 1из 21

2.

История развития исследований в области искусственного интеллекта


4. Основные этапы методики Knowledge Discovery in Databases (KDD).
Knowledge Discovery in Databases – процесс получения из данных
знаний в виде зависимостей, правил, моделей, обычно состоящий из таких
этапов, как выборка данных, их очистка и трансформация. Кратко
рассмотрим последовательность шагов, выполняемых на каждом этапе KDD.

Выборка данных. Первым шагом в анализе является получение


исходной выборки. На основе отобранных данных строятся модели. Здесь
требуется активное участие экспертов для выдвижения гипотез и отбора
факторов, влияющих на анализируемый процесс. Желательно, чтобы данные
были уже собраны и консолидированы. Крайне необходимы удобные
механизмы подготовки выборки: запросы, фильтрация данных и сэмплинг.
Чаще всего в качестве источника рекомендуется использовать
специализированное хранилище данных, консолидирующее всю
необходимую для анализа информацию.
Очистка данных. Реальные данные для анализа редко бывают
хорошего качества. Необходимость в предварительной обработке при
анализе данных возникает независимо от того, какие технологии и
алгоритмы используются. К задачам очистки данных относятся: заполнение
пропусков, подавление аномальных значений, сглаживание, исключение
дубликатов и противоречий и пр.
Трансформация данных. Этот шаг необходим для тех методов, при
использовании которых исходные данные должны быть представлены в
каком-то определенном виде. Дело в том, что различные алгоритмы анализа
требуют специальным образом подготовленных данных. Например, для
прогнозирования необходимо преобразовать временной ряд при помощи
скользящего окна или вычислить агрегированные показатели. К задачам
трансформации данных относятся: скользящее окно, приведение типов,
выделение временных интервалов, квантование, сортировка, группировка и
пр.
Data Mining. На этом этапе строятся модели. Термин Data Mining
дословно переводится как «добыча данных». Data Mining – обнаружение в
«сырых» данных ранее неизвестных, нетривиальных, практически полезных
и доступных интерпретации знаний, необходимых для принятия решений в
различных сферах человеческой деятельности. Зависимости и шаблоны,
найденные в процессе применения методов Data Mining, должны быть
нетривиальными и ранее неизвестными, например, сведения о средних
продажах таковыми не являются. Знания должны описывать новые связи
между свойствами, предсказывать значения одних признаков на основе
других.
Интерпретация. В случае, когда извлеченные зависимости и шаблоны
непрозрачны для пользователя, должны существовать методы
постобработки, позволяющие привести их к интерпретируемому виду. Для
оценки качества полученной модели нужно использовать как формальные
методы, так и знания аналитика. Именно аналитик может сказать, насколько
применима полученная модель к реальным данным. Построенные модели
являются, по сути, формализованными знаниями эксперта, а, следовательно,
их можно тиражировать. Найденные знания должны быть применимы и к
новым данным с некоторой степенью достоверности.
4. Задачи Data Mining (классификация, регрессия, кластеризация,
ассоциативные правила).
Data Mining – это не один метод, а совокупность большого числа
различных методов обнаружения знаний. Базовые классы задач:
1) Классификация – это установление зависимости дискретной
выходной переменной от входных переменных.
2) Регрессия – это установление зависимости непрерывной выходной
переменной от входных переменных. Регрессия используется для
установления зависимостей между факторами. Например, в задаче
прогнозирования зависимая величина – объемы продаж, а факторами,
влияющими на нее, могут быть предыдущие объемы продаж, изменение
курсов валют, активность конкурентов и т. д
3) Кластеризация – это группировка объектов (наблюдений, событий)
на основе данных, описывающих свойства объектов. Объекты внутри
кластера должны быть похожими друг на друга и отличаться от других,
которые вошли в другие кластеры.
4) Ассоциация – выявление закономерностей между связанными
событиями. Примером такой закономерности служит правило,
указывающее, что из события X следует событие Y. Такие правила
называются ассоциативными. (Ассоциативные правила помогают выявлять
совместно приобретаемые товары. Это может быть полезно для более
удобного размещения товара на прилавках, стимулирования продаж.)

6. Способы машинного обучения: обучение с учителем и без учителя.


Методы формирования тестовой и обучающей выборки.
Машинное обучение (machine learning) – обширный подраздел
искусственного интеллекта, изучающий методы построения алгоритмов,
способных обучаться на данных.
Обучение с учителем – это один из разделов машинного обучения,
посвященный решению следующей задачи. Имеется множество объектов
(ситуаций) и множество возможных ответов (откликов, реакций). Существует
некоторая зависимость между ответами и объектами, но она неизвестна.
Известна только конечная совокупность прецедентов – пар «объект, ответ»,
называемая обучающей выборкой. На основе этих данных требуется
восстановить зависимость, то есть построить алгоритм, способный для
любого объекта выдать достаточно точный ответ. Под учителем в данном
случае понимается сама выборка или тот, кто указал на заданных объектах
правильные ответы. Существует также обучение без учителя, когда на
объектах выборки ответы не задаются. Модель путем самоорганизации
делает необходимые изменения. Применяется в задачах кластеризации и
сегментации для поддержки принятия решений.
8. Алгоритм ID3 построения деревьев решений
10. Оценка точности модели Дерево решений.
Для определения меры эффективности деревьев решений используют
тестовое множество – набор примеров, которые ранее не использовались
при построении дерева решений. Пропуская набор тестовых примеров через
построенное дерево решений, вычисляем для какого процента примеров,
класс был определен правильно. Это позволяет оценить качество всего
классификатора и качество решения задачи классификации отдельных
ветвей в дереве. Каждый узел дерева имеет следующие характеристики:
− количество примеров, попавших в узел;
− доли примеров, относящихся к каждому из классов;
− число классифицированных примеров (для узлов);
− процент записей, верно классифицированных данным узлом.
Особый интерес для оценки качества классификации имеют два
показателя:
12. Основные понятия теории ассоциативных правил.
Аффинитивный анализ (affinity analysis) – один из распространенных
методов Data Mining. Цель данного метода – исследование взаимной связи
между событиями, которые происходят совместно. Разновидностью
аффинитивного анализа является анализ рыночной корзины (market basket
analysis), цель которого – обнаружить ассоциации между различными
событиями, то есть найти правила для количественного описания взаимной
связи между двумя или более событиями. Такие правила называются
ассоциативными правилами.
Базовым понятием в теории ассоциативных правил является
транзакция – некоторое множество событий, происходящих совместно.
(Типичная транзакция – приобретение клиентом товара в супермаркете. В
подавляющем большинстве случаев клиент покупает не один товар, а набор
товаров, который называется рыночной корзиной. При этом возникает
вопрос: является ли покупка одного товара в корзине следствием или
причиной покупки другого товара, то есть связаны ли данные события? Эту
связь и устанавливают ассоциативные правила.)

Ассоциативное правило состоит из двух наборов предметов,


называемых условие и следствие, записываемых в виде X → Y, что читается
следующим образом: «Из X следует Y». Таким образом, ассоциативное
правило формулируется в виде: «Если условие, то следствие».
14. Чем определяется значимость и полезность ассоциативных правил, и
какими показателями она характеризуется?

16. Какую роль играют популярные наборы в процессе поиска


ассоциативных правил с помощью алгоритма a priori?
Частый предметный набор – предметный набор с поддержкой больше
заданного порога либо равной ему. Выявление часто встречающихся
наборов элементов – операция, требующая много вычислительных ресурсов
и, соответственно, времени. Примитивный подход к решению данной задачи
– простой перебор всех возможных наборов элементов. Это потребует O(2^|
I|) операций, где |I| – количество элементов.
Нахождение популярных наборов необходимо для соблюдения
свойства антимонотонности, позволяющего значительно уменьшить
пространство поиска ассоциативных правил.

18. Алгоритм FPG поиска частых наборов.


Алгоритм FPG:
1. Отбирается множество часто встречающихся предметов, т.е.
предметов, которые встречаются три или более раза.
Упорядочивание предметов в транзакциях по убыванию
значений их поддержек.
2. Построение FP-дерева
 Если для очередного предмета в дереве встречается
узел, имя которого совпадает с именем предмета, то
предмет не создает нового узла, а индекс
соответствующего узла в дереве увеличивается на 1. В
противном случае для этого предмета создается новый
узел и ему присваивается индекс 1.
 Выбираем предмет и находим в дереве все пути,
которые ведут к узлам этого предмет. Затем для каждого
пути подсчитываем, сколько раз данный предмет
встречается в нем.
 Удалим сам предмет (суффикс набора) из ведущих к
нему путей. После это останутся только префиксы.
 Подсчитаем, сколько раз каждый предмет появляется в
префиксах путей, полученных на предыдущем шаге, и
упорядочим в порядке убывания этих значений, получив
новый набор транзакций.
 На его основе построим новое FP-дерево, которое
назовем условным FP-деревом, поскольку оно связано
только с одним объектом.
 В этом FP-дереве найдем все предметы (узлы), для
которых поддержка (количество появлений в дереве)
равна 3 и больше, что соответствует заданному уровню
минимальной поддержки. Если предмет встречается два
или более раза, то его индексы, т.е. частоты появлений в
условном базисе, суммируются.
 Начиная с верхушки дерева, записываем пути, которые
ведут к каждому узлу, для которого поддержка/индекс
больше или равны 3, возвращаем назад предмет
(суффикс шаблона), который был удален, и
подсчитываем индекс/поддержку, полученную в
результате.
 Получаем частые наборы
3. Генерируем правила и оцениваем их значимость с помощью
показателей значимости.

20. Что представляет искусственная нейронная сеть. Определение


искусственного нейрона.
(Искусственная нейронная сеть (ИНС)— упрощенная модель
биологической нейронной сети, представляющая собой
совокупность искусственных нейронов, взаимодействующих между собой.)
Нейронная сеть – это самообучающаяся система, способная
анализировать вновь поступающую информацию, находить в ней
закономерности, производить прогнозирование и пр. Под нейронными
сетями подразумеваются вычислительные структуры, которые моделируют
простые биологические процессы, обычно ассоциируемые с процессами
человеческого мозга.
Искусственный нейрон — узел искусственной нейронной сети,
являющийся упрощённой моделью естественного нейрона.
Модель нейрона:
1) вычисляет взвешенную сумму своих входов от других нейронов;
2) на входах нейрона имеются возбуждающие и тормозящие синапсы;
3) при превышении суммы входов порога нейрона, вырабатывается
выходной сигнал.

22. Виды функций активации искусственного нейрона. Их особенность.


24. Что называют многослойным персептроном. Какое основное отличие
архитектуры сетей, которые используются для построения нейронных сетей,
получивших название персептроны.
Многослойный персептрон Ф. Розенблатта – многослойная
искусственная нейронная сеть прямого распространения. (Многослойные
сети – нейроны объединяются в слои; Сети прямого распространения —
искусственные нейронные сети, в которых сигнал распространяется строго от
входного слоя к выходному.)
26. Описание алгоритма обучения нейросетей обратным
распространением ошибок
Обучение искусственной нейронной сети включает 3 этапа:
1) прямое распространение входного обучающего образа;
2) вычисление ошибки и ее обратного распространения;
3) регулирование весов.
Основная идея алгоритмов обучения с учителем, заключается в том,
что на основе разности между желаемым и целевым выходами сети можно
вычислить выходную ошибку сети. Цель определения выходной ошибки –
управление процессом обучения нейронной сети, то есть корректировки
весов ее межнейронных связей для минимизации функции ошибки.
Корректировка весов сети делается по правилу Видроу – Хоффа.
Каждый нейрон в сети получает возбуждение от вектора входных значений,
производит их взвешенное суммирование и преобразует полученную сумму
с помощью активационной функции. Выходная ошибка сети формируется на
нейронах выходного слоя. Но это не означает, что погрешность работы сети
обусловлена только выходными нейронами. Свой вклад в результирующую
ошибку вносит каждый скрытый нейрон. Тогда для него может быть указана
ошибка = d-y, где d – желаемое выходное значение, а y – реальное
выходное значение.
28. Достоинства и недостатки алгоритма обучения нейросетей обратным
распространением ошибок.
Недостатки:
1. Длительность
Если сеть большая, а корректировки значительные, то может
потребоваться множество циклов прохождения сигнала в прямом и
обратном направлении, в каких-то ситуациях – сотни тысяч. В этом случае
время корректировки может составить несколько недель, месяцев, лет, а то
и вовсе выйти за границы разумных временных отрезков.
2. Паралич сети
Когда сигнал передаётся в обратном направлении, то ему должен быть
присвоен какой-то шаг. Если шаг большой, то мы сталкиваемся с тем, что
сигнал при каждом прохождении ослабевает. А поскольку сигнал обладает
электрической природой, то речь идёт о фактическом затухании
электрического импульса. Если импульс становится меньше порога
восприятия следующим нейроном, то сигнал, который должен был дойти до
конца сети (в данном случае до начала), до него не доходит, и обучение
становится невозможным.
3. Локальные минимумы
Если поставить малый шаг, то может возникнуть ситуация, когда
система выберет нейрон с минимальным значением, так называемый
локальный минимум. Такой нейрон не имеет выходов, и получается, что сеть
попала в ловушку, в связи с чем обучение тоже будет прекращено.
4. Время схождения сети.
Другими словами – время, которое нужно, чтобы сигнал снова дошёл
до «старта». Если выбрать шаг малым, то этот процесс, опять же, может
затянуться на чрезмерно длительное время, особенно если параллельно
возникают проблемы, описанные в пункте 1.
К преимуществам алгоритма обратного распространения ошибки
относятся простота реализации и устойчивость к аномалиям и выбросам в
данных.
30. Каковы цели и задачи визуализации данных в аналитических
технологиях.
Визуализация – представление данных в виде, который обеспечивает
наиболее эффективную работу пользователя.
32. В чем заключается OLAP-анализ и каковы его цели.
(Olap-анализ – комплекс методов для визуализации многомерных
данных.)
OLAP (On-Line Analytical Processing) – технология оперативной
аналитической обработки данных использующая средства и методы для сбора,
хранения и анализа многомерных данных в целях поддержки процессов
принятия решений. Анализируемая информация представляется в виде
многомерных кубов, где измерениями служат показатели исследуемого
процесса, а в ячейках содержатся агрегированные данные.
Цель - упростить работу с многоцелевыми накопленными данными.

34. Какова структура OLAP-куба.


36. В чем заключаются операции транспонирования и детализации,
каковы их цели

Транспонирование нужно для более удобного представления


информации.
Детализация

38. По какому принципу строится таблица сопряженности и каковы цели


ее использования
Построение таблиц сопряженности – метод изучения взаимосвязи
между категориальными переменными. Таблица сопряженности в
простейшем виде представляют собой таблицу двумерного распределения
категориальных переменных: строки таблицы задаются категориями одной
переменной, а столбцы таблицы задаются категориями другой переменной. 
Таблица сопряженности используется для оценки качества модели
классификации при помощи сравнения реальных данных и результатов,
полученных при помощи модели классификации.
40. Алгоритм кластеризации k-means.

Вам также может понравиться