Вы находитесь на странице: 1из 9

1 НАЧАЛЬНОЕ ЗНАКОМСТВО СО СРЕДОЙ RAPIDMINER STUDIO И

ПОДГОТОВКА ИСХОДНЫХ ДАННЫХ. Лабораторная работа №1

1.1 Методические указания


Целью выполнения лабораторной работы является получение
начальных навыков работы с программным комплексом RapidMiner Studio
(рисунок 1) [ CITATION Блю18 \l 1049 ]. Он представляет собой мощную
многопользовательскую платформу, которая служит для создания, передачи
и обслуживания наукоемких данных. Платформа открыта и расширяема для
поддержки всех потребностей научных данных, ускоряет создание полных
аналитических рабочих процессов от подготовки данных для моделирования
до развертывания бизнеса в единой среде значительно повышая
эффективность и сокращая время, необходимое для создания проектов в
области данных.

Рисунок 1 – Эмблема пакета RapidMiner Studio


Скачать актуальную версию платформы можно с сайта [ CITATION
rap19 \l 1033 ]. Профессиональная лицензия платная. В стандартной лицензии
AGPL доступно 10,000 колонок и ограничение в один логический процесс.
Существует версия для учебного процесса. Пакет RapidMiner Studio
приобретен ГУАП и установлен в вычислительных лабораториях в зданиях
на улице Ленсовета и на улице Большая Морская.
Начальное окно, появляющееся после загрузки платформы,
представлено на рисунке 2. Оно предлагает выбрать режим создания нового
проекта (рисунок 3) или шаблон для реализации неких ранее созданных
процессов (рисунок 4). Эта страница на любом этапе работы системы может
быть вызвана командой File -> New process.
Бесплатная версия системы дает возможность в течение только одного
месяца после первичной загрузки системы, кроме основного режима Blank,
пользоваться еще и возможностями режимов Turbo Prep, автоматизирующего
процесс подготовки данных, и Auto Model, предназначенного для
подключения типовых шаблонов обработки данных. В дальнейшем для
активации этих режимов потребуется предпринять некоторые специальные
действия. Поэтому их изучению будет посвящены отдельные лабораторные
работы.

Рисунок 2 – Начальное окно запуска системы RapidMiner Studio


Выбрав режим Start / Blank, мы попадаем в главное окно платформы
(рисунок 5). В этом случае появляется возможность конструировать
обработку с самого начала. Кроме этого, из этого окна существует
возможность вернуться к предыдущему сеансу (Recent) и обратиться к
системе пошагового обучения (Learn) (рисунок 2).
t
Новый процесс
projec Blank
new
Start a
Подготовка данных
ы Turbo prep
работ
о Построение и оптимизации моделей с
Начал помощью машинного обучения
Auto model

Рисунок 3 – Предлагаемые варианты начала работы

Direct Marketing
Churn Modeling Credit Risk Modeling
Прогнозирование реакции
Прогнозирование оттока Моделирование кредитного
на маркетинговую
клиентов с помощью дерева риска с помощью машины
кампанию и повышение ее
решений опорных векторов
рейтинга

Market Basket Analysis Predictiv Maintenance Price Risk Clastering


Поиск ассоциативных Предсказание отказов Кластеризация ценовых
правил оборудования рисков

Operationalization Outlier Detection


Lift Chart
Встраивание Обнаружение аномалий в
Создание диаграммы
прогнозирования в модель результатах химического
прогнозирования
бизнес-процесса анализа

Medical Fraud Detection


Geographic Distances Web Analytics Анализ
Определение медицинских
Расчет растояний по карте посещаемости сайта
ошибок

Рисунок 4 – Предлагаемые шаблоны


Рисунок 5 – Главное окно системы RapidMiner Studio для конструирования
произвольного процесса
После установки в качестве примера пакет предлагает набор вариантов
данных для обработки (рисунок 5 вкладка Samples). Так, например,
используемый в некоторых обучающих примерах набор данных Titanic
содержит сведения о пассажирах печально известного судна Титаник. При
просмотре этого набора данных пользователю показывается структура полей
(атрибутов) конкретного набора с указанием параметров каждого из них
(рисунок 6). В наборе Titanic имеется 1309 записей (строк) каждая из
которых имеет 12 полей (колонок).

Рисунок 6 – Структура атрибутов набора данных Titanic


Ознакомиться с содержимым строк существующего набора данных
можно после того, как он будет открыт. Для этого надо щелкнуть правой
клавишей мыши по имени набора и выбрать пункт Open всплывающего меню
(рисунок 7). Обратите внимание на фильтр отсутствующих (missing)
атрибутов и меток, который появляется в правом верхнем углу открывшейся
панели набора. Одновременно у пользователя появляется возможность
получения статистических сведений по данным набора (Statistics) и
графической интерпретации данных (Visualizations).

Рисунок 7 – Набор данных Titanic


Таблица 1 – Детерминированные тестовые числовые последовательности
Номер Значения
Название Математическое выражение Параметры
варианта a b c
1 Константа y [ n ] =c c 50
2 Линейная x [ n ] =an+b a,b 1 -50
3 Квадратичная x [ n ] =a(n−b)2 +c a,b,c 0.01 100 -50
4 Кубическая x [ n ] =a n3 +b n+ c a,b,c , 0.00001 0 -30
5 Показательная x [ n ] =an , где a>0 , a ≠ 1 a 1.02
6 Гармоническая x [ n ] =asin ⁡(bn+ c) a,b,c 20 0.1 3.14159

x [ n ] = c , если n=a ;
7  - импульсная { 0 ,если n ≠ a .
a,c 70 100

x [ n ] = c , если n ≥ a ;
8 Ступенчатая { 0 , если n<a .
a,c 120 75

Папки, предназначенные для хранения данных, в терминологии Rapid


Miner называются репозитории. Для хранения данных пользователя
предназначена папка Local Repository. Находящаяся в ней папка data
предназначена для хранения наборов данных пользователя, которые могут
быть подготовлены отдельно другими программными средствами. В качестве
примера рассмотрим набор данных, подготовленный на основе типовых
математических функций из таблицы 1 средствами Excel (рисунок 8).

Детерминированные тестовые числовые


последовательности
200

150

100

50

0
1 8 15 22 29 36 43 50 57 64 71 78 85 92 99 106 113 120 127 134 141 148 155 162 169 176 183 190 197

-50

-100

Константа Линейная Квадратичная Кубическая


Показательная Гармоническая d - импульсная Ступенчатая

Рисунок 8 – Подготовленные в Excel тестовые данные


Импортируем подготовленные данные в RapidMiner и разместим их в
виде таблицы в папке Local Repository. Для этого в главном окне системы
(рисунок 5) во вкладке Repository нажмем кнопку +Import Data. Откроется
панель диалога с вопросом Where is you data? Скорее всего, ваши данные
находятся на вашем же компьютере, поэтому нажмите кнопку My Computer.
Откроется окно мастера, позволяющего найти файл на вашем компьютере и
указать место и имя файла в репозитории RapidMiner. Автоматически
созданная структура атрибутов импортированного набора данных показана
на рисунке 9, а их графическое представление на рисунке 10.
Рисунок 9 – Структура атрибутов тестового набора данных в RapidMiner

Рисунок 10 – Отображение результатов импорта данных из Excel


средствами RapidMiner
1.2 Исходные данные
Исходными данными являются предлагаемые разработчиками пакета
Rapid Miner Studio образцы данных (Samples), и тестовые данные,
подготовленные студентом.

1.3 Порядок выполнения


1 Установите у себя дома пакет пробную версию пакета Rapid Miner или
воспользуйтесь версией, установленной в лабораториях университета.
2 Ознакомьтесь с процедурой запуска пакета в работу, перейдите в
начальное окно запуска системы RapidMiner (рисунок 2).
3 Создайте новый процесс, для чего нажмите кнопку Blanc вкладки Start
открывшегося окна Welcome to Rapid Miner Studio.
4 Найдите вкладку Repository, ознакомьтесь с ее структурой и
содержимым.
5 Изучите структуры данных различных наборов данных из папки
Samples и определите назначения атрибутов и полей.
6 Изучите данные различных наборов, сравните между собой
одноименные наборы (например, Titanic, Titanic Training и Titanic Unlabeled)
и найдите отличия в их атрибутах и содержимом).
7 Ознакомьтесь со статистическими параметрами изученных наборов
данных в режиме Statistics.
8 Воспользуйтесь графической интерпретацией изученных вами наборов
данных в режиме Visualizations.
9 Создайте собственный тестовый набор данных в произвольной системе
программирования.
10 Импортируйте данные в RapidMiner, убедитесь в отсутствии ошибок
импорта и в возможность использовать эти данные
11 Ознакомьтесь со статистическими параметрами вашего набора данных
в режиме Statistics.
12 Выполните графическую интерпретацию ваших данных в режиме
Visualizations.

1.4 Оформление отчета


Отчет о выполнении лабораторной работы должен содержать
титульный лист, атрибутs изученных данных из папки Samples с указанием
отличий, описание изученных данных, результаты их сравнения с другими
близкими по смыслу наборами и результаты их графической интерпретации,
структуру атрибутов индивидуальных данных студента и результаты
графической интерпретации индивидуальных данных.

1.5 Контрольные вопросы


1) Каково назначение пакета RapidMiner?
2) Какой тип лицензии на использования пакета RapidMiner, каковы права
и обязанности пользователя пакета?
3) Что хранится в папках вкладки Repository?
4) Какова технология импорта данных в репозиторий пользователя?
5) Что такое атрибуты набора данных?
6) Какие возможности есть у режима Statistics?
7) Какие возможности есть у режима Visualizations?
8) Как и когда можно реализовать предлагаемые варианты начала работы
с Rapid Miner, а также предлагаемые шаблоны решаемых задач?
9) Какие возможности существуют при работе с главным окном?
10) Как можно воспользоваться системой обучения пакета
RapidMiner и какие возможности предоставляет пользователю система
помощи?