Вы находитесь на странице: 1из 12

Лабораторная работа №9

Тема: «Машинное обучение c помощью Microsoft Azure Machine Learning»

Хабаровск, 2020
Содержание

Введение.............................................................................................................3
Об эксперименте................................................................................................3
Ход выполнения эксперимента........................................................................4
Создание нового эксперимента в Microsoft Azure Machine Learning.......4
Получение данных........................................................................................5
Предварительная обработка данных...........................................................6
Очистка данных.........................................................................................8
Вывод................................................................................................................11

2
Введение

Big Data – это большие объемы структурированной,


квазиструктурированной и неструктурированной информации, поступающей
из разных источников, которую сложно анализировать традиционными
методами.
Большие данные характеризуются «тремя V»:
 объем (Volume — физический объем),
 скорость (Velocity — скорость прироста и необходимость
высокоскоростной обработки и получения результатов),
 многообразие (Variety — возможность одновременной обработки
различных типов структурированных, квазиструктурированных и
неструктурированных данных)
Особенности представления данных:
1. Структурированные данных, для которых имеют значение такие
элементы, как поля, столбцы, таблицы, строки и индексы
a. На их основе определяются совокупности записей — файлы,
таблицы реляционных баз данных и т.д.
b. Основным типом структурированных данных являются
алфавитно-цифровые.
c. Методы работы с ними хорошо известны, как и реализующие их
системы (начиная с файловых операционных систем и СУБД).
2. Неструктурированные данные:
a. Текст в документе обычно представлен в свободной форме, для
него нет ключей, индексов, столбцов или атрибутов, в отличие от
текстовых полей в записях структурированных данных.

Об эксперименте
Эксперимент демонстрирует построение регрессионной модели для
прогнозирования стоимости автомобиля. Этот процесс включает в себя
обучение, тестирование и оценку модели с использованием готового набора
данных. Набор данных Automobile price data (Raw) получен из репозитория
UCI Machine Learning. Содержит 26 столбцов, которые включают
информацию об автомобилях по маркам, модели, цене, характеристикам
автомобиля (например, количество цилиндров, MPG), а также об оценке
страхового риска. Цель полученной модели – предсказать цену автомобиля.
Этапы построения эксперимента:
1. получение данных;
2. предварительная обработка данных;
3. обучение модели;
4. проверка и оценка результатов, предсказываемых моделью

3
4
Ход выполнения эксперимента
Создание нового эксперимента в Microsoft Azure Machine Learning

Заходим в данный сервис под своей учетной записью Microsoft (если нет,
то придется создать).

Далее во вкладке эксперименты в нижнем углу экрана нажимаем кнопку


.После чего перед нами откроется следующее окно.

Выбираем «Blank Experiment». И перед нами откроется область создания


нового эксперимента.

5
Получение данных

Существуют различные способы добавления данных в Azure ML Studio:


1. загрузка данных из локального файла,
2. использование модуля «Reader» для извлечения данных из
облачных хранилищ (базы данных Azure SQL, Hadoop),
3. извлечение данных через запросы Hive, веб-URL и т. д.
В нашем случае загрузка данных будет осуществляться из локального
файла «Automobile price data _Raw_.csv».
Для этого опять нажимаем кнопку «New» и выбираем раздел
«DATASET».

После нажимаем кнопку «From Local File» и в открывшимся окне


выбираем файл с набором данных.

6
Далее нам показывают процесс загрузки файла.

Удостоверимся, что загрузка прошла успешно.

Далее перенесем набор данных в бланк эксперимента.

Предварительная обработка данных

Предварительная обработка и очистка данных – это важный этап,


обеспечивающий эффективное использование набора данных для машинного
обучения. Реальные необработанные данные часто искажены и ненадежны,
могут содержать ошибки и повреждения, так как собираются для
последующей обработки из разных источников и процессов. Использование
таких данных при моделировании приводит к неверным результатам.

7
Типичные проблемы с качеством данных:
 Неполнота: данные не содержат атрибутов, или в них пропущены
значения.
 Шум: данные содержат ошибочные записи или выбросы.
 Несогласованность: данные содержат конфликтующие между собой
записи или расхождения.
Качественные данные – это необходимое условие для создания
качественных моделей прогнозирования. Чтобы избежать появления
ситуации «мусор на входе, мусор на выходе» и повысить качество данных и,
как следствие, эффективность модели, необходимо провести мониторинг
работоспособности данных, как можно раньше обнаружить проблемы и
решить, какие действия по предварительной обработке и очистке данных
необходимо выполнить.
Для проверки качества набор данных нужно оценить по следующим
параметрам:
 количество записей;
 количество атрибутов (или компонентов);
 типы данных атрибута (номинальные, порядковые или непрерывные);
 количество пропущенных значений;
 правильность формата данных.
Главные задачи предварительной обработки данных:
o очистка данных – восполнение пропущенных значений, обнаружение
и удаление искаженных данных и выбросов.
o преобразование данных – нормализация данных для снижения
измерений и искажений.
o уплотнение данных – создание выборки данных или атрибутов для
упрощения обработки данных.
o дискретизация данных – преобразование непрерывных атрибутов в
категориальные, чтобы проще было использовать некоторые методы
машинного обучения.
o очистка текста – удаление внедренных символов, которые могут
нарушать выравнивание данных, например, внедренных символов
табуляции в файле с разделителем-табуляцией, внедренных новых
линий, которые могут разбивать записи, и пр.

8
Очистка данных

Текстовые поля в табличных данных могут содержать символы,


сбивающие выравнивание столбцов или границы записей (или и то и другое
вместе). Например, табуляции, внедренные в файл с разделителем-
табуляцией, могут сбить выравнивание столбцов, а внедренные символы
новой строки могут разорвать линии записей. Неправильная кодировка
текста приводит при его чтении или записи к потере информации, появлению
нечитаемых символов, например, нуль-символов, и может также помешать
разбору текста. Чтобы очистить текстовые поля, исправить выравнивание и
извлечь структурированные текстовые данные из неструктурированных или
полуструктурированных, могут потребоваться тщательные разбор и
редактирование текста.
Для выявления тех или иных проблем с данными в студии машинного
обучения Microsoft Azure существует Функция просмотра данных,
позволяющая ознакомиться с данными заблаговременно, до построения
модели. Это поможет решить, к каким действиям по обработке данных
нужно прибегнуть для устранения проблем.
Для предварительной обработки данных в студии машинного обучения
Microsoft Azure существует набор инструментов «Data transformation»,
расположенный на левой панели.
1. Щелкнуть по значку с номером «1» в нижней центральной части блока
данных, размещенных на бланке эксперимента, и выбрать команду
«Visualize».
2. Откроется окно визуализации данных из набора (Error: Reference source
not found).

3. При детальном изучении можно увидеть, что в наборе имеются записи


с пропущенными значениями. Воспользуемся инструментом «Clean

9
Missing Data» из набора «Data Transformation» для удаления строк,
содержащих пустые значения.

4. Из набора данных требуется исключить столбец, содержащий наименее


релевантную для анализа информацию (столбец «num-of-doors»). Это
поможет создать чистый набор данных для обучения. Для этого
применяется инструмент «Select Columns», который позволяет оставить
в наборе данных только выбранные столбцы (для выбора столбцов
щелкнуть по ссылке «Launch column selector»). 

10
5. Используя модуль «Split Data», необходимо разделить входные данные
так, чтобы наборы данных обучения и тестирования содержали 60% и
40% исходных данных соответственно.

11
Вывод
В ходе выполнения данной лабораторной работы мы познакомились с
таким инструментом как Microsoft Azure Machine Learning, научились
работать с основными его инструментами, ближе познакомились с таким
термином как Big Data.

12

Вам также может понравиться