Хабаровск, 2020
Содержание
Введение.............................................................................................................3
Об эксперименте................................................................................................3
Ход выполнения эксперимента........................................................................4
Создание нового эксперимента в Microsoft Azure Machine Learning.......4
Получение данных........................................................................................5
Предварительная обработка данных...........................................................6
Очистка данных.........................................................................................8
Вывод................................................................................................................11
2
Введение
Об эксперименте
Эксперимент демонстрирует построение регрессионной модели для
прогнозирования стоимости автомобиля. Этот процесс включает в себя
обучение, тестирование и оценку модели с использованием готового набора
данных. Набор данных Automobile price data (Raw) получен из репозитория
UCI Machine Learning. Содержит 26 столбцов, которые включают
информацию об автомобилях по маркам, модели, цене, характеристикам
автомобиля (например, количество цилиндров, MPG), а также об оценке
страхового риска. Цель полученной модели – предсказать цену автомобиля.
Этапы построения эксперимента:
1. получение данных;
2. предварительная обработка данных;
3. обучение модели;
4. проверка и оценка результатов, предсказываемых моделью
3
4
Ход выполнения эксперимента
Создание нового эксперимента в Microsoft Azure Machine Learning
Заходим в данный сервис под своей учетной записью Microsoft (если нет,
то придется создать).
5
Получение данных
6
Далее нам показывают процесс загрузки файла.
7
Типичные проблемы с качеством данных:
Неполнота: данные не содержат атрибутов, или в них пропущены
значения.
Шум: данные содержат ошибочные записи или выбросы.
Несогласованность: данные содержат конфликтующие между собой
записи или расхождения.
Качественные данные – это необходимое условие для создания
качественных моделей прогнозирования. Чтобы избежать появления
ситуации «мусор на входе, мусор на выходе» и повысить качество данных и,
как следствие, эффективность модели, необходимо провести мониторинг
работоспособности данных, как можно раньше обнаружить проблемы и
решить, какие действия по предварительной обработке и очистке данных
необходимо выполнить.
Для проверки качества набор данных нужно оценить по следующим
параметрам:
количество записей;
количество атрибутов (или компонентов);
типы данных атрибута (номинальные, порядковые или непрерывные);
количество пропущенных значений;
правильность формата данных.
Главные задачи предварительной обработки данных:
o очистка данных – восполнение пропущенных значений, обнаружение
и удаление искаженных данных и выбросов.
o преобразование данных – нормализация данных для снижения
измерений и искажений.
o уплотнение данных – создание выборки данных или атрибутов для
упрощения обработки данных.
o дискретизация данных – преобразование непрерывных атрибутов в
категориальные, чтобы проще было использовать некоторые методы
машинного обучения.
o очистка текста – удаление внедренных символов, которые могут
нарушать выравнивание данных, например, внедренных символов
табуляции в файле с разделителем-табуляцией, внедренных новых
линий, которые могут разбивать записи, и пр.
8
Очистка данных
9
Missing Data» из набора «Data Transformation» для удаления строк,
содержащих пустые значения.
10
5. Используя модуль «Split Data», необходимо разделить входные данные
так, чтобы наборы данных обучения и тестирования содержали 60% и
40% исходных данных соответственно.
11
Вывод
В ходе выполнения данной лабораторной работы мы познакомились с
таким инструментом как Microsoft Azure Machine Learning, научились
работать с основными его инструментами, ближе познакомились с таким
термином как Big Data.
12