Вы находитесь на странице: 1из 9

ЧТО ТАКОЕ BIG DATA?

Большие данные (англ. big data) — обозначение структурированных и


неструктурированных данных огромных объёмов и значительного многообразия,
эффективно обрабатываемых горизонтально масштабируемыми программными
инструментами, появившимися в конце 2000-х годов и альтернативных традиционным
системам управления базами данных и решениям класса Business Intelligence.
Ниже представлена сравнительная таблица традиционной и базы Больших Данных.

Сфера Больших Данных характеризуется следующими признаками:


 Volume – объем, накопленная база данных представляет собой большой
объем информации, который трудоемко обрабатывать и хранить
традиционными способами, для них требуются новый подход и
усовершенствованные инструменты.
 Velocity – скорость, данный признак указывает как на увеличивающуюся
скорость накопления данных (90% информации было собрано за последние 2
года), так и на скорость обработки данных, в последнее время стали более
востребованы технологии обработки данных в реальном времени.
 Variety – многообразие, т.е. возможность одновременной обработки
(структурированной и неструктурированной) разноформатной информации.
Главное отличие структурированной информации – это то, что она может
быть классифицирована. Примером такой информации может служить
информация о клиентских транзакциях.
Неструктурированная информация включает в себя видео, аудио файлы,
свободный текст, информацию, поступающую из социальных сетей. На
сегодняшний день 80% информации входит в группу неструктурированной.
Данная информация нуждается в комплексном анализе, чтобы сделать ее
полезной для дальнейшей обработки.
 Veracity – достоверность данных, все большее значение пользователи стали
придавать значимость достоверности имеющихся данных. Так, у интернет-
компаний есть проблема по разделению действий, проводимых роботом и
человеком на сайте компании, что приводит в конечном счете к затруднению
анализа данных.
 Value – ценность накопленной информации. Большие Данные должны быть
полезны компании и приносить определенную ценность для нее. К примеру,
помогать в усовершенствовании бизнес-процессов, составлении отчетности
или оптимизации расходов.
При соблюдении указанных выше 5 условий, накопленные объемы данных можно
относить к числу больших.
Технологии Больших Данных

Технологии, используемые для сбора и обработки Больших Данных, можно


разделить на 3 группы:
 Программное обеспечение;
 Оборудование;
 Сервисные услуги.
К наиболее распространенным подходам обработки данных (ПО) относятся:
SQL – язык структурированных запросов, позволяющий работать с базами данных.
С помощью SQL можно создавать и модифицировать данные, а управлением массива
данных занимается соответствующая система управления базами данных.
NoSQL – термин расшифровывается как Not Only SQL (не только SQL). Включает в
себя ряд подходов, направленных на реализацию базы данных, имеющих отличия от
моделей, используемых в традиционных, реляционных СУБД. Их удобно использовать при
постоянно меняющейся структуре данных. Например, для сбора и хранения информации в
социальных сетях.
MapReduce – модель распределения вычислений. Используется для параллельных
вычислений над очень большими наборами данных (петабайты* и более). В программном
интерфейсе не данные передаются на обработку программе, а программа – данным. Таким
образом запрос представляет собой отдельную программу. Принцип работы заключается в
последовательной обработке данных двумя методами Map и Reduce. Map выбирает
предварительные данные, Reduce агрегирует их.
Hadoop – используется для реализации поисковых и контекстных механизмов
высоконагруженных сайтов – Facebook, eBay, Amazon и др. Отличительной особенностью
является то, что система защищена от выхода из строя любого из узлов кластера, так как
каждый блок имеет, как минимум, одну копию данных на другом узле.
SAP HANA – высокопроизводительная NewSQL платформа для хранения и
обработки данных. Обеспечивает высокую скорость обработки запросов. Еще одним
отличительным признаком является то, что SAP HANA упрощает системный ландшафт,
уменьшая затраты на поддержку аналитических систем.
К технологическому оборудованию относят:
 серверы;
 инфраструктурное оборудование.
Серверы включают в себя хранилища данных.
К инфраструктурному оборудованию относят средства ускорения платформ, источники
бесперебойного питания, комплекты серверных консолей и др.
Сервисные услуги.
Сервисные услуги включают в себя услуги по построению архитектуры системы
базы данных, обустройству и оптимизации инфраструктуры и обеспечению безопасности
хранения данных.
Программное обеспечение, оборудование, а также сервисные услуги вместе
образуют комплексные платформы для хранения и анализа данных. Такие компании, как
Microsoft, HP, EMC предлагают услуги по разработке, развертыванию решений Больших
Данных и управления ими.
Примеры использования Big Data в компаниях

На сегодняшний день Big Data активно внедряются в зарубежных компаниях. Такие


компании, как Nasdaq, Facebook, Google, IBM, VISA, Master Card, Bank of America, HSBC,
AT&T, Coca Cola, Starbucks и Netflix уже используют ресурсы Больших Данных.
Сферы применения обработанной информации разнообразны и варьируются в
зависимости от отрасли и задач, которые необходимо выполнить.
Далее будут представлены примеры применения технологий Больших Данных на практике.
HSBC использует технологии Больших Данных для противодействия
мошеннических операций с пластиковыми картами. С помощью Big Data компания
увеличила эффективность службы безопасности в 3 раза, распознавание мошеннических
инцидентов – в 10 раз. Экономический эффект от внедрения данных технологий превысил
10 млн долларов.
Антифрод* VISA позволяет в автоматическом режиме вычислить операции
мошеннического характера, система на данный момент помогает предотвратить
мошеннические платежи на сумму 2 млрд долларов ежегодно.
Суперкомпьютер Watson компании IBM анализирует в реальном времени поток
данных по денежным транзакциям. По данным IBM, Watson на 15% увеличил количество
выявленных мошеннических операций, на 50% сократил ложные срабатывания системы и
на 60% увеличил сумму денежных средств, защищенных от транзакций такого характера.
Procter & Gamble с помощью Больших Данных проектируют новые продукты и
составляют глобальные маркетинговые кампании. P&G создал специализированные офисы
Business Spheres, где можно просматривать информацию в реальном времени.
Таким образом, у менеджмента компании появилась возможность мгновенно проверять
гипотезы и проводить эксперименты. P&G считают, что Большие Данные помогают в
прогнозировании деятельности компании.
Ритейлер офисных принадлежностей OfficeMax с помощью технологий Больших
Данных анализируют поведение клиентов. Анализ Big Data позволил увеличить B2B
выручку на 13%, уменьшить затраты на 400 000 долларов в год.
По мнению Caterpillar, ее дистрибьюторы ежегодно упускают от 9 до 18 млрд
долларов прибыли только из-за того, что не внедряют технологии обработки Больших
Данных. Big Data позволили бы клиентам более эффективно управлять парком машин, за
счет анализа информации, поступающей с датчиков, установленных на машинах.
С помощью Yandex Data Factory разработчики игры World of Tanks анализируют
поведение игроков. Технологии Больших Данных позволили проанализировать поведение
100 тысяч игроков World of Tanks с использованием более 100 параметров (информация о
покупках, играх, опыт и др.). В результате анализа был получен прогноз оттока
пользователей. Данная информация позволяет уменьшить уход пользователей и работать с
участниками игры адресно. Разработанная модель оказалась на 20-30% эффективнее
стандартных инструментов анализа игровой индустрии.
Детская больница Торонто внедрила проект Project Artemis. Это информационная
система, которая собирает и анализирует данные по младенцам в реальном времени.
Система ежесекундно отслеживает 1260 показателей состояния каждого ребенка. Project
Artemis позволяет прогнозировать нестабильное состояние ребенка и начать профилактику
заболеваний у детей.
Практическое задание № 1
С помощью теоретической справки о генетическом алгоритме опишите
оптимальные параметры всех входных данных (используйте скриншоты с пояснением) для
собственного примера в онлайн калькуляторе «Преобразование 4-х буквенных слов при
помощи генетического алгоритма», доступного по ссылке: https://planetcalc.ru/475/
Теоретическая справка
Генетическим алгоритм был назван так из-за сходства процесса поиска решения с
биологической эволюцией. Решением задачи является вектор слов, удовлетворяющих
некоторому критерию (хромосома). На каждом шаге мы порождаем несколько таких
векторов (популяцию), после чего осуществляем отбор наиболее пригодных вариантов
(жизнеспособных особей), т. е. выполняем селекцию. На последующем шаге ранее
полученные варианты снова видоизменяются, порождаются новые варианты (происходит
мутация) и так до тех пор, пока не будет выполнен критерий останова алгоритма.
В модифицированном алгоритме была применена улучшенная функция селекции,
которая отбирает только самые похожие на конечное слово варианты. Количество самых
жизнеспособных вариантов задается параметром Размер популяции, чем меньше это число,
тем быстрее работает алгоритм, чем больше — тем качественнее получается результат.
В качестве дополнительного критерия останова было введено ограничение на
максимальный размер цепочки, для этого был введен еще один параметр. Алгоритм
остановится, если после воспроизводства заданного числа поколений не будет получен
искомый результат.
Функция приспособленности (похожести текущего слова на конечное) оценивала
каждый вариант по 12 бальной шкале.
 за каждую букву, совпадающую по положению и значению с конечным
результатом, начислялось 3 балла
 если гласная буква слова находилась на том же месте, что и другая гласная
буква искомого слова — 2 балла
 и один балл начислялся просто за наличие гласной буквы.
Таким образом, конечное слово СЛОН оценивалось в 12 баллов, а начальная МУХА
всего в 2.
Пример выполнения

Для преобразования слова «РУКА» в слово «НОГА» с применением генетического


алгоритма необходимо и достаточно использовать длину цепочки равную 4 и размер
популяции – 1, так как … (ваши предположения).
Практическое задание № 2
В Oracle Analytics Cloud выполните пробные 3 миссии по работе с данными и
опишите свои действия со скриншотами. Перед началом работы внимательно прочитайте
теоретическую справку к этому заданию и перейдите по ссылке:
https://www.oracle.com/business-analytics/analytics-cloud.html
Теоретическая справка
Для начала выполнения миссий необходимо нажать на кнопку «Try the live demo».
Ознакомьтесь (если владеете английским) и пропустите описание возможностей
системы.

Выберете свой Аватар.


Начните миссию 1 и следуйте подсказкам на экране (пытайтесь вникнуть в то, что
вы делаете; в ходе выполнения параллельно описывайте этапы в Word-файле).

Практическое задание № 3
Ознакомиться с Tableau Online по ссылке: https://www.tableau.com/products/cloud-bi
и ответить на вопросы:
Что создаёт эта система?
a) Дашборды
b) Инфографику
В основном система предназначена для решения вопросов:
a) Business Intelligence
b) Визуализации данных
Можно ли сохранять результаты проделанной в системе работы?
a) Да
b) Нет
Имеется ли возможность удалённого доступа к данным?
c) Да
d) Нет
Что такое дашборды?
Практическое задание № 4
Изучите облачный сервис для работы с большими данными от mail.ru по ссылке:
https://mcs.mail.ru/bigdata/

Выберете одну из схем реализации работы и постарайтесь описать её простым


языком.

Вам также может понравиться