Вы находитесь на странице: 1из 10

Что такое большие данные?

Данные — это информация, поступающая из различных источников, таких как люди, изображения, текст,
датчики и веб-сайты. Кроме того, данные также поступают от технологических устройств (мобильных
телефонов, компьютеров, инфокиосков, планшетов и кассовых аппаратов). В последнее время мы
столкнулись с резким ростом объема данных, формируемых датчиками. Сегодня датчики устанавливаются во
всевозможных местах и на различные объекты, причем их число постоянно растет. К ним относятся системы
видеонаблюдения, светофоры, интеллектуальные автомобили, термометры и даже виноградники!

Большие данные — это очень много данных, но что означает «много»? Никто не может назвать точное число,
начиная с которого данные организации уже следует считать большими. Ниже приведены три
характеристики, которые указывают на то, что организация может иметь дело с большими данными.

 У организации имеются большие объемы данных, для хранения которых требуется все больше
пространства (объем).

 Объем данных растет в геометрической прогрессии (скорость).

 Данные создаются в различных форматах (разнообразие).

Сколько данных собирают датчики? Вот несколько примеров.

 Датчики в одном беспилотном автомобиле могут создавать до 4000 гигабит (Гбит) данных в день.

 Во время перелета из Лондона в Сингапур самолет Airbus A380 создает 1 петабайт (ПБ) данных.

 Используемые в шахте датчики безопасности могут создавать до 2,4 терабита (Тбит) данных каждую
минуту.

 Датчики одного умного дома могут создавать до 1 гигабайта (ГБ) информации в неделю.

Несмотря на то что большие данные ставят перед организациями сложные задачи с точки зрения хранения и
аналитики, они могут содержать бесценную информацию, позволяющую оптимизировать деятельность и
повысить степень лояльность заказчиков.

Щелкните здесь, чтобы посмотреть видео об использовании больших данных в городской транспортной


системе Сан-Диего.
Большие наборы данных

Компаниям не обязательно создавать собственные большие данные. У небольших организаций может не


быть необходимых датчиков, большого числа клиентов или возможности создавать разнообразную
информацию, которая могла бы быть им полезна. Существуют наборы данных в свободном доступе, которые
может использовать и анализировать любой желающий.

Многие компании различных размеров считают, что им обязательно нужно собирать собственные данные,
чтобы воспользоваться преимуществами, которые дает аналитика больших данных, но это совершенно не
так.

Щелкните здесь, чтобы просмотреть веб-сайт, на котором перечислены доступные базы данных.

Лабораторная работа. Изучение большого набора данных


В этой лабораторной работе вы будете изучать образец набора данных, на примере которого сможете
оценить возможности больших данных.

Лабораторная работа. Изучение большого набора данных

Какие проблемы связаны с большими данными?

По оценкам компании IBM ежедневно мы создаем 2,5 квинтиллиона байтов данных. Рассмотрим это число в
контексте. Каждую минуту каждого дня:

 Мы выгружаем более 300 часов видео на YouTube.

 Мы отправляем более 3,5 миллиона текстовых сообщений.

 Мы просматриваем более 86 тысяч часов видео Netflix.

 Мы отмечаем более 4 миллионов публикаций на Facebook.

 Мы запрашиваем более 14 миллионов прогнозов с канала The Weather Channel.

Для просмотра дополнительной статистики об активности в Интернете щелкните здесь.

Стремительный рост объемов данных может как обеспечить преимущества, так и стать препятствием для
достижения бизнес-целей. Успешные предприятия должны иметь возможность легкого доступа к своим
информационным ресурсам и управления ими.

Традиционные технологии и хранилища не справляются с хранением такого огромного объема постоянно


создаваемых данных. Даже учитывая доступность облачных хранилищ данных, предоставляемых Amazon,
Google, Microsoft и многими другими компаниями, обеспечение безопасности хранимых данных становится
серьезной проблемой. Решения для обработки больших данных должны быть безопасными, иметь высокую
отказоустойчивость и использовать репликацию, чтобы избежать потери данных. В вопросе хранения
больших данных речь идет не только о собственно их хранении, но и об управлении ими и обеспечении их
безопасности.

С хранением больших данных связаны 5 основных задач, представленных на рисун

Где можно хранить большие данные?


Большие данные обычно хранятся на нескольких серверах, которые обычно располагаются в центрах
обработки данных. Для обеспечения информационной безопасности, доступности и избыточности данные
обычно распределяются или реплицируются на нескольких различных серверах в нескольких разных ЦОД.

Туманные вычисления

Туманные вычисления — это архитектура, в которой клиентские или «граничные» устройства конечных


пользователей используются для выполнения значительного объема предварительной обработки и хранения
данных, необходимых организации. Туманные вычисления были разработаны для выполнения
предварительной обработки данных ближе к источнику.

Например, данные датчиков можно предварительно обрабатывать ближе к месту их сбора. Информацию,
полученную в результате предварительного анализа, можно отправлять в системы компаний для внесения
изменений в процессы по мере необходимости. Поскольку данные датчиков предварительно обрабатываются
оконечными устройствами в системе компании, обмен данными между серверами и устройствами ускорится.
При этом требуется меньшая пропускная способность, чем для постоянной выгрузки данных в облако.

После предварительной обработки данные часто отправляются в облако для более долгосрочного хранения,
резервного копирования или более глубокого анализа.

Облако и облачные вычисления

Как упоминалось ранее, облако представляет собой совокупность центров обработки данных или групп
связанных серверов. Доступ к программному обеспечению, системе хранения данных и сервисам, доступным
на серверах, обеспечивается через Интернет с помощью интерфейса на основе веб-браузера. Облачные
сервисы предоставляются многими крупными компаниями, такими как Google, Microsoft и Apple. Облачные
хранилища данных предоставляются различными поставщиками, такими как Google Drive, iCloud Apple,
Microsoft OneDrive и Dropbox.

С точки зрения отдельного пользователя, облачные сервисы можно использовать для решения следующих
задач.

 Хранение всех своих данных, таких как изображения, музыка, фильмы и электронные письма, что
помогает освободить место на локальном жестком диске.

 Получение доступа ко множеству приложений вместо их загрузки на локальное устройство.

 Доступ к своим данным и приложениям из любого места, в любое время и с любого устройства.
Одним из недостатков использования облака является то, что данные могут попасть не в те руки. Защита
данных зависит от надежности системы информационной безопасности выбранного провайдера облачных
сервисов.

С точки зрения предприятия, облачные сервисы и вычисления решают целый ряд задач управления
данными.

 Повсеместный доступ к данным организации в любое время.

 Оптимизация ИТ-операций организации за счет оформления подписок только на необходимые


сервисы.

 Исключение или снижение необходимости развертывания и обслуживания ИТ-оборудования в


местах эксплуатации.

 Сокращение затрат на оборудование и электроэнергию, уменьшение требований к материальной


части и потребности в обучении персонала.

 Оперативное реагирование на рост требований к обработке больших объемов данных.

Распределенная обработка

С точки зрения управления данными аналитика была простой, когда данные создавались только людьми. Тем
объемом данных было легко управлять, и анализировать их было относительно несложно. Однако
распространение систем автоматизации бизнес-процессов и экспоненциальный рост числа веб-приложений и
объемов данных, создаваемых машинами, привели к усложнению аналитики. Фактически 90 % существующих
сегодня данных были созданы всего за два последних года. Такое увеличение объема за короткий период
времени — это признак экспоненциального роста. Такой большой объем данных сложно обработать и
проанализировать в течение разумного промежутка времени.

Вместо обработки больших баз данных крупными и мощными мейнфреймами и хранения данных в гигантских
дисковых массивах (вертикальное масштабирование) распределенная обработка данных делит большой
объем данных на более мелкие части. Эти небольшие объемы данных распределяются по нескольким
местоположениям для обработки множеством компьютеров с менее мощными процессорами. Каждый
компьютер в распределенной архитектуре анализирует свою часть больших данных (горизонтальное
масштабирование).

Большинство распределенных файловых систем работает незаметно для клиентских программ.


Распределенная файловая система находит файлы и перемещает данные, однако пользователи даже не
догадываются, что файлы распределены по множеству различных серверов или узлов. Пользователи
обращаются к этим файлам так, как если бы они находились на их собственных компьютерах. Все
пользователи видят одно и то же представление файловой системы и могут получать доступ к данным
одновременно с другими пользователями.

Платформа Hadoop создана для обработки больших данных. Проект Hadoop начался с двух составляющих:
Hadoop Distributed File System (HDFS), распределенной, отказоустойчивой файловой системы, и MapReduce,
способа распределенной обработки данных. Теперь проект Hadoop превратился в комплексную экосистему
программного обеспечения для управления большими данными.

Hadoop — это программное обеспечение с открытым исходным кодом, обеспечивающее возможность


распределенной обработки больших наборов данных, объем которых может достигать терабайтов и которые
хранятся в кластерах компьютеров. Платформа Hadoop разработана для масштабирования от отдельных
серверов до тысяч систем, каждая из которых обеспечивает локальную обработку и хранение данных. Для
повышения эффективности Hadoop можно установить и запустить на нескольких виртуальных машинах. Эти
виртуальные машины могут работать параллельно для обработки и хранения данных.

Платформа Hadoop стала отраслевым стандартом для обработки больших данных благодаря двум основным
характеристикам.

 Масштабируемость. Кластеры большего размера повышают производительность и улучшают


возможности обработки данных. При использовании Hadoop размер кластера можно легко
масштабировать от кластера с 5 узлами до кластера, состоящего из тысячи узлов, без чрезмерного
увеличения административной нагрузки.
 Отказоустойчивость. Hadoop автоматически реплицирует данные в кластерах для защиты от потерь
данных. В случае сбоя диска, узла или всей аппаратной стойки данные остаются в безопасности.

Зачем предприятиям анализировать данные?

Каждой организации необходимо повышать эффективность своей деятельности и внедрять инновации, чтобы
сохранять конкурентоспособность в мире цифровых технологий. Интернет вещей является неотъемлемой
частью этого процесса.

Цель многих компаний состоит в сборе и анализе больших объемов данных об использовании новых
продуктов для получения ценной информации. Аналитика данных позволяет компаниям лучше понять
влияние их продуктов и услуг, скорректировать свои методы и цели и быстрее предоставлять заказчикам
более качественную продукцию. Возможность извлечения новой информации из своих данных выгодна для
бизнеса.
Для предприятий данные сродни нефти. Как и нефть, они ценны, но в необработанном виде использовать их
затруднительно. Для создания ценных продуктов нефть нужно превратить в бензин, пластик, химические и
другие вещества. Аналогично и с данными. Чтобы получить выгоду, их нужно разделить на составляющие и
проанализировать.

Ценность представляют два основных типа обработанных данных — транзакционные и аналитические. Сбор
и обработка сведений о транзакциях происходят при возникновении событий. Сведения о транзакциях
используются для анализа ежедневных отчетов о продажах и производственных графиков, чтобы
определить, сколько требуется товарных запасов. Аналитические сведения используются для ведения
управленческого анализа, например, чтобы определить, нужно ли организации строить новый завод или
нанимать дополнительных специалистов по продажам.

Источники информации

Большие наборы данных формируются из различных источников. Помимо датчиков, данные поступают от
любых объектов, которые были просканированы, введены и отправлены в Интернет из следующих
источников:

 Веб-сайты социальных сетей — Facebook, YouTube, eHarmony и Twitter.

 HTTP, веб-страницы и поисковые системы в Интернете.

 Исторические данные из общедоступных и закрытых архивов.

 Метаданные, которые сопровождают электронные письма, передаваемые документы и изображения.

 Медицинские, страховые и налоговые формы.

 Изучение генома с помощью ДНК.

Собранные данные можно классифицировать как структурированные и неструктурированные.

Структурированные данные создаются приложениями, использующими «фиксированный» формат входных


данных, например электронные таблицы или медицинские формы. Даже если данные считаются
структурированными, различные приложения создают файлы в различных форматах, которые не всегда
совместимы друг с другом. Может потребоваться преобразование структурированных данных в общий
формат, например CSV.

Файлы CSV представляют собой разновидность текстового файла, в котором для разделения столбцов в
таблице данных используются запятые и символ возврата каретки для разделения строк. Каждая строка
представляет собой запись. Хотя такие файлы обычно используются для импорта и экспорта в традиционных
базах данных и электронных таблицах, определенного стандарта для них нет. JSON и XML — это также виды
текстовых файлов, в которых применяется стандартный способ представления записей данных. Эти форматы
файлов совместимы с широким спектром приложений. Преобразование данных в общий формат — широко
распространенный способ объединения данных из различных источников.

Неструктурированные данные создаются в «свободной» форме, например аудио, видео, веб-страницы и


твиты. Для подготовки неструктурированных данных к обработке или анализу необходимы различные
инструменты. Ниже приведены два примера.

 Веб-страницы создаются для предоставления данных для людей, а не для компьютеров.


Инструменты веб-скрейпинга автоматически извлекают данные из HTML-страниц. Это похоже на работу
поискового робота или паука поисковой системы. Они изучают Интернет с целью извлечения данных и
создают базу данных для предоставления ответов на поисковые запросы. ПО веб-скрейпинга может
использовать протокол HTTP или веб-браузер для доступа в Интернет. Как правило, веб-скрейпинг —
это автоматический процесс, в котором используется бот или поисковый робот. Определенные данные
собираются и копируются из Интернета в базу данных или электронную таблицу. Затем эти данные
можно легко проанализировать.

 Многие крупные провайдеры веб-сервисов, такие как Facebook, предоставляют стандартные


интерфейсы для автоматического сбора данных с помощью прикладных программных интерфейсов
(API). Наиболее распространенным подходом является использование API-интерфейсов RESTful. API-
интерфейсы RESTful используют HTTP в качестве протокола обмена данными и структуру JSON для
кодирования данных. Веб-сайты в Интернете, такие как Google и Twitter, собирают большие объемы
статических данных и данных временного ряда. Знание API-интерфейсов для этих веб-сайтов
позволяет аналитикам данных и инженерам получать доступ к большому объему данных, которые
создаются в Интернете постоянно.

Визуализация данных

Анализ данных — это процесс преобразования необработанных данных в значимую информацию путем
обнаружения закономерностей и взаимосвязей в больших наборах данных.

Чтобы иметь ценность, полученные данные необходимо проанализировать и представить руководителям и


специалистам, ответственным за принятие решений. Существует множество различных средств
визуализации, которые можно использовать для представления выявленной в данных ценной информации.
Выбор оптимальной диаграммы для представления данных зависит от следующих факторов:

 Количество переменных, которые необходимо показать

 Количество точек данных в каждой переменной

 Представляют ли данные временную шкалу

 Позиции, для которых требуется сравнение

Некоторые из наиболее популярных типов диаграмм: линейные графики, столбчатые и круговые диаграммы и
диаграммы рассеяния.

Упражнение. Изучение проанализированных данных

Щелкните здесь, чтобы изучить визуализацию данных, показывающую популярность детских имен по


десятилетию и буквам.

https://www.babynamewizard.com/voyager#prefix=&sw=both&exact=false

Анализ больших данных для эффективного использования в бизнесе

Большие данные действительно БОЛЬШИЕ! Они особенно полезны, если вы можете их анализировать для
извлечения ценной информации. Анализ данных — это процесс проверки, очистки, преобразования и
моделирования данных для выявления полезной информации. Для анализа больших данных обычно
необходимы специальные инструменты и приложения. С помощью этих средств анализа компании могут
получать подробные сведения и ценную информацию, а также выявлять закономерности.

Перед началом любого анализа важно понять, какую задачу пытается решить компания или какая
информация ей необходима. Компанию интересует поведение клиентов в определенных районах, шаблоны
энергопотребления в различных кварталах города или число «лайков» в Facebook в зависимости от
возраста?

Наличие стратегии помогает компании определить необходимый тип анализа и оптимальный инструмент для
него. Стратегия также помогает определить самый эффективный способ представления результатов для
руководства.

Существуют разнообразные инструменты и приложения, начиная от использования электронных таблиц


Excel или Google Analytics для малых и средних наборов данных, до приложений, специально разработанных
для преобразования и анализа действительно больших наборов данных.

Компаниям доступен широкий спектр инструментов для аналитики больших данных, например Knime,
OpenRefine, Orange и RapidMiner. Нажимайте на корпоративные логотипы, чтобы узнать подробнее об этих
предложениях.

Лабораторная работа. Использование Excel для прогнозирования


В следующей лабораторной работе представлен пример использования электронной таблицы Excel для
прогнозирования на основе небольшой выборки данных. В версии Excel 2016 есть раздел меню «Прогноз».
Если у вас нет этой версии, используйте предоставленную формулу.

Если у вас нет доступа к Excel, формулу для прогнозирования можно использовать в Open Office или
Libre Office.

Лабораторная работа. Использование Excel для прогнозирования

Обзор

Большие данные обычно имеют три характеристики. Это большой объем данных, для хранения которого
требуется все больше пространства (объем) и который растет в геометрической прогрессии (скорость) и
создается в различных форматах (разнообразие).

Туманные вычисления — это архитектура, в которой клиентские или «граничные» устройства конечных


пользователей используются для выполнения значительного объема предварительной обработки и хранения
данных, необходимых организации. Туманные вычисления были разработаны для выполнения
предварительной обработки данных ближе к источнику.

Облако представляет собой совокупность центров обработки данных или групп связанных серверов,
обеспечивающий доступ из любой точки и в любое время к программному обеспечению, системе хранения
данных и сервисам через интерфейс на основе веб-браузера. Облачные сервисы обеспечивают увеличение
емкости для хранения данных по мере необходимости и сокращают потребность в ИТ-оборудовании,
обслуживании и управлении на местах. Они также сокращают затраты на оборудование и электроэнергию,
уменьшают требования к материальной части и потребности в обучении персонала.

Платформа распределенной обработки данных получает большие объемы данных из источника и разбивает
их на более мелкие части. Эти небольшие объемы данных распределяются по нескольким местоположениям
для обработки множеством компьютеров с менее мощными процессорами. Каждый компьютер в
распределенной архитектуре анализирует свою часть больших данных.

Предприятия извлекают выгоду, собирая и анализируя большие объемы новых данных об использовании
своей продукции, которые позволяют понять влияние продуктов и услуг, скорректировать методы и цели и
быстрее предоставлять заказчикам более качественную продукцию.

Собранные данные можно классифицировать как структурированные и неструктурированные.


Структурированные данные создаются приложениями, использующими «фиксированный» формат входных
данных, например электронные таблицы или медицинские формы. Неструктурированные данные создаются в
«свободной» форме, например аудио, видео, веб-страницы и твиты. Чтобы обеспечить возможность анализа,
обе формы данных необходимо преобразовать в общий формат. CSV, JSON и XML — это типы текстовых
файлов, в которых применяется стандартный способ представления записей данных. Преобразование
данных в общий формат — широко распространенный способ объединения данных из различных источников.

Анализ данных — это процесс преобразования необработанных данных в значимую информацию путем
обнаружения закономерностей и взаимосвязей в больших наборах данных. Визуализация данных — это
процесс представления проанализированных данных в виде диаграмм, таких как линейный график,
гистограмма, столбчатая, круговая или точечная диаграмма, для визуального представления полезной
информации. Стратегия помогает компании определить необходимый тип анализа и оптимальный
инструмент для него. Стратегия также помогает определить самый эффективный способ представления
результатов для руководства.