Данные — это информация, поступающая из различных источников, таких как люди, изображения, текст,
датчики и веб-сайты. Кроме того, данные также поступают от технологических устройств (мобильных
телефонов, компьютеров, инфокиосков, планшетов и кассовых аппаратов). В последнее время мы
столкнулись с резким ростом объема данных, формируемых датчиками. Сегодня датчики устанавливаются во
всевозможных местах и на различные объекты, причем их число постоянно растет. К ним относятся системы
видеонаблюдения, светофоры, интеллектуальные автомобили, термометры и даже виноградники!
Большие данные — это очень много данных, но что означает «много»? Никто не может назвать точное число,
начиная с которого данные организации уже следует считать большими. Ниже приведены три
характеристики, которые указывают на то, что организация может иметь дело с большими данными.
У организации имеются большие объемы данных, для хранения которых требуется все больше
пространства (объем).
Датчики в одном беспилотном автомобиле могут создавать до 4000 гигабит (Гбит) данных в день.
Во время перелета из Лондона в Сингапур самолет Airbus A380 создает 1 петабайт (ПБ) данных.
Используемые в шахте датчики безопасности могут создавать до 2,4 терабита (Тбит) данных каждую
минуту.
Датчики одного умного дома могут создавать до 1 гигабайта (ГБ) информации в неделю.
Несмотря на то что большие данные ставят перед организациями сложные задачи с точки зрения хранения и
аналитики, они могут содержать бесценную информацию, позволяющую оптимизировать деятельность и
повысить степень лояльность заказчиков.
Многие компании различных размеров считают, что им обязательно нужно собирать собственные данные,
чтобы воспользоваться преимуществами, которые дает аналитика больших данных, но это совершенно не
так.
По оценкам компании IBM ежедневно мы создаем 2,5 квинтиллиона байтов данных. Рассмотрим это число в
контексте. Каждую минуту каждого дня:
Стремительный рост объемов данных может как обеспечить преимущества, так и стать препятствием для
достижения бизнес-целей. Успешные предприятия должны иметь возможность легкого доступа к своим
информационным ресурсам и управления ими.
Туманные вычисления
Например, данные датчиков можно предварительно обрабатывать ближе к месту их сбора. Информацию,
полученную в результате предварительного анализа, можно отправлять в системы компаний для внесения
изменений в процессы по мере необходимости. Поскольку данные датчиков предварительно обрабатываются
оконечными устройствами в системе компании, обмен данными между серверами и устройствами ускорится.
При этом требуется меньшая пропускная способность, чем для постоянной выгрузки данных в облако.
После предварительной обработки данные часто отправляются в облако для более долгосрочного хранения,
резервного копирования или более глубокого анализа.
Как упоминалось ранее, облако представляет собой совокупность центров обработки данных или групп
связанных серверов. Доступ к программному обеспечению, системе хранения данных и сервисам, доступным
на серверах, обеспечивается через Интернет с помощью интерфейса на основе веб-браузера. Облачные
сервисы предоставляются многими крупными компаниями, такими как Google, Microsoft и Apple. Облачные
хранилища данных предоставляются различными поставщиками, такими как Google Drive, iCloud Apple,
Microsoft OneDrive и Dropbox.
С точки зрения отдельного пользователя, облачные сервисы можно использовать для решения следующих
задач.
Хранение всех своих данных, таких как изображения, музыка, фильмы и электронные письма, что
помогает освободить место на локальном жестком диске.
Доступ к своим данным и приложениям из любого места, в любое время и с любого устройства.
Одним из недостатков использования облака является то, что данные могут попасть не в те руки. Защита
данных зависит от надежности системы информационной безопасности выбранного провайдера облачных
сервисов.
С точки зрения предприятия, облачные сервисы и вычисления решают целый ряд задач управления
данными.
Распределенная обработка
С точки зрения управления данными аналитика была простой, когда данные создавались только людьми. Тем
объемом данных было легко управлять, и анализировать их было относительно несложно. Однако
распространение систем автоматизации бизнес-процессов и экспоненциальный рост числа веб-приложений и
объемов данных, создаваемых машинами, привели к усложнению аналитики. Фактически 90 % существующих
сегодня данных были созданы всего за два последних года. Такое увеличение объема за короткий период
времени — это признак экспоненциального роста. Такой большой объем данных сложно обработать и
проанализировать в течение разумного промежутка времени.
Вместо обработки больших баз данных крупными и мощными мейнфреймами и хранения данных в гигантских
дисковых массивах (вертикальное масштабирование) распределенная обработка данных делит большой
объем данных на более мелкие части. Эти небольшие объемы данных распределяются по нескольким
местоположениям для обработки множеством компьютеров с менее мощными процессорами. Каждый
компьютер в распределенной архитектуре анализирует свою часть больших данных (горизонтальное
масштабирование).
Платформа Hadoop создана для обработки больших данных. Проект Hadoop начался с двух составляющих:
Hadoop Distributed File System (HDFS), распределенной, отказоустойчивой файловой системы, и MapReduce,
способа распределенной обработки данных. Теперь проект Hadoop превратился в комплексную экосистему
программного обеспечения для управления большими данными.
Платформа Hadoop стала отраслевым стандартом для обработки больших данных благодаря двум основным
характеристикам.
Каждой организации необходимо повышать эффективность своей деятельности и внедрять инновации, чтобы
сохранять конкурентоспособность в мире цифровых технологий. Интернет вещей является неотъемлемой
частью этого процесса.
Цель многих компаний состоит в сборе и анализе больших объемов данных об использовании новых
продуктов для получения ценной информации. Аналитика данных позволяет компаниям лучше понять
влияние их продуктов и услуг, скорректировать свои методы и цели и быстрее предоставлять заказчикам
более качественную продукцию. Возможность извлечения новой информации из своих данных выгодна для
бизнеса.
Для предприятий данные сродни нефти. Как и нефть, они ценны, но в необработанном виде использовать их
затруднительно. Для создания ценных продуктов нефть нужно превратить в бензин, пластик, химические и
другие вещества. Аналогично и с данными. Чтобы получить выгоду, их нужно разделить на составляющие и
проанализировать.
Ценность представляют два основных типа обработанных данных — транзакционные и аналитические. Сбор
и обработка сведений о транзакциях происходят при возникновении событий. Сведения о транзакциях
используются для анализа ежедневных отчетов о продажах и производственных графиков, чтобы
определить, сколько требуется товарных запасов. Аналитические сведения используются для ведения
управленческого анализа, например, чтобы определить, нужно ли организации строить новый завод или
нанимать дополнительных специалистов по продажам.
Источники информации
Большие наборы данных формируются из различных источников. Помимо датчиков, данные поступают от
любых объектов, которые были просканированы, введены и отправлены в Интернет из следующих
источников:
Файлы CSV представляют собой разновидность текстового файла, в котором для разделения столбцов в
таблице данных используются запятые и символ возврата каретки для разделения строк. Каждая строка
представляет собой запись. Хотя такие файлы обычно используются для импорта и экспорта в традиционных
базах данных и электронных таблицах, определенного стандарта для них нет. JSON и XML — это также виды
текстовых файлов, в которых применяется стандартный способ представления записей данных. Эти форматы
файлов совместимы с широким спектром приложений. Преобразование данных в общий формат — широко
распространенный способ объединения данных из различных источников.
Визуализация данных
Анализ данных — это процесс преобразования необработанных данных в значимую информацию путем
обнаружения закономерностей и взаимосвязей в больших наборах данных.
Некоторые из наиболее популярных типов диаграмм: линейные графики, столбчатые и круговые диаграммы и
диаграммы рассеяния.
https://www.babynamewizard.com/voyager#prefix=&sw=both&exact=false
Большие данные действительно БОЛЬШИЕ! Они особенно полезны, если вы можете их анализировать для
извлечения ценной информации. Анализ данных — это процесс проверки, очистки, преобразования и
моделирования данных для выявления полезной информации. Для анализа больших данных обычно
необходимы специальные инструменты и приложения. С помощью этих средств анализа компании могут
получать подробные сведения и ценную информацию, а также выявлять закономерности.
Перед началом любого анализа важно понять, какую задачу пытается решить компания или какая
информация ей необходима. Компанию интересует поведение клиентов в определенных районах, шаблоны
энергопотребления в различных кварталах города или число «лайков» в Facebook в зависимости от
возраста?
Наличие стратегии помогает компании определить необходимый тип анализа и оптимальный инструмент для
него. Стратегия также помогает определить самый эффективный способ представления результатов для
руководства.
Компаниям доступен широкий спектр инструментов для аналитики больших данных, например Knime,
OpenRefine, Orange и RapidMiner. Нажимайте на корпоративные логотипы, чтобы узнать подробнее об этих
предложениях.
Если у вас нет доступа к Excel, формулу для прогнозирования можно использовать в Open Office или
Libre Office.
Обзор
Большие данные обычно имеют три характеристики. Это большой объем данных, для хранения которого
требуется все больше пространства (объем) и который растет в геометрической прогрессии (скорость) и
создается в различных форматах (разнообразие).
Облако представляет собой совокупность центров обработки данных или групп связанных серверов,
обеспечивающий доступ из любой точки и в любое время к программному обеспечению, системе хранения
данных и сервисам через интерфейс на основе веб-браузера. Облачные сервисы обеспечивают увеличение
емкости для хранения данных по мере необходимости и сокращают потребность в ИТ-оборудовании,
обслуживании и управлении на местах. Они также сокращают затраты на оборудование и электроэнергию,
уменьшают требования к материальной части и потребности в обучении персонала.
Платформа распределенной обработки данных получает большие объемы данных из источника и разбивает
их на более мелкие части. Эти небольшие объемы данных распределяются по нескольким местоположениям
для обработки множеством компьютеров с менее мощными процессорами. Каждый компьютер в
распределенной архитектуре анализирует свою часть больших данных.
Предприятия извлекают выгоду, собирая и анализируя большие объемы новых данных об использовании
своей продукции, которые позволяют понять влияние продуктов и услуг, скорректировать методы и цели и
быстрее предоставлять заказчикам более качественную продукцию.
Анализ данных — это процесс преобразования необработанных данных в значимую информацию путем
обнаружения закономерностей и взаимосвязей в больших наборах данных. Визуализация данных — это
процесс представления проанализированных данных в виде диаграмм, таких как линейный график,
гистограмма, столбчатая, круговая или точечная диаграмма, для визуального представления полезной
информации. Стратегия помогает компании определить необходимый тип анализа и оптимальный
инструмент для него. Стратегия также помогает определить самый эффективный способ представления
результатов для руководства.