Вы находитесь на странице: 1из 36

Владимир Савчук

Data is the new oil !? «От того, кто не знает о своем деле все,
деньги улетают, как мухи…»
Лука Паччиоли

Базовые положения и технологии


Владимир Савчук. BIG DATA INTRO 1
Владимир Савчук. BIG DATA INTRO 2
История появления BIG DATA
• 2008 год, появился термин
BIG DATA в контексте
феномена резкого роста
объемов данных и
технологических перспектив
в парадигме перехода от
«количества к качеству».

Владимир Савчук. BIG DATA INTRO 3


История появления BIG DATA
• 2008 – 2009 гг –
появление первых
продуктов и решений,
относящихся
непосредственно к
проблеме обработки
больших данных.

Владимир Савчук. BIG DATA INTRO 4


История появления BIG DATA
• К 2011 г. IBM,
Oracle, Microsoft,
HP в процессе
формирования
стратегий бизнеса
используют
понятия BD.

Владимир Савчук. BIG DATA INTRO 5


История появления BIG DATA
2011
• BD как тренд №2 в
информационно-
технологической
инфраструктуре (после
виртуализации и перед
энергосбережением).
• Прогнозируется бурный
рост этих технологий в
бизнес аналитике,
здравоохранении,
государственном
управлении.
Владимир Савчук. BIG DATA INTRO 6
Определение понятия BD
• Группа технологий и методов производительной
обработки динамически растущих объемов
данных (структурированных и
неструктурированных) в распределенных
информационных системах, обеспечивающих
организацию новой полезной информацией.

Владимир Савчук. BIG DATA INTRO 7


Определение понятия BD
BD – это наборы данных такого объема, что
традиционные инструменты не способны
осуществлять их захват, управление и обработку за
приемлемое для практики время.

Владимир Савчук. BIG DATA INTRO 8


5V для BIG DATA
Характеристика Традиционная База данных
база данных BIG DATA

Объем От гигабайт до От петабайт


информации террабайт до эксабайт

Способ хранения Централизо- Децентрализо-


ванный ванный

Структрирован- Структуриро- Слабо структу-


ность данных вана рирована

Модель
хранения и Вертикальная Горизонтальная
обработки

Взаимосвязь
данных Сильная Слабая

Владимир Савчук. BIG DATA INTRO 9


Попытка структурировать BD

Data Lake

Владимир Савчук. BIG DATA INTRO 10


Попытка структурировать BD
Data lake (озеро данных) — хранилище больших данных в
необработанном виде.
«Озера» хранят данные из разных источников и разных
форматов. Это обходится значительно дешевле
традиционных хранилищ, в которые помещаются только
структурированные данные.

Владимир Савчук. BIG DATA INTRO 11


Попытка структурировать BD
Data science (наука о данных) — дисциплина, изучающая
проблемы анализа, обработки и представления информации
в цифровой форме.
В понятие data science входят все методы обработки
оцифрованной информации и проектирования баз данных.

Владимир Савчук. BIG DATA INTRO 12


Попытка структурировать BD
Data mining (добыча информации) —
интеллектуальный анализ данных с целью
выявления закономерностей.
Методы data mining находятся на стыке баз данных,
статистики и искусственного интеллекта.

Владимир Савчук. BIG DATA INTRO 13


Попытка структурировать BD
Machine learning (машинное обучение) — теория и практика
разработки самообучающихся программ, большая область
искусственного интеллекта.
Программисты учат свои алгоритмы выявлять общие закономерности
по частным случаям. В результате компьютер принимает решения
исходя из собственного опыта, а не команд человека.

Владимир Савчук. BIG DATA INTRO 14


Попытка структурировать BD
• Deep learning (глубокое обучение) — вид машинного обучения, создающий
более сложные и более самостоятельные обучающиеся программы.
• При обычном машинном обучении компьютер извлекает знания через
управляемый опыт: программист дает алгоритму примеры и вручную
исправляет ошибки.
• При Deep Learning система сама проектирует свои функции, делает
многоуровневые вычисления и выводы об окружающем мире.

Владимир Савчук. BIG DATA INTRO 15


Big Data в Business Intelligence
Continuous
Managerial
Big Budgeting
Accounting
Data
Business
Capital
Intelligence Budgeting
Diagnostics

BSC ……

• Business Intelligence — поиск оптимальных бизнес-решений с помощью


обработки большого объема неструктурированных данных.
• Эффективный Business Intelligence анализирует внешние и внутренние
данные — как рыночную информацию, так и отчетность компании-клиента.
• Это дает полную картину бизнеса и позволяет принимать как операционные,
так и стратегические решения (выбрать как цену продукта, так и приоритеты
развития компании).
Владимир Савчук. BIG DATA INTRO 16
Принципы работы с BD
1. Горизонтальная масштабируемость. Поскольку данных
может быть сколь угодно много – любая система, которая
подразумевает обработку больших данных, должна быть
расширяемой.

Владимир Савчук. BIG DATA INTRO 17


Принципы работы с BD
2. Отказоустойчивость. Принцип горизонтальной масштабируемости
подразумевает, что машин в кластере может быть много. Например,
Hadoop-кластер Yahoo имеет более 42000 машин.

Это означает, что часть этих


машин будет гарантированно
выходить из строя. Методы
работы с большими данными
должны учитывать
возможность таких сбоев и
переживать их без каких-либо
значимых последствий.

Владимир Савчук. BIG DATA INTRO 18


Принципы работы с BD
3. Локальность данных. В больших распределённых
системах данные распределены по большому количеству
машин. Если данные физически находятся на одном сервере,
а обрабатываются на другом – расходы на передачу данных
могут превысить расходы на саму обработку.
Одним из важнейших принципов
проектирования BigData-решений
является принцип локальности данных
– по возможности обрабатываем
данные на той же машине, на которой
их храним.

Владимир Савчук. BIG DATA INTRO 19


Два аспекта BD
Программно-аппаратное Методы анализа и
обеспечение моделирования данных
Hardware + Software Аналитика + Data Mining

Владимир Савчук. BIG DATA INTRO 20


Основные технологии обработки данных в
BD

Владимир Савчук. BIG DATA INTRO 21


MapReduce в BD
MapReduce (разработан компанией Google) – это фреймворк для
вычисления, который используется для решения распределённых задач с
использованием большого количества компьютеров

Владимир Савчук. BIG DATA INTRO 22


Hadoop в BD
• Hadoop – набор утилит, библиотек и программный каркас
для разработки и выполнения распределенных программ,
работающих на кластерах из сотен и тысяч узлов.

Владимир Савчук. BIG DATA INTRO 23


NoSQL
NoSql – ряд подходов, направленных реализацию хранилищ баз банных,
имеющих существенное отличие от моделей, используемых в традиционных
реляционных СУБД.
Применяется к базам данных, в которых делается попытка решить проблемы
масштабируемости и доступности за счет атомарности и согласованности
данных.

Владимир Савчук. BIG DATA INTRO 24


Владимир Савчук. BIG DATA INTRO 25
Методы анализа, используемые в BD
Уникальность подхода BD состоит в
агрегировании огромного объема
неструктурированной информации из разных
источников в одном месте.
• Рекомендательные системы
• Классификаторы (методы категоризации новых данных на
основе принципов, ранее примененных к уже имеющимся
данным)
• Кластерный анализ
• Регрессионный анализ
• Искусственные нейронные сети.
• Байесовские нейронные сети

Владимир Савчук. BIG DATA INTRO 26


Рекомендательные системы в BD
Рекомендательные системы – это модели, которые пытаются предсказать,
насколько вам понравится тот или иной продукт, получая на вход данные о том,
как вы и другие пользователи оценивали этот и другие продукты в прошлом.
Рекомендательные системы – это модели, которые лучше вас знают, чего вам
хочется.

Владимир Савчук. BIG DATA INTRO 27


Классификаторы в BD
Классификаторы — это специализированное решение для
преобразования больших объемов данных в последовательную,
согласованную и категоризированную информацию.

Владимир Савчук. BIG DATA INTRO 28


Кластерный анализ в BD
Кластерный анализ предназначен для разбиения
совокупности объектов на однородные группы (кластеры или
классы). Это задача многомерной классификации данных.

Владимир Савчук. BIG DATA INTRO 29


Регрессионный анализ в BD
Регрессио́ нный анализ — статистический метод
исследования влияния одной или нескольких независимых
переменных на зависимую переменную.

Владимир Савчук. BIG DATA INTRO 30


Искусственные нейронные сети в BD
Искусственная нейронная сеть — система соединенных простых процессоров
(искусственных нейронов), имитирующая нервную систему человека.
Благодаря такой структуре нейронные сети не программируются, а обучаются.
Как и настоящие нейроны, процессоры просто принимают сигналы и передают их
своим собратьям. Но вся сеть способна выполнять сложные задачи, с которыми
не справляются традиционные алгоритмы.

Владимир Савчук. BIG DATA INTRO 31


Байесовские сети в BD
Байесовская нейронная сеть – это искусственная нейронная сеть, веса
которой представлены не числами, вероятностными распределениями,
колеблющимися всякий раз, когда дьявол играет в кости со вселенной
Байесовская
нейронная сеть
Искусственная
нейронная сеть

Владимир Савчук. BIG DATA INTRO 32


Технологии BD позволяют раскрыть
коммерческий потенциал мегамассивов
данных за счет поиска ценных
закономерностей и фактов путем
объединения и анализ больших
объемов данных.

Владимир Савчук. BIG DATA INTRO 33


Value BD для бизнеса
• Большие хранилища данных в сфере финансовых услуг,
телекоммуникаций, розничной торговли существовали и ранее.
• Применялись алгоритмы обработки данных в реальном
времени для управления бизнес процессами, например, в
розничной торговле и дистрибьюции.
• Отличие в том, что те системы которые решали отдельные
проблемы бизнеса на больших предприятиях, сегодня
становятся основой осуществления их бизнес-стратегии.
• Назначение технологий BD :
– обеспечить увеличение дохода и прибыли за счет более эффективных
методов ведения бизнеса,
– сократить затраты на персонал за счет более эффективных методов
интеграции данных, анализа и выработки решений.
• На современном этапе те же самые технологии представляют
качественно новую ценность для бизнеса!!!
Владимир Савчук. BIG DATA INTRO 34
Продвинутые отрасли в использовании BD
Маркетинг
• Сегментация рынка
• Моделирование привлечение и оттока клиентов
• Рекомендательные системы
• Анализ социальных медиа
Финансы
• Анализ кредитных рисков
• Страховое моделирование

Медицина
• Генетический анализ
• Анализ клинических испытаний
• Экспертные системы

Владимир Савчук. BIG DATA INTRO 35


Владимир Савчук. BIG DATA INTRO