Рецепты приготовления
блюд из этих двух
ингредиентов
Александр Кучеренко
ведущий инженер ЦТП «ФОРС»
Oracle Certified Master
support@fors.ru
www.fors.ru
Типы данных у бизнеса
Структурированные
(карточный процессинг,
биллинг услуг связи и т.п.)
Неструктурированные
(соцсети, измерительные
устройства, аудио- и
видеорегистрация, лог-файлы
серверов)
www.fors.ru
Большие данные - тренд №2 в мире (Gartner)
Заблуждения и предубеждения
связаны с разнообразным
трактованием методов
www.fors.ru
Что делать, если нужно всё и сразу?
Объединить. Обеспечить доступ к разным
типам данных в режиме «одного окна».
www.fors.ru
Где хранить и как управлять?
ПАК (Teradata, Exadata,
СУРБД Big Data Appliance и т.п.)
Транзакции
NoSQL
Профили
Hadoop
Логи
www.fors.ru
Hadoop. История
2004 – 2005 г. – парадигма
MapReduce представлена Google
Начиная с версии 0.23 – MapReduce пережил капитальный ремонт и теперь известен под
именем MapReduce v2 или YARN
www.fors.ru
Дистрибутивы
http://hadoop.apache.org
для истинных ценителей ручной установки, с
правкой конфигурационных файлов,
установкой пакетов и «танцев с бубном»
http://www.cloudera.com
любим Oracle, поставляется с Big Data
Appliance
http://www.hortonworks.com
наиболее приближен к оригиналу
использует в Hive – Tez
www.fors.ru
Основа Hadoop
• MapReduce
основной фреймворк Hadoop
• HDFS
распределенная кластерная
файловая система
www.fors.ru
MapReduce
Фреймворк по пакетной обработке данных
1. map — выполняется
параллельно и (по
возможности) локально
над каждым блоком
данных, всё, что не
требует перемешивания и
перемещения данных
(shuffle)
www.fors.ru
Hadoop Distributed File System
Большое, горизонтально масштабируемое хранилище данных
• Данные разбиты на блоки (обычно по 64Мб или 128Мб), для каждого файла сервер
имён хранит его путь, список блоков и их реплик
www.fors.ru
YARN – новый взгляд на управление
• Основная идея MRv2 разделить две
основных функции JobTracker
• Управление ресурсами и Управление
задачами – 2 отдельных демона
• Глобальный ResourceManager и
выделенный ApplicationMaster
• Application – разовое задание в
классическом понимании заданий Map-
Reduce
• ResourceManager и NodeManager –
вычислительное ядро
• ApplicationMaster – взаимодействует с
RM и NM
www.fors.ru
SQL в Hadoop
Hive
Impala
SparkSQL
Apache Flink
www.fors.ru
Hive – SQL субд на платформе Hadoop
• Последняя версия – 2.0.0 от 15.02.2016г.
www.fors.ru
NoSQL
HBase
www.fors.ru
Задачи объединения-разделения
• Выгоднее перенести архивные данные из СУРБД на менее
дорогое хранилище Hadoop
www.fors.ru
Сравнение
Мощь инструментов
5
Взаимодействие с
Встроенный функционал
другими системами 4
3
2
Простота загрузки ACID транизакции
1
0
Разнообразие форматов
Простота ETL
данных
Разреженные данные
Hadoop
RDBMS
www.fors.ru
Одна голова хорошо, а две - лучше
www.fors.ru
Load и Off-Load
Sqoop (пакетный обмен таблиц реляционных БД)
www.fors.ru
Коннекторы между Hadoop и Oracle
характеристики
Oracle SQL Connector ODBC gateway
for Hadoop
ODBC
Hive Преобразование Обработка
Gateway
IO +
filter
www.fors.ru
Oracle Big Data SQL
Новая технология для
обращения к данным в Hadoop
из Oracle Database
www.fors.ru
Гибридный мир
Будущее – гибридный
мир, в котором не имеет
значения, где и какие
данные лежат.
www.fors.ru
Спасибо за
внимание!
www.fors.ru