Вы находитесь на странице: 1из 30

Реализация кластерных

технологий средствами Huawei


Булыгин О., Модуль-Проекты

一(yat). Пример реализации облачных вычислений в МФТИ (ГУ):


32 узла 2x2630v3/256GB/10GbE/8GFC в 12U E9000v3
и отказоустойчивая кеширующая СХД OceanStor 5500, выполняющая роль шлюза 10GbE/FC

二 (yee). Создание линейно масштабируемых


программно- управляемых систем хранения данных
1 (FusionStorage/Ceph)
三 (sam). Аппаратные средства Huawei для организации отказоустойчивых решений

Национальный Суперкомпьютерный Форум 2015


2 Почему Huawei?
 Авторитет и рекомендации в
области телекоммуникации
более 20 лет
 Практически полный портфель
собственных решений для ИТ
(инфраструктура, вычисления,
хранение, сети, управление…)
 Перенос технологий 9999 во все
охваченные отрасли
 Высочайший уровень разработок
и сопровождения
 Предсказуемость в партнерстве с
РФ
 Впечатляющие результаты 2014…

Национальный Суперкомпьютерный Форум 2015


3 Почему Huawei?
Выучить китайский просто: 一 二 三 (yat, yee, sam)…

Национальный Суперкомпьютерный Форум 2015


Постановка задачи
4 • Минимизация затрат по
хранению 500+ТБ данных
• Линейное масштабирование по
стоимости,
объему хранения,
производительности
• Самовосстановление,  Предлагается решение на базе
высокая надежность серверов Huawei 2288v3 и
автобалансировка ПО Ceph/ FusionSorage
отсутствие единой точки отказа
• Легкая миграция при замене
платформы
• Относительная независимость от
производителя и его условий
сопровождения

Национальный Суперкомпьютерный Форум 2015


Описание решения Коммутация:

5  7* Huawei RH2288v3, каждый:  Huawei CE8860-4C-EI


(32* 100GE QSFP28/ 64*QSFP+,
 2U шасси
6.4Tb/s, 2976Mpps)
 2* iE5-2630v3 (8*2.4GHz)
 Huawei CE7850-32Q-EI
 8* 16GB (до 24* 32GB)
(32* 40GE QSFP+, 2.56Tb/s, 1440Mpps)
 2* 750W platinum БП
 Mellanox SB7800
 2* 2* 10GE
(36* EDR IB, 7Tb/s, 7020Mpps, 90ns)
 2* 2* 40GE (или 100GE/100IB/56IB)
 Mellanox SX6036/6025
 2* 16* 12G SAS HBA
(36* FDR IB, 4Tb/s, 200ns)
 1* 2* 128GB (32GB) SATA DOM
ПО:
 1* 8GB UDisk
 Red Hat Ceph Storage, Premium
 2* SSD (600/960GB PCIe или 2.5”) (до 256TB, 12* физ.узлов, RS00036
 12* 3.5” HDD (6TB или 8ТБ) до 512TB, 25* физ.узлов, RS00037)
 Huawei FusionSorage

Национальный Суперкомпьютерный Форум 2015


Huawei RH2288v3
6 структура

Национальный Суперкомпьютерный Форум 2015


一 Основные принципы
Эластичная архитектура
Традиционная архитектура внешнего SAN СХД Распределенная архитектура хранилища (FusionStorage)

Сервер 1 Сервер 2 Сервер 3 Сервер 4 Сервер 1 Сервер 2 Серверr N

APP APP APP APP VM VM


APP APP APP APP APP APP APP APP

VS. VBS VBS VBS


10GE / FC 10GE / FC

SAN Controller SAN Controller

bottleneck bottleneck

Cache Cache
OSD OSD … OSD OSD OSD … OSD OSD OSD … OSD

Cache Cache Cache


HDD HDD HDD HDD HDD HDD … … …

Сервер хранения Сервер хранения Сервер хранения

 Существуют узкие места I/O в контроллерах хранилища и в  Распределенные, контроллеры кеш и выровненная сетевая среда
кеше, отсутствует масштабирование исключают узкие места I/O.
 Приложения связаны только с частью дисков, как результат –  Приложения связаны со всеми дисками в пуле, гарантируя высокий
низкое распараллеливание I/O и плохая эластичность. параллелизм I/O и лучшую эластичность. Взрывной рост MBPS в 3-5 раз.
 Нагрузка служб балансируется между группами RAID, которые  Сверхкрупные ресурсы пулов гарантируют балансировку нагрузки,
имеют низкий уровень использования и сложен в планировании. повышая использование ресурсов и облегчая планирование.
Архитектура ПО распределенного СХД FusionStorage
Management
Уровень Драйвер SCSI /iSCSI platform
Драйверов СХД
Configuration
management
Распределенные cdzpfyyst rkjys Управление
томами
Capacity
Распределенные снимкм Управление management
QoS
Уровень
служб СХД Распределенное динамичное выделение Резервиро-
Upgrade/patch
вание
ing
Распределенный кеш Авариное
восст. (DR)
System
monitoring
Упр-е. состоянием кластера Упр-е согласованностью данных
Уровень Автомат. восст.
механизма СХД кластера Centralized
Упр. маршрутизацией данных Параллельная реконстр. данных alarm
management

Log
management
Уровень X86 CPU SAS/SATA/SSD PCIe SSD card
аппаратуры
Northbound
10GE/InfiniBand Interface
Архитектура многоресурсного пула FusionStorage
 Спецификация FusionStorage Manager (FSM) : A Система
FusionStorage может иметь два узла FSM для работы в
FSM кластер FSM 1 FSM 2
активном/резервном режиме. Они могут быть развернуты на
VM или физических серверах.
 Спецификация Metadata Controller (MDC): FusionStorage
Кластер поддерживает до 96 MDC, причемкаждый MDC может
управления
MDC 1 MDC 2 ... MDC N управлять двумя пулами или до 2000 дисков.
 Спецификация Virtual Block System (VBS): Система
FusionStorage может поддерживать работу до 10,240
процессов VBS, причем каждый из них может иметь доступ к
любому пулу хранения в системе.
Уровень
вычислений
VBS VBS ... VBS  Спецификация пулов: Система FusionStorage
поддерживает до 128 пулов которые не зависят друг от
друга. Эти пулы используют различные копии установок и
устройств кеша.
 Требования поддержки пулов хранения с различной
NVDIMM+SSDD SSD+SATA No Cache+SSD производительностью
Уровень  Изоляция отказов для повышения надежности
хранилища Pool 0 Pool 1
... Pool N Пулы ресурсов не зависят друг от друга с применением
механизмов изоляции отказов и множества MDC для
гарантирования того, что отказы в одном пуле не повлияют
неблагоприятно на другие пулы.
OSD OSD OSD OSD  Ограничения:
OSD OSD
OSD OSD
OSD 1) Пул ресурсов не может содержать основные носители
OSD OSD
OSD или носители кеша разного типа.
2) Пул ресурсов не может содержать два различных
сетевых протокола.
Развертывание программных модулей FusionStorage
FusionStorage FusionStorage
Manager(active) Manager(standby)

Portal FSM Portal FSM

Server1 Server2 Server3 Server4 Server5 Server6


FusionStorage FusionStorage FusionStorage FusionStorage FusionStorage FusionStorage
Agent Agent Agent Agent Agent Agent

MDC VBS MDC VBS MDC VBS VBS VBS

OSD ... OSD OSD ... OSD OSD ... OSD OSD ... OSD OSD ... OSD

Management Node&Storage Management Node&Storage Management Node&Storage Storage Computing Node Storage Node
Node&Computing Node Node&Computing Node Node&Computing Node Node&Computing Node

Модуль Функция
Модуль управления FusionStorage, который разворачивается на активных и резервных узлах и обеспечивает работу и управляющие функции, включая управление
FusionStorage Manager
сигнализацией, мониторинг, управление протоколированием и настройкой.

FusionStorage Agent Модуль агента FusionStorage, который разворачивается на каждом узле (сервере) для обеспечения соединения между узлами сервера и FusionStorage Manager.

Компонента управления метаданными, контролирует состояние распределенного кластера, правила распределенных данных и правила реконструкции данных.
MDC
По крайней мере три узла MDC чтобы сформировать кластер MDC.
Компонента управления Virtual block storage, которая управляет метаданными тома и предоставляет службу точки доступа распределенного кластера делай возможным
VBS доступ вычислительных ресурсов к ресурсам распределенного хранилища посредством VBS.
A VBS process is deployed on each server to form a VBS cluster.
Устройство хранения на основе объектов, которое реализует определенные операции I/O.
OSD
На каждом сервере развертывется множество процессов OSD, причем каждый процесс OSD разворачивается на один диск.
RADOS

Сравниваем: Ceph
12 • RBD- блочные устройства RADOS
• RGW- шлюз RADOS (шлюз объектов), RESTful
интерфейс, совместимый с AmazonS3, Swift
+API

• CephFS- файловая система. Через


библиотеку libcephfs предоставляет доступ через
API, ядро (Ceph/Fuse), а также NFS, CIFS, SMB

• RADOS- Reliable Autonomic Distributed


Object Store, Безотказное автономное
распределенное хранилище объектов

• MON- мониторы Ceph, поддерживают


карты OSD, MON, PG (групп размещения)
и CRUSH (Controlled Replication Under
Scalable Hashing , Управляемые
масштабируемые хешированием
репликации)

• OSD- Object Storage Device, устройстве


хранения объектов Ceph

• MDS-сервер метаданных

Национальный Суперкомпьютерный Форум 2015


Основные принципыFusionStorage — Управление кластером
MDC кластер
ZK disk
ZK disk ZK disk
Zookeeper
Zookeeper Zookeeper Пул ресурса
MDC (leader)
MDC OSD OSD OSD
MDC
OSD OSD
Относится к OSD
MDC OSD OSD
Получает обзор IO OSD
Пул ресурса
Состояние отчетов/инфо
OSD Изменения состояния инфо
Изменения
OSD OSD Получает состояния инфо
OSD
обзор IO
OSD OSD VBS кластер
Получает метаданные
OSD OSD OSD VBS (Leader) VBS
Синхронизированные
OSD метаданные

 При запуске системы MDCs взаимодействует с ZooKeeper (ZK) для определения ведущего MDC. Ведущий MDC и прочие MDCs отслеживают состояние
друг друга путем взаимодействия heartbeat. Ведущий MDC определяет MDC, который сможет принять на себя обслуживание если MDC откажет. Если
другой MDC определяет отказ ведущего MDS, оставшиеся MDC взаимодействуют с ZK для выбора нового ведущего MDC.
 При запуске OSD, он ищет свой домашний MDC и сообщает свое состояние этому MDC. Домашний MDC отсылает изменения состояния OSD на
подключенные VBS. Если домашний MDC OSD отказывает, ведущий MDC определяет MDC для замены отказавшего. К одному MDC максимальномогут
быть подключены два ресурсных пула.
 При запуске VBS он ищет ведущий MDC и регистрируется на нем, а также запрашивает у ведущего MDC является ли он ведущим. (Ведущий MDC
устанавливает динамичный список VBS и синхронизует список VBS с другими MDC, так что MDC могут сообщать изменения состояния OSD
отображенным VBS.)
Основные принципы FusionStorage — Маршрутизация данных
Partition Disk
P1 Disk 1

(LUN1, LBA1) Generate Key1 = (LUN1, LBA1) Hash (Key 1) P2 Disk 2


PN P1
Data key1 Data
P3 Disk 3

… P2
PN Disk N

OS VBS Hash space Query routing table


232
P6 P3

Disk3
P5 P4

OSD
KKKKK
1 2 3 4 5
… …
Маршрутизация данных FusionStorage применяет Metadata region Data region
Многоуровневый режим обработки:

1. VBS определяет диск сервера где должны быть сохранены данные.

2. OSD устанавливает определенное положение на диске в котором должны быть сохранены данные.
Ceph, Группа размещения:
способ группировки адресации OSD
15
-:

карта CRUSH:

Национальный Суперкомпьютерный Форум 2015


Основные принципы FusionStorage — Отображение томов
APP 1 APP 2 APP 3

Volume 1 Volume 2 Volume 3 Volume 10 Volume 11

P1 P2 Px
Resource pool 2
Resource pool 1 P1 P2 Py

Disk Disk Disk Disk … Disk Disk

Пул ресурсов: аналогичен группе RAID group в SAN-устройстве. По сравнению с группой RAID, пул ресурсов имеет следующие преимущества:

 Ширина полосы: Поддерживает максимально 96 дисков (две копии), тем самым предоставляя гтгантское пространство хранения и
избегая недостатка пространства на некоторых часто используемых дисках.

 Динамичное горячее резервирование: Все диски в пуле ресурса могут быть использованы в качестве дисков горячего резерва пула.

 Простая структура: Пул ресурса не применяет структуру logical unit number (LUN). Вместо этого, он только подразделяет ресурсы
хранения на тома. Серверы могут получать прямой доступ к томам в пуле.
Использование дисковой файловой системы:
XATTR и журналирование.
17

Национальный Суперкомпьютерный Форум 2015


二 Функциональность
FusionStorage Функциональность и Спецификация
Функции ПО Основные характеристики
• Блочные хранилища, поддерживающие
интерфейсы SCSI и iSCSI. Показатель Значение
• Множественные пулы ресурсов Максимальное число узлов, поддержи- 4096
ваемое множеством пулов ресурсов
• Репликации VM на основе хостов
• Снимки хранилищ Максимальноечисло узлов хранения
• Связанные клоны хранилищ 256
подд. пулами ресурсов
• SSD кеш и автоматическое построение
иерархий хранимых данных
Максимальное число дисков 12 до 96 дисков (2 коии)
• Резервное копирование данных
поддерживаемое пулами ресурсов 12 до 2000 дисков (3 копии)
• Поддерживает отображение iSCSI LUN,
маскирование LUN, иVAAI
• Холодная миграция томов между пулами Mмаксимальная емкость тома 256 TB
ресурсов Restoration duration for 1 TB data 30 минут
• Расширение томов в подключенном и Режимы избыточности данных 2 копии и 3 копии
отключенном состояниях Максимальноечисло логических томов 65,000
подд. пулами ресурсов
Степень связанных клонов тома 256
Максимальное число пулов ресурсов, 128
поддерживаемое системой
VAAI (API хранилища VMware vSphere— Интеграция массивов)
Clone/vMotion Clone/vMotion Zeroing Zeroing

VMFS VMFS VMFS VMFS

VBS in CVM VBS in CVM+VAAI


VBS in CVM VBS in CVM + VAAI

Target volume
0000 0000
Source volume Target volume Source volume

Copy Offload 00 00 00 00
OSD OSD OSD OSD 00 00 Block Zeroing 00 00

Migrate VM 2 Migrate VM 2
VM on VM on VM on Delete VM 1 Delete VM 1
VM on Host 1
Host 1 Host 2 Host 2

VMFS cluster VMFS cluster VMFS cluster VMFS cluster

VBS in CVM VBS in CVM VBS in CVM+VAAI


VBS in CVM+VAAI

vDisk4VM1
Data Store vDisk Atomic Test and Set (ATS) UNMAP/Reclaim command vDisk4VM2
vDisk4VM2
Высокопроизводительная технология инкрементальных снимков

Перенапр. при Перенапр. при Перенапр. при


Вирт. чтении и записи чтении и записи чтении и записи
том

Диск приращений Диск приращений Диск приращений


для снимка 1 для снимка 2 для снимка 3
Снимок 1 Снимок 2 Снимок 3

• Мин. задержки производит-ти: Данные снимка могут быть быстро найдены с применением механизма DHT.
• Неограниченное число снимков: Метаданные снимка сохраняются распред. образом и могут масштабировать-
ся без ограничений. Теоретически количество снимков не ограничено.
• Быстрое восстановление тома: С применением снимков том может быть восстановлен в пределах1сек без
миграции данных. В противовес на устройствах SAN восстановление занимает несколько часов.
Высокопроизводительное связанное клонирование на базе снимков
Родитель-
ский том A • Клонирование тома без деградации произв.: Том
может быть клонирован с применением снимка и
может быть быстро найден с механизмом DHT.
• Высокопроизв. доступ к родит. тому: Данные
Клон.том
B/Родит. том B Снимок родит. тома кешируются в памяти, повышая произв.
C1
доступа в 3-5 раз. Более того, данные сохраняются
Клонированный
том A распред. образом, что приводит к отсутствию узких
Снимок мест, которые возникают при централизованном
C2
Клонирован- Клонирован- режиме хранения.
ный том B 1 ный том B 2
• Имеет те же функции что и обычные тома:
Клонирован- Клонированный том также поддерживает снимки,
ный том C
восстановление с ними, а также клонирование в
Клонированные тома качестве родительского тома.
Клон тома. выступают в роле родительских Клонирование тома
для клонирования. при помощи снимков.
Сравниваем, Ceph: снимки и клоны

Аналогичная функциональность
23

Национальный Суперкомпьютерный Форум 2015


Интеллектуальное динамичное выделение
без ухудшения производительности

Volume_1 Volume_2 Volume_3



k1 k2 k3 kx kx kx

kx k1 k2 k3 ky ky

kz kz k1 k2 k3 kz

Disk Disk Disk Disk Disk Disk

• Для поддержки динамичного выделения применяется алгоритм распределенного хеша (DHT ring). Не требуется
предварителное выделение пространства.

• Динамичное выделение не ухудшает производительность. В случае применения устройств SAN, расширение


ресурса может ухудшать производительность СХД.
Холодная миграция томов между пулами ресурсов

vol vol
vol vol

vol vol

пул src пул dstl

Функция холодной миграции: Мгирация томов из пула src в пул dst.


Процедура:
Создание томов получателей> Копир. данных томов> Удаление исх. томов> Переим.томов получателей> Выполнено.
1. При холодной миграции, запись данных на исходный том не допускается.
2. Интерфейсы копирования могут запускаться инструментами миграции.
Сценарии пользователей:
Сценарий 1: Балансировка емкости между заполненным пулом и пустым пулом.
Сценарий 2: Миграция тома bмеждупулами ресурсов с различной производительностью, например, миграция томов
с пула с низкой производительностью на высокопроизводительный пул.
Высокая производительность & Низкая латентность — InfiniBand
Сверхвысокоскоростной обмен данными InfiniBand
 Поддержка 56 Gbit/s FDR IB ипредоставление
сверхбыстрого обмена.
 Поддержка remote direct memory access (RDMA) для
обеспечения сверхбыстрого обмена между узлами.
 Применение многоуровневой сетевой среды fat-tree для
обеспечения гибкого расширения производительности.
 Обеспечение неблокируемой коммутационной среды в
Сравнение скоростей 1 связи которой трудно создавать заторы .
MB/sec
 Быстрая и беспрепятственная передача вычисляемой и
7000
хранимой информации, с латентностью измеряемой на
6000
уровне десятков- сотен наносекунд.
5000
 Предоставляет сетевую среду без потерь QoS и
4000
гарантирует целостность данных при передаче .
3000
 Допускает соединение со множеством путей для
2000
активных и ждущих портов и гарантирует избыточность
1000
путей коммуникации.
0
GE 8G FC 10GE 56G FDR
Высокая надежность — Множество механизмов обеспечения безопасности данных

 Множественное копирование данных: Данные могут


InfiniBand храниться с 1 копией (предоставляя доступность данных,
эквивалентную RAID10) или со множеством идентичных
копий (3-копии достигают доступность данных 7-nine).

Node 1 Node 2 Node 3  Технология PCI-E SSD кеша: поддерживает быстрые


чтение и запись и гарантирует отсутствие потерь данных

PCIE upon при выключении питания системы.


 Протокол строго согласованных репликаций: Если одна
Cache Cache Cache
часть данных успешно записана в прикладную программу,

SSD SSD SSD SSD SSD SSD


сохраняются одна или несколько согласованных
резервных копий. Затем любая копия может предоставить
правильные данные при следующем чтении .

Множество механизмов безопасности данных обеспечивают их защищенность.


Высокая надежность — Быстрая параллельная реконструкция данных

Server 1 Server 2 Server 3


Disk1 Disk2 Disk3
P1 P2’
P2 P3 P4’
P4 P5 P6’
P6 P7 P8’
P8 P9 P10 P11 P12

P5’ P9’
P9 P17’ P21’
P21 P1’ P10’
P10 P13’ P22’
P22 P2’ P6’ P14’ P18’

Disk4 Disk5 Disk6


P13 P14’
P14 P15 P16’
P16 P17 P18’
P18 P19 P20’
P20 P21 P22 P23 P24
P7’ P11’
P11 P19’ P23’
P23 P3’ P4’ P8’
P12’
P12 P15’ P24’
P24 P16’ P20’

 Данные фрагментированы в пуле ресурсов и многие диски реконструируют эти фрагменты параллельно.
 Если диск отказывает, эти фрагменты автоматически строятся. Если диски в не оптимальном состоянии, происходит
упреждающее перестроение.
 Все диски используются не только для резервирования, но и как основные. Более того, в случае отказа диска, данные
неутрачены, причем немедленная замена отказавшего диска не требуется. (След. шаг: отложенное восстановление в Ceph!)
Для реконструкции 1 TB данных нужно менее 30 минут (12 часов для традиционного IP SAN СХД)
Надежность на уровне стойки:

APP 1 APP 2 APP N

Стойка 1 Стойка2 Стойка 3


Пул хра-
нилища Server 11 Server 21
Server 31

Data 1

Data 2

zookeeper
zookeeper
……
zookeeper
…… ……
……
Server 1N Server 2N Server 3N

Data 3

Data 4

Отказ не воздействует на службы и может быть восстановлен автоматически.


Посетите наши веб- страницы с описанием решений масштабируемых СХД:

Huawei FusionStorage. Краткое описание:

http://www.mdl.ru/Solutions/Put.htm?Nme=FusionStorage

Изучаем Ceph, Каран Сингх (перевод):

http://onreader.mdl.ru/LearningCeph/content/index.html

Lazy Means Smart: Reducing Repair Bandwidth Costs in Erasure-coded Distributed Storage:
http://onreader.mdl.ru/Ceph/Planning/Blueprints/Hammer/lazy-recovery.htm
Shingled Erasure Code (SHEC):
http://onreader.mdl.ru/Ceph/Planning/Blueprints/Hammer/SHEC.htm#Fujitsu
31 Ceph. Рекомендации по оборудованию
http://www.mdl.ru/Solutions/Put.htm?Nme=CephHW
Книга рецептов Proxmox, Васим Ахмед (перевод, доп. материалы):
http://onreader.mdl.ru/ProxmoxCookbook/content/Fencing.html

Национальный Суперкомпьютерный Форум 2015

Вам также может понравиться