Академический Документы
Профессиональный Документы
Культура Документы
24 марта 2017 г.
Аннотация
В данной статье рассматриваются вопросы работы оперативной памяти с плат-
формой Intel Grantley, состоящей из чипсета Intel C612 в связке с процессорами
Intel Xeon E5-2600 v3 (Haswell-EP) и E5-2600 v4 (Broadwell-EP).
Правила установки модулей памяти, нумерация разъёмов, сведения о настройке
режимов работы памяти в BIOS указаны на примере материнской платы Supermicro
X10DRi-LN4+. Информация из этой статьи применима к другим продуктам про-
изводства Supermicro или других компаний на базе чипсета Intel C612, но за
уточнениями мы советуем обращаться к документации производителя.
1 Компоненты
Как и процессоры предыдущих поколений1 , Haswell-EP и Broadwell-EP имеют встро-
енный 4-канальный контроллер оперативной памяти2 , то есть каждый процессор непо-
средственно контролирует свой набор модулей памяти. Обращение к памяти соседнего
процессора осуществляется через межпроцессорную шину QPI. Подобная архитектура
получила название NUMA3 .
1
DIMM 1
DIMM 2
DIMM 3
DIMM 3
DIMM 2
DIMM 1
Ch 1 Ch 3
DIMM 1
DIMM 2
DIMM 3
DIMM 3
DIMM 2
DIMM 1
Ch 2 Ch 4
CPU
Первые разъёмы DIMM каждого канала имеют синий цвет (см. рисунок 2).
2 Память DDR4
Процессоры Haswell-EP и Broadwell-EP используют память DDR4. Помимо увеличе-
ния пропускной способности DDR4 является более экономичной4 в сравнении с DDR3.
Штатное напряжение питания составляет 1,2 В (для DDR3 — 1,5 и 1,35 В для стандарт-
ных и низковольтовых модулей соответственно). Специальных низковольтовых модулей
DDR4 пока что не существует.
2.1 Ранги
Поток данных в DDR-SDRAM передаётся блоками по 64 бит (72 бит с учётом
ECC). Контроллер памяти выбирает блок такого размера из нескольких чипов DRAM,
4
См. презентацию Samsung на конференции Memcon 2014 года [9].
2
Рис. 2: Маркировка разъёмов DIMM на материнской плате Supermicro X10DRi-LN4+.
каждый из которых отвечает за 4 или 8 бит (x4 или x8 в маркировке модулей обозначает
организацию). Такая группа чипов называется рангом (англ. rank ). Спецификация DDR4
устанавливает ограничение в 8 рангов на канал. Для преодоления этого ограничения
были разработаны модули LRDIMM.
Также количество рангов оказывает влияние на производительность — см. раздел
4.2.
3
на контроллер памяти в сравнении с RDIMM. Модули LRDIMM используют так на-
зываемые логические ранги — контроллер памяти определяет количество рангов в 2
раза меньше реального. Например, четырехранговые модули LRDIMM выглядят для
контроллера памяти как двухранговые. На практике применение LRDIMM позволяет
устанавливать большее количество памяти (при некотором снижении производительно-
сти [6]) или повысить частоту работы памяти.
Модули 3DS TSV LRDIMM (3 Dimensional Stacked, Through Silicon Vias) — модули с
многослойной компоновкой чипов. По состоянию на начало 2017 года доступны модули
объёмом 128 ГБ, в перспективе ожидается появление модулей на 256 ГБ. Особенности
архитектуры (данные к буферу передаёт только один чип из всей «стопки» чипов) соче-
тание в одной системе модулей 3DS TSV LRDIMM и обычных LRDIMM не допускается.
Суммарный объём памяти для 2-процессорных материнских плат с 24 разъёмами DIMM
может достигать 3 ТБ (24 модуля 128 ГБ 3DS LRDIMM).
4 Производительность
Для получения конфигурации с максимально возможной производительностью опе-
ративной памяти следует учитывать множество факторов: выбор процессора по макси-
мально возможной частоте работы памяти (см. таблицы 1, 2, 4, 3), установка модулей
с учётом 4-канальности контроллера памяти (балансировка), выбор модулей памяти
4
(количество рангов и тип модулей), нагрузка на контроллер памяти (количество модулей
на канал).
В 2-процессорных системах на производительность доступа к памяти соседнего
процессора (между узлами NUMA) оказывает влияние пропускная способность шины
QPI.
Влияние на производительность различных технологий оптимизации работы кэша
L3 рассматривается в разделе Optimization of the cache coherence protocol документа
Fujitsu Fujitsu Server Primergy Memory Performance of Xeon E5-2600 v4 (Broadwell-EP)
based Systems [5].
∙ Все каналы памяти должны иметь идентичную конфигурацию — общий объём па-
мяти и количество рангов. Количество модулей должно быть кратно 4 на процессор
(8 для 2-процессорной системы).
16GB DR
16GB DR
Ch 1 Ch 3
16GB DR
16GB DR
16GB DR
Ch 2 Ch 4
CPU
5
2. 6 модулей памяти на процессор (12 на два процессора) — пример неоптимальной
конфигурации, см. рис. 4. Все 6 модулей распределены по двум каналам контрол-
лера. При такой установке для всех модулей обеспечивается лишь 2-канальное
чередование, и снижается частота работы памяти из-за установки трёх модулей на
канал (в случае процессоров v4 и памяти RDIMM — с 2133 МГц до 1600 МГц, см.
раздел 4.3).
16GB DR
16GB DR
16GB DR Ch 1 Ch 3
16GB DR
16GB DR
16GB DR
Ch 2 Ch 4
CPU
6
модулю на канал или по два 1-ранговых модуля на канал). Переход к 4-кратному
чередованию может обеспечить ещё 2-3 %7 .
7
NUMA node 1 NUMA node 2
16GB DR
16GB DR
16GB DR
Ch 1 Ch 3
16GB DR
16GB DR
16GB DR
Ch 2 Ch 4
CPU
8
памяти будет 2-канальным, но исчезнет задержка, связанная с доступом к памяти
«чужого» контроллера9 .
9
A Таблицы
10
Таблица 2: Процессоры E5-1600 v4
Процессор Кол-во TDP, Базовая Turbo Макс. частота
ядер Вт частота, Boost, памяти,
ГГц ГГц МГц
E5-1620 v4 4 140 3,5 3,8 2400
E5-1630 v4 4 140 3,7 4,0 2400
E5-1650 v4 6 140 3,6 4,0 2400
E5-1660 v4 8 140 3,2 3,8 2400
E5-1680 v4 8 140 3,4 4,0 2400
11
Таблица 4: Процессоры E5-2600 v3
Процессор Кол-во QPI, TDP, Базовая Turbo Макс.
ядер ГТ/с Вт частота, Boost, частота
ГГц ГГц памяти,
МГц
E5-2623 v3 4 8,0 105 3,0 3,5 1866
E5-2637 v3 4 9,6 135 3,5 3,7 2133
E5-2603 v3 6 6,4 85 1,6 — 1600
E5-2608L v3 6 6,4 52 2,0 — 1866
E5-2609 v3 6 6,4 85 1,9 — 1600
E5-2620 v3 6 8,0 85 2,4 3,2 1866
E5-2643 v3 6 9,6 135 3,4 3,7 2133
E5-2618L v3 8 8,0 75 2,3 3,4 1866
E5-2630 v3 8 8,0 85 2,4 3,2 1866
E5-2630L v3 8 8,0 55 1,8 2,9 1866
E5-2640 v3 8 8,0 90 2,6 3,4 1866
E5-2667 v3 8 9,6 135 3,2 3,6 2133
E5-2628L v3 10 8,0 75 2,0 2,5 1866
E5-2650 v3 10 9,6 105 2,3 3,0 2133
E5-2660 v3 10 9,6 105 2,6 3,3 2133
E5-2687W v3 10 9,6 160 3,1 3,5 2133
E5-2648L v3 12 9,6 75 1,8 2,5 2133
E5-2650L v3 12 9,6 65 1,8 2,5 2133
E5-2658 v3 12 9,6 105 2,2 2,9 2133
E5-2658A v3 12 9,6 105 2,2 2,9 2133
E5-2670 v3 12 9,6 120 2,3 3,1 2133
E5-2680 v3 12 9,6 120 2,5 3,3 2133
E5-2685 v3 12 9,6 120 2,6 3,3 2133
E5-2690 v3 12 9,6 135 2,6 3,5 2133
E5-2683 v3 14 9,6 120 2,0 3,0 2133
E5-2695 v3 14 9,6 120 2,3 3,3 2133
E5-2697 v3 14 9,6 145 2,6 3,6 2133
E5-2698 v3 16 9,6 135 2,3 3,6 2133
E5-2699 v3 18 9,6 145 2,3 3,6 2133
12
Таблица 5: Максимальная частота работы памяти в зависимости от количества модулей
на канал для Xeon E5-1600/2600 v4
Тип процессора RDIMM LRDIMM
Кол-во модулей 1 2 3 1 2 3
на канал
DDR4-2400 2400 2133 1600 2400 2400 1866
DDR4-2133 2133 2133 1600 2133 2133 1866
DDR4-1866 1866 1866 1600 1866 1866 1866
B Изменения в документе
∙ 24.03.2017. Скорректированы данные по поддержке процессорами технологии
Cluster on Die (см. раздел 4.5).
Список литературы
[1] Memory Configuration Guide: X10 Series DP Motherboards – (Socket R3), (Supermicro,
2014): goo.gl/qo59vT.
[2] Dan Colglazier, Joseph Jakubowski, Tristian Brown, Maximizing System Performance
with a Balanced Memory Configuration, (Lenovo, 2016): goo.gl/qj0rlN.
[3] David Mulnix, Intel Xeon Processor E5-2600 v4 Product Family Technical Overview,
(Intel, 2016): goo.gl/rCO5vJ.
[5] Fujitsu Server Primergy Memory Performance of Xeon E5-2600 v4 (Broadwell-EP) based
Systems, (Fujitsu, 2016): goo.gl/eN1jWk.
13
[6] Marc Rocque, DDR4 RDIMM and LRDIMM Performance Comparison, (Microway,
2016): goo.gl/CdYQDV.
[7] Overview of DDR4 memory in HPE ProLiant Gen9 Servers with Intel Xeon E5-2600 v3,
(Hewlett Packard Enterprise, 2015): HPE website.
[8] Intel Cluster-on-Die (COD) Technology, and VMware vSphere 5.5 U3b and 6.x (2142499),
(VMware, 2016): goo.gl/ODP9nn.
[9] Understanding DDR4 and Today’s DRAM Frontier, (Samsung, 2014): goo.gl/Aljvwr.
[10] Frank Denneman, NUMA Deep Dive Part 2: System Architecture, (2016): goo.gl/XPTkxc.
[11] Frank Denneman, NUMA Deep Dive Part 3: Cache Coherency, (2016): goo.gl/zEgsc1.
14