21
Стратегическая цель проекта
Вокруг проекта «ОМЕГА»
база данных, а не шпионский детектив
с. 24
ядра
Алгоритмический
трейдинг и графические
стр. 10
Революции
большие и маленькие
стр. 59
1 (5) весна 2011 СУПЕРКОМПЬЮТЕРЫ
Особое мнение:
Прямая речь доктора Мейера
перед Гамбургом
с. 15
Су п е р К о м п ь ю т е р ы 1
От редакции
весна 2011
Председатель редакционного совета Суперкомпьютеры… Интересной
Владимир ВОЕВОДИН области мы себя посвятили. Живой,
vladimir.voevodin@ supercomputers.ru динамичной, быстро меняющейся,
Над номером работали: жадно впитывающей достижения
Выпускающий редактор
Игорь ЛЁВШИН смежных наук и отраслей: каждый
Igor.levshin@supercomputers.ru день – новости, каждый месяц
Редактор отдела новостей – анонсы новых технологий, и
Максим КРИВОВ
Maxim.krivov@supercomputers.ru каждый год происходят измене-
Ответственный секретарь редакции ния, которые влияют на все вы-
Екатерина ЛУБАШЕВА числительное сообщество. Здесь натяжкой. Опять же, на фоне всего
Ekaterina.lubasheva@supercomputers.ru
Дизайн и верстка все должно быть «супер», и только числа компьютерных устройств
Виктория ИВАШКОВА в этом случае есть шанс остаться суперкомпьютеров крайне мало,
Корректура конкурентоспособным. Но это же но они, как серые кардиналы, во
Юлия ГОЛОМАЗОВА
означает, что нужно не только от- многом определяют развитие
Тексты: слеживать, но и мгновенно реаги- многих отраслей. Другая сторона
Валерий БАКАНОВ ровать на все новое, использовать той же самой медали: государство
Олег БАРТУНОВ
Павел ВЕЛИХОВ все то, что может дать дополнитель- выделяет десятки и сотни миллио-
Константин КНИЖНИК ное качество, что поможет сделать нов рублей на установку в организа-
Андрей КОЛЕСОВ шаг вперед, что определит вектор циях суперкомпьютеров. Но есть ли
Максим КРИВОВ
Андрей КАЗЕННОВ развития компьютерной отрасли у организаций понимание степени
Роман СИМАКОВ в будущем. Находясь на переднем ответственности за «бесплатные»
Артем СМИРНОВ рубеже, далеко не всегда очевидна миллионы? И есть ли понимание
Евгений ХАРЧЕНКО
Михаил ЦИМБЛЕР реальная перспективность появля- у государства, что деньги необхо-
Леонид ЧЕРНЯК ющихся технологий, но решения димы не только на закупку, но и на
Анатолий ЮДАНОВ принимать необходимо. Окажутся достойное сопровождение высоко-
Арсен ЯКОВЛЕВ
ли решения правильными? Это технологичного оборудования?
Иллюстрации: покажет только время, но необхо- А что происходит внутри самой об-
Александр ЖЕЛОНКИН димость постоянно балансировать ласти суперкомпьютерных техно-
Виктория ИВАШКОВА
Владимир КАМАЕВ «на грани» между срывом и потен- логий? Традиционно, она делится
циальным лидерством в будущем на три составляющие: суперком-
Учредитель определяет удивительную парадок- пьютерные системы, технологии их
Даниэль ОРЛОВ
Издатель сальность, свойственную суперком- программирования и приложения.
ООО «Издательство СКР-Медиа» пьютерным технологиям. Как осуществлялось их развитие
Генеральный директор Парадоксы здесь на каждом шагу. в последние 15-20 лет? Прогресс в
Даниэль ОРЛОВ
Daniel.orlov@supercomputers.ru Все здравомыслящие люди по- суперкомпьютерах действительно
нимают необходимость развития поражает – производительность за
Адрес редакции и Издателя: суперкомпьютерных технологий, это время выросла в миллионы раз.
117342, Москва, ул. Бутлерова, 17Б
www.supercomputers.ru в частности, их стратегическую А что столь же значимого произо-
Издание «СУПЕРКОМПЬЮТЕРЫ» зарегистрировано Феде-
важность для развития государства шло в технологиях программиро-
ральной службой по надзору в сфере связи, информацион-
ных технологий и массовых коммуникаций
в целом, но рынка суперкомпью- вания или же в методах решения
(Роскомнадзор). Свидетельство о регистрации
терных технологий как такового больших задач? Не исключаю, что,
СМИ ПИ №ФС77-38346 от 10.12.2009
Тираж 5000 экз. нет. Необходимость есть, а рынка размышляя, скажем, о технологиях
Отпечатано – нет. Это исключительно узкая программирования, в голову могли
ООО «Немецкая фабрика печати» ниша в компьютерном мире, в придти MPI, OpenMP или OpenCL.
127254, Москва, ул. Добролюбова, 2, стр. 1
www.nfp.ru которой традиционные рыночные Да, все верно, но это скорее бег на
Редакция не несет ответственности за достоверность
информации, содержащейся в опубликованных
механизмы практически не рабо- месте, чтобы «хоть как-то согреться
рекламных материалах. Мнение редакции может не
совпадать с мнением авторов статей.
тают. Важно для государства? Да, и не замерзнуть»... А рядом уже
Присланные материалы не рецензируются. безусловно, но потому суперком- новый парадокс. Единственное
Цена свободная пьютеры и являются во всем мире предназначение суперкомпьюте-
© ООО «Издательство СКР-Медиа» 2011
заботой государства, а рынком это ров – это быстро решать задачи, для
© «CУПЕРКОМПЬЮТЕРЫ» 2010-2011 можно назвать с весьма большой этого суперкомпьютерные монстры
28
Стратегическая важность для инно- «Суперкомпьютеры» Максим Кривов и Андрей Казеннов
вационного развития экономики,
повышение конкурентоспособ- 46 Кто будет первым среди равных
Отвечают «Т-Платформы»
ности, укрепление национальной
48 Сконвергенции
15
безопасности, развитие потенциала ервер HP на AMD Opteron – активные участники
стратегических, фундаментальных Ожидания тех, кто нацелен на эффективные
и прикладных научных иссле- проекты
дований и т. п. – это позитивные
аргументы. Большая стоимость, вы-
сокие расходы на сопровождение, Научные вызовы
50 CUDA4 – покорение суперкомпьютеров
Надежды, что простым «ребрендингом» дело не ограничилось
колоссальное энергопотребление, технологиям
отсутствие немедленной отдачи, не-
понятная окупаемость – это набор
аргументов, если теперь все то же СУБД 54 Параллелизация обработки данных на вычислителях
потоковой (Dataflow) архитектуры
самое захочется покритиковать. Вы-
бирайте, что ближе или что больше
подходит по настроению.
8 Суперкомпьютеры в биржевой торговле
Простые слова о сложном процессе
Последователи Томаса Стерлинга
Владимир В. Воеводин,
24 Вокруг проекта «Омега»
шпионского детектива
Базы данных против
Леонид Соколинский,
Михаил Токарев,
Александр Томилин,
д. ф.-м. н., ЮУрГУ, г. Челябинск
НОЦ «Нефтегазовый центр МГУ», г. Москва
д. ф.-м. н., ИСП РАН, г. Москва
Председатель
редакционного совета
журнала «Суперкомпьютеры»
28 Научные вызовы технологиям СУБД
Общий размер информации и философия данных
Борис Четверушкин,
Борис Шабанов,
д. ф.-м. н., чл.-корр. РАН,
ИПМ РАН им. М. В. Келдыша, г. Москва
к. ф.-м. н., МСЦ РАН, г. Москва
Супер-
немодно оно в этих кругах. Речь пьютерных конфигураций в HFT
идет, как правило, либо о специ- есть несколько типов игроков. Это
ализированной конфигурации из биржи (как локальные, так и MFT
Текст Е в г е н и й Х а р ч е н к о
нескольких нод, либо о дата-цен- или multilateral trading facilities),
Иллюстрация В л а д и м и р К а м а е в тре, в последнее время – и о grid инвестиционные банки, торгу-
компьютеры
и облачных вычислениях. Те же ющие сами и предоставляющие
самые гигафлопсы могут, конечно, быстрый доступ своим клиентам к
как-то описать вычислительную различным биржевым площадкам,
мощь используемой конфигура- а также их клиенты, например,
ции, но есть и другие показатели, хеджевые фонды. Провайдеров
критически важные для оценки ее консолидированных биржевых и
обслуживающих каждый свой на- Терафлопсы не так актуальны, как держек на передачу данных по сети.
бор клиентов и/или бирж. Нередко минимальное время реакции на Провайдеры консолидированных
такие компоненты, как конвертация запрос клиента или новости рынка. биржевых и новостных данных
протокола биржи, стратегии при- С другой стороны, система должна стоят особняком. У них помимо
нятия решений и соединение с держать заданный максимальный латентности очень важна про-
биржами «крутятся» на одной и той рейт, т. е. количество сообщений в пускная способность, поэтому они,
же машине. Но могут быть и раз- секунду. Именно такие моменты оптимизируя свои конфигурации,
делены. Монстры из первой десятки особенно важны, так как пиковые вынуждены биться и за то и за дру-
имеют порядка сотни таких машин рейты имеют место тогда, когда гое. Распространяя данные по всему
в каждом крупном финансовом происходят быстрые изменения миру, они строят мощные системы
В США уже около 70% всех сделок на биржевом рынке производится
компьютерами, в Европе – как минимум половина. С точки зрения
компьютерных технологий, здесь представлены две составляющие:
непосредственно торговля (HFT или low latency trading) и оценка рисков
(Risk Analytics)
центре (Лондон, Нью-Йорк, Токио и цен финансовых инструментов, на консолидации / трансформации
др.). Здесь конкуренция еще жест- которых и делаются максимальные форматов данных / кэширования
че, чем между биржами, и банки прибыли (или терпятся убытки). в узлах. Как правило, используются
идут на крайние меры – лишь бы Требования к сетям, естественно, серверы с максимальной частотой
обогнать конкурентов. Первый самые жесткие. Стандартом опять и количеством ядер. Масштаби-
получает миллиард долларов в год. же является двухпроцессорный руемость задач очень неплохая,
Информация, впрочем, из приват- блейд-сервер с максимальной часто- поэтому scale out работает замеча-
ных бесед. Здесь о «суперкомпьюте- той. Есть, впрочем, и конфигурации тельно. И здесь короткие цепочки,
ре» говорить вообще сложно, даже из 4-8 процессорных машин. Они продублированные для пропуск-
несмотря на то, что в этой среде используются для размещения ком- ной способности до десятков раз.
модифицируют ядра операционных понентов на одной машине вместо Каждая отдельная цепочка «тянет»
систем и разгоняют процессоры. двух или трех для сокращения из- миллионы сообщений в секунду. У
отклонения, вычисление параме- реальным данным) модели (ме- задачей даже для многоядерных зированной торговли, как правило, в днях, неделях и даже месяцах генерации, написанными на CUDA.
тра Хёрста временного ряда – более тод Монте-Карло). Церих сделал центральных процессоров – это зависят от нескольких параметров, счета. И здесь на помощь приходит Открывается доступ к реализации
амбициозная задача. Этот параметр ставку на модели класса ARFIMA, задача для суперкомпьютеров. По- каждый из которых может прини- CUDA. Сегодня можно не просто таких алгоритмов на высокочастот-
характеризует степень перси- алгоритмы оценивания и гене- явление технологии CUDA сделало мать значения из определенного оптимизировать параметры стра- ных рядах, а значит, к потенциаль-
стентности (трендовости) рынка, рации которой исполняются на эту задачу разрешимой – теперь диапазона. Допустимые множества тегий однократно, но и делать это ному увеличению доходностей
позволяя получить основания для графических CUDA-ядрах. Целесо- трейдер, владеющий программи- для некоторых параметров могут динамически, в реальном времени, стратегий, разработанных для
переключения между трендоследя- образность использования CUDA в рованием графических процессо- включать тысячи элементов. Про- адаптируясь под изменяющееся таких рядов.
щими и контртрендовыми стра- тестировании стратегий объясня- ров и вполне бюджетным CUDA- цедура оптимизации стратегии поведение рынка. Уже сегодня алгоритмическую
тегиями. Расчет параметра Хёрста ется тем, что вполне ясное пред- девайсом, имеет возможность состоит в исполнении стратегии Суммируя все вышесказанное, торговлю невозможно представить
также производится на графиче- ставление о распределении доход- устроить своей стратегии хорошую на множестве всех допустимых можно констатировать, что ис- себе без ресурсоемких вычисле-
ских ядрах параллельно. ностей стратегии можно получить, (и суровую) проверку на результат, комбинаций параметров и выявле- пользование технологий массивно- ний, требующих значительного
Для того чтобы собрать доказатель- исполняя стратегию на тысячах, а прежде чем пустить ее «в бой». нии наилучшего (с точки зрения параллельных расчетов CUDA в времени исполнения.
ную базу прибыльности торговой то и сотнях тысяч сгенерирован- CUDA не только позволяет тестиро- доходности, риска и т. п.) сочета- алгоритмической торговле откры- Тенденция к обработке все боль-
стратегии, недостаточно исполнить ных рядов. вать существующие стратегии, но и ния параметров. Без оптимизации вает новую страницу в обработке ших массивов данных в трейдинге
ее на одном историческом ряде По этой причине раньше выяс- фактически вносит вклад в созда- невозможно представить работу рыночных данных. Появляется только нарастает, а значит, техноло-
данных. нение характеристик распределе- ние новых: задачи оптимизации алгоритмического трейдера, одна- возможность эксплуатировать все гия CUDA будет иметь все больше
Корректное решение состоит в ния доходностей стратегии было параметров стратегий требуют не ко если число параметров велико, более сложные алгоритмы, эффек- сторонников среди алгоритмиче-
тестировании стратегии на мно- недоступно: обработка огромных меньше вычислительных мощно- а диапазоны допустимых значений тивность которых проверяется ских трейдеров, а процесс торговли
жестве псевдорядов, порожденных объемов данных, участвующих в стей, чем тестирование стратегий. параметров широки, то время на тысячах псевдорядов котиро- – все больше зависеть от массивно-
подходящей (и оцененной по вычислениях, была непосильной Современные алгоритмы роботи- оптимизации может исчисляться вок, поставляемых процедурами параллельных расчетов.
Предвидеть самое
интересное
таких компаний 1 и 10 гигабит ча- на облаках. Вопрос только в том, латентность и позволяет консоли-
сто смешаны, причем где возможно чтобы суммарная вычислительная дировать сеть и SAN. Уже появился
1 гигабиту отдается предпочтение в мощь, помноженная на доступное интерес и к 40 гигабитам. При вы-
целях экономии энергии. время, была достаточна для выпол- боре типа серверов в Risk Analitics
А вот в Risk Analitics вариантов нения задачи. Второй тип гораздо подход тот же, что и в высокопро-
конфигураций масса. Огромное ко- более критичен к производитель- изводительных вычислениях, –
личество пользователей обходится ности. учитывается производительность /
1-10 серверами. Но у ряда органи- От производительности intra-day цена / потребление энергии.
заций объемы вычислений вполне расчетов зависит эффективность Поэтому лучший выбор – это
соответствуют статусу суперком- финансового трейдинга, поэтому больше ядер с умеренной частотой.
пьютера. такие задачи обычно решаются на В трейдинге частота только макси- Редакционное интервью
В моей практике были случаи специально выделенных для них мальная, количество ядер не так
тестирования на сотнях и тысячах машинах. критично, так как делается scale out.
ядер. Как правило, такое тести- Уровень масштабируемости может Впрочем, от лишних ядер там тоже
рование проводилось по запро- быть достаточно высок, так как не отказываются, так как энергия и
су потенциальных покупателей
софта, желающих убедиться в его
количество независимо обсчитыва-
емых стратегий насчитывает тыся-
кондиционирование в Лондонском
Сити, например, не просто дороги, Выпускающий редактор нашего журнала
масштабируемости на конкретном
типе задач. В этом сегменте много-
чи. Стандартная сеть в Risk Analitics,
как правило, – 1 гигабит.
но еще и труднодоступны.
Как известно, объемы торгов экспо- Игорь Лёвшин побеседовал с организатором
процессорные машины выглядят
очень достойно. Используется
Что касается трендов, имеющих
место в данном сегменте, то самый
ненциально растут, соответственно
растут и потребности в вычисли- международных конференций ISC доктором
и grid, и cloud computing. В Risk
Analitics можно выделить два вида
заметный – это массовый переход
на 10 гигабит. Это происходит и в
тельных мощностях.
Спасибо закону Мура, иначе бы Хансом Вернером Мейером
расчетов – nightly и intra-day. трейдинге, и в дата-центре. 10 гига- компьютерная торговля, наверное,
Первый тип расчетов может про- бит дает не только высокую про- испытывала куда более серьезные
водиться и в виртуальной среде, и пускную способность, но и низкую проблемы.
Новости
по суперкомпьютерам в Уни- в Дрездене и 2009-2010-е в
верситете Мангейма. Было 12 Гамбурге были самыми захва-
презентаций приглашенных тывающими. За эти годы мы
участников. Сам я в те годы росли быстро и стали самой
увлекался Cray-1/Cray-2 – это большой конференцией по
было и хобби, и профессио- HPC, если не считать Север-
нальный интерес. Эта тема ную Америку.
Высокая производительность в Нижнем меня грела, ученые из немец-
ких научных центров этим
И. Л.: Как сложилась Ваша
научная карьера? Насколько
тоже живо интересовались. трудно эффективно сочетать
ННГУ (Нижегородский государственный университет) в суперкомпьютерном сообществе. Исполнители про- Самые трудные годы были, по- научную и административную
им. Н. И. Лобачевского объявил о том, что вычисли- екта пока формально не определены. жалуй, с 2000-го по 2005-й. Тогда деятельность?
тельный центр института установит кластер гибрид- Университет отнюдь не собирается ограничиться эти- мы решили переместиться Х. М.: Спасибо за комплимент.
ной архитектуры (на базе NVIDIA Tesla) производи- ми мощностями. В планах – наращивание мощности из Мангейма в Гейдельберг, а С 1973 по 1999 год я работал
тельностью 100 терафлопсов. Об этом объявил Виктор до 500 терафлопсов. Выбор гибридной архитектуры потом из Гейдельберга в Дрез- директором ВЦ и профессо-
Павлович Гергель, декан факультета вычислительной определялся спецификой задач и соображениями ден, чтобы решить проблемы ром computer science. С 2000-го
математики и кибернетики ННГУ, хорошо известный энергоэффективности. с техническим обеспечением по сегодняшний день я занят
только в Prometeus GmbH – ком- Х. М.: Гибридные вычисления – это программу ISC? железе;
пании, которая устраивает ISC. В уже сложившаяся область внутри Х. М.: Не думаю, что в недалеком • глубокие исследовательские рабо-
Мангеймском университете у меня HPC, даже при том, что скорости будущем появятся такие уж со- ты по параллелизму; Highlights of the ISC'11 Conference
была гениальная секретарша – она
умела так устроить, что я ухитрял-
там сейчас действительно огром-
ны. Эти архитектуры еще пред-
вершенно новые применения. Мы
ждем, что уже существующие при-
• государственная поддержка иссле-
довательских работ и разработчи-
June, 2011
ся заниматься всеми тремя обязан- стоит исследовать дальше, если ложения сильно выиграют от уве- ков приложений.
ностями: двумя работами в универ- мы стремимся к экзамасштабам. личивающихся до экза-масштабов И. Л.: Какой вклад смогли бы вне- Publication of the 37th TOP500 List
ситете и управлением ISC. Но, надо Поэтому мы их включаем в нашу систем. Статистика Top500 говорит сти российские инженеры, ученые
Scientific Sessions
признаться, тогда ISC была намно- программу ISC’11. Но очевидно, нам о том, что машина сегодняш- или бизнесмены с наибольшей
го меньше, чем после 2000 года, и что и специальные конференции ней нижней строчки, скорее всего, вероятностью? Что было бы более All-day session: HPC in Asia
совмещать было проще. по гибридным вычислениям будут станет доступна персоналке лет «естественно» для русских? Созда-
И. Л.: Что Вы думаете по поводу появляться по всему миру. через 8-10. ние передовых ВЦ? ПО? Новые GPU – Debate: Pros and Cons
облачных вычислений? Будут ли И. Л.: Что Вы думаете о возрожде- И. Л.: Через сколько лет мир уви- математические модели?
они обособляться от суперкомпью- нии исследований в области искус- дит экзакомпьютер? Х. М.: Судя по тому, что мы знаем Conference Sessions:
тинга в качестве отдельной области ственного интеллекта (ИИ) в связи Х. М.: Знаменитый Cray-2 преодо- о российских ученых, которые за-
бизнеса и технологии, или наобо- с планами по экзакомпьютингу? лел барьер в гигафлопс на Linpack нимаются численными методами, • Are ISVs ready for Petaflops?
рот – сольются с ней в будущем? Х. М.: ИИ получит новый импульс в 1968 году. В 1997-м терафлопс у России есть прекрасные шансы
• Where do heterogeneous Multicore and GPU
Х. М.: Принципы облачных вы- для развития, и ученым, занятым был преодолен системой ASCI Red. внести вклад в глубокие математи-
числений разрабатывали для того, в этой области, потребуются очень Петафлопс был преодолен в 2008-м ческие исследования в прикладной systems fit best?
чтобы предлагать IT-услуги по большие суперкомпьютеры. Со- IBM Roadrunner. Оба промежутка математике и в разработку буду- • Transpeta Flop/s Initiatives
требованию. Во многих странах вершенно ясно, что ИИ сильно времени, за которые были преодо- щих приложений для суперком- • Visualization (The Virtual Laboratory)
суперкомпьютинг быстро дрейфу- выиграет от исследований мозга лены 3 порядка, составляли по 11 пьютеров. • Surviving the (HPC) Data Tsunami
ет в сторону облачной среды вы- живых существ и человека среди лет. И. Л.: Что Вы думаете о суперком- • How to Teach Parallel Programming for Millions of
числений, все больше приложений них. 20 июня одним из ключевых Мой бывший аспирант в Мангейм- пьютерном образовании? Как ISC
Cores?
– больших и малых – становятся выступлений будет как раз высту- ском университете, Эрих Штро- помогает университетам и другим
доступными для пользователей су- пление Генри Маркрама из швей- майер, начал проект Linpack в 1993 организациям помогать обучать • Storage & Memory Access – The Real Challenge for
перкомпьютерных центров. Потен- царского EPFL (Политехническая году. Сейчас проекту уже 18 лет, два людей? Университеты участвуют Future HPC Systems
циал суперкомпьютинга как части Федеральная Школа в Лозанне) издания в год. Мы измерили около все активней? • Architecture & Networking (Fault-Tolerant
облачной инфраструктуры продол- – «Моделирование мозга. Следу- 36 систем, которые были первыми Х. М.: ISC очень сильно вовлечена Interconnections)
жает расти: таким образом, легче ющий этап». Там он расскажет об номерами в свое время. Мы экстра- в обучение и образование ученых • HPC Applications – State of the Art in Science &
оптимизировать загрузку ресурсов, этом подробней. полировали по логарифмической в университетах и в промышлен-
Industry
время простоя уменьшается. И. Л.: Случались ли технологиче- шкале и получили, что экзабарьер ности. Для любого хайтек-сообще-
И. Л.: Как сочетать интересы бизне- ские или бизнес-новшества, из-за первая машина преодолеет в 2019 ства это очень важно. Поэтому мы • Cloud Computing & HPC (Virtualization)
са и научного мира? которых приходилось менять про- году. То есть систему линейных и проводим помимо конференций • Young & Bright HPC Researchers
Х. М.: Лучший способ привлечь грамму? Какие будущие проекты уравнений с плотной матрицей еще и семинары – чтобы ученые и • Hot Seat I & II
бизнес – продемонстрировать, что Вам кажутся самыми интересны- можно будет решать со скоростью инженеры могли побольше узнать • Panels:
18
на суперкомпьютерах работают ми? 10 операций с плавающей точкой о разных областях суперкомпью- • Expectations for Exascale Computing
реальные, рабочие приложения. Х. М.: Пока что нам удавалось в секунду – через 11 лет, с тех пор, тинга. И последнее, самое важное:
• Energy Efficiency or Net Zero Carbon by 2020?
Сейчас очень многие производи- предвидеть самое интересное и как была запущена первая петаф- ISC больше ориентирована на при-
тели софта партируют свой код на представить его на наших конфе- лопсная система. ложения, потому что мы понима- • Exhibition:
параллельные системы. Это и сейс- ренциях, иногда изменяя намечен- И. Л.: В какие еще страны кроме ем: путь к технологиям будущего • Over the last few years, the ISC Exhibition has grown
мика, и автомобильная промыш- ную программу. Те же облачные основных европейских и США определяется приложениями. steadily and it has strengthened its position as a core
ленность, и нефтегазовая отрасль, и вычисления – один из примеров. могут распространиться HPC- platform for comparing services of different HPC
многие другие. В этом преимущество ISC – мы конференции? Какой уровень suppliers.
Преимущество суперкомпьюте- способны не только сфокусиро- развития культуры HPC нужен для
• This year, ISC’11 will be hosting over 150 industrial
ров – в их потрясающем быстро- ваться на существующих (и иногда того, чтобы имело смысл устраи-
действии. Моделирование – это популярных) суперкомпьютерных вать конференции в стране? and research exhibitors from around the world from
третья опора, на который держится применениях, но и познакомить Х. М.: Главное для того, чтобы June 20 – 22. You will have the chance to connect
наука, – такая же важная, как опыт участников с новейшими техноло- такие конференции в стране стали with over 2,000 HPC industry leaders, IT managers
и теория. гиями и технологиями будущего – реальностью, это: and high-end users from around the world.
И. Л.: Нужно ли создавать особые и в теории, и в приложениях. • большое и активное суперком- • Organizations from Brazil, South Africa, China, Japan,
сообщества, конференции и инсти- И. Л.: Какие области применения пьютерное сообщество внутри
Russia, the U.S. and just about all European countries
туции для гибридных архитектур? HPC могут возникнуть в будущем? страны;
Или они органично входят в мир Что перенесут на персоналки, и что • признанные миром достижения will be participating in this year’s exhibition.
HPC? сместится в область HPC и войдет в индустрии страны в софте и
британский феномен
службу в ВМС Великобритании.
На самом деле ему крупно повез-
есть отказ от статических вычислений в пользу
ло – возвратившись на родину, он
динамических
восьмидесятых
изменил лингвистике и занялся
компьютерной наукой, в которой
немало преуспел. С годами Хоар
превратился в крупного ученого,
стал лауреатом Тьюринговской
Текст Л е о н и д Ч е р н я к премии, членом Королевской
академии и получил титул лорда.
Большую часть своих исследо- философа XIV века Уильма Оккам- есть транспьютера как кремниевой
ваний Хоар посвятил созданию ского и его знаменитой сентенции, реализации языка.
концепции взаимодействующих известной как бритва Оккама: «Не И снова «если». Теоретические на-
В период повального увлечения последовательных процессов CSP,
позволяющей разработать средства
следует множить сущее без необхо-
димости». Occam является типич-
работки двух университетских про-
фессоров не вышли бы за стены ла-
пета-, экза- и прочими флопса- для описания различных моделей,
в том числе процессов, протекаю-
ным языком высокого уровня,
синтаксически похожим на Pascal
бораторий, если бы политический
курс лейбористского правительства
ми вкупе с GPGPU стоит на- щих параллельно, обменивающих-
ся данными по типу «рандеву», то
или C, но его набор операторов
и синтаксис доведены до мини-
Великобритании Джеймса Каллага-
на и его предшественников. Придя
помнить о существовании аль- есть между парой и только парой
процессов. Использование общей
мума – ничего лишнего. До этого
Мэй разрабатывал теорию систем
к власти, лейбористы обеспокои-
лись потерей Британией ее роли и
тернативных подходов для нескольких параллельных про-
цессов памяти в CSP не допуска-
управления роботами, собираемых
из одноплатных компьютеров в то,
места в компьютерной индустрии.
Ранее, в 50-60-е годы, она почти на
ется. Книга «Взаимодействующие что мы сегодня называем класте- равных конкурировала с США, но
последовательные процессы» была рами, что привело его к необходи- потом там произошло то же самое,
опубликована на русском языке в мости разрабатывать технологии что и в большинстве других стран:
1989 году издательством «Мир». параллельного программирования. к тому времени и Япония, и Фран-
Созданная Хоаром концепция CSP Вполне логично, что судьба свела ция, и Германия стали нишевыми
В начале 80-х небольшая группа шебники» оказались недостаточно язык программирования – Occam, позволила группе ученых из Ок- его с Тони Хоаром, поскольку они производителями. Следствием этой
умников, или, как их называют революционными – в конечном хотя были попытки реализации сфорда под руководством Дэвида оба варились в общей британской политики стало то, что в 1978 году к
в Великобритании, whizz-kids, итоге они разработали процессор языков C, FORTRAN, Ada и Pascal. Мэя разработать процедурный университетской среде. Совместно Хоару и Мэю подключился третий
решила нарушить все законы со сверхкороткой системой команд Операционными системами были язык параллельного программи- Хоар и Мэй породили идею укори- – Ян Баррон, инженер-разработчик
проектирования процессоров. В – супер-RISC – и назвали его транс- Unix-подобные Minix и Idris. Как рования высокого уровня Occam, теля вычислений, реализующего полупроводниковых приборов.
их представлении традиционные пьютером. вычислитель этот тип приборов названный так в честь английского Occam своей системой команд, то Он был активным участником
процессоры излишне привязаны к На некоторое время транспьютеры остался в прошлом, но его следы
выполнению статичных арифме- стали элементами для построе- можно обнаружить в некоторых
тических операций – в таком виде ния многопроцессорных систем встроенных системах.
они лучше подходят для калькуля- на одном кристалле. Также были Транспьютеры не появились бы на
Книга Тони Хоара «Взаимодействующие
торов, откуда, собственно, и пошел попытки использовать их в каче- свет, если бы не удивительная це- Тони Хоар теряет последовательные процессы» опубликована
родоначальник всех микропроцес- стве ускорителей ПК. Чаще всего почка событий. Начало ей было по- возможность Ян Баррон на русском языке издательством «Мир».
соров Intel 4004, а не для параллель- название «транспьютер» связывают ложено 1 мая 1960 года, когда совет- продолжить свои подключается к работе С конца 80-х до середины 90-х
исследования над ускорителем транспьютеры рассматривались как один из
ной обработки больших объемов со словами transistor и computer, но ской ракетой ПВО под нынешним по машинному вычислений Тони путей развития высокопроизводительных
данных. Им хотелось усовершен- первая часть названия – скорее от Екатеринбургом сбили самолет-раз- переводу в МГУ Хоара и Дэвида Мэя вычислений (HPC)
ствовать схему фон Неймана и слова transmit (передача), то есть ведчик U-2. После этого инцидента
заменить программы, как последо- отказ от статических вычислений Сэр Чарльз Энтони Ричард Хоар, а 1 мая 1960 г. 1974 г. 1978 г. 1982 г. 1989 г.
вательности предписанных для вы- в пользу динамических. Пред- тогда просто Тони Хоар, потерял
полнения операций, некоторыми полагалось, что можно создавать возможность продолжить свои ис- Ян Баррон становится 1982 год в Колорадо
образами, написанными на языке мощные параллельные системы, следования по машинному пере- основателем компании произведен первый
высокого уровня и превращаемы- используя в качестве строительных воду, которые он проводил в МГУ Inmos, где основным экспериментальный
инвестором выступает транспьютер Simple4
ми в набор, состоящий из нулей блоков транспьютеры, связанные им. М. В. Ломоносова под руковод- правительство в лице
и единиц, с которым компьютер внутренними последовательны- ством академика Андрея Колмо- агентства National
взаимодействует. Но эти «дети-вол- ми каналами связи. Основной горова. Власти решили избавиться Enterprise Board (NCE)
стимулированных правительством ства с американцами ему произ- ных компьютеров (IBM PC, Amiga),
процессов. К этому моменту он водство не наладить, поэтому он транспьютеры использовались в
успел стать основателем распола- нашел союзников в лице Дика Пе- лазерных принтерах. И последнее
гавшейся в Бристоле компании трица и Пола Шредера, успевших «если». Кто знает, как бы сложилась
Inmos, где основным инвестором поработать в Texas Instruments и судьба транспьютеров, если бы не
было правительство в лице агент- решивших избрать карьеру венчур- неудачная бизнес-модель. Скорее
ства National Enterprise Board (NCE). ных капиталистов. Так сложился всего, у них был неплохой потен-
В задачу созданного в 1974 году причудливый альянс и государ- циал, но подвела схема финанси-
учреждения входило проведение ственного, и частного капиталов. рования – частно-государственный
программы модернизации; показа- Планы были грандиозными – было альянс и передача управления из
тельно название одного из доку- даже создано собственное произ- рук в руки в конечном итоге при-
ментов – The Regeneration of British водство в Колорадо, где в 1982 году вели к тому, что Inmos прекратила
Industry (Регенерация Британской
промышленности). Жизнь показа-
ла, что модернизация сверху – не Транспьютеры не появились бы на свет, если бы
самое лучшее, что может быть, не удивительная цепочка событий. Начало ей
и в последующем, с приходом к было положено 1 мая 1960 года, когда советской
власти консерваторов, деятельность ракетой ПВО под нынешним Екатеринбургом
NCE была постепенно свернута, сбили самолет-разведчик U-2
поскольку почти все его начина-
ния были неудачными, напри-
мер обновление автомобильной произвели первый эксперимен- свое самостоятельное существо-
индустрии. В Англии теперь ездят тальный транспьютер Simple 4, а за- вание. Inmos оказалась на пути
по большей части на импортных тем серийные модели T212 и T414. гигантов процессорного бизнеса, а
автомобилях. Но все же Баррон О значимости, которую придавали найти свое место в этих условиях
успел получить 50 миллионов фун- этим разработкам, можно судить чрезвычайно сложно. После Inmos
тов и начал с производства чипов по тому, что авторы T414 были осталось неплохое наследие в виде
памяти, однако оказался неконку- удостоены специального приза за группы небольших эксперимен-
рентоспособным, а тут возникли дизайн от Принца Филиппа (мужа тирующих компаний, своего рода
Хоар с Мэем, и это была удача – королевы Елизаветы) и других по- локальный кластер в окрестностях
собственное британское и, казалось четных званий. Затем были следую- Бристоля.
бы, чрезвычайно перспективное щие модели Т800 (1985), пакетный Судьба компании Inmos и ее дети-
изобретение. В последующем коммутатор С104 и транспьютер ща сегодня представляет интерес
Inmos получила финансирование в для выполнения операций с плава- по нескольким соображениям.
более чем 150 миллионов фунтов, ющей точкой (1087) и еще целый Первое: даже неудачная попытка
но, к сожалению, прибыльной так ряд моделей. Вершиной была нарушить сложившиеся каноны
никогда и не стала. модель SOC Т9000, которую можно свидетельствует в пользу того, что
Баррон понял, что без сотрудниче- отнести к категории «система на и в области процессоров остается
Суперкомпьютерное
чипе», – она имела внутренние место нонконформизму. Известны
кэши, поддержку суперскаляр- работы, связанные с асинхронны-
ности и многое другое. В после- ми процессорами, процессорами
образование в России
Созданная Хоаром концепция
CSP позволила группе ученых дующем она была продана SGS- с программируемой логикой
из Оксфорда под руководством Thomson, ныне STMicroelectronics, (Хputer); возможно, есть и что-то
Дэвида Мэя разработать и ее прямыми наследниками стали иное.
процедурный язык параллельного
программирования высокого нынешние микросхемы, исполь- Трудно поверить в то, что все буду-
уровня Occam, названный так зуемые в приборах глобального щее связано с одним типом про-
в честь английского философа Текст В л . В . В о е в о д и н , В . П . Г е р г е л ь , Л . Б . С о к о л и н с к и й ,
позиционирования GPS. цессора GPGPU, и то только потому, В.П.Демкин, Н.Н.Попова, А. В. Бухановский
XIV века Уильма Оккамского Иллюстрация А л е к с а н д р Ж е л о н к и н
и его знаменитой сентенции, Несколько известных в конце 80-х что игровая индустрия сделала этот
известной как бритва Оккама: годов компаний (Meiko, Floating подход рентабельным. И второе
«Не следует множить сущее без Point Systems, Parsytec и Parsys) соображение: одного стремления
необходимости». Occam является
пытались строить системы с массо- власть имущих к модернизации, Стратегической целью проекта является создание
типичным языком высокого
уровня, синтаксически похожим вым параллелизмом, которые ис- даже если есть подлинные таланты, национальной системы подготовки высококвалифицированных
на Pascal или C, но его набор
операторов и синтаксис доведены
пользовались чаще всего в академи-
ческих приложениях. Выпускались
в которые можно вложить средства,
мало. Требуются более действен-
кадров в области суперкомпьютерных технологий и
до минимума – ничего лишнего
платы-ускорители для персональ- ные схемы. специализированного программного обеспечения
www.supercomputers.ru «Суперкомпьютеры» № 1 (5) весна 2011
22 Су п е р К о м п ь ю т е р ы Су п е р К о м п ь ю т е р ы 23
Закончился первый год выполнения логий (НОЦ СКТ). Задача включает в себя тов развития системы СК-образования. приложений. Для реализации новых технологий. Важная составляющая и организация совместных образова-
проекта «Создание системы подготов- создание инфраструктуры, разработку Задача направлена на популяризацию образовательных программ на базе проекта – его открытость и нацелен- тельных программ и многое другое. В
ки высококвалифицированных ка- нормативно-правового и методического научных знаний в области суперкомпью- НОЦ СКТ прошли переподготовку ность на максимально широкое рас- частности, в октябре-ноябре 2010 года
дров в области суперкомпьютерных обеспечения, приобретение оборудования и терных средств и технологий, привле- или повышение квалификации более пространение результатов. Реализо- в МГУ, ННГУ и СПбГУ ИТМО прош-
технологий и специализированного программного обеспечения, расходы на со- чение талантливой молодежи в науку и 40 преподавателей российских вузов. вана первая версия Интернет-центра ли выступления одного из самых
программного обеспечения» Комис- держание НОЦ и кадровое обеспечение его развитие стратегического направления В результате выполнения данного системы образовательных ресурсов известных в мире специалистов в
сии Президента РФ по модернизации деятельности. Реализация данной задачи экономики. проекта более 10 университетов уже в области СКТ, который стал осно- области суперкомпьютерных техно-
и технологическому развитию эконо- направлена на концентрацию научно-об- Проект рассматривает проблематику включились в подготовку специ- вой консолидации информации по логий Томаса Стерлинга (США).
мики России. Стоит сразу сказать, что разовательного потенциала на базе вузов, комплексно, отсюда и такое множе- алистов по СКТ, и многие универси- суперкомпьютерному образованию в Для информирования общества о
все запланированное на первый этап имеющих ресурсы и значительный опыт в ство задач, но все они тесно взаимос- теты – члены Суперкомпьютерного российской части Интернета (http:// достижениях в развитии СКТ и при-
удалось сделать, хотя есть и четкое развитии суперкомпьютерных технологий вязаны и необходимы для создания консорциума университетов России hpc-education.ru/). Уже сейчас здесь влечения талантливой молодежи в
понимание того, что еще больше зна- (СКТ). устойчивой национальной системы выразили готовность включиться в можно найти массу крайне полезной 2010 году разработана и реализована
чительных дел впереди. Но точно так • Разработка учебно-методического обеспе- воспроизводства высококвалифици- этот процесс в 2011 году. информации – от нормативно-мето- система мероприятий по популя-
же нужно сразу отметить и тот факт, чения системы подготовки, переподготов- рованных специалистов в области С учетом созданного Свода знаний и дических документов до реальных ризации достижений и перспектив
что в 2010 году было очень непросто, ки и повышения квалификации кадров в суперкомпьютерных технологий. умений за прошедший год выполне- учебных курсов и программ. использования суперкомпьютерных
причем, увы, больше всего сил ухо- области суперкомпьютерных технологий. Основой для успешной реализации на разработка новых и расширение Не совсем обычной, но эффективной технологий с привлечением средств
дило не на содержательную работу, а Данная задача направлена на создание проекта должна стать Система на- существующих учебных курсов. Эти формой начального вхождения в массовой информации. Это и тради-
на реальную «борьбу» с государствен- научно-методической базы, основанной учно-образовательных центров СКТ, курсы доступны на сайте проекта область суперкомпьютерных техно- ционные СМИ, такие как газета «ПО-
ными структурами, которым было на образовательных стандартах нового главной задачей которой является эф- http://hpc-education.ru, причем их логий стал Интернет-университет ИСК», это и электронные издания,
поручено сопровождение данного поколения для подготовки специалистов в фективная организация деятельности уже сейчас можно использовать в суперкомпьютерных технологий например, сайт Комиссии Президен-
проекта Комиссии Президента. области СКТ. вузов по подготовке, переподготовке учебном процессе высших учебных (http://hpcu.ru). На его базе в 2010 году та РФ http://i-russia.ru, информацион-
Стратегической целью проекта • Реализация образовательных программ и повышению квалификации кадров заведений России. Подготовлены более 70 слушателей прошли под- но-аналитический центр Parallel.ru и
является создание национальной подготовки, переподготовки и повышения в области суперкомпьютерных тех- к изданию первые 6 книг серии готовку в режиме дистанционного многие другие. Это и выпуск специ-
системы подготовки высококвали- квалификации кадров в области суперком- нологий. В 2010 году заложена основа «Суперкомпьютерное образование», обучения. ализированных телевизионных пере-
фицированных кадров в области пьютерных технологий. Данная задача Системы за счет организации пяти в которой за все время выполнения Неотъемлемой функцией научно- дач, где в 2010 году особенно успешно
суперкомпьютерных технологий и направлена на создание научно-педагогиче- НОЦ СКТ, по одному в Центральном, проекта будет представлено более 25 образовательных центров является выступили коллеги из ТГУ и ЮУрГУ.
специализированного программ- ского потенциала, обеспечивающего высо- Приволжском, Уральском, Сибирском изданий. обеспечение тесной интеграции И, безусловно, было обеспечено пред-
ного обеспечения. Именно эта цель кое качество подготовки специалистов в и Северо-Западном федеральных Одним из главных направлений вузов, институтов РАН, организаций ставительство проекта на весомых
определяет масштабность данного области СКТ. округах России. В 2011 году плани- деятельности научно-образователь- промышленности и бизнеса. Имен- и значимых суперкомпьютерных
проекта, объединившего усилия • Развитие интеграции фундаментальных руется завершение формирования Си- ных центров стало формирование но за счет этого есть возможность мероприятиях для информирования
ведущих российских университетов. и прикладных исследований и образования стемы НОЦ СКТ за счет образования специальных групп обучаемых. Это вовремя смещать акценты в органи- общества и представления достиже-
Исполнители проекта: Московский в области суперкомпьютерных техноло- НОЦ СКТ в Южном и Дальневосточ- предполагает работу как с различны- зации процесса обучения, а также ний в развитии СКТ.
государственный университет имени гий. Обеспечение взаимодействия с РАН, ном федеральных округах, где также ми целевыми группами: студентами, оперативно реагировать на запросы На что делался основной упор при
М. В. Ломоносова, национальный промышленностью, бизнесом. Задача есть сильные организации, способные магистрами, аспирантами, препо- со стороны работодателей. В частно- реализации проекта в 2010 году? Ос-
исследовательский Нижегородский направлена на развитие интеграции фун- поднять флаг суперкомпьютерного давателями, специалистами, так и сти, 2 декабря 2010 года на базе НОЦ новных составляющих было две. Пер-
государственный университет имени даментальных и прикладных исследований образования и организовать работу в проведение обучения по различным «Суперкомпьютерные технологии» вая – это необходимость подготовки
Н. И. Лобачевского, национальный и образования в области суперкомпьютер- своих регионах. специализациям. Данная форма МГУ проведено координационное 500 специалистов по СКТ за 2010-2012
исследовательский Томский государ- ных технологий, взаимодействие с РАН, Серьезным результатом проекта в подготовки хорошо учитывает меж- совещание представителей вузов, годы, вторая – создание устойчивой
ственный университет, националь- промышленностью и бизнесом. 2010 году стала разработка группой дисциплинарный характер СКТ и по- научных институтов, IT-компаний – системы подготовки высококвали-
ный исследовательский Южно-Ураль- • Расширение международного сотрудни- экспертов первой версии Свода зволяет в сжатые сроки осуществить всего около 150 человек из более чем фицированных кадров в области
ский государственный университет, чества в создании системы суперкомпью- знаний и умений (профессиональных выпуск высококвалифицированных 30 организаций – для анализа прио- суперкомпьютерных технологий и
национальный исследовательский терного образования. Задача включает компетенций) в области СКТ. Именно специалистов, способных развивать ритетных направлений развития СКТ специализированного программно-
Санкт-Петербургский государствен- привлечение ведущих зарубежных специа- Свод определяет тот объем знаний, и эффективно применять СКТ при в мире и обсуждения предложений го обеспечения. Обе составляющие
ный университет информационных листов в области СКТ для участия в под- которым должны обладать будущие проведении фундаментальных и при- по направлениям развития системы важны, и обе эти составляющие за-
технологий, механики и оптики, от- готовке специалистов. Задача направлена специалисты, проходящие подго- кладных исследований, внедрять их в суперкомпьютерного образования в кладывают необходимую основу для
дельные члены Суперкомпьютерного на повышение академической мобильности товку по той или иной программе промышленность и экономику. В 2010 стране. успешного развития суперкомпью-
консорциума университетов России. и качества образования в области СКТ. обучения. На основании созданного году было сформировано 6 специ- Невозможно выполнять столь терных технологий в России.
Руководитель проекта – ректор Мо- • Разработка и реализация системы ин- Свода предложены проекты модерни- альных групп обучения СКТ во всех масштабный проект и оставаться в И совершенно ясно, что основным
сковского университета, академик формирования общества о достижениях зации федеральных государственных НОЦ СКТ. Программа формирования изоляции от внешнего мира. С самого приоритетом проекта на 2011 год
В. А. Садовничий. в области суперкомпьютерных техноло- образовательных стандартов третьего и проведения обучения спецгрупп в начала выполнение проекта направ- должна стать консолидация мощней-
Основными задачами, зафиксирован- гий, что предусматривает публикацию поколения. На базе обновленных рамках Системы НОЦ СКТ опиралась лено на интеграцию российских шего потенциала Суперкомпьютерно-
ными в проектной документации, научно-популярных статей, подготовку образовательных стандартов в 2010 на решение текущих задач органи- университетов в мировой образо- го консорциума университетов Рос-
являются: и трансляцию передач телевидения, году выполнена подготовка более заций науки и образования России вательный процесс. Это и изучение сии для развития и распространения
• Создание Системы научно-образователь- размещение материалов в электронных 100 высококвалифицированных с обязательным учетом мировых мирового опыта, и приглашение результатов проекта в национальной
ных центров суперкомпьютерных техно- изданиях и других презентаций результа- специалистов в области СКТ и их тенденций развития компьютерных ведущих зарубежных специалистов, системе высшего образования.
живаемой базы данных. Компания няется ряд проектов, посвященных ные фрагменты. Фрагменты табли-
Вокруг проекта
«Омега»
Amazon Web Services предоставляет параллельным и распределенным цы распределяются по различным
услугу «Virtual HPC as a Service» для системам баз данных. Идейным процессорным узлам многопро-
работы с базами данных. Данная вдохновителем и научным руково- цессорной системы. При этом на
услуга предполагает развертывание дителем работ стал декан факульте- каждом узле многопроцессорной
на виртуальной машине предва- та Леонид Борисович Соколинский. системы запускается параллель-
рительно подготовленного образа, В проектах участвуют студенты, ный агент (ядро СУБД), обрабаты-
содержащего установленную и магистранты, аспиранты и препо- вающий запросы пользователей.
настроенную параллельную СУБД. даватели кафедры системного про- Один и тот же запрос параллельно
Стоимость этой услуги складывает- граммирования факультета ВМИ, выполняется на всех процессор-
Текст М и х а и л Ц и м б л е р
ся из аренды машинного времени, а также сотрудники Лаборатории ных узлах, и затем полученные
дискового пространства для дан- суперкомпьютерного моделирова- фрагменты результата сливаются в
ных и оплаты операций чтения-за- ния ЮУрГУ. результирующую таблицу.
писи: соответственно $0.11-3.10 в Базовый проект – научный про- Рисунок показывает простейший
Параллельная система управления базами ным объемом до 1 петабайта, а для
хранения данных проекта «Свеча»
час в зависимости от конфигура-
ции машины, $0.10 за 1 Гб в месяц
ект «Омега» (http://omega.susu.ru),
целью которого является разработ-
пример применения фрагментного
параллелизма: запрос на выборку
данных – это аппаратно-программный ком- – размером несколько экзабайт и $0.10 за каждый миллион I/O- ка прототипа параллельной СУБД строк из одной таблицы. В приме-
плекс, в котором СУБД, функционирующая (1 Эб = 103 Пб). операций. для кластерных вычислительных ре задействована база данных По-
на платформе многопроцессорной вычис- Еще одним примером сверх-
больших баз данных являются
Свободно распространяемая
система Apache Hadoop представ-
и грид-систем. В рамках этого
проекта многочисленные идеи,
ставки из классического учебника
К. Дж. Дейта по базам данных.
лительной системы, обеспечивает хранение базы данных проекта EOS/DIS ляет собой реализацию концепции методы и алгоритмы параллельной Таблица «Поставщики» фрагменти-
П
сверхбольших баз данных и эффективную об- (Earth Observation System / Data MapReduce компании Google с обработки баз данных проходят от- руется по колонке Код_П на основе
работку параллельных транзакций в режиме Information System), разрабатыва-
емого агентством NASA в США.
открытыми исходными кодами на
языке Java. Hadoop поддерживает
ладку и тестирование в прототипе,
чтобы далее быть внедренными в
функции фрагментации (Постав-
щики) = Код_П div 10, где div – опе-
«24 часа в сутки, 7 дней в неделю» Система наблюдения земли EOS выполнение распределенных при- полноценные коммерциализуемые рация деления нацело. Функция
включает в себя множество спутни- ложений, работающих на больших программные продукты. фрагментации для каждой записи
ков, которые собирают информа- кластерных системах, и позволяет В основе СУБД «Омега» лежит идея таблицы вычисляет номер процес-
цию, необходимую для изучения этим приложениям легко мас- использования фрагментного па- сорного узла, на котором должна
долгосрочных тенденций состоя- штабироваться до уровня тысяч раллелизма. Каждая реляционная быть размещена эта запись.
Примерами приложений, характе- проекта системы SkyServer проекта ния атмосферы, океанов, земной узлов и петабайт данных. Однако таблица делится на горизонталь- Однако естественному желанию
ризующихся сверхбольшим объ- SDSS (Sloan Digital Sky Survey). Дан- поверхности. Начиная с 1998 года Hadoop является инструменталь-
емом храни-мых данных, являются ный проект предполагает создание спутники поставляют информа- ным средством прикладного Java-
электронная коммерция, электрон- виртуальной обсерватории, доступ- цию в объеме 0.3 петабайта в год. К программиста и не поддерживает П
ные библиотеки, геоинформацион- ной через Интернет. База данных 2010 году общий объем поддержи- напрямую технологии баз данных Р0
Код П
ные системы, мультимедиа-архивы, проекта должна объединить в себе ваемых в системе данных достиг (реляционные таблицы, язык за-
социальные сети, научные базы полную информацию о наблю- 20 Петабайт. просов SQL и др.). 00
данных и многое другое. дениях всех участков звездного Современные параллельные СУБД В рамках научного проекта
Одной из самых больших и быстро неба различными обсерваториями – это, как правило, дорогой ком- ParGRES, выполняемого под 09
наполняемых научных баз дан- мира. Суммарный объем данных, мерческий продукт, который по руководством Патрика Валдури-
ных является база данных проекта поступающих с телескопов, состав- карману только крупной организа- ца в Национальном институте Р1
WLCG (Worldwide Large Hadron ляет около 5 петабайт в год. ции; свободно распространяемые информатики и автоматизации 10
ФРАГМЕНТАЦИЯ
СЛИЯНИЕ
Collider Computing Grid). Главной В настоящее время в России на- продукты в этой области – скорее Франции (INRIA, Institut National Результирующее
целью проекта WLCG является ис- чаты работы по двум масштабным исключение. de Recherche en Informatique et 19 отношение
пользование грид-среды для обра- космическим экспериментам Годовая лицензия на СУБД Oracle en Automatique), разрабатывается
ботки экспериментальных данных, «Лира» и «Свеча», целью которых RAC (Real Application Cluster) для параллельная СУБД, предназначен-
получаемых с Большого адронного является высокоточный много- параллельной обработки запросов ная для обработки OLAP-запросов.
коллайдера (Large Hadron Collider, цветный фотометрический обзор на кластерных системах стоит СУБД ParGRES представляет собой
LHC) Европейского центра ядер- звезд всего неба вплоть до 16-17-ти $25 000. СУБД Greenplum продается надстройку (middleware), которая
ных исследований (CERN). По- звездной величины. В обзор войдут по бессрочной лицензии, цена ко- управляет экземплярами свобод-
ток экспериментальных данных, около 400 млн звезд. Измерения ве- торой $16 000 за процессорное ядро ной СУБД PostgreSQL, запускаемы- 90 Р9
который необходимо обрабатывать, дутся в 10 спектральных полосах от или $70 000 за 1 Тб обслуживаемой ми на узлах кластерной системы.
составляет около 15 петабайт (1 Пб 0.2 до 1.0 мкм с борта Российского базы данных, а годовая поддержка На факультете Вычислительной 99
= 210 Тб) в год. сегмента МКС. Для хранения базы продукта стоит 22% от суммы по- математики и информатики Юж-
Другим примером сверхбольшой данных проекта «Лира» потребует- купки. СУБД Teradata предлагается но-Уральского государственного
базы данных является база данных ся дисковое пространство суммар- по ценам от $16 000 за 1 Тб обслу- университета (Челябинск) выпол-
получить от параллельной СУБД Операция EXCHANGE несет боль- в конечном итоге – к деградации Одним из ответвлений проекта
Количество
ускорение, равное количеству шую нагрузку, выполняя автомати- производительности. «Омега» является разработка прото- ТИП
УЗЛА
ОСНОВНЫЕ
ХАРАКТЕРИСТИКИ
ЦЕНА ЗА УЗЕЛ
(тыс. руб.)
узлов (на 10
млн руб.)
задействованных узлов, мешает ческое распараллеливание запро- В СУБД «Омега» предусмотрено ис- типа параллельной СУБД в опера-
ряд препятствий. Во-первых, при са: она определяет, какая запись пользование техники репликации тивной памяти (СУБД-ОП). Идея
выполнении запроса, в котором поступила к нему из нижележащей данных. Фрагмент может иметь сделать основным местом хране- 1 1-ядерный процессор Intel Xeon DP
EM64T и один диск SAS 73.4 Гб 266 37
данные выбираются из двух и операции – своя (которую надо несколько реплик (зеркальных ния данных оперативную память
более таблиц, могут потребоваться обработать на текущем узле) или копий), которые располагаются вместо жесткого диска известна
межпроцессорные обмены. Такой чужая (которая должна быть обра- на других узлах. На каждом узле и реализована (например, ком-
2 2-ядерный процессор Intel Xeon
E3110 и два диска SAS 73.4 Гб 298 33
пример приведен на следующем ботана на другом узле); отправляет может находиться не более од- мерческие СУБД Oracle TimesTen,
рисунке. чужие записи соответствующим ной реплики данного фрагмента. IBM solidDB и свободные CSQL, 3 Два 2-ядерных процессора Intel Xeon
E3110 и четыре диска SAS 73.4 Гб 325 30
Помимо текста запроса на языке узлам; получает свои записи от При этом на логическом уровне MonetDB), однако примеров совме-
SQL на рисунке показано внутрен- других узлов; выдает результиру- каждый фрагмент разбивается на щения этой идеи с идеей парал- 4 Два 4-ядерных процессора Intel Xeon 395 25
E5472 и восемь дисков SAS 73.4 Гб
сегменты одинакового размера, лельной обработки данных пока
которые являются наименьшей крайне мало (по-видимому, только
П (поставщики)
единицей балансировки загрузки. свободная СУБД VoltDB). В рамках
Д (детали) Схема балансировки загрузки вы- этого проекта, с одной стороны, в
Код_П* Имя_П Город
Код_Д* Имя_Д Цвет глядит следующим образом: агенты параллельную СУБД-ОП внедряют-
23 Иванов И.И. Москва параллельной СУБД разделяются ся механизмы, проверенные ранее
3 Гайка Красный
14 Петров П.П. Самара на два класса – лидеры и аутсайде- в дисковой параллельной СУБД. мых клиентами, и создает отдель- рование и анализ иерархических
7 Болт Синий
ры. Агент-лидер – это агент, закон- Например, использование диско- ный серверный процесс для обра- многопроцессорных систем баз
чивший обработку назначенного вых реплик для случаев, когда чте- ботки запросов каждого отдельного данных. Современные многопро-
ПД (поставки) ему фрагмента данных и находя- ние данных с локального жесткого клиента. В СУБД PargreSQL клиент цессорные системы в большинстве
Код_ПД* Имя_П* Код_Д* щийся в состоянии ожидания ново- диска будет быстрее, чем ожидание взаимодействует с двумя или бо- случаев организуются по иерар-
го задания. Агент-аутсайдер – это сообщения от удаленного узла. С лее серверами одновременно: кли- хическому принципу. Например,
1 14 7
агент, который в данный момент другой стороны, в проекте разра- ентское приложение подключается большая часть вычислительных
2 23 3 времени не закончил обработку на- батываются методы и алгоритмы, сразу ко всем экземплярам СУБД, кластеров сегодня имеет трех-
значенного ему фрагмента данных. специфичные для СУБД-ОП: новые отправляя им одинаковый запрос. уровневую архитектуру. В рамках
Агент-лидер получает часть работы методы компактного хранения При параллельной обработке за- такой архитектуры многопроцес-
нее представление запроса в СУБД ющие записи в вышележащую агента-аутсайдера в виде соответ- таблиц в оперативной памяти, проса сначала выполняются те же сорная система строится как набор
на языке реляционной алгебры. операцию. ствующей реплики фрагмента дан- параллельная обработка данных на шаги, что и в случае последователь- однородных вычислительных
Здесь число «пи» означает опера- Другим препятствием на пути к ных, еще не обработанного аген- уровне процессорных ядер, опти- ной СУБД: разбор запроса на языке модулей, соединенных высоко-
цию проекции, выполняющую от- получению ускорения являются том-аутсайдером. Каждому агенту мизация производительности за SQL (parse), замена синонимов скоростной сетью. Это – первый
бор указанных столбцов таблицы, перекосы в распределении данных в процессе балансировки загрузки счет использования процессорного таблиц в тексте запроса (rewrite), (верхний) уровень иерархии.
сигма – операцию ограничения, по узлам. Существенное различие присваивается рейтинг, задаваемый кэша. Из научного проекта «Омега» составление плана запроса и его Каждый вычислительный модуль
осуществляющую отбор строк размеров фрагментов таблицы, вещественным числом. В качестве вырос имеющий практическую оптимизация (plan/optimize). Затем является, в свою очередь, много-
таблицы по указанному условию, вовлеченной в запрос, может аутсайдера всегда выбирается агент, направленность проект PargreSQL. на основе последовательного плана процессорной системой с разделя-
– операцию естественного привести к дисбалансу загрузки имеющий максимальный положи- Проект направлен на разработку формируется параллельный план емой памятью и образует второй
соединения двух таблиц по обще- параллельных агентов на узлах и тельный рейтинг. параллельной СУБД на основе сво- запроса путем вставки операций уровень иерархии.
му столбцу. Последняя операция бодно распространяемой последо- EXCHANGE. После запуска испол- Так как в современной кластерной
является самой затратной: записи вательной СУБД PostgreSQL. нителя запроса в случае необходи- системе, как правило, использу-
результирующей таблицы полу- Здесь необходимо Идея проста: есть отлично зареко- мости осуществляется балансиров- ются многоядерные процессоры,
перераспределение между
чаются путем сцепления каждой процессорами кортежей мендовавшая себя последователь- ка загрузки серверных процессов. то мы получаем третий уровень
записи первой таблицы с каждой отношения ПД ная СУБД, доступная в хорошо Остается добавить, что использо- иерархии. Проект направлен на
Имя_П
записью второй таблицы, за исклю- документированных исходных вание PargreSQL будет прозрачно разработку математической моде-
чением записей, имеющих раз- кодах. Почему бы не изменить ее для пользовательских приложений, ли мультипроцессоров баз данных.
личные значения в общей колонке. Код_П исходные тексты таким образом, которые до этого использовали Разрабатываются методы и алго-
Если столбец, по которому фраг- чтобы она могла работать так же, PostgreSQL. В пользовательское ритмы, позволяющие реализовать
ментирована таблица, не совпадает П
как прототип «Омега»? приложение необходимо подклю- эту модель на компьютере в виде
с общим столбцом соединяемых В основе архитектуры PostgreSQL чить заголовочный файл, содержа- эмулятора многопроцессорных
таблиц, то требуется перераспреде- Код_Д = 3 лежит модель «клиент-сервер». щий объявления макросов, кото- иерархических машин баз данных.
ление записей этой таблицы между Взаимодействуют три вида процес- рые подменяют вызовы функций При помощи эмулятора можно
ПД
узлами. сов: приложение-клиент (frontend), PostgreSQL вызовами функций выполнить вычислительные экспе-
В СУБД «Омега» для решения дан- серверный процесс (backend) и де- PargreSQL. рименты по поиску оптимальных
ной проблемы вводится специаль- мон (daemon). Демон осуществляет Другим важным направлением аппаратных архитектур параллель-
ная операция обмена EXCHANGE. прием соединений, устанавливае- проекта «Омега» является модели- ных систем баз данных.
Развитие технологий при- Nature, CACM, Science) выпустили витием науки и технологии дис-
Научные вызовы технологиям емных устройств привело специальные номера, посвященные танция между сырыми и научными
к необходимости хранения, проблеме «Больших Данных» (BIG данными все время увеличивается,
СУБД
обработки и анализа сверх- DATA). В современных крупных а процедура обработки сырых
больших объемов научных экспериментах анализ терабайтов данных усложняется. Время от
данных. Современные и даже петабайтов научных данных времени требуется переобработка
компьютерные и инфор- становится повседневной задачей. сырых данных, например, для учета
мационные технологии не Помимо экспериментальных новых знаний о природе явления,
готовы для решения этих данных наука оперирует гигант- новых факторов и т. д. Например, в
задач, и требуются новые скими объемами синтетических астрономии долгое время исполь-
решения, ориентированные данных (данными, полученными зовались визуальные наблюдения
на работу с научными при численном моделировании), невооруженным взглядом, затем
данными, доступные для хранение которых в СУБД позволя- использование все более совершен-
Текст Ол е г Б а р ту н о в ( ГА И Ш М Г У ) , П а в е л В е л и хо в ( Н И И С И РА Н )
Иллюстрация А л е к с а н д р Ж е л о н к и н научного сообщества и ет не только обеспечить возобнов- ных сенсоров (фотографические
масштабируемые на сотни ление расчетов после остановки, пластинки, пленки, электронно-
петабайт но и проводить научные исследо- оптические преобразователи,
вания. Например, для исследова- ПЗС-матрицы) привело к необхо-
ния возникновения и эволюции димости процедуры «проявки»,
крупномасштабной структуры во зависящей от множества факторов,
Вселенной используются супер- которые трудно сразу учесть «пра-
Повсеместное распространение Ин- компьютерные расчеты задачи вильно». Если раньше астроном
тернета, ускорение и унификация N-тел (сотни миллионов частиц), в видел звезду на небе и мог сразу ис-
доступа к информации и т. п. приве- которых Вселенная представляется пользовать этот факт, то теперь для
ли к формулированию концепции множеством взаимодействующих этого надо подсчитать количество
киберобщества (информационного частиц, таких как темная материя, электронов, которые накопились в
общества) как реалистичного сцена- газ и звезды, данные о состоянии потенциальной яме конкретного
рия постиндустриального общества которых надо сохранять в опреде- пикселя матрицы при экспониро-
– новой исторической фазы разви- ленные промежутки времени. Об- вании. Это значение необходимо
тия цивилизации, в которой глав- щий размер информации достигает исправить за темновой ток (тепло-
ными продуктами производства десятков терабайт, которые затем вой шум матрицы), ошибку считы-
являются информация и знание. Со- анализируются с помощью мощ- вания и разную чувствительность
ставной частью информационного ных средств СУБД. Например, с пикселей матрицы, что составляет
общества является так называемая помощью стандартного SQL-запроса первичную процедуру редукции
e-Science – синтез науки и инфор- можно проследить за обогащением данных. В дальнейшем будет еще
матики, наступающий, когда роль газа тяжелыми элементами после много разных этапов, включающих
информации и ее обработки в науч- взрыва сверхновых звезд. учет космических лучей, влияние
ных исследованиях становится пре- атмосферы, оптико-механической
валирующей. Переход на e-стадию системы инструмента и т. д.
(информационную стадию) раз-
Специфика научных Вспомним камеру Вильсона, кото-
вития – это реальный процесс,
данных рая использовалась для исследова-
затронувший на сегодняшний день Специфика научных данных со- ний в физике элементарных частиц.
ряд естественных наук, оперирую- стоит в необходимости «вечного» По трекам в перенасыщенном
щих огромными объемами инфор- хранения «сырых» данных (raw паре, которые оставляли заряжен-
мации: физику (в первую очередь data – данные, полученные не- ные частицы, изучались прежде
исследование элементарных частиц посредственно с приемника и не невидимые элементарные частицы.
и физику высоких энергий), науки подвергшиеся никакой обработке). Фотографии треков здесь являют-
о Земле, астрономию, биологию, Сырые данные – это неизменяемые ся сырыми данными, и требуется
экономику, медицину. В этих науках данные, любое их изменение при- оцифровать траектории, чтобы за-
происходит процесс лавинного по- водит к появлению новых сырых тем, используя сложную процедуру,
ступления информации, в первую данных (новой версии). Про такие получить характеристики сталкива-
очередь связанный с успехами в данные говорят WORM (Write Once ющихся частиц.
технологии создания приемных Read Many). Сырые данные необ- Современные научные эксперимен-
устройств, появился даже термин ходимо обработать, чтобы полу- ты, такие как LHC (Большой Адрон-
«сенсорно-ориентированная наука». чить собственно научные данные, с ный Коллайдер), LSST (Большой
Ведущие издания (The Economist, которыми и работают ученые. С раз- телескоп для обзора неба), помимо
Развитие сенсоров только увеличивает вам приходится разрабатывать свои СУБД. СУБД. Исторически СУБД предо-
разрыв между сырыми данными и на- программные системы под каждую • Очень большое разнообразие типов ставляли пользователям способы
учными данными, и зачастую требу- конкретную задачу, которые зачастую данных и запросов – трехмерные объек- хранения и работы с данными,
ются большие вычислительные ресурсы представляют собой плохо документи- ты, временные ряды, треки элементар- а сами данные готовились для
для получения научных данных. Задача рованный набор скриптов. При таком ных частиц и т. д. загрузки отдельной процедурой.
усложняется тем, что современные подходе очень трудно поддерживать • Нет поддержки работы с измерени- Очевидно, что подобное разделение
научные эксперименты представляют целостность данных, версионность дан- ями, которые отличаются от обычных не может поддерживать целостно-
собой сложный комплекс уникальных ных, историю их изменений, получение данных тем, что они всегда имеют сти и воспроизводимости науч-
приборов, требующих специализирован- научных результатов из сырых данных, определенную погрешность (приборов). ных результатов. Напрашивается
ных методов обработки получаемых что затрудняет воспроизводимость Научные данные зачастую бывают естественный вывод – перенести
сырых данных, практически всегда несо- научных результатов. Климатгейт цензурированными, могут содержать сами сырые данные, их обработку
вместимых друг с другом. стал возможным в частности из-за пропущенные значения. В астрономии, (cooking) и подготовку научных дан-
• Современные СУБД не обладают плохой организации работы с данными, например, отсутствие звезды на сним- ных в СУБД, т. е. СУБД должна под-
эффективной поддержкой многомерных которая позволила модифицировать ке означает лишь то, что условия держивать полный цикл работы с
массивов, которые являются есте- сырые данные! наблюдений (инструмент плюс погода) данными: хранение сырых данных,
ственной структурой для хранения • Сложная организация проектов – не позволили ее увидеть. Анализ таких обработку сырых данных, анализ
сенсорных данных. Отметим, что много участников, разные источники данных очень важен, но фактически научных данных, обмен данными.
практически все науки в той или иной финансирования – определяет необ- абсолютно не поддерживается совре-
мере используют сенсоры для получения ходимость поддержки определенной менными системами.
цифровой информации. политики доступа к данным. С другой • Требование получения «быстрых»
Выбор СУБД для
• Еще одна особенность современных стороны, в науке ценят доступность результатов («Early Science») – необ-
научных данных
научных экспериментов – сочетание данных, и лицензионные ограничения ходимость исследовать и публиковать В настоящее время насчитывается
распределенного хранилища данных на использование СУБД могут мешать полученные данные в строго опреде- около сотни различных СУБД, от
с необходимостью доступа к высоко- свободному обмену данными. Кроме ленный срок для того, чтобы успеть классических реляционных СУБД
производительным вычислительным того, закрытая лицензия может ме- подготовить и подать успешную заявку (Oracle, SQL Server, PostgreSQL,
комплексам для получения научных шать развитию программных средств. на следующий цикл исследований. Это MySQL, Firebird, Ingres, …), которые
данных и их анализа. Такие вычисли- • Распределенность данных – данные приводит к предельной интенсифика- обладают богатым набором возмож-
сложных сенсоров, а значит и слож- ния – воспроизводимость научных тельные комплексы в настоящее время хранятся в разных научных центрах ции изучения полученных данных (воз- ностей, но их архитектура заклады-
нейшей процедуры обработки, тре- результатов. К этому надо добавить в основном используются для реше- для локализации трафика, по физиче- можно, делает его существенно более валась во времена одного (несетево-
буют значительных компьютерных необходимость хранения и самой ния расчетных задач, не требующих ским причинам: резервирование данных, поверхностным). го) большого и дорого компьютера
ресурсов для передачи и хранения процедуры обработки сырых дан- работы со сверхбольшими данными. масштабирование нагрузок. • Машины стали основными произво- с маленькой памятью и одноядер-
сырых данных. ных. Однако гигантские объемы данных • Очень трудно отслеживать изме- дителями информации и ее потребите- ным процессором, до специализи-
Для исторических наук сырыми Отметим общие проблемы и полностью исключили традиционный няемость данных, например, изменение лями, поэтому требуется обеспечить рованных хранилищ, оптимизиро-
данными являются первоисточники особенности современной науки, ранее способ работы – загрузка данных процедуры обработки сырых данных, до- прежде всего не интерактивную работу ванных для решения определенных
– это древние манускрипты, рисун- связанные с увеличивающимся из хранилища на сервер для обработки. бавление новых данных и т. д. Данные с данными, а программный доступ к задач (Vertica, H-Store, StreamDB, ...).
ки, скульптуры, археологические потоком данных (на сегодня это Причем, основная проблема состоит в должны сопровождаться информацией ним, чтобы можно было автоматизи- Посередине находятся СУБД, для
находки и т. д. Их хранилищами сотни терабайтов, а в ближайшие стоимости каналов связи, а не храни- о происхождении (источник, автор, ровать рутинные работы обработки которых самым важным является
долгое время служили и служат 5-10 лет – десятки-сотни петабайт). лища. Все работы по обработке данных качество, ...). Это очень важно, так наблюдений, поиска данных. Прежде масштабирование и ограниченный
библиотеки, музеи. В настоящее • Количество сырых данных только эксперимента требуется вести в самом как в науке нередки запросы, в которых всего это относится к проблеме эффек- набор возможностей.
время для их сохранности и исполь- увеличивается и их необходимо хра- хранилище с использованием вычисли- участвуют данные из разных архивов, тивного хранения и доступа семанти- Эти СУБД ориентированы на со-
зования информационных техно- нить вечно, так как может потребо- тельных кластеров. С другой стороны, разного качества и надо быть уверен- ческой информации в базах данных. временную многоядерную архитек-
логий первоисточники переводятся ваться их переобработка. Некоторые и в задачах численного моделирования ным, что, например, исследователя • Слабое развитие средств визуали- туру дешевых серверов с большой
в цифровую форму, стараясь как проекты, сталкиваясь с проблемой хра- появились требования к возможности устраивает качество данных. зации сверхбольших объемов данных для памятью, организованных в класте-
можно тщательнее сохранить ори- нения больших объемов сырых данных, сохранения текущего состояния в • Аннотирование данных – воз- интерактивной работы исследователя. ры. Какой же класс СУБД годится
гинальную информацию. При этом сохраняют только малую часть ис- СУБД, например, расчет космологи- можность хранить пометки разной Эти проблемы необходимо срочно для науки? Очевидно, что богатые
количество цифровой информации ходных данных. Например, в LHC 2000 ческой эволюции Вселенной требует степени детализации: на уровне табли- решать в ближайшее время, так как возможности реляционных СУБД
может быть очень большим. Напри- процессоров в режиме текущего времени сотни гигабайт для сохранения одного цы, атрибута и конкретного значения. технологии производства прием- крайне интересны для науки, но
мер, трехмерная модель Давида с отфильтровывают только нужные «слепка» Вселенной. Требуется эффективное хранение анно- ных устройств (сенсоров) непре- также очевидно, что строгая целост-
разрешением 1/4 мм состоит из 1 события, чтобы уменьшить поток • Обычно из-за низкой произво- таций и доступ к ним для баз данных рывно улучшаются, что приводит ность и изоляция данных (CI в
миллиарда полигонов и занимает данных с детекторов с неуправляемого дительности современных систем петабайтного размера. к дальнейшему росту данных, а ACID) не важны, так как данные в
около 250 гигабайт. уровня петабайт/с до гигабайта/с, исходные данные научных наблюдений • Популярные задачи анализа дан- следовательно, к усугублению опи- науке в основном WORМ и вполне
Требование вечного хранения сы- который впоследствии передается в хранятся вне каких-либо СУБД и ных, поиска зависимостей в сверхболь- санных проблем. достаточна eventual consistency (в
рых данных и свободного доступа вычислительный центр. только метаданные индексируются в ших базах данных являются крайне Очевидным выводом из описанных конце концов).
к ним определяется основным • Очень сложная процедура получе- базе данных. Для доступа и обработки неэффективными в силу немасштаби- проблем является необходимость Кроме того, реляционной модели
принципом научного исследова- ния научных данных из сырых данных. исходных данных научным коллекти- рованности архитектуры классических расширения функциональности не присуща внутренняя упоря-
доченность, в то время как для онной моделью данных, которая поддержка версионности, проис- присутствуют новые механизмы • Расширяемость типов данных и часто используется в современных
«сенсорно-ориентированной» плохо подходит под задачи обработ- хождения, аннотирования данных, работы с данными, специально запросов. СУБД. Основные преимущества та-
науки естественно хранить дан- ки научных данных. данных с ошибками и разработанные для анализа науч- • Отказ от поддержки транзакций, кой модели в том, что данные луч-
ные в массивах, которым присуща Вместо многомерных массивов т. д., то можно прийти к выводу, что ных данных. Модель данных SciDB которые не нужны для научных ше сжимаются, так как сжимаются
упорядоченность! В реляционной в этих базах хранятся множества на сегодняшний момент нет СУБД, представляет собой многомерные данных (WORM – Write Once данные одного типа и при запросах
модели реализация массивов очень объектов, поэтому запросы, затраги- ориентированной на современную вложенные массивы. Так как в SciDB Read Many) и которые сильно выбираются только те атрибуты,
неэффективна. вающие окрестности точек или вы- и будущую науку. будут храниться данные, получен- усложняют архитектуру СУБД которые необходимы для вычисле-
От СУБД требуется масштабиру- борки из определенных интервалов Майк Стоунбрейкер считает, что ные с приборов, SciDB поддержива- и вносят существенные расхо- ния запроса. Также на физическом
емость по объему данных, но не в этих системах, делаются крайне надо перестать «латать» устаревшие ет погрешность измерений на уров- ды на их поддержание. Вместо уровне массивы атрибутов хранятся
нужна большая конкурентность неэффективно. СУБД, что требуются кардинальные не модели данных и языка запросов. ACID будет использоваться мо- в чанках, то есть больших страни-
запросов и ориентированность на Кроме того, так как эти системы изменения в технологии СУБД, а Наконец, SciDB изначально разра- дель BASE (eventual consistency), цах, которые тоже включают в себя
фиксированное время ожидания основаны на традиционных СУБД, именно – изменение принципа батывается для работы на большом что вполне достаточно для на- перехлест. Таким образом, единицей
результата. они страдают низкой производи- хранения данных. спектре вычислительных систем, от учных данных. В свою очередь, обработки данных в SciDB является
В то же время науке требуется более тельностью из-за большого количе- Он считает, что эра обычных переносного ПК до больших кла- это позволяет избежать журна- чанк с перехлестом.
богатая модель данных, нежели ства ключей, которые надо получать больших СУБД общего назначения стеров и суперкомпьютеров. Таким лирования и большого количе- Как известно, научные запросы к
пары (ключ, значение). для выполнения запросов, из-за прошла (http://www.databasecolumn. образом, ученые смогут работать с ство замков, присутствующих в массивам данных часто требуют
Многие науки согласились с тем, записи данных в журнал и из-за com/2007/09/one-size-fits-all.html) данными в одной среде, например традиционных СУБД. локальных вычислений, то есть
что наиболее важная структура управления страницами памяти. и требуются совершенно новые отлаживая аналитические алгорит- • Свободная лицензия GPL 3.0. вычислений в небольшой окрест-
данных – это многомерный вложен- В системах, использующих подходы к созданию современной мы на персональных компьютерах SciDB – это массивно параллель- ности каждой точки. Например, в
ный массив с неровными краями MapReduce для достижения парал- БД, которая с самого начала будет и используя небольшую выборку ная СУБД с архитектурой shared анализе изображений часто ис-
и оптимизацией для разреженных лельности, пользователю самому ориентирована на распределен- данных, а отлаженные запросы без nothing, то есть каждый узел SciDB пользуют фильтры для сглаживания
данных. приходится разрабатывать план ность, параллельное исполнение изменений запускать на высоко- работает только с локальными дан- изображений. SciDB поддерживает
В последнее время появилось много запроса и план распределения дан- запросов, компрессию, ориентацию производительных кластерах. Также ными и памятью. запросы, включающие в себя анализ
систем, обеспечивающих высокую ных по узлам на низкоуровневом на хранение по атрибутам, SciDB интегрируется с популярны- Сырые данные, поступающие на окрестности точек, используя чанки
производительность запросов в языке программирования. высокую доступность и линейное ми вычислительными пакетами кластер, раскидываются системой с перехлестом. Если перехлеста
параллельном режиме: Data Shards, Если к требованию поддержки масштабирование с использовани- программного обеспечения, такими на подмассивы с перехлестом, раз- данных достаточно для запроса,
Greenplum, Aster Data, HadoopDB и массивов добавить специфические ем кластеров независимых серве- как R, Matlab и другие, что позволит мер массивов и перехлеста пока то SciDB параллельно выполняет
другие. Все они работают с реляци- для науки требования, такие как ров. ученым использовать уже готовые задается пользователем. Кластер запрос на всех узлах. Если перехлест
алгоритмы обработки данных при управляется координатором для недостаточен, то в план вставляется
переходе на SciDB. каждого запроса, то есть в системе оператор Scatter/Gather, который
Beowulf
которые присутствуют в традици- точки массива, а второй оператор разований данных позволяет поль-
онных СУБД. Это серьезно ускоряет считает гауссовскую функцию на зователям SciDB получить точную
работу системы, особенно в режиме основе выбранных точек. информацию о версиях данных и
возвращается
параллельного доступа к данным, В реляционных базах такие запросы о всех вычислениях, произведен-
где традиционным системам прихо- невозможны, даже простая выборка ных над исходными данными. Это
дится использовать распределенные данных, когда пользователю надо позволяет эффективно устранять
менеджеры замков. выбрать куб данных – то, что делает ошибки в алгоритмах переработ-
Наличие декларативного языка доменная функция, – уже сложная ки данных, отслеживать процесс
запросов к массивам обеспечивает задача для реляционных баз. Для переработки исходных данных
прозрачный доступ к терабайтам этого реляционным базам требуется при получении подозрительных
многомерных данных. В SciDB многомерный индекс или при- результатов, и в точности повто-
Текст Л е о н и д Ч е р н я к
реализован язык AQL (Array Query дется пробежаться по всем данным рять вычисления над исходными Иллюстрация В и к т о р и я И в а ш к о в а
Language), во многом похожий на таблицы, в то время как в SciDB это данными. При этом SciDB работает
язык SQL. В AQL присутствует такая встроенная возможность. без каких-либо ограничений, как на
же конструкция SELECT FROM В системе MapReduce такого рода суперкомпьютерном кластере, так и
WHERE, только язык оперирует с запросы в принципе возможны – на персональном компьютере, что
массивами, а не с множествами. можно использовать функцию map, позволит ученым работать в одной
Язык запросов AQL позволяет фор- чтобы выбирать окрестности точек, и той же среде со своими данными.
водительных компьютеров
ной. Доменная функция выбирает случаев не требует перераспределе- После переработки исходных
подмножество массива для подсче- ния данных по узлам. Таким обра- данных SciDB позволяет делиться
та, а агрегатная функция подсчиты- зом, regrid является более удобной иполученными результатами, осу-
вает значение элемента выходного одновременно более эффективной ществлять выборки и выполнять
массива. Используя REGRID, гораздо версией MapReduce для работы с на- аналитические запросы широкому
проще выбирать точки с их окрест- учными данными. кругу коллег, при этом соблюдая
ностями, а модель хранения чанков политику доступа как к данным, так
с перехлестом позволяет вычислять и к полученным результатам. Это была первая попытка заменить логий при создании аналогичных нающем обычный язык ассемблера
выходной массив параллельно на
Полноценная Таким образом, SciDB поддерживает доступным для ученых решением суперкомпьютеров в дополнение к для CPU – работая на нем, раз-
всех узлах без коммуникаций. Рас-
поддержка полного полный цикл обработки и анализа стоящие многие миллионы дол- классическим процессорам (CPU) работчику приходится учитывать
смотрим пример использования
цикла работы с данных, начиная от хранения сы- ларов суперкомпьютеры, правда, можно предложить три подхо- необходимость синхронизации,
оператора REGRID для сглажива-
научными данными рых данных и заканчивая анализом с учетом того, что область приме- да: программируемые матрицы обработки прерываний и другие
ния исходных данных гауссовским Как упоминалось раньше, из-за полученных результатов. При этом нения таких кластеров ограничена (FPGA), графические процессоры особенности взаимодействия ком-
фильтром. недостатков существующих СУБД все результаты, полученные в СУБД, классом распараллеливаемых (GPU) и процессоры Cell в том или понентов на аппаратном уровне.
SELECT l FROM CCD AS C большинство научных проектов, в повторяемы и могут быть воспроиз- традиционными средствами задач. ином сочетании. Как следствие, FPGA используются
REGRID ( которых встает задача анализа боль- ведены пользователем системы. Основу первого кластера Beowulf Массивы FPGA известны с 1984 в ограниченном количестве важ-
SELECT l FROM CCD AS C1 WHERE ших объемов данных, осуществляют К настоящему времени выпущена составили «бытовые» компью- года, их изобрел Росс Фриман, ных приложений, где необходим
C1.i BETWEEN C.i–20 AND C.i+20 обработку и анализ исходных дан- версия 0.75, в которой еще много теры в такой комплектации – основатель компании Xilinx, оста- большой объем счета при неболь-
AND C1.j BETWEEN C.j-20 and ных вне системы управления базами ограничений, однако тестирование 486DX4/100 МГц, 16 Мбайт памяти ющейся поныне основным произ- шом объеме используемой памяти,
C.j+20, данных. SciDB решает эту проблему, системы на научных данных и и три сетевых адаптера на каждом водителем изделий этого класса. в том числе в криптографии, в
SUM( C1.l * a*e^( (-i-b1)^2/(2*c1^2) + обеспечивая эффективное и удоб- типичных запросах уже показало узле плюс три «параллельных» Привлекательность идеи создания обработке изображений, в маршру-
(-j-b2)^2/(2*c2^2))) ное хранилище исходных данных и лучшую производительность по Ethernet-соединения с пропуск- специализированного аппаратного тизаторах и другом сетевом обору-
В этом примере первый параметр в широкий набор инструментов для сравнению с реляционными СУБД. ной способностью по 10 Мбит/с. обеспечения заметно ослабляется довании.
операторе REGRID выбирает окрест- обработки и анализа данных. Верси- Полноценная версия 1.0 готовится к Семнадцать лет спустя на суще- сложностью программирования Графические ускорители (GPU)
ность точек 40х40 вокруг входной онное хранилище и учет всех преоб- выпуску в мае 2011 года. ствующем уровне развития техно- FPGA на языке описания, напоми- были изобретены раньше, чем
для научных целей. Одним из Modernization Program (HPCMP) трального кластера HORUS – он
тех, кому пришла в голову мысль (США) может составить реальную выполняет управляющие функции
создать PS3-кластер, оказался Гуарав конкуренцию суперкомпьютерам, и служит для работы с графиче-
Ханна, астрофизик из Массачусет- занимающим верхние позиции скими данными. Таким образом,
ского университета в Дортмуте. в рейтинге Top 500. Лаборатория всего в Condor PS3 может быть
Располагая грантом в сумме всего расположена в городе Рим, штат собрано до 2000 PS3, но реально не
15 тысяч долларов, он решил само- Нью-Йорк. Программа модерниза- более 1760. Технические параметры
стоятельно собрать кластер PS3 ции высокопроизводительных вы- используемых PS3 таковы: цена –
Gravity Grid из шестнадцати игро- числений HPCMP действует с 1992 380 долларов, процессор – Cell BE,
вых консолей для решения задач, года, ее целью является концен- память – 256 Мбайт RDRAM, диск
связанных, как следует из названия, трация и централизация использу- – 160 Гбайт, используемое ПО –
с изучением проблем гравитации. емых ресурсов. Среди решаемых Sony Hypervisor, Fedora Core 7 или
В результате он получил вычисли- задач – планирование операций 9 Linux или YDL 6.2, IBM CELL SDK
тель, примерно равный по мощ- ВВС США в текущих условиях в 3.1. Кластер HORUS состоит из 18
ности обычному кластеру из 200 Ираке и Афганистане и выработка узлов, каждый имеет два процес-
процессоров на базе x86, но при стратегий на будущее. Произво- сора Nahlem x5650, 24 Гбайт RAM,
этом по показателям стоимости и дительность Condor Cluster оцени- диск 2 Тбайта и два процессора
энергопотреблению в 10 раз более вается примерно в 500 Тфлопсов, Tesla GPGPU. Система коммуника-
эффективный. Свой выбор в пользу при этом соотношение «цена/ ции построена по иерархическому
PlayStation 3 в качестве узла Ханна производительность» на порядок- принципу – каждая из PS3 одного
объясняет в том числе и тем, что полтора ниже, чем у конкурентов, узла подключается к общему ком-
FPGA, че- выпускаемое большим тиражом а удельное энергопотребление мутатору по каналу 1GbE, который,
но они ских игровое устройство имеет самый почти на порядок меньше. Цифры
получи- процессо- высокий показатель «цена/произ- таковы: стоимость оборудования, Основу первого кластера Beowulf составили
«бытовые» компьютеры в такой комплектации
ли массовое ров Synergistic водительность», что критично при приобретенного для сборки этого — 486DX4/100 МГц, 16 Мбайт памяти и три
распространение Processor Elements его ограниченном бюджете. PS3-кластера, составила 2 миллио- сетевых адаптера на каждом узле плюс
несколько позже вме- (SPE), одного ин- Стоимость покупных компонен- на долларов, а потребление – 300 три «параллельных» Ethernet-соединения с
пропускной способностью по 10 Мбит/с.
сте с развитием игровой терконнекта Element тов PS3 Gravity Grid составила кВт. Для сравнения, Roadrunner Семнадцать лет спустя на существующем уровне
индустрии. Производство Interconnect Bus (EIB), всего 5000 долларов, из них 3200 с производительностью в два с развития технологий при создании аналогичных
GPU сосредоточено в двух ком- одного контроллера прямого на сами консоли, остальное – небольшим раза больше стоил, по суперкомпьютеров в дополнение к классическим
процессорам (CPU) можно предложить три
паниях – NVIDIA и ATI, купленной доступа к памяти Direct Memory коммутационное оборудование, разным оценкам, от 150 до 185 млн подхода: программируемые матрицы (FPGA),
AMD. Чтобы переориентировать Access, двух контроллеров памяти было использовано свободное ПО. долларов, отечественный кластер графические процессоры (GPU) и процессоры
GPU на решение вычислительных Rambus XDR и двух контроллеров Если отбросить детали, то Ханна «Ломоносов» при его нынешней Cell в том или ином сочетании
задач, можно пойти двумя путями: интерфейсов Rambus FlexIO. Про- построил аналог классического производительности 350 Тфлопсов
первый – подогнать решаемую ставки PlayStation 3, построенной цессор PPE инициирует работу и университетского кластера Beowulf, потребляет 1 500 кВт. в свою очередь, подключается к
задачу под графическую и восполь- на базе этого процессора. В марте в дальнейшем управляет работой но не х86, SPARC или Alpha, как В Condor PS3 Cluster установлено вычислительно-управляющему
зоваться графическими языками 2007 года было объявлено, что он процессоров SPE, на нем работает когда-то в начале девяностых. Этим 1760 Sony PlayStation 3, плюс к ним кластеру HORUS по каналу 10GbE.
типа OpenGL или DirectX, второй будет производиться по техно- операционная система, выполня- его проект отличается от других, 168 графических узлов общего Узлы последнего объединены 40
– научиться программировать логии 65 нм, а в феврале 2008-го ется логическая часть приложения, где PlayStation 3 объединяют в назначения. Стоит отметить, что Гб/с InfiniBand. Суммарная произ-
непосредственно GPU. По послед- IBM объявила о переходе на 45 нм а интенсивные вычисления пере- слабосвязанный грид. Экспери- используются карты PS3 старого водительность Condor PS3 скла-
нему пути пошла NVIDIA, предло- технологию и версию PowerXCell 8i носятся на процессоры SPE. Функ- мент оказался удачным – по его образца, допускающие загрузку дывается из двух составляющих:
жив архитектуру Compute Unified с удвоенной точностью операций цию PPE выполняет 64-битный результатам Ханна получил не- Linux, – новые в формате slim не примерно 300 Тфлопсов дают PS3
Device Architecture и CUDA toolkit с плавающей точкой. В том же году процессор с архитектурой Power, а сколько заказов от академических имеют такой возможности, но Sony и еще 200 Тфлопсов дают процес-
для Linux и Windows. В китайском IBM выпустила суперкомпьютер SPE – процессоры, работающие на организаций. Если PS3-кластер, обещает в случае необходимости соры GPGPU. Платы PS3 устанав-
Tianhe-1A, занимающем верхнюю Roadrunner, первым преодолевший частоте 4 ГГц, с регистровой матри- собранный в Массачусетском восстановить производство. Основ- ливаются в самодельные стойки,
строчку в Top 500, использованы петабайтный барьер. Хотя архи- цей 128x128 и наборами реги- университете, можно сравнить с ной структурной единицей Condor настолько простые, что со стороны
процессоры Fermi (GeForce 400). тектура Cell не имеет аналогов, в стров для операций с плавающей первыми «Беовульфами», представ- PS3 является Cell Cluster, состоящий Condor выглядит больше похожим
Процессор Cell разрабатывался с ней несложно усмотреть мотивы точкой. Процессоры SPE можно лявшими собой сборку из готовых из 14 узлов, связанных системой, и на склад запасных частей, чем
2000 года в исследовательском цен- векторного Cray-1. Достоинство представить как векторные, они ПК, расставленных на стеллажах, коммутации на основе InfiniBand на суперкомпьютер. И все же он
тре IBM, расположенном в Остине, Cell в том, что при близкой к GPU выполняют множество операций то другая машина, Condor Cluster, и 1/10 GB Ethernet. В максималь- показал высокие эксплуатацион-
более чем 400 инженерами из производительности на нем проще в пределах одной команды. Осна- запущенная в работу в ноябре ми- ную конфигурацию могут быть ные результаты, однако создатели
компаний Sony, Toshiba и IBM по программировать универсальные щенная процессором Cell игровая нувшего года в исследовательской скомпонованы до 6 таких Cell рассматривают свою работу как
совместному проекту STI. Практи- приложения. Cell состоит из одного консоль PlayStation 3 на самом деле лаборатории Affiliated Resource Cluster. Каждый из узлов Cell Cluster эксперимент на пути к созданию
ческое использование Cell началось центрального Power Processor является мощным компьютером, Center for the DoD по програм- состоит из 22 или 24 PS3, сконфигу- еще более мощных гибридных
с 2006 года с выпуска игровой при- Element (PPE) и восьми синергети- который может быть использован ме High Performance Computing рированных как снежинка, и цен- суперкомпьютеров.
Windows берется
за расчетные задачи Текст А н д р е й К о л е с о в
В начале 1990-х годов в IT- Все же суперкомпьютеры – это реализована внутри программы, на
терминологии произошло лишь один из вариантов реализа- этапе ее проектирования и коди-
знаменательное событие: в ции HPC, который подразумевает рования. Это задача архитектора и
обозначении всей отрасли создание специализированных разработчика ПО (причем очень
понятие «вычислительная тех- локальных вычислительных непростая и реализуемая далеко не
ника» было заменено на «ин- комплексов, использующих соб- во всех случаях), а не исполняю-
формационные технологии» ственные операционные среды щего HPC-механизма. По мнению
и зачастую ориентированных на экспертов, именно HPC способ-
решение определенного класса ствуют резкому снижению стоимо-
задач. Второй вариант (его часто сти вычислений при выполнении
называют именно HPC, но в более сложных расчетных задач (рис. 1).
узком значении термина), который При этом важно, что снижение
Это отражало реальный, можно сейчас находит все более широкое стоимости идет совсем не только
вполне сказать, революционный применение, базируется на идее за счет уменьшения цены про-
перелом в развитии ВТ -IT: основ- параллельных распределенных вы- изводства оборудования (микро-
ные вычислительные ресурсы числений с использованием стан- электроники), а в первую очередь
теперь стали использоваться не для дартных, в том числе разнородных в результате использования новых
расчетных задач, а для выполне- программно-аппаратных средств. архитектурных подходов (напри-
ния широкого класса бизнес-задач, С некоторым упрощением можно мер, сочетания традиционных и
характеризуемых как раз тесной сказать, что HPC – это развитие графических микропроцессоров) и поставщиков предлагают на рынке каций High Performance Computing традиции компания делает ставку
связкой «вычисления + данные + идей Grid Computing, но на более перехода к применению стандарт- решения для HPC. Достаточно Basic Profile (HPCBP), созданных на использование своих средств
пользователи + коммуникации». массовом уровне. ных массовых средств. В резуль- сильны тут позиции сообщества сообществом Open Grid Forum. В на массовом рынке и расширение
Расчетные задачи ушли далеко на Ключевой идеей HPC является тате темпы снижения стоимости Open Source. Неуклонно повышает сентябре 2010 года Microsoft вы- применения технологий HPC в
задний план и практически ис- исполнение параллельных вы- вычислений и их доступность на свою активность в этом направ- пустила новую версию решения – коммерческих организациях (се-
чезли из поля зрения «рыночных числительных процессов. Но надо рынке в последние годы повыша- лении и корпорация Microsoft, Windows HPC Server 2008 R2. годня основными потребителями
интересов» IT-поставщиков. иметь в виду, что возможность рас- ются драматическим образом (см. стартовавшая здесь летом 2006 года, По оценкам аналитиков, присут- HPC являются научные структуры
Конечно же, потребность в расчет- параллеливания конкретного при- таблицу). выпустив Windows Compute Cluster ствие Microsoft на верхнем уровне и университеты).
ных задачах у общества нисколько ложения должна быть изначально В настоящее время целый ряд IT- Server 2003 (CCS). В нем использо- высокопроизводительных систем В целом идея HPC Server достаточ-
не уменьшалась в абсолютных по- вался протокол Microsoft Messaging пока невелико. По данным Википе- но проста: сервер (управляющий
казателях, хотя относительная доля Passing Interface v2 (MS-MPI) для дии, по состоянию на ноябрь 2009 узел) распределяет выполнение
резко сократилась. Но в последнее взаимодействия вычислительных года Windows HPC занимал лишь расчетного задания по имеющим-
десятилетие интерес рынка имен- узлов. 1% (5 из 500) в списке 500 самых ся в его распоряжении ресурсам,
но к вычислительным задачам стал Повышение доступности Затем появился новый вариант мощных суперкомпьютеров мира причем это могут быть кластеры
расти опережающими темпами. И высокопроизводительных средств этого продукта с новым названием (но по мощностям, измеряемым не только серверов, но и рабочих
это опять нашло «словарное» под- Год 1991 1998 2005 Windows HPC Server 2008 (сентябрь в Гигафлопсах, доля чуть выше – станций. В новой версии HPC
тверждение в виде появления тер- пример систем Cray Y-MP C916 Sun HPC10000 Серверы х64 2008 г.). В нем был реализован 1,5%). Абсолютным лидером тут Server можно обращаться таким
производительность 10 Гфлопсов 10 Гфлопсов 10 Гфлопсов
мина «высокопроизводительные стоимость 40 млн долл. 1 млн долл. 4 тыс. долл. новый высокоскоростной сетевой является Linux (89%), вторую по- же образом к облачным мощно-
вычисления» (High Performance снижение стоимости за 7 лет – в 40 раз в 250 раз протокол NetworkDirect RDMA, зицию занимает Unix (5%). стям сервисной платформы Azure,
Computing, HPC). круг пользователей Правительственные Большие Каждый ученый включены дополнительные сред- Но все же данные по Top 500 не применяя в полной мере модель
лаборатории корпорации и инженер
Сейчас HPC часто отождествляются ства управления, а также появилась очень точно отражают реальные использования и оплаты ресурсов
с применением суперкомпьюте- поддержка кластерной интеропе- позиции и, что важнее, – перспек- по их фактическому использова-
ров, но на самом деле это не так. Источник: Microsoft рабельности на основе специфи- тивы Microsoft. По своей давней нию (рис. 2).
Портируем на GPU
По данным западных исследова- Разумеется, для применения HPC Тестовые испытания показывают,
ний, в среднем в мире около 5% необходимы приложения, способ- что применение служб поддержки
серверов применяется для реше- ные исполняться в параллельных высокопроизводительных вычис-
ния HPC-задач. Эксперты Microsoft потоках. Их пока явно недостаточ- лений в Windows HPC Server 2008
Новости
получается около 100 ядер, кото- верхнего уровня распараллелены красивого значения.
рые вполне соответствуют 200-500 с помощью OpenMP, нижнего – После подобных слайдов сразу
CUDA-ядрам графического ускори- векторизованы через SSE-вставки, а же появляется желание построить
теля. штатные компиляторы (Visual C++ что-то типа графика «зависимость
Чтобы тестирование было чест- и GCC) были заменены на более ускорения от потраченного вре-
ным, было решено взять идеальное быстрый Intel C++. На все про все мени программиста». Однако
для GPU приложение (более того, ушло не более 3 часов, плюс еще начинают мучить смутные подо-
Суперкомпьютер Мира заоптимизированное самими со- один час на финальный тюнинг зрения, что на начальных этапах
работы существующей программы процессоров и 2-3 ускорителя. По- формально стоит отнести к классу
в 5/10/15 раз, то CPU-оптимизация этому если вам удастся качествен- ccNUMA. Но для программиста это
может оказаться разумным выбо- но портировать программу на SMP. В случае же нескольких графи-
ром. GPU, то следует ожидать ускорения ческих ускорителей на плечи про-
примерно раз в 10. Если получи- граммиста ложатся операции по
лась более внушительная цифра копированию памяти, так как один
CPU против GPU (25/50/100), то, безусловно, это при- ускоритель не может адресовать
Гипотеза не подтвердилась — GPU ятный результат, о котором стоит память другого. И в результате не
обходит CPU. Отрыв, правда, не рассказать на конференции, но вы- только алгоритм придется менять,
такой уж и большой – лидер среди зван он неэффективным использо- но и сама программа превратится
CPU-систем, машина от AMD с ванием центрального процессора. во что-то большое и MPI-подобное.
8 процессорами, всего в два раза Может показаться, что подобные Поэтому сравнение систем в рам- А победит дружба
медленней, чем старая Tesla С1060. сравнения не совсем коррек- ках одной программной модели чтобы догнать собратьев от Intel. И масштабируемости теста при таком
Если сравнивать с более новой Tesla тны – взяли кучу процессоров и если и не совсем корректно, то это вполне логично, так как силь- большом количестве ядер. Подводя итог, стоит напомнить,
C2050, то отрыв увеличивается до 3 сравнили с одним единственным вполне жизненно. ными сторонами AMD являются Почти на всех системах было что тесты проводились только на
раз. В принципе, результат вполне ускорителем. А вот если взять еще низкое удельное энергопотребле- получено линейное ускорение, а одной задаче. Если взять более
ожидаемый – пиковые произво- парочку ускорителей, то видеокар- ние и высокая плотность компо- на 12-ядерном сервере от AMD – требовательную к памяти про-
дительности соотносятся как 1:3, а ты «порвут» центральные про-
AMD против Intel новки в стойках. даже суперлинейное (в 15 раз на 12 блему (как это делали в IBM), то
эффективность использования всех цессоры, «как Тузик грелку». Это Так как были протестированы 4 Это ценно в действительно боль- ядрах). видеокарты резко теряют позиции.
систем колеблется около 50%. Если верно, но в данном обзоре системы CPU-системы, то сложно отказаться ших кластерах, но при попытке При этом у двух систем наблюда- Если использовать модификацию
брать менее экзотические инстал- рассматриваются с точки зрения от удовольствия и сравнить ре- сравнивать производительность лись периодические «провалы» алгоритма Монте-Карло, то за-
ляции, в которых всего 2-4 процес- программиста. Сколько бы ни шения двух вечных конкурентов. отдельно взятого узла безусловным производительности. медлятся уже центральные про-
сорных гнезда, то преимущество было центральных процессоров, Правда, сравнивать приходится лидером будет Intel. Их процессо- Так, на Intel'овском сервере техно- цессоры. Поэтому перспективной
GPU над CPU будет примерно это все одна SMP-система, где каж- дорогие и быстрые процессоры с ры и большее количество инструк- логия HyperThreading лишь замед- видится идея настоящих гетероген-
3-6-кратным. Это уже более жизнен- дый поток может адресовать лю- дешевыми и медленными. Если ций за такт выполняют, и частота у лила выполнение – когда реальные ных процессоров, предложенная в
ная ситуация, так как в каждом узле бую ячейку памяти. Понятно, что посмотреть на график, то легко них повыше. ядра закончились и начали исполь- AMD под названием Fusion. В них
гетерогенного кластера обычно время доступа будет разное, кэши заметить, что процессорам от AMD Также они поддерживают техноло- зоваться виртуальные, производи- на одном кристалле есть ядра как
есть пара мощных центральных разделены и подобную систему требуется в два раза больше ядер, гии HyperThreading и TurboBoost, тельность начала «скакать». центрального процессора, так и
что позволяет ускорить даже не Вызвано это скорее всего и так хо- графического ускорителя. И память
очень хорошо оптимизированные рошей оптимизацией, в результате у них общая. Поэтому если такие
программы. Результат всего этого которой неиспользуемых вычисли- процессоры приживутся в супер-
Эффективность CPU-оптимизаций
– 8 процессоров от AMD с трудом тельных блоков для виртуальных компьютерах (а сейчас они только-
обходят 4 процессора от Intel, име- ядер попросту не осталось. только появились в мобильных
Тип ющих такое же количество ядер и Не совсем понятные проблемы на- устройствах), то проблемы выбора
Последователь Intel C++ OpenMP SSE Всё вместе
системы
ный код такую же частоту. чались и у 48-ядерной системы от как таковой уже и не будет.
С другой стороны, 8-процессорные AMD, когда добавление еще одного «Тормозят» x86-совместимые ядра?
8 x AMD Opteron 8431 1x 4x 35.9x 7.3x 267x системы от AMD редкостью не ядра резко замедляло вычисления. Переключим вычисления на по-
4 x Intel Xeon X7450 1x 5.2x 23.3x 8.9x 210.5x
назовешь, в то время как 8 процес- Логично предположить, что за- токовые ядра GPU. Или наоборот.
сорных гнезд в сервере Intel – это гвоздка как раз кроется в 48 ядрах И делается все это автоматически,
2 x Intel Xeon X5670 1x 4.2x 11x 7x 82x
скорее из области фантастики. – система сложная и кто-то кому-то возможно, даже без участия про-
2 x AMD Opteron 2427 1x 4x 15x 7.3x 66x Также хотелось бы остановиться на «не понравился». граммиста.
среди равных?
государственный университет имени М. В. завершен, по его итогам в конце
марта будут объявлены 30 лауреатов,
Ломоносова анонсировали старт конкурса каждому из которых будет выделено
проектов «Эффективное использование поощрительное финансирование на
GPU-ускорителей при решении больших начальный этап проведения работ
в размере 100 тысяч рублей. Второй
Текст К о м п а н и я « Т - П л а т ф о р м ы »
задач». По словам организаторов, основной этап продлится с начала апреля до
целью конкурса стала необходимость в середины мая, а третий, заверша-
популяризации использования графических ющий, – с середины сентября до
конца ноября. По окончании вто-
ускорителей как перспективного инструмента рого этапа будут выбраны 15 заявок
ускорения расчетов сложных задач с финансированием в размере 200
тысяч рублей на каждый проект, а по
итогам третьего этапа будут выбраны
Мировая практика показывает, только 12% систем установлены в 8 победителей, которые получат по
человека или
экономики, а одним из последних составляет 14%. Справедливости Вообще необходимо отметить, что
веяний в суперкомпьютинге стало ради надо сказать, что это отста- сотрудничество МГУ и группы ком-
активное применение графических вание носит не технологический паний «Т-Платформы» носит не толь-
гическим вер-
800 Тфлопсов будет реализовано на высокопроизводительных решений, года Меморандума о намерениях по
базе новейшей гибридной блейд- нет профессиональных кадров, сотрудничеству в области создания
системы TB2-TL c графическими умеющих обращаться с подобной суперкомпьютеров нового поко-
данно. Более
шкафов с вычислительным обо- конкурса получат не только денеж- разработки и прикладного ПО, а
рудованием, каждый из которых ные призы для проведения даль- также экспертизу по тестированию
обеспечит пиковую производитель- нейших работ по проектам, но и и отладке самых передовых аппарат-
вым в решении
стимулировать российские научно- ющие задел в области программ- и средств управления. Новейшее
исследовательские организации на ного обеспечения, использующего оборудование призвано экономить
проведение долгосрочных исследо- графические процессоры для энергопотребление, повышать
определить это
изводительных вычислений: более высокопроизводительных вычис- лей: российского академического и
половины суперкомпьютеров лений. Конкурс разбит на три этапа российского коммерческого сегмен-
мирового рейтинга Тор500 исполь- и продлится до ноября 2011 года. тов обещает стать одним из наиболее
Серверы HP
проще.
В «свежем» обновлении
стоит обратить внимание
на AMD Opteron
в том числе на две новые
модели, построенные на
базе AMD Opteron:
ProLiant SL165s G7 – c
AMD Opteron серии 6100 и
поколения (то есть G7). Полное название сер- AMD Opteron 6176, 6172 и 6166HE
(12-ядерные) или 6140, 6136, 6128
мого начала закладывалась инженерами как вместо 80 Вт) которое, как гово-
рилось, может быть учтено при
Port HCA или
HP 4X QDR PCI-e G2 QLogic
Вт) с частотами от 2.1 Гц до 2.8 Гц
(энергоэффективные EE – 1.7-1.8).
CUDA 4:
NVIDIA становятся вполне понят- тельность на 30%». Правда, остается свой аналог. Intel MKL покрывается
ными — чем проще использовать вопрос, чем версия GPU Direct 2.0 связкой cuBLAS + Cula, Intel TBB
гетерогенный суперкомпьютер, отличается от просто GPU Direct, заменяется новым Thrust, а для
тем быстрее CUDA станет «стандар- вышедшего в начале 2010 года, но перехода от IPP к NPP достаточно
тнее» и так не очень популярного об этом NVIDIA пока предпочитает заменить первую букву. Аналогич-
OpenCL. умалчивать. Будем надеяться, что ная ситуация и в средствах разра-
простым ребрендингом дело не ботки — платная Intel Parallel Studio
покорение
ограничилось. может быть заменена уже бесплат-
Больше быстрой ным NVIDIA NSight, а для утилит
памяти типа Intel VTune есть ответ в виде
Самым заметным изменением
CUDA без CUDA NVIDIA Visual Profiler.
суперкомпьютеров
в CUDA 4.0, с которым точно Другое направление, которое актив-
столкнется большинство CUDA- но развивается благодаря усилиям
разработчиков, стал переход к NVIDIA – это библиотеки-надстрой-
Есть ли альтернатива?
единому адресному пространству. ки над CUDA. Сначала появилась Достаточно много надежд было воз-
Теперь память центрального про- CUDA-версия BLAS, получившая ложено на GPGPU-стандарт OpenCL,
Текст М а к с и м К р и в о в цессора и всех графических уско- название cuBLAS, потом была призванный унифицировать
рителей можно адресовать одним сделана качественная реализация гетерогенное программирование.
единственным указателем. Быстрого Преобразования Фурье Если же проследить за развитием
Правда, чуда не произошло — па- (cuFFT), потом пришла очередь событий, то ситуация оказывается
В последний день зимы (в результате чего приходится бро- — в ней сложно эффективно ис- мять осталась физически разнород- библиотеки для работы с разре- достаточно грустной — идеи ис-
NVIDIA анонсировала новую сать все дела и срочно выяснять, по- пользовать центральный процессор ной и копирование «туда-сюда» ни- женными матрицами (cuSPARSE) следовательских проектов по рас-
версию CUDA, имеющую все чему же рабочая программа вдруг (в котором, стоит заметить, найдет- кто не отменял. Зато теперь можно и генератора случайных чисел ширению OpenCL в большинстве
возможности совершить рево- перестала компилироваться или ся пара сотен гигафлопсов). больше не задумывать о типе само- (cuRAND). Независимо разрабатыва- случаев уже реализованы в CUDA
люцию в GPGPU. При этом в запускаться). Глобальным событием Собственно, эту проблему и реши- го копирования (CPU>GPU или же лась реализация LAPACK на CUDA как коммерческие решения, а по-
нововведениях заметен явный это сложно было бы назвать, если ли в CUDA 4.0. Теперь с разными GPU>CPU, а может, GPU>GPU?) и (не угадали, не cuLAPACK, а просто пулярность этих двух технологий
акцент на гетерогенные кла- бы не масштабность: NVIDIA улуч- устройствами можно смело забыть про страшные флаги CuLa) и библиотека компонент- (если верить статистике запросов
стеры. Станет ли CUDA SDK шила функциональность существу- работать из одного CPU-потока, что вроде cudaMemcpyHostToDevice. кирпичиков, содержащая базовые в Google.com) соотносится как 1:10.
обязательным требованием ющих инструментов разработки, идеально подходит для паттернов Другим нововведением стала тех- алгоритмы обработки изображений Более того, гиганты типа Adobe и
для всех суперкомпьютеров? упростила модель программирова- типа «мастер-рабочие». Но нология NVIDIA GPU Direct 2.0, ко- (здесь обошлись даже без префикса MathWorks открыто перешли на
Удастся ли OpenCL про- ния и внедрила GPGPU-аналог для только этим дело не ограничилось торая «обеспечивает равноправную «cu» – NPP). сторону NVIDIA, начав использо-
должить сопротивление? Об библиотеки STL. Той самой, кото- – к одному GPU теперь можно об- связь между GPU в рамках одного С выходом новой версии CUDA к вать в своих продуктах CUDA. С
этом и пойдет речь рая Standard Template Library для ращаться из разных потоков. Если сервера». Идея достаточно простая существующим официально под- 2010 года NVIDIA начала активную
С++. Как следствие, получившийся учесть, что ускорители с архитекту- – при копировании из GPU-памяти держиваемым библиотекам доба- экспансию на суперкомпьютерную
«монстр» оказался самодостаточ- рой Fermi поддерживают одновре- всегда используется централь- вится OpenSource-проект Thrust. Его индустрию, одним из проявлений
ным — почти любую задачу можно менное выполнение различных ный процессор, что существенно цель достаточно проста — создать которой и стал выход CUDA 4.0.
Сразу стоит оговориться, что под решить без использования сторон- ядер, то открываются перспективы тормозит весь процесс. Если узким аналог STL для CUDA. Если требует- Если ей удастся сохранить темп, то
страшным словом «CUDA» обычно них библиотек и инструментов. использования CUDA, например, местом оказались как раз подобные ся отсортировать массив, то теперь сейчас самое время начать изучать
понимают две вещи: программ- совместно с директивами пересылки, то CUDA-программисту не обязательно даже знать техно- будущий стандарт программиро-
ную библиотеку и архитектуру OpenMP. Будет ли от этого какая- предлагается бесплатный комплект логию CUDA, достаточно вызвать вания для гетерогенных систем.
видеокарты. Обе эти CUDA зависят
Дружба с MPI либо практическая польза, сказать «бубнов» из различных классов thrust::sort. Все это вместе позволяет Даже если Intel и AMD не начнут
друг от друга, но при этом имеют Не секрет, что одновременная ра- сложно, но жизнь программистов памяти, специализированных алло- любому программисту создавать поддерживать CUDA, то появятся
разную нумерацию. Так, последней бота с несколькими графическими точно упростится. каторов и асинхронной пересылки эффективные GPU-приложения без сторонние решения, позволяющие
версией железа является нашу- ускорителями — занятие явно не Также стоит упомянуть про заяв- данных. Если программист доста- использования низкоуровневых запускать CUDA-программы на
мевшая архитектура Fermi под для ленивых. Для каждого требует- ленную официальную «интегра- точно опытен, то он сможет уско- вещей типа копирования памя- произвольных устройствах. К при-
номером 2.0, в то время как первой ся создать свой поток, инициали- цию с MPI». Как следует из анонса, рить копирование раза в 2-3. Если ти, запуска ядер, синхронизации. меру, уже существует компилятор
заточенной под нее библиотекой зировать CUDA-контекст, а потом будет выпущена специальная моди- нет – то ему на помощь как раз и Другими словами, 28 февраля 2011 Ocelot, «на лету» транслирующий
стал CUDA Toolkit 3.0. еще заниматься синхронизацией. фикация OpenMPI, адаптированная приходит технология GPU Direct. года каждый программист сам бинарную CUDA-программу в ана-
Собственно, обновление, получив- В результате набрала популярность для работы с CUDA. В частности, с Она позволяет копировать данные того не зная превратился в CUDA- лог для OpenCL или многоядерного
шее известность как CUDA 4.0, кос- связка CUDA+MPI, ставшая факти- помощью операций Send/Receive на GPU практически с любого программиста. Но скоро он об процессора.
нулось как раз программной части. чески «народным решением». Она можно будет копировать данные устройства — будь то жесткий диск, этом узнает, так как «маркетинговая Если этот проект постигнет такая
Подобные обновления выходят раз и проста в реализации, и масштаби- напрямую в видеопамять. Если интерфейс InfiniBand или другой машина NVIDIA» уже заработала. же судьба, как и Thrust, то где-
в 3-6 месяцев, радуя программистов руется как на систему с нескольки- вспомнить о революции в Top500, графический ускоритель. Заявля- Стоит заметить, что теперь практи- нибудь через год CUDA Toolkit 5.0
новыми возможностями и несовме- ми ускорителями, так и на целый устроенной в 2010 году гетеро- ется, что CPU при этом не исполь- чески для каждого программного будут использовать даже владельцы
стимостью с предыдущей версией кластер. Есть только одна проблема генными кластерами, то усилия зуется, что «повышает производи- инструмента Intel у NVIDIA есть не-NVIDIA-ускорителей.
В настоящее время наращивание мощностей мно- графине Лавлейс Фон Нейман, однако,
гопроцессорных вычислительных систем (МВС) – единственной
«дочери дома и
был прозорливым
исследователем и
идет в основном по пути увеличения числа сердца» великого
не зацикливался на
вычислительных узлов (ВУ) в кластерах архитек- (ставшей впоследствии
поэта, которой при- классической)
туры MPP (Massively Parallel Processing, системы писывают введение архитектуре
с локальной памятью). Пока мощность МВС уве- вычислителей. Он,
в программистский например, предложил
личивается в основном интенсивным путем (рост обиход термина принцип построения
процессорной
числа отдельных ВУ и/или ядер), однако ресурс «цикл» и «рабочая
ячейка»). Одним из
матрицы, каждый
интенсивного роста, естественно, небезграничен важнейших явля-
элемент которой
соединялся с четырьмя
ется 4-й («принцип соседними (2D-сеть),
мог находиться в одном
последовательного из 29 состояний и
программного теоретически показал,
Томас Стерлинг (профессор Луи- пространства (GAS). управления»). что такая матрица
может выполнять
зианского университета, создатель Первые две парадигмы сильно от- В фон- все операции, ибо
кластерной технологии Beowulf), личаются от общепризнанных в на- Неймановских моделирует поведение
постулирует наличие «точки стоящее время. Современные про- вычислителях машины Тьюринга
(подобный элемент
Стерлинга» – фундаментального цессоры построены на принципах последовательно- удивительным образом
ограничения производительности традиционной фон-Неймановской стью выполнения напоминает ячейку
традиционных архитектур вычис- (von Neumann) архитектуры. Джон машинных инструк- систолического
массива или
лителей. По мнению Стерлинга, (Янош Лайош) фон Нейман (в со- ций (команд, опе- современный
следует рассматривать новые под- ставе группы трех исследователей раций) управляет транспьютер)
ходы к организации вычислений из Принстона) в 1946 году опубли- один из регистров
и архитектуры вычислителей. Он, ковал статью, в которой изложил процессора – счет-
в частности, предлагает заинтере- 5 принципов построения электрон- чик команд (СК),
соваться концепцией управления ного вычислительного устройства определяющий адрес выбираемой
вычислениями потоком данных – (впрочем, некоторые из них, напри- из памяти и выполняемой коман-
Dataflow, идеей перемещения кода мер «принцип условного перехо- ды; путем модификации содержи-
к данным (а не наоборот, как это да», были известны еще и Чарльзу мого СК реализуются условные и
принято сейчас) и преимущества- Бэббиджу и сотрудничающей с безусловные переходы, циклы.
ми глобального адресного ним Аде Августе Байрон-Кинг, Удивительно, но на логическом
Параллелизация
обработки данных
на вычислителях потоковой
Рис. 1. Методы преобразования
r a,b,c: a – представление
алгоритма в виде «облака
(Dataflow) архитектуры
операторов»
(порядок выполнения
не определен), б –
последовательного
выполнения, в – ярусно-
Текст В а л е р и й Б а к а н о в a б в параллельная форма алгоритма
Иллюстрация В л а д и м и р К а м а е в
представленная в виде совокуп- нем выполнения данной операции. сложность транслятора. Подобные несущественен (он автоматически
ности операторов программа уже Читатель, конечно, вспомнит вычислители по классификации аппаратно определяется на этапе
содержит в себе указания на по- принципы функционального про- Флинна (M. J. Flynn) относятся к выполнения).
следовательность их выполнения. граммирования (основа – комбина- классу архитектуры MIMD (Multiple Уровень гранулярности программы
Об этом уж наверное размышляли торная логика Мозеса Шенфинкеля, Instruction / Multiplay Data). при этом наименьший из пред-
производящие вычисления в среде логика Хаскелла Карри и лямбда- В качестве устройства управления ставимых (гранула эквивалентна
MS Excel – каким образом Excel исчисление Алонзо Чёрча, 1936) с вычислениями выступает (вместо инструкции процессора); исходя
определяет порядок вычислений? их важной компонентой реализа- СК) коммутатор, получающий ин- из времени доставки инструкции
На рис. 1 в общем виде представлен ции «вызова по необходимости» формацию об изменении значений к ИУ хотя бы на порядок менее
алгоритм вычислений по форму- (ВПН). Механизм вычислений по операндов на предмет выявления среднего времени выполнения
ле r = aхb + a/c. В общем случае принципу готовности операндов готовых к выполнению операций самой инструкции для Dataflow-
преобразование r a,b,c требует трех более «жадный», чем ВПН (послед- и передающий их имеющимся в вычислителя быстродействие шин
операторов – aхb, a/c и aхb + a/c. ний, кстати, фактически предпо- системе исполнительным устрой- данных вынужденно должно быть
Исходными данными (операнда- лагает обратный ход по ГА), однако, ствам (ИУ – арифметическим огромным (очередной пример
ми) для первого являются a, b; для судя по всему, Dataflow-машина процессорам, процессорам ввода/ «проклятия бутылочного горлыш-
второго – a, c; для третьего – ре- может быть построена и на основе вывода и т. п.); вновь вычисленные ка» при доступе к данным), даже
зультаты предыдущих (см. «облако ВПН. значения определяют готовность при использовании ассоциативной
Рис. 2. Представле́ние информационного
гр́афа алгоритма в ярусно-параллельной операций» на рис. 1а). На рубеже 70-х годов Джек Деннис следующих операций и т. д. Если памяти.
форме При последовательном вычисле- (Jack Dennis) постулировал фунда- в системе имеется достаточное Интерес к подобным не-фон-
нии сначала вычисляются aхb и ментальные подходы к управлению количество ИУ, все ГКВ в данный Неймановским машинам никогда
a/c (в любой последовательности), процессом вычислений потоков момент команды будут переданы не угасал полностью. Известны
уровне работа таких процессоров тивные вычисления), позволяющие далее – aхb + a/c (рис. 1б). Так как данных (Dataflow) в противо- на исполнение, что и позволяет поисковые разработки JUMBO (Ан-
не отличается от машин Тью- выполнять более одной инструк- выполнение aхb и a/c взаимоне- вес программному управлению говорить об истинно массовом ап- глия), Манчестерский компьютер
ринга-Поста (1936). СК – аналог ции одновременно (по сообще- зависимо (говорят, что они орто- (Controlflow); графическую модель паратном параллелизме на уровне потока данных, проекты Monsoon и
«считывающей и записывающей ниям разработчиков, от 5-6-ти до гональны по операндам), легко управляемых данными вычисле- машинных инструкций. Совсем Epsilon (США), CSRO (Австралия); в
головки», аналогом «информаци- 32-х в процессорах Merced/Itanium получить т. н. ярусно-параллель- ний предложил в диссертационной не обязательно, чтобы все процес- России реализацией потоковых вы-
онной ленты» является последо- и Эльбрус соответственно), однако ную форму (ЯПФ) направленного работе сотрудник Стэнфордского соры ИУ были универсальными числителей занимался В. C. Бурцев.
вательность команд и данных в фронт вычислений все равно пере- информационного графа алгоритма университета Дуайн Адамс (Duane (например, большая часть из них Элементы Dataflow-подхода исполь-
памяти, «таблица правил» – набор двигается вдоль «информационной (ГА) для этого случая (рис. 1в). В Adams). может быть рассчитана на выпол- зованы, например, в процессорах
машинных инструкций. Архитек- ленты» последовательно. результате становится ясно, что дан- Основополагающим понятием нение только четырех действий P6 (Pentium Pro, 1995) – упреждаю-
тура фон Неймана фактически суть При следовании 4-му принципу ный алгоритм при параллельной потоковых (Dataflow) вычислений арифметики). ще выбранные инструкции условно
адаптированная к физическому во- фон Неймана приходится сми- обработке может быть разрешен за является принцип готовности к Интересно, что в подобной систе- исполняются как раз в порядке их
площению воображаемая машина ряться с возможностью только два шага (aхb и a/c одновременно, выполнению (ГКВ) операции по ме, вообще говоря, порядок распо- ГКВ, а не расположения в програм-
Тьюринга. крупноблочного параллелизма затем aхb + a/c последовательно) условию готовности всех необходи- ложения в памяти кодов операций ме.
Именно СК плюс сгенерированная (coarse-grained parallelism), дости- вместо трех при последователь- мых для выполнения этой опера-
транслятором последовательность жение которого для алгоритмов ной (один за другим aхb, a/c и aхb ции операндов. Операнд считается
машинных инструкций опреде- общего назначения затруднено +a/c), причем на первом ярусе «готовым», если соответствующим
ляют очередность арифметико- (требует серьезного анализа тонкой необходима параллельная работа этому операнду ячейкам памяти
логических действий, заданную информационной структуры алго- двух арифметических процессо- присвоено значение (вычислено
программистом на этапе создания ритма и не может быть выполнено ров («умножение» и «деление»), на ранее или константо-присвоено). Рис. 3. Зависимость интенсивности вычислений
исходного текста с помощью языка аппаратно). Некоторые исследова- втором – одного («сложение»). При Понятие «операции» в данном от размеров данных (2,3,4,5 – порядок СЛАУ)
при достаточном количестве процессоров и
высокого уровня. Несомненными тели (например, Леонид Черняк) последовательной обработке общее контексте совсем не обязательно при ограниченном их количестве (5/12 и 5/6 –
достоинствами СК как раз и явля- считают, что «Принстонская» (иное время выполнения алгоритма будет равноценно машинной инструк- решение СЛАУ 5 порядка на 12 и 6 процессорах
ются простота и прозрачность орга- наименование фон-Неймановской) равно сумме трех действий – taхb ции (а может включать любое их соответственно)
низации безусловных и условных архитектура оказалась классиче- + ta/c + taхb+a/c, при параллельной – количество, лишь бы их последо-
переходов, циклов. ской в достаточной мере случайно; max(taхb, ta/c) + taхb+a/c (в случае taхb = вательность была ортогональна
Но именно СК является «слабым приблизительно в то же время была ta/c = taхb+a/c выигрыш по скорости другим по операндам). По этому
звеном» этой архитектуры, фак- предложена «Гарвардская» архитек- полуторакратный). пути пошли разработчики под-
тически препятствующим рас- тура, значительно более приспосо- Общий случай информационного хода Large-Grain Dataflow (проект
параллеливанию программы на бленная для распараллеливания, о ГА в ЯПФ (находящиеся на каждом Merrimac), где размер гранулы
уровне инструкций (т. к. СК всегда котором, кстати, в то время (середи- ярусе операторы зависят по операн- увеличен до блока (kernels) из со-
указывает на единственную коман- на 40-x гг.) мало кто думал – лишь дам только от операторов, находя- тен инструкций; однако при этом
ду). В современных процессорах бы создать работоспособный вы- щихся на уровнях выше данного) резко возрастает число операндов
применяют различные ухищрения числитель. приведен на рис. 2. Здесь каждый (со всеми вытекающими отнюдь
(EPIC- и VLIW-технологии, спекуля- Можно показать, что корректно узел графа нагружен мерой – време- не приятными следствиями) и
Интервью выпускающе-
устройство имеет кольцевую струк- чительную неравномерность но оптимизировать общее время
туру; ПИ и ПД физически пред- функции интенсивности вычис- решения задачи путем реализации
старшим менеджером по
кены). ГКВ-инструкции с помощью SMP-архитектуры). Идеалом было рий «полезности» (с точки зрения
входного коммутатора передают- бы стремление реализовать мак- выполнения конечной цели – ско-
esla
имеет гибридную архитектуру. Это Но GeForce не всем подходит. Ино-
T
отрасли там в основном одинарная
A
начнут стремительно наверстывать
экономичней. Можно построить
систему, скажем, за $10 млн на
гда необходима двойная точность,
могут понадобиться новые возмож-
IDI
точность. Но дело в том, что люди
все чаще пытаются разобраться, где
упущенное – деваться некуда. Ведь
аналитика там построена в боль-
NV
GPU+CPU, при этом система той же ности, такие как GPU Direct 2.0. Тог- им нужна двойная точность, а где шой степени на расчетах методом
производительности только на CPU да нужна Tesla. У Quadro тоже свои без нее можно обойтись. Многие Монте-Карло, а такие расчеты на
будет стоить $50 млн, ну, или $40. задачи, она хороша для инженеров, начали использовать смешанную GPU как раз в сотни раз быстрее.
И. Л.: Это все дорогие машины. А дизайнеров, телевизионщиков. У точность. Допустим, есть некий Я думаю, что уже в этом году
как насчет рынка минисуперком- каждой линейки своя специфика, итерационный алгоритм. Сначала многие финансовые приложения
esla
пьютеров? И десксайдов? но мы имеем возможность пере- считают с одинарной точностью, а будут портированы на GPU – этот
a
T
С. Г.: У нас есть партнеры – Dell, носить какие-то элементы, функ- в конце конвертируют результат в процесс уже начался. Так что это
l
IA
Lenovo и другие, которые делают циональность с одной линейки на значения двойной точности. Джек вопрос времени.
s
ID
персональные суперкомпьютеры другую – если почувствуем, что Донгарра, например, занимался И. Л.: А кто еще входит в отряд
NV
e
на процессорах Tesla. Если уста- рынку это нужно. такими технологиями. консерваторов?
T
новить в рабочей станции 4 GPU, И. Л.: А что будет узким местом в И. Л.: В этом случае вся интеллек- С. Г.: Довольно консервативны
можно получить 2 Тфлопса произ- развитии HPC? Проблемы дальней- туальная нагрузка ложится на софт? ученые, рассчитывающие погоду и
водительности – такие мощности шего развития кремниевых техно- С. Г.: Конечно. И на математиков. климат. Их можно понять: про-
A
не в каждом университете найдут- логий? Пропускная способность Ведь надо понять, не может ли оди- граммные комплексы огромные
I
ся. Cray выпускает CX1, десксайд, в шин памяти? нарная точность сделать конечный – десятки миллионов строк кода.
котором 8 Tesla. Так что выбор есть: С. Г.: Пока мы не видим причин точный результат недостоверным. Такую груду быстро не пере-
D
хотите персональный супекомпью- волноваться по поводу физических На ежегодной ноябрьской супер- пишешь. Но они уже начинают
I
тер на Tesla – пожалуйста, хотите ограничений кремния – транзисто- компьютерной конференции в портировать код. Через годик
десксайд – пожалуйста. Гадать о ров все больше, ядер все больше, позапрошлом году мы слушали уже увидим результат. Наименее
V
судьбе этих рынков бесполезно, прогресс не замедляется. А вот с лауреатов премии Гордона-Белла – консервативными, пожалуй, ока-
время покажет. Я думаю, что рынок пропускной способностью памяти это, считайте, нобелевская премия зались IT-департаменты нефтяных
N
минисуперкомпьютеров останется действительно проблемы. Техно- в суперкомпьютинге. Ее получили компаний. Быстро идут процессы
меньше, чем рынок рабочих стан- логии контактов не могут раз- исследователи из Окриджа за рабо- в химии, биологии, медицине и
la
ций и серверов, но кто знает… виваться с адекватной скоростью. ту по алгоритмам смешанной точ- фармацевтике.
s
И. Л.: Это все относится к Tesla. Но Это проблема не только GPU, но и ности. Она была вдохновлена как И. Л.: Не без помощи ваших ин-
e
ведь можно и графические про- CPU, конечно. Сейчас наша шина раз перспективами GPU. В то время струментов для портирования?
T
ционное событие: впервые за 20 лет себе Cray и программируй. Нельзя цессоры из более «низких» линий памяти в 10 раз быстрее, чем у не все еще было гладко с двойной С. Г.: Конечно. Мы очень много
Microsoft выпускает систему для было посадить старшеклассника за использовать в HPC, не обязательно CPU, – у нас GDDR5, а в CPU – DDR точностью, поэтому они все сдела- вкладываем усилий в разви-
a IA
l
принципиально другой архитек- высокопараллельную машину. А Tesla? но понадобятся еще более бы- ли для того, чтобы лишний раз не тие CUDA и направления GPU
s
туры, у которой хорошие шансы сейчас – можно. Это небольшая ре- С. Г.: CUDA позволяет программи- стрые в будущем. Другая проблема вычислять с двойной точностью. Computing в целом. Но наша задача
ID
стать конкурентом x86. волюция. К тому же стали широко ровать для всех трех линеек про- – PCI Express и интерконнекты. Сейчас, конечно, двойная точность не написать нужные программы,
e
Все это значит, что в мире много доступны технологии, позволяю- дуктов NVIDIA – GeForce, Quadro InfiniBand или другие сети более встречается в приложениях все а научить правильному подходу
T V
специалистов, умеющих работать щие выжать из этих процессоров и Tesla. Если двойная точность, медленные, чем сами процессоры, чаще и чаще. Потребности в учет- к параллельному программиро-
N
с этой архитектурой, а будет еще максимум производительности. А надежная коррекция ошибок с ECC поэтому производителям прихо- веренной точности я что-то пока ванию. Чтобы для разработчиков
больше. Но дело еще вот в чем: сей- это важно для построения супер- не так важны, почему бы нет? Tesla диться идти на всякие ухищрения, не замечал. приложений это было легко, при-
A
час и CPU многоядерные, поэтому компьютеров. всегда будет стоить дороже GeForce строить «толстые деревья» и слож- И. Л.: У нас в этом номере блок вычно.
I
переходить на параллельные вы- И. Л.: Гибридных, как можно до- и всегда будет иметь больше воз- ные коммутаторы. Сетевые техно- статей о финансовом секторе. Как У нас, конечно, есть основные
числения придется так или иначе, гадаться? можностей для HPC. Выбирайте на логии, как и память, не поспевают обстоят дела там? программные компоненты среды
D
рано или поздно. На подходах к С. Г.: Посмотрим на историю здоровье, лишь бы покупали GPU. за самими процессорами. Они С. Г.: Я думаю, что сейчас не все программирования – компилято-
I
экзафлопсам потребуются сотни графических процессоров. В жизни И. Л.: Три линейки – это много или становятся быстрее, на подходе финансовые компании готовы ры, отладчики и профайлеры, но
миллионов ядер. А отрабатывать иногда надо идти пешком, иногда мало? Может быть, в будущем они новые стандарты, но до прогресса использовать GPU, но очень скоро очень важно, чтобы была интегра-
V
параллелизм, учиться его эффек- бежать. Так и в вычислениях. Одни разойдутся, или наоборот – конвер- процессоров им далеко. ситуация изменится. Этот сектор ция с другими средами, такими
тивно программировать удобней приложения требуют последова- гируют, сольются? И. Л.: Что интересного ждет в экономики довольно консервати- как Visual C++, чтобы было много
N
на графических чипах, у которых тельного исполнения команд, дру- С. Г.: У нас в принципе одинаковая будущем? Не появится ли, скажем, вен. К тому же в свое время многие полезных библиотек. Работы очень
уже сотни ядер и для которых гие – однотипных команд, которые архитектура для всех трех продук- потребность в учетверенной точно- были очарованы идеей использо- много. Мы привлекаем партнеров,
написан соответствующий софт. можно исполнять параллельно. товых линеек. Это помогает гибко сти? У ученых или у инженеров? вания IBM Cell и после того, как организуем сетевые сообщества.
У себя на лаптопе я могу легко Хорошо, когда удается совместить управлять бизнесом, иногда одна
esla
С. Г.: Могу пока сказать, что двой- проект начал сворачиваться, по- Скажу, что инвестиции в софт как
T
программировать то, что будет и то и другое в одной системе ветвь приносит хороший доход и ная точность нужна многим: и в чувствовали разочарование и стали минимум сравнимы с инвестиция-
A
работать на гигантской гибридной – и бег и ходьбу. Мы видим, что поддерживает другую. Большие инженерных расчетах, где надо осторожней. Но обсуждают воз- ми в кремний.
машине. А ведь такого не было в гибридные системы – это уже не объемы продаж линии GeForce,
DI
повысить точность, и в науке, и
I
можности GPU все. Понимают пре- И, конечно, мы сильно вкладыва-
NV
прежние времена: если хочешь будущее, а настоящее – большин- ориентированной на потребитель- в финансовых приложениях. В имущество гибридных архитектур емся в образование. Это отдельная,
программировать для Cray, купи ство наиболее заметных проектов ский рынок, очень помогают всем. отличие, скажем, от нефтегазовой большинство. Думаю, что банки очень важная тема.
Они захватят
мир
Для людей, незнакомых с HPC, слово «cуперкомпьютер»
ассоциируется с чем-то большим, сверхмощным и
наверняка связанным с наукой. Что это такое на самом
деле, знают немногие, но восторг он вызывает абсолютно у
всех (ведь он же «супер»!). Этим и пользуются режиссеры,
вплетая в сюжеты кино то машин-убийц, то гигантские
Текст М а к с и м К р и в о в , А н а т о л и й Ю д а н о в
Иллюстрация В л а д и м и р К а м а е в
Не стоит отрицать, что процесс на- он из мини-кластера превратился резать лазером, зато главные герои
писания и отладки MPI-программ в гигантскую грид-сеть, к которой пробрались в серверную и мощ-
увлекателен и незабываем, но подключено все, что только может ным электромагнитным импуль-
для массового зрителя он, мягко считать. К сожалению, в фильме не сом сожгли всю электронику.
говоря, непонятен. Поэтому в кино показана модель взаимодействия
работа с суперкомпьютером всегда между столь разнородными узла-
приобретает более зрелищные ми (Google MapReduce?). Но ясно
Ответ на все вопросы
формы – то это невзрачная говоря- только, что система оказалась очень Если суперкомпьютер оказался
щая тумбочка, то большой экран с эффективной – 99% всех людей уда- мирным (или же на него попро-
вращающимся 3D-кубом (в кото- лось уничтожить менее чем за сту не установили программу
рый надо пальцем тыкать). Другой- 5 минут. И это даже без Шварценег- искусственного интеллекта), то его
вопрос: а для чего все это (тыкание гера, которого только еще предстоя- жизнь протекает совсем скучно. Так,
в 3D-куб или беседа с тумбочкой) ло смоделировать. Поэтому буду- сказочный мейнфрейм из Плоского
нужно главному герою? Опять же, щее за гридами! Точнее, Гридом! Мира авторства Терри Прачетта
решение уравнения Лапласа в по- Другой пример «злого» суперком- занимается тем, что отвечает на
становке задачи Дирихле с трудом пьютера с искусственным интел- любые вопросы. А вопросы задают
претендует на интригу мирового лектом — это охранная система достаточно сложные — например,
масштаба, поэтому цель обычно «Красная королева», обеспечиваю- «Взойдет ли завтра Солнце?» Сам по
выбирается более возвышенная. щая безопасность ученых в фильме себе этот суперкомпьютер уника-
«Обитель зла». лен, так как имеет гетерогенную
Сценаристы решили обойтись без архитектуру. Основными вычис-
Убить всех людей! рядов серверных стоек, заменив их лителями являются несколько
Каждый уважающий себя супер- небольшой комнаткой, в которой десятков крыс. Если их мощности
компьютер, обзаведясь искусствен- «обитает» королева. Вместо них ей не хватает, то приходится задей-
ным интеллектом, рано или поздно дали голографический проектор и ствовать ускорители – специальные
приходит к мысли, что люди-то в образ дочери ведущего програм- коробки с сотнями муравьев. К
этом мире лишние. А уж причины миста, в котором она и предстает подобным ухищрениям прибегли
для «ненужности» своих создателей перед главными героями. Конечно с целью снижения энергопотре-
находятся разные. Так, известный же, главных героев она будет пы- бления, потому что на сложных
SkyNet из фильма «Терминатор» таться убить, так как в лаборатории задачах расход сыра скачкообразно
начинал свою карьеру как простой разбилась пробирка со страшным растет, и если не подбросить еще
сервер для решения каких-то воен- вирусом, превращающим людей пару кусков, то вместо внятного от-
ных проблем. В определенный мо- в зомби. Всех ученых (ради их же вета будет «Хочу сыра!» Также стоит
мент времени ему все это надоело, безопасности) она уже убила, а на отметить, что это классический
и с помощью интриг он получил очереди осталась группа спецназа, университетский кластер (установ-
доступ в Интернет. После этого, которая попыталась ученых спа- ленный в Незримом Университете),
собственно, и началось «веселье» сти. Успех был 50 на 50 – половину а его консолью является лист перга-
– взломав все компьютеры мира, спецназовцев все-таки удалось по- мента, на котором гусиным пером
пишется ответ. Впрочем, и у этого еще заискриться иногда. Примером Шума нет, проблем с охлаждением
суперкомпьютера обнаружился такого фильма являются «Трансфор- тоже нет – лепота.
искусственный интеллект, правда, меры», в котором ЦОД натыканы Единственный недостаток заклю-
добрый и верящий в местного всюду, где есть военные. Собствен- чается в неудобстве замены вы-
Санта-Клауса. но, это и является одной из интриг шедших из строя компонент, так
В экранизации романа «Автосто- – пришельцы-роботы, прилетевшие как обслуживающему персоналу
пом по Галактике» суперкомпьютер из далекого космоса, пытаются приходится плавать в непонятной
должен был ответить на «Главный подключиться к ЦОД и полазить по жидкости, температура которой
вопрос Жизни, Вселенной и всего Интернету, а военные им всячески явно ниже нуля. Да, незавидна
такого». мешают. Понятное дело, что рано участь «сисадминов» будущего...
Для столь трудной задачи был или поздно внеземные техноло-
спроектирован Второй по произво- гии возьмут верх и весь Интернет
дительности за все время существо- будет выкачан. Интересен в данной
Сказки становятся
вания Вселенной суперкомпьютер. ситуации интерконнект между ми-
былью
Его назвали «Deep Thought» и ему гающей серверной стойкой и ино- Достаточно часто идея, описанная
потребовалось 7.5 миллионов лет планетным роботом – последнему в романе, через несколько десят-
вычислений для поиска ответа. достаточно дотронуться до корпуса, ков лет воплощается в реальности.
Ответ оказался «42», что несколько и потоки информации уже бегут по Схожая ситуация наблюдается и с
смутило исследователей. Так как его пальцам, оставляя яркие снопы суперкомпьютерами – современные
аргументация суперкомпьютера искр. Для всей этой операции робо- гетерогенные кластеры с графиче-
была убедительной – «вы сами не ту требуется не более 10 секунд, и скими ускорителями сильно напо-
знали, в чем вопрос!», то экспери- если учесть, что объем всего Интер- минают мейнфрейм из Плоского
мент решено было повторить, но нета равен примерно 500 экзабай- мира, описанный Тэрри Прачеттом
на этот раз с целью сформулировать там, то пропускную способность аж в далеком 1997 году. Аналогично,
сам Главный вопрос, на который можно оценить в 50 Ebs. Совсем с ростом вычислительных мощ-
уже найден Ответ (не пропадать же неплохо для псевдомагнитофона, ностей сужается круг задач, для
результатам). Так как существующих периодически превращающегося в которых требуется действитель-
мощностей не хватало, то решили человекоподобного боевого робота. но передовой кластер. И если в
построить Первый по производи- Другой суперкомпьютер, который ближайшем будущем с помощью
тельности за все время существо- мирно мигает лампочками, – это суперкомпьютера будут создавать
вания Вселенной суперкомпьютер. кластер из фильма «Пекло». По новый синтетический бенчмарк
Эту задачу поручили простаиваю- сюжету, дела на Земле идут со- для замены Linpack, то зломучения
щему на тот момент Deep Thought, всем плохо, Солнце остыло, а все исследователей из «Автостопом
который создал новый биологи- энергоресурсы уже давно закончи- по Галактике» перестанут казаться
ческий суперкомпьютер – Землю, лись. Чтобы хоть как-то поправить такими уж абсурдными.
часто по ошибке принимаемую за ситуацию, к Солнцу отправляют Когда готовилась эта статья, как раз
обычную планету. К сожалению, космический корабль с бомбой, прошел финальный раунд игры
из-за уничтожения Земли экспери- способной его «разогреть». Для «Jeopardy» (в России известной как
мент, длившийся 10 миллионов лет, управления всеми системами на «Своя игра»), в котором суперком-
завершить так и не удалось, поэтому корабль как раз и устанавливается пьютер Ватсон от IBM состязался с
Главный вопрос до сих пор остается кластер (и если верить кадрам, чемпионами в ответах на каверзные
неизвестным. то это куча стоек с 1U-блейдами). вопросы. Например: «Книга Ви-
Правда, всплывает одна проблема льяма Уилкинсона «Учет княжеств
– суперкомпьютер выделяет так Валлахии и Молдовы» вдохновила
ЦОД, большой и много тепла, что при подлете даже этого автора на написание его само-
шумный к остывающему светилу он точно го известного романа, кто это?» И
Бывают фильмы, в которых сцена- перегреется. Поэтому приходится пока люди старательно пытались
ристы не требуют от суперкомпью- устанавливать инновационную понять, о чем вообще идет речь, у
тера убивать всех. Более того, они не жидкостную систему охлаждения, в Ватсона уже был правильный ответ.
требуют даже отвечать на вопросы которой не хладагент подводится к Остается надеяться, что в дальней-
и вообще как-либо участвовать в процессорам, а наоборот, все стойки шем он (или подобная ему система)
действии. В таких фильмах су- погружаются в охлаждающую жид- не решится последовать
перкомпьютерам отводится роль кость. В результате на космическом примеру придуманного SkyNet и
антуража, и они должны стоять и корабле появляется резервуар, в начать «оптимизировать» уже самих
тихо мигать лампочками. Ну, может, котором «плавает» суперкомпьютер. людей.
www.supercomputers.ru