Numerical Wind Tunnel
VPP500
VX, VPP300, VPP700

Основным способом построения наиболее мощных суперкомпьютеров в последние годы становится конструирование систем с массовым параллелизмом (MPP). При этом используется 2 основных типа процессорных элементов (ПЭ): 1) на базе микропроцессоров, как правило, RISC-архитектуры, - тех же, что применяются в рабочих станциях и серверах; 2) специально разработанные ПЭ, в которых реализованы операции над векторами. Первый тип МРР-систем более распространен и уже давно представлен на рынке, в то время как векторно-параллельные системы до последнего времени имели довольно ограниченное число процессоров и не относились к классу МРР. Недавно мы рассказывали о компьютерах NEC SX-4, старшие модели которых можно отнести к МРР-системам. Сегодня мы представляем читателю другие суперкомпьютерные векторно-конвейерные системы, также относящиеся к классу МРР. Это компьютеры VP-архитектуры другой известной японской фирмы - Fujitsu.

Данные компьютеры уже давно занимают верхние строчки "табели о рангах" - в тестах Linpack parallel. Мы постарались привести больше иллюстраций - рисунков и таблиц, дающих наглядное представление о рассматриваемых компьютерах. Вместе с тем, как и в предыдущих публикациях, больше внимания уделено тем особенностям компьютеров, которые актуальны в отечественных условиях. Так или иначе, но суперкомпьютеры, пусть не самые мощные, инсталлируются в нашей стране, а вопрос наиболее эффективного выбора столь дорогостоящих систем представляет особое значение.

Numerical Wind Tunnel

В 1993 г. фирма Fujitsu анонсировала серию компьютеров VPP (Vector Parallel Processor), поставив целью достижение производительности свыше 100 GFLOPS. Первой системой Fujitsu, которую можно отнести к массивно-параллельным векторным компьютерам, стала Numerical Wind Tunnel. Это предшественница собственно компьютеров серии VPP (точнее, VPP500). Вообще, большие дорогостоящие суперкомпьютеры - это "долгоиграющие" системы. В отличие от рабочих станций и серверов (о персоналках мы уже не говорим), они в течение долгого времени остаются в лидерах, обеспечивая выполнение сложных задач, которые невозможно решить на менее мощных системах. Точно так же и Numerical Wind Tunnel: возглавив с момента своего появления список TOP500, эти компьютеры и по сей день находятся в первых строчках таблицы производительности на тестах Linpack parallel. Правда, первые 2 места в ней стали принадлежать Intel Paragon XPS, а в ноябрьской версии таблицы на первом месте оказался компьютер CP-PACS, имеющий 2048 процессоров PA-RISC c тактовой частотой 150 МГц (см. таблицу 1).

Разработка Numerical Wind Tunnel велась Fujitsu совместно с Национальной аэрокосмической лабораторией Японии (NAL). В компьютере использована, в частности, современная технология GaAs c задержкой на вентиль 60 пикосекунд, а время цикла составило 9,5 нс. Каждый процессор имеет по 4 конвейера, любой из которых может выполнять 2 команды типа "умножить и сложить". Итого пиковая производительность процессора составляет 1,7 GFLOPS. Каждая процессорная плата Numerical Wind Tunnel содержит 256 Мбайт оперативной памяти (как и в большинстве МРР-систем, в компьютере используется физически распределенная оперативная память).

На ряде задач вычислительной динамики жидкости, например, в прямом моделировании изотропной турбулентности с 512x512x512 Фурье-компонентами, NAL достигла производительности 100 GFLOPS. В Фурье-преобразовании на 128-процессорном компьютере производительность превышает 60 GFLOPS. По сравнению с Intel Paragon XPS на тестах Linpack parallel (см. таблицу 1) Numerical Wind Tunnel достигает близкой производительности при гораздо меньшем числе процессоров и меньших размерностях задачи.

Компьютер
n ЦП
Rmax GFLOPS
Nmax
Rpeak GFLOPS
CP-PACS
2048
368,2
103680
614
6708
281,1
128600
338
Intel Paragon XPS
6144
256,2
122500
307
5376
223,8
114500
269
167
229,7
66132
281
Numerical Wind Tunnel
140
195,0
60480
236
128
179,2
56832
216
153
200,6
62730
245
128
170,2
66832
206
64
89,3
41472
102
VPP500
32
46,1
29760
51
16
23,6
21120
26
8
12,0
14960
13
4
6,1
10560
6,4
VPP300
16
34,1
69200
35
4
8,6
2880
8,8
Примечание: Rmax и Rpeak - соответственно достигнутый и пиковый
уровень производительности.

Таблица 1. Данные тестов Linpack parallel.

VPP500

В ПЭ VPP500 используется BiCMOS/GaAs-технология. Время цикла процессора составляет 10 нс. Основными блоками VPP500 являются: 1) ПЭ, выполняющие арифметические операции; 2) управляющие процессоры, которые осуществляют контроль над всей системой; 3) коммутирующая сеть (crossbar network), связывающая все блоки системы в единое целое. В коммутирующую сеть VPP500 может подсоединяться 222 ПЭ и 2 управляющих процессора. ПЭ имеют по 2 независимых канала (для чтения и записи), с пропускной способностью в 400 Мбайт/с каждый. В ПЭ поддержку этих каналов обеспечивает специальное устройство посылки и получения, которое может осуществлять прием/передачу данных одновременно с выполнением в ПЭ арифметических операций.

В отличие от многопроцессорной векторно-конвейерной системы NEC SX-4, в VPP500 не используется разделяемая память. Каждый ПЭ обладает своей локальной оперативной памятью (ОП), применяющей синхронную SRAM-технологию. Она имеет высокую пропускную способность - 6,4 Гбайт/с для загрузки плюс столько же для записи в ОП, что очень важно для векторных компьютеров, требующих высокой скорости обмена данными с ОП. Хотя ОП является физически распределенной, она полностью может быть адресована посредством примитивов разделяемой виртуальной памяти. Для обеспечения этой возможности коммутирующая сеть имеет аппаратуру глобальной адресации, которая осуществляет передачу пакетов данных между локальными модулями ОП в ПЭ через упомянутые выше каналы. Эта аппаратура позволяет скрыть от программиста, что физическая ОП распределена, и предлагает ему "однородное" (flat) адресное пространство.

Используемые в ПЭ процессоры имеют пиковую производительность 1,6 GFLOPS. Такой показатель достигается за счет векторного устройства, входящего в состав каждого ПЭ и содержащего 6 конвейеров: для умножения, сложения/логики, деления, маскирования, загрузки и записи в память. Построение VPP500 из ПЭ обеспечивает масштабирование системы до пиковой производительности 355,2 GFLOPS.

Однако в системах VPP500 пока еще не реализовано полное масштабирование. Это связано с тем, что один из процессоров должен выступать как фронтальный. На него ложатся все функции управления вводом/выводом и очередью заданий. Кроме того, архитектура коммутирующей сети в VPP500 не оптимальна при очень большом числе процессоров. Из таблицы 1 видно, что характеристики производительности VPP500 и Numerical Wind Tunnel на тестах Linpack parallel близки между собой. Данные о производительности VPP500 на "обычных" тестах Linpack приведены в таблице 2.

Компьютер
Производительность (MFLOPS)
N=100
N=1000
Пиковая
VX
203
1936
2200
VPP500
206
1490
1600
DEC Alpha Station 500 (500 МГц)
236
580
1000
DEC 4100 5/440
206
588
480

Таблица 2. Производительность процессоров на тестах Linpack.

VX, VPP300, VPP700

В этих сериях компьютеров, разработанных и выпускаемых фирмой Fujitsu, удалось решить 3 основные задачи: добиться хорошей масштабируемости, "повсеместного" использования КМОП- технологии и отличного соотношения цена/производительность. Все эти компьютеры используют однотипные ПЭ, а их архитектура близка к архитектуре VPP500. Основным архитектурным усовершенствованием ПЭ, по сравнению с VPP500, стало появление в них портов ввода/вывода (в VPP500 за ввод/вывод отвечал фронтальный ПЭ). Максимально допустимое число ПЭ возрастает в ряду VX-VPP300-VPP700. Старшие модели (серия VPP700) анонсированы весной нынешнего года.

В таблице 3 приведены основные характеристики конфигураций этих моделей. Из нее видно, что Fujitsu действительно удалось добиться высокого уровня масштабируемости: от 1 до 256 ПЭ, от 2,2 до 563,2 GFLOPS пиковой производительности (2,2 GFLOPS на ПЭ), ОП емкостью от 0,5 до 512 Гбайт. Использование 0,35-микронной КМОП-технологии позволило не только удешевить систему, но и обеспечить работу с воздушным, а не с более дорогим жидкостным охлаждением даже на VPP700, имеющем свыше 200 ПЭ. Последнее удалось благодаря малому рассеянию тепла, характерному для КМОП-технологии фирмы Fujitsu. Напомним, что старшие модели NEC SX-4 требуют жидкостного охлаждения.

Серия
Число ПЭ
Пиковая производительность GFLOPS
Емкость ОП, Гбайт
Пропускная способность, Гбайт/с
VX
1 - 4
2,2 - 8,8
0,5 - 8
18,2 - 72,8
VPP300
1 - 16
2,2 - 36,2
0,5 - 32
18,2 - 72,8
VPP700
8 - 256
17,6 - 563,2
4 - 512
-

Таблица 3. Конфигурация компьютеров.

С учетом того, что большинство инсталлированных в нашей стране суперкомпьютеров имеет пиковую производительность в пределах нескольких GFLOPS, младшие модели серии VX, по всей видимости, представляют наибольший интерес для потенциального российского потребителя. Каждый ПЭ серии VX может включать 0,5 или 2 Гбайт ОП. ОП строится по синхронной DRAM-технологии и имеет время доступа 60 нс. ПЭ - это плата размером 15"х19". В шкафу VX может разместиться до 4 плат. Время задержки на вентиль (40 нс) в VX/VPP300 ниже, чем в VPP500, а пиковая производительность - соответственно, выше. Однако максимум быстродействия на тестах Linpack parallel в этих компьютерах достигается при значительно больших размерностях (см. таблицу 1). ПЭ компьютеров VX/VPP300/VPP700 имеют более высокую производительность, чем современные RISC-микропроцессоры, на тестах Linpack при N=1000. Однако на более коротких векторах (N=100) их уже опережают 500-мегагерцевые микропроцессоры DEC Alpha 21164 (см. таблицу 2).

В составе программного обеспечения рассматриваемых компьютеров - параллелизующие и векторизующие компиляторы с Fortran 90 и С, системы обмена сообщениями MPI, PVM и PARMACS и др. инструментальные средства. Мы не можем подробно остановиться на программном обеспечении систем VPP. Отметим только одну интересную разработку Fujitsu - mrfs (memory resident file system), позволяющую использовать преимущества громадного объема физической ОП этих компьютеров и располагать файлы прямо в ОП.

На наш взгляд, компьютеры Fujitsu VX (возможно, вместе с самыми младшими моделями NEC SX-4) могли бы составить определенную конкуренцию суперкомпьютерным системам, продаваемым на российском рынке. Поставки этих компьютеров фирмы Fujitsu в Европе осуществляет известная немецкая фирма SNI.


Михаил Кузьминский - зав. отделом Института органической химии РАН. С ним можно связаться по тел.: (095) 135-6368