Весь мир по сути сворачивает выпуск векторных суперкомпьютеров - а NEC анонсирует новую векторно-конвейерную систему SX-5.
В связи с быстрым прогрессом в производительности RISC-процессоров и успехами в построении на их базе систем с массовым параллелизмом, имеющих наилучшее (для класса суперкомпьютеров) соотношение стоимость/производительность, многие специалисты предсказывали быструю кончину векторно-конвейерных суперкомпьютеров. В практическую плоскость этот прогноз начала переносить компания SGI/Cray, которая запланировала произвести некую «конвергенцию» своих суперкомпьютеров, переведя их на единую микропроцессорную платформу. А ведь Cray выпускает сразу два семейства векторных компьютеров - большие Cray T90 и мини-суперкомпьютеры Cray J90. Convex, еще до слияния с Hewlett-Packard, прекратила разработки линии векторных систем C4/XA.
|
Однако, как много раз подтверждалось, предсказания - дело неблагодарное. Будущие «покойники» - как мэйнфреймы IBM, так и векторные суперкомпьютеры - пока чувствуют себя достаточно хорошо. Мэйнфреймы IBM, особенно с появлением G5, явно воспрянули. Поддержка векторным суперкомпьютерам пришла в лице NEC SX-5. Вскоре ожидается появление «векторных массивно-параллельных» систем SGI/Cray J90++, то есть линия векторных мини-суперкомпьютеров Сray J90, будущность которых представлялась мне наиболее проблематичной (по крайней мере, по сравнению с Cray T90), получит свое дальнейшее развитие.
Известно, что NEC успешно продвигала на рынок, в том числе американский, свои векторные системы SX-4 (cм. CW-R, № 42, 1996), которые конкурировали с Cray T90. После появления SX-5 можно предположить, что эти модели станут флагманом многопроцессорных векторных суперкомпьютеров. Этим определяется и наше к ним внимание.
Архитектура SX-5
Архитектура SX-5 представлена на рисунке. Если сравнить этот рисунок со строением SX-4 (см. CW-R, № 42, 1996), нетрудно заметить, что фундаментальных изменений в архитектуре SX-5 не произошло.
Как и в SX-4, центральный процессор (ЦП) SX-5 содержит векторное устройство и скалярное устройство. Однако пиковая производительность векторного устройства в SX-5 возросла по сравнению с SX-4 аж в четыре раза - до 8 GFLOPS. Если не считать центральный процессор Hitachi S3800, который имеет весьма необычное строение, то процессор SX-5 с большим отрывом опережает все остальные процессоры других разработчиков.
Более того, он примерно в пять раз опередил по пиковой производительности микропроцессоры Alpha - лидеров мира RISC. А ведь казалось, что они вот-вот догонят и перегонят по этому параметру центральные процессоры векторных суперкомпьютеров! Теперь же вопрос о том, когда это может произойти, вообще снимается с повестки дня: cомнительно, чтобы в ближайшие два-три года микропроцессоры (как архитектуры RISC, так и Merced/IA-64) приблизились к уровню производительности процессоров SX-5.
К 8 GFLOPS векторной производительности следует «приплюсовать» 0,5 GFLOPS производительности скалярного устройства. Напомним, что скалярный блок NEC SX-4 близок по структуре к микропроцессору SGI/MIPS R10000, который, кстати, NEC и производит. Центральный процессор SX-4 работает на тактовой частоте 125 МГц, а SX-5 - на частоте 250 МГц, то есть на максимальной, достигнутой сегодня в R10000. Как и векторное устройство, скалярное устройство работает с 32- и 64-разрядными числами в представлении IEEE. Как и в R10000, оно способно выполнять две операции с плавающей запятой за такт.
При изготовлении центрального процессора SX-5 используется КМОП-технология с рабочим уровнем напряжения 3,3 В. Переход от ECL к КМОП, произошедший уже в SX-4, позволил понизить стоимость и тепловыделение и обойтись исключительно воздушным охлаждением (в отличие от старших моделей Cray T90).
Кроме векторного и скалярного устройств, в состав SX-5 входит аппаратура синхронизации и межузловых коммуникаций.
Подсистемой оперативной памяти, реализованной в SX-5, NEC заслуженно гордится. По сравнению с SX-4 максимальная емкость оперативная память выросла в 16 раз, до 128 Гбайт. Как и в SX-4, эта память разделяется всеми процессорами, которых в SX-5 может быть до 16. Cледует отметить также возросшую в SX-5 вдвое пропускную способность оперативной памяти - до 1024 Гбайт/с, что больше, чем в Cray T932 (800 Гбайт/с). Для организации «общения» центрального процессора, оперативной памяти и подсистемы ввода/вывода используется неблокирующийся коммутатор; при этом пропускная способность тракта «процессор-память» составляет 64 Гбайт/с.
NEC отмечает также исключительно низкие задержки при обращении в оперативную память. Таким образом, большой прогресс достигнут именно в той части архитектуры суперкомпьютера, где, как указано выше, векторные системы опережают многопроцессорные суперкомпьютеры на базе RISC-процессоров - в высокоэффективной подсистеме оперативной памяти. NEC утверждает, что подсистема памяти SX-5 - самая высокопроизводительная на современном компьютерном рынке.
Подсистема ввода/вывода в SX-5, как и в SX-4, основана на использовании процессоров ввода/вывода. При этом поддерживаются протоколы HiPPI-800 (насколько мне известно, самый быстрый на сегодня в мире), FC-AL, UW SCSI и FWD SCSI. Пропускная способность ввода/вывода составляет 16 Гбайт/с. Это - единственный параметр производительности, по которому SX-5 все еще уступает Cray T90.
Японский ответ американскому вызову
В рамках недавно принятой в Соединенных Штатах программы Министерства энергетики CША для моделирования ядерного оружия планировалось создание суперкомпьютеров с производительностью свыше 1 TFLOPS. Первой такой системой стала Intel ASCI Option Red на базе Pentium Pro; другой компьютер создается SGI/ Cray на базе Origin 2000. Японский ответ на этот вызов представляют модели SX-5M.
Одна система SX-5, содержащая 16 центральных процессоров, достигает пиковой производительности 128 GFLOPS. Суперкомпьютеры SX-5 могут выступать в качестве узлов еще более мощной вычислительной системы SX-5M, подобно тому, как это сделано в так называемых многоузловых моделях SX-4 (CW-R, 1996, № 42).
NEC справедливо отмечает, что для большинства коммерчески доступных приложений успешное масштабирование возможно вплоть до среднего числа процессоров, которое наиболее легко можно получить в системах с общим полем оперативной памяти. Лишь немногие приложения масштабируются до «сколь угодно большого» числа центральных процессоров. Для создания подобных вычислительных систем эффективно использовать распределенную оперативную память. Однако программное обеспечение, распараллеленное для таких массивно-параллельных суперкомпьютеров, обычно оказывается непереносимым на другую платформу.
Многоузловые модели SX-5M интегрируют в себе мощные векторные суперкомпьютеры SX-5 с общим полем оперативной памяти, применяя в качестве межсоединения «суперкоммутатор» IXS. Результирующая объединенная система достигает производительности 4 TFLOPS. Такая система не является простым кластером: в ней обеспечивается общее адресное пространство для всей памяти, распределенной между узлами. Половинная пропускная способность этого суперкомпьютера (то есть скорость, с которой одна половина SX-5M может обмениваться данными с другой половиной SX-5M) достигает 512 Гбайт/с. IXS также характеризуется малыми величинами задержек.
Производительность
Данные о производительности NEC SX-5 на общеупотребительных тестах пока отсутствуют. Однако нетрудно прийти к выводу, что SX-5 будет сильно опережать по этим характеристикам Cray T90. Действительно, данные тестов NAS Parallel benchmark (класс В), Linpack, а также тестов STREAMS для пропускной способности ОП (см. нашу публикацию, посвященную SX-4, в Computerworld Россия, № 42, 1996), показывают, что SX-4 и T90 очень близки; на одних тестах впереди T90, на других - SX-4. Еще одной иллюстрацией к сказанному служат данные таблицы, где сопоставлены результаты тестов Linpack parallel для SX-4 и T90. В этой таблице R и Rpeak - соответственно максимально достигнутый и пиковый уровни производительности; Nmax и N(1/2) - размерности системы линейных уравнений (соответственно для достигнутого уровня производительности и для вдвое меньшего уровня производительности).
Из таблицы видно, что при 32 процессорах SX-4 - чуть впереди, а при 16 процессорах - чуть позади Cray T932. Хотя SX-4 достигла максимальной производительности при размерности системы, несколько меньшей, чем T932 (что является дополнительным плюсом для SX-4), нельзя исключить, что это связано с более тщательным подбором N самой компанией NEC: Nmax (16384), приведенная для Cray T932 как для 16, так и для 32 процессоров, есть просто точная степень 2. Все это говорит о том, что SX-5 будет весьма существенно, опережать Cray T90 по вычислительной мощности. Появление SX-5, несомненно, является крупнейшим событием в суперкомпьютерной индустрии. Важным вопросом, конечно же, будет стоимость новых систем и соответственно стоимость/производительность. Применение КМОП-технологии способно сделать SX-5 привлекательной и по этому параметру.
Что касается приложений, очевидно, что SX-5 будет использоваться в тех же областях, что и SX-4, а это - очень широкий диапазон, от вычислительной химии до гидроаэродинамики. Но особенно следует отметить задачи предсказания погоды и моделирования климата. Эх, вот бы поставить такую «штуку» для наших, российских ученых! Увы, здесь на ум приходят только некрасовские строки: «Жаль только - жить в эту пору прекрасную уж не придется ни мне, ни тебе».
Михаил Кузьминский - старший научный сотрудник Центра компьютерного обеспечения Института химических исследований РАН. С ним можно связаться по телефону (095) 135-6388.