Кластеры IBM SP2 наращивают мощность

Узлы SP2 фактически являются самостоятельными компьютерами, и их прямые аналоги продаются корпорацией IBM под самостоятельными названиями

Однако все эти годы основные архитектурные компоненты SP2 подвергаются непрерывному совершенствованию. Уже сам по себе этот факт отражает чрезвычайную удачность общей архитектурной идеи SP2, позволившей поддерживать передовые позиции корпорации IBM в этом секторе компьютерного рынка.

Мало того, с течением времени популярность SP2 не только не уменьшилась, но, пожалуй, даже возросла. IBM SP2 лидируют в списке крупнейших суперкомпьютеров TOP500 по числу инсталляций (141 установка, а всего в мире работает 8275 таких компьютеров с общим числом узлов свыше 86 тыс.). Что же делает SP2 такими «вечнозелеными»? Думаю, основных причин две. Во-первых, это заложенный в основу архитектуры кластерный подход с использованием мощного центрального коммутатора. В последнее время кластеры становятся все более популярным средством построения ресурсов суперкомпьютерного уровня (укажем, например, на Linux-кластеры Beowulf). IBM же использует этот подход уже много лет. Во-вторых, корпорация демонстрирует огромный потенциал модернизации SP2, защищая тем самым инвестиции своих пользователей. При этом усовершенствованиям подвергался и центральный коммутатор, и узлы, и процессоры, и другие компоненты.

Мне довелось рассказать об архитектуре SP2 на страницах нашего еженедельника еще в 1995 году. И впоследствии Computerworld Россия неоднократно возвращался к рассмотрению технических характеристик SP2, поэтому в этой статье я остановлюсь на архитектурных новинках этих систем.

Общая архитектура SP2

Рис.1. Общая схема построения SP2

Общее представление об архитектуре SP2 дает рис. 1. Основная ее особенность архитектуры — применение высокоскоростного коммутатора с низкими задержками для соединения узлов между собой. Эта внешне предельно простая схема, как показал опыт, оказалась чрезвычайно гибкой. Сначала узлы SP2 были однопроцессорными, затем появились узлы с SMP-архитектурой. Собственно, все детали скрываются в строении узлов. Мало того, узлы бывают различных типов, причем даже процессоры в соседних узлах могут быть разными. Это обеспечивает большую гибкость выбора конфигураций. Общее число узлов в вычислительной системе может достигать 512. Узлы SP2 фактически являются самостоятельными компьютерами, и их прямые аналоги продаются корпорацией IBM под самостоятельными названиями. Наиболее ярким примером этого является четырехпроцессорный SMP-сервер RS/6000 44P-270 c микропроцессорами Power3-II, который сам по себе можно отнести к классу компьютеров среднего класса или даже к мини-суперкомпьютерам.

Устанавливавшиеся в узлах SP2 микропроцессоры развивались по двум архитектурным линиям: Power — Power2 — Power3 — Power3-II и по линии PowerPC вплоть до модели 604e с тактовой частотой 332 МГц. Первая линия оптимальна для вычислений с плавающей запятой, а вторая более эффективна в «целочисленных» приложениях. Приведем вкратце характеристики этих микропроцессоров.

Процессоры PowerPC 604e имеют кэш емкостью 256 Кбайт и интерфейс системной шины шириной 128 разрядов, работающий на частоте 83 МГц, что дает пиковую пропускную способность 1,33 Гбайт/с. Процессоры способны выполнять за такт одну команду типа «умножить-и-сложить» (FMA); cоответственно, пиковая производительность равна 664 MFLOPS. Характеристики PowerPC 604e не относятся к числу рекордных, и можно предположить, что они будут заменены в системах SP2 высокопроизводительными 64-разрядными процессорами PowerPC RS64. На сегодняшний день наибольший интерес в архитектурном плане представляют 64-разрядные Power3 и Power3-II.

Эти суперскалярные микропроцессоры имеют кэш команд первого уровня емкостью 32 Кбайт, кэш данных первого уровня емкостью 64 Кбайт, а также кэш второго уровня емкостью 8 Мбайт (поддерживается до 16 Мбайт) на выделенной шине. Кэш первого уровня является неблокирующимся: допускается до двух непопаданий в кэш команд и до четырех непопаданий в кэш данных. В Power3 предусмотрено семь функциональных исполнительных устройств, из них три целочисленных (два выполняют однотактные операции, третье — многотактные, такие как умножение и деление), два устройства загрузки регистров/записи в память и два устройства с плавающей запятой.

Каждый из конвейеров с плавающей запятой может выполнять команду FMA, итого четыре операции с плавающей запятой за такт. Поэтому при тактовой частоте 375 МГц пиковая производительность Power3-II равна 1,5 GFLOPS.

В Power3 применяется переименование регистров и спекулятивное выполнение команд, включая загрузку регистров. Динамическое предсказание переходов основано на таблице предсказания переходов емкостью 2048 строк. Некоторые оценки производительности процессора Power3-II/375 МГц приведены в таблице.

Хотя Power3-II находится в числе лидеров, наиболее сильными сторонами SP2, с моей точки зрения, являются особенности архитектуры самого компьютера и его программное обеспечение.

Традиционными для SP2 являются «тонкие» (Thin Node) и «широкие» (Wide Node) узлы, обладающие SMP-архитектурой. В них могут устанавливаться как PowerPC 604e (от двух до четырех процессоров), так и Power3-II (до четырех). Емкость оперативной памяти узлов составляет от 256 Мбайт до 3 Гбайт (при использовании Power3-II — до 8 Гбайт). Основные отличия между тонкими и широкими узлами касаются подсистемы ввода/вывода. Широкие узлы предназначены для задач, требующих более мощных возможностей ввода/вывода: в них имеется по десять слотов PCI (в том числе три 64-разрядных) против двух слотов в тонких узлах. Соответственно, и число монтажных отсеков для дисковых устройств в широких узлах больше.

Полезно также обсудить некоторые характеристики быстродействия коммутатора. Он характеризуется низкими величинами задержек: 1,2 мс (до 2 мс при числе узлов свыше 80). Это, грубо говоря, на порядок лучше того, что можно получить в современных Linux-кластерах Beowulf. Не менее внушительно выглядит пиковая пропускная способность каждого порта: она составляет 150 Мбайт/с в одном направлении (то есть 300 Мбайт/с при дуплексной передаче). Той же пропускной способностью обладают и расположенные в узлах SP2 адаптеры коммутатора. IBM приводит также отличные результаты по задержкам и пропускной способности.

Высокие узлы SP2

Наиболее мощные узлы SP2 — «высокие» (High Node) — появились осенью прошлого года. Высокий узел — это комплекс, состоящий из вычислительного узла с подсоединенными устройствами расширения ввода/вывода в количестве до шести штук. Такой узел также обладает SMP-архитектурой и содержит до 8 процессоров Power3 с тактовой частотой 222 или 375 МГц.

При частоте процессора 222 МГц кэш второго уровня работает на частоте 111 МГц. Микропроцессоры располагаются на процессорных платах (по два на плату, до четырех плат на узел). Процессорные платы подсоединяются к системной плате типа backplane посредством двух 16-разрядных шин, также имеющих частоту 111 МГц; пропускная способность передачи данных на процессорную плату равна 3,55 Гбайт/с, а коммутатора вычислительного узла — 14,2 Гбайт/с, что соответствует уровню, характерному для больших компьютеров SMP-архитектуры. Системная плата содержит коммутатор и два контроллера оперативной памяти, каждый из которых обслуживает по две платы оперативной памяти. Память построена на базе 128-мегабайтных (емкость может быть и больше) DIMM-модулей SDRAM, причем каждая плата содержит до 4 Гбайт, а весь узел — до 16 Гбайт памяти.

Рис.2. Общая архитектура высокого узла IBM SP2

Кроме того, узел этого типа содержит плату ввода/вывода, которая также подсоединена к системной плате. Плата ввода/вывода содержит два симметричных логических блока SABER, через которые осуществляется передача данных к внешним устройствам, таким как диски и телекоммуникационное оборудование. На плате ввода/вывода имеется четыре слота 64-разрядной шины PCI и один 32-разрядный слот (частота 33 МГц), а также интегрированы контроллеры UltraSCSI, Ethernet 10/100 Мбит/с, три последовательных и один параллельный порт.

К блокам SABER через дуплексные RIO-порты с пропускной способностью 250 Мбайт/с в одном направлении подсоединяются до 6 устройств расширения ввода/вывода. Для подсоединения применяются специальные кабели длиной до 15 м. Устройство расширения ввода/вывода имеет восемь 64-разрядных слотов PCI и четыре монтажных отсека для дисков с горячей заменой. Итого на высокий узел получается до 53 слотов PCI и до 28 монтажных отсеков.

Наконец, на плате ввода/вывода располагается адаптер центрального коммутатора SP2. Такое подсоединение позволяет создавать многоузловые системы SP2 с очень высоким уровнем масштабирования всех видов ресурсов. В компьютерах IBM T70, почти точных копиях высокого узла, такие адаптеры отсутствуют, а число устройств расширения ввода/вывода ограничено четырьмя.

C появлением высоких узлов и микропроцессоров Power3-II/375 МГц на тестах Linpack parallel системы IBM SP2 достигли производительности 723,4 GFLOPS. Этот результат достигнут при использовании 176 узлов (704 процессора). Учитывая, что узлов можно установить до 512, этот результат показывает, что серийно выпускаемые IBM SP2 потенциально близки к уникальной отметке — 1 TFLOPS. Мощные вычислительные системы IBM завоевали симпатии организаторов многих суперкомпьютерных центров; как известно, SP2 работает и в России. Они используются также и в качестве платформ для систем электронной коммерции, ERP, при работе со сверхбольшими базами данных и в других задачах экономического характера.

Во второй половине 2000 года IBM планирует представить новую модификацию высоких узлов, в которых максимальное число процессоров будет увеличено до 16. При этом корпорация собирается предложить уникальную программу модернизации современных высоких узлов со 100% сохранением инвестиций пользователей.

Итак, общую архитектурную идею SP2 следует признать чрезвычайно плодотворной. Несомненно, SP2 — один из лучших компьютерных продуктов IBM последнего десятилетия.

Михаил Кузьминский — старший научный сотрудник Суперкомпьютерного центра Института органической химии РАН. С ним можно связаться по телефону (095)135-6388


Кто быстрее?

Некоторые оценки производительности Power3-II в сопоставлении с другими RISC-процессорами

Микроп-

роцессор
ЧастотаSPECint95SPECfp95SPECint2000SPECfp2000
IBM Power3-II375 МГц24,450,9260382
HP PA-8600552 МГц42,664,0379369
Compaq Alpha 21264667 МГц40,157,7*444577
SGI R12000300 МГц18,434,4264283
*Тактовая частота 500 МГц. Источник: www.specbench.org