Серверы Hewlett-Packard V2200
В 1994 году, то есть очень давно, если за единицу измерения брать среднюю продолжительность жизни современных компьютеров - фирма Convex совершила революционный переворот, выпустив системы Exemplar SPP1000 с архитектурой ccNUMA. Революционность была не только в самой ccNUMA, хотя тот факт, что ccNUMA стала последним "писком моды" лишь в последний год, говорит сам за себя. Прорывом можно назвать и строение так называемого гиперузла SPP1000. Каждый такой гиперузел являл собой мощную симметрично-многопроцессорную (SMP) систему на базе высокопроизводительных по тем временам RISC-микропроцессоров PA-7100. Хотя SMP-компьютеры выпускались и до этого, например фирмой Silicon Graphics, пожалуй, именно SPP1000 открыл эпоху господства SMP-систем как среди суперкомпьютеров среднего диапазона производительности, так и среди мощных систем для коммерческих применений - OLTP, системы поддержки принятия решений и т. д. И сегодня, когда системы с архитектурой ccNUMA выходят в лидеры, за плечами HP/Convex уже имеется многолетний опыт конструирования и производства таких систем и их программного обеспечения.
Архитектурная революция 1994 года сменилась длительным периодом эволюции. Появились системы SPP1200, SPP1600 (на базе микропроцессоров PA-7200), а затем HP-серверы классов S и X.
Все это время основной архитектурный облик этих систем лишь слегка модернизировался: как правило, дело сводилось к замене процессорных плат на новые, содержащие более мощные микропроцессоры, увеличению пропускной способности коммутатора гиперузла и т. п.
Конечно, появление SPP2000, использующих 64-разрядные микропроцессоры PA-8000, можно назвать революцией. Но это относится исключительно к архитектуре микропроцессоров, а не всей системы. Кроме того, революция эта явно мирная, она сохранила пользователям совместимость с предыдущими моделями на базе 32-разрядных микропроцессоров PA-RISC. Так что появление SPP2000 также можно считать продолжением естественной эволюции.
В мае HP объявила о новом семействе V2200, уже на базе микропроцессоров PA-8200. Их архитектурные отличия от PA-8000, как увидим ниже, также весьма невелики. Но это еще не все. HP объявила о выпуске этих серверов в будущем году уже с микропроцессорами PA-8500, также архитектурно очень близким к PA-8000/8200. Наконец, в 1999 году HP планирует поставки серверов класса V с микропроцессорами Merced, имеющими архитектуру IA-64, которую компания охарактеризовала как "пост-RISC".
Столь длительное эволюционное развитие архитектуры вычислительной системы, использующей "общеупотребительные" микропроцесоры (такие же, как в рабочих станциях), вещь в общем-то уникальная. Это все-таки не мэйнфреймы корпорации IBM. Микропроцессоры развиваются слишком быстро, что, как правило, обуславливает необходимость в систематической коренной перестройке архитектуры и всей компьютерной системы. Так, SGI перешла от SMP к ccNUMA в серверах Origin2000/Onyx2; DEC планирует перейти к NUMA в серверах Wildfire и т.д.
Удалось ли HP/Convex, вопреки этому, заложить в системы Exemplar архитектуру-"долгожительницу"? C одной стороны, в такую сверхстабильность как-то не очень верится: уж слишком быстро все меняется. С другой - пока не видно преемников архитектуры "SMP + ccNUMA" (почему именно "плюс", будет ясно ниже). Во всяком случае, почти до конца тысячелетия HP обещает поддерживать эволюцию.
И все-таки одна революция к концу тысячелетия назревает. Правда, не в области архитектуры компьютеров, а в области архитектуры микропроцессоров. Это - переход от PA-8x00 к совместному с Intel детищу - Merced (и от Intel x86 к Merced, конечно, тоже). Merced будут двоично несовместимы с микропроцессорами HP, равно как и Intel. Конечно, возможны всякие эмуляции, трансляции двоичных кодов, переходы в специальный режим работы и т. п., но "родная" система команд в Merced будет, судя по всему, своя. Так что и революция развернется "нормальная", с потом и кровью (программистов). Похоже, что HP с этого пути не свернет. На имеющихся производственных мощностях компания уже не в состоянии выпускать 0,25-микронные микропроцессоры PA-8500, поскольку не располагает такими технологическими линиями. А объемов производства микропроцессоров PA-RISC недостаточно, чтобы задействовать мощности современной фабрики.
Эволюция микропроцессоров PA-8x00
Переход от РА-8000 к РА-8200 можно охарактеризовать как попытку НР выжать все из 0,5-микронной технологии, поэтому архитектурные изменения оказались минимальными. Переход от РА-8200 к РА-8500 должен сопровождаться переходом к 0,25-микронной технологии, следовательно и изменения в архитектуре здесь намечаются более существенные.
Но все основные архитектурные особенности в линии микропроцессоров РА-8х00 сохраняются. Поэтому можно говорить о (микро)архитектуре РА-8х00 вообще.
РА-8х00 являются 64-разрядными суперскалярными микропроцессорами с внеочередным спекулятивным (по предсказанию) выполнением команд. Статическое и динамическое предсказание переходов, внешние (первичные) кэши команд и данных, буфер переупорядочения команд емкостью 56 строк и ряд других особенностей выделяют РА-8х00 среди других высокопроизводительных микропроцессоров RISC-архитектуры. РА-8х00 содержат 10 функциональных устройств, разбитых по парам: 2 устройства с плавающей запятой; 2 устройства деления и извлечения квадратного корня; 2 целочисленных 64-разрядных АЛУ; 2 устройства сдвига/слияния; 2 устройства загрузки регистров/записи в память. За такт может запускаться на выполнение до 4 команд. Каждое устройство с плавающей запятой выполняет команды умножения, сложения и команду "умножить и сложить". Поэтому РА-8х00 могут выполнять 4 операции с плавающей запятой за такт.
Основные отличия РА-8200 от РА-8000: повышение показателей тактовой частоты (со 180 до 200 МГц); наращивание (в два раза) емкости первичных внешних кэшей команд и данных - до 2 Мбайт у каждого; увеличение числа строк в таблице предсказания переходов (с 256 до 1024 строк) и в буфере быстрой переадресации TLB (с 96 до 120 строк). Емкость кэш-памяти команд просто колоссальна; но в то же время логично предположить, что чаще возникает необходимость в большой емкости кэш-памяти данных - а вот по этому параметру РА-8200 уступает конкурентам SGI/MIPS R10000 и DEC Alpha 21164, имеющим внешний кэш емкостью 4 Мбайт.
По утверждению разработчиков, производительность приложений при использовании РА-8200 возрастет на 35-75% по сравнению с РА-8000. Оценки SPECfp95/ SPECint95 для РА-8200 составили 25/15,5 при тактовой частоте 220 МГц; в настоящее время НР объявила о поставках систем с 200 МГц микропроцессорами РА-8200.
РА-8500, кроме предусмотренного увеличения тактовой частоты до 400 МГц, претерпит серьезные изменения в микроархитектуре. Во-первых, это увеличение пропускной способности системной шины до 2,2 Гбайт/с, во-вторых - радикальное изменение кэш-памяти. В РА-8500 первичные кэши команд и данных емкостью 1,5 Мбайт интегрированы на основной микросхеме, в отличие от РА-800/820, где использован внешний кэш. Кроме того, в РА-8500 внесены доработки, существенно улучшающие предсказание переходов. Выпуск РА-8500 запланирован на следующий год. Вероятно, только этот микропроцессор будет в состоянии конкурировать в 1998 году по производительности с DEC Alpha 21264.
Эволюция серверов Exemplar
В конце мая HP анонсировала системы на базе PA-8200, в том числе серверы классов К и V и кластеры на их основе (Enterprise Parallel Servers). Мы рассмотрим здесь системы V2200. Учитывая, что они весьма сходны с SPP2000, о которых мы уже рассказывали читателю, мы дадим только сжатое описание, акцентируя внимание на некоторых особенностях, не рассмотренных в предыдущей публикации (Computerworld Россия, #2, 1997).
Системы V2200, как и их предшественники, ориентированы на двухуровневое строение с архитектурой ccNUMA. На первом уровне это SMP-системы, или "гиперузлы". Гиперузлы могут объединяться посредством когерентного тороидального межсоединения CTI c сохранением парадигмы глобальной разделяемой памяти (Global Shared Memory, GSM). Это межсоединение включает кольцевые шины в двух взаимно перпендикулярных направлениях. В настоящее время анонсированы V2200 в SMP-конфигурациях, содержащих до 16 процессоров РА-8200. По оценке компании Aberdeen Group, в 1998 году следует ожидать выхода V2200 на базе РА-8500 и уже с 32 процессорами, а в 1999 - на базе Merced и с NUMA-расширениями.
Стержень HP V2200 - это неблокирующийся коммутатор HyperPlane (8x8, с пропускной способностью 15,36 Гбайт/с, т. е. выше, чем в Sun Ultra Enterprise 10000). В нем использованы двунаправленные 64-разрядные порты с пропускной способностью 960 Мбайт/с в каждом направлении. Коммутатор работает на тактовой частоте 120 МГц и имеет такие же характеристики, как в SPP2000.
Наращивание числа процессоров в системе происходит путем добавления процессорных плат, подсоединяющихся к коммутатору HyperPlane, реализованному в традиционном конструктиве backplane (объединительной панели). На этих процессорных платах, кроме двух микропроцессоров PA-8200, располагается еще PCI-подсистема ввода-вывода. Она может передавать данные в оперативную память по каналу со скоростью 240 Мбайт/с, однако в настоящее время реализована только 32-разрядная версия PCI c пиковой пропускной способностью около 120 Мбайт/с. В DEC Alpha Server 8400 и SGI Origin2000 реализована 64-разрядная версия PCI, что обеспечивает в два раза более высокую пропускную способность. Это актуально при использовании интерфейса Fibre Channel-Arbitrated Loop (FC-AL), поскольку его пиковая пропускная способность составляет уже около 100 Мбайт/с.
На каждой процессорной плате имеется три слота для плат PCI-контроллеров. Если в SPP2000 в качестве самого быстрого интерфейса к жестким дискам был рекомендован UltraSCSI с пиковой пропускной способностью 40 Мбайт/с, то V2200 поставляются уже с FC-AL. Поскольку в V2200 может быть до 8 процессорных плат, то общее число PCI-контроллеров в гиперузле V2200 достигает 24.
V2200 могут поставляться как с интерфейсом FC-AL, так и с F&W SCSI-2. Что касается других внешних устройств, то здесь особо следует отметить традиционный для Convex широкий выбор ленточных накопителей и роботизированных комплексов. Подсоединение V2200 к компьютерным сетям может происходить через Ethernet 10/100 BaseT, FDDI, Fibre Channel и АТМ.
Теоретически между микропроцессорами РА-8000 и соответствующей подсистемой PCI могут возникать конфликты при обращении к HyperPlane. Представители компании HP, однако, оценивают вероятность такого конфликта как весьма низкую.
Подсистема оперативной памяти защищена кодами ЕСС и может включать от 2 до 8 плат. В памяти используется SDRAM-технология и модули DIMM. Каждый контроллер памяти обеспечивает для платы уровень расслоения, равный 4, поэтому в максимальной конфигурации он достигает 32. Как известно, SDRAM-технология реализует более высокую пропускную способность памяти по сравнению с обычной DRAM. Это достигается путем выборки из памяти большего объема данных, чем может передать микросхема за такт, и буферизацией избыточных данных в специальных "регистрах". Во время регенерации одновременно осуществляется извлечение данных из регистров и передача их через выходные контакты.
Задержка при обращении к оперативной памяти в V2200 составляет 540 нс. Это примерно столько же, сколько в Sun Ultra Enterprise 10000, но больше, чем в процессорном узле SGI Origin2000. Однако в последней при увеличении числа процессорных узлов задержки становятся выше.
Емкость оперативной памяти в V2200 составляет до 16 Гбайт при использовании 32 Мбайт SDRAM, и в 1998 году при поставках с 64 Мбайт SDRAM будет увеличена вдвое. Собственно говоря, основные отличия V2200 от SPP2000 - это применение PA-8200 вместо РА-8000 и 64-разрядной ОС HP-UX 11.0 вместо SPP-UX. Последнее условие обеспечивает выполнение около 14 тыс. работающих в HP-UX приложений. Учитывая ряд особенностей V2200, направленных на достижение высокой готовности (гарантированно 99,95%) - скажем, дополнительные вентиляторы и блоки питания и пр., - можно сказать, что V2200 хорошо подойдут для критически важных приложений OLTP и систем поддержки принятия решений.
Кстати, когда несколько лет назад на семинаре Convex в Москве я заикнулся о том, что SPP1000 интересно применять не только в чисто вычислительных, но и в коммерческих приложениях, на меня посмотрели так, будто я ляпнул что-то неприличное...
Стоимость однопроцессорного V2200 с 256 Мбайт оперативной памяти составляет (в Соединенных Штатах) около 170 тыс. долл., а дополнительные процессоры РА-8200 обойдутся по 25 тыс. долл. каждый. Стоимость 16-процессорной конфигурации с оперативной памятью емкостью до 2 Гбайт - около 600 тыс. долл.
Компьютеры HP всегда славились высокой производительностью при работе с базами данных. Так, 64-процессорный Sun Ultra Enterprise 10000 на тестах TPC-D/300 Гбайт достиг 2009 QppD при пропускной способности 1242 QthD. А уже 48-процессорный кластер HP EPS22 на базе серверов К-класса показал 3416 QppD и 1674 QthD. Ясно, что кластер на базе V2200 будет иметь еще более высокую производительность. Пользователи, которым требуются модели мощнее, чем знаменитые T500, получили теперь новое заманчивое предложение от HP.
Михаил Кузьминский - зав. отделом Института органической химии РАН.
Сравнительные характеристики гиперузлов
SPP1000 | SPP1200 | SPP1600 | SPP2000 | V2200 | |
Процессор | PA-7100 | PA-7200 | PA-7200 | PA-8000 | РА-8200 |
Частота, МГц | 100 | 120 | 120 | 180 | 200 |
Кэш I/D, Мбайт | 1/1 | 0.256/0.256 | 1/1 | 1/1 | 2/2 |
Производительность, MFLOPS | 200 | 240 | 240 | 720 | 800 |
Число процессоров | 2-8 | 2-8 | 2-8 | 4-16 | 1-16 |
Коммутатор, ПС (Мбайт/с) | 5x5, 1250 | 5x5, 1250 | 5x5, 1250 | 8x8, 15360 | 8x8, 15360 |
ПС подсистемы ввода- вывода, Мбайт/с | 250 | 250 | 250 | 1920 | 1920 |
Плата ОП, Мбайт | 64-512 | 64-512 | 64-512 | до 2 Гбайт | до 2 Гбайт |
Число плат ОП | 1-4 | 1-4 | 1-4 | 2-8 | до 8 |
Уровень расслоения на плате | 2 | 2 | 2 | 4 | 4 |