Критически важные для бизнеса приложения предъявляют высокие требования к серверной платформе, которая должна обеспечивать постоянную доступность, предупреждение отказов и быстрое восстановление после сбоев, гарантировать минимальное время простоя, обладать высокой производительностью и масштабируемостью. Традиционно для выполнения таких приложений использовались проприетарные RISC-платформы с ОС UNIX и мэйнфреймы — серверы стандартной архитектуры до недавнего времени не обладали необходимыми качествами.

Переход на открытые процессорные архитектуры предопределили два фактора: наличие экосистемы, сложившейся вокруг х86-архитектуры, и доступная большинству потребителей стоимость. По данным аналитиков IDC, продажи x86-систем неуклонно растут при одновременном росте количества серверов на платформе ОС Linux, используемых для выполнения критически важных задач бизнеса (OLTP, ERP, CRM) и систем поддержки принятия решений. Кроме того, появление нового класса задач, включая поддержку мобильности, облаков и аналитики Больших Данных, стимулирует увеличение спроса на аппаратные системы, сочетающие в себе надежность и высокую доступность из мира UNIX с преимуществами стандартной архитектуры х86.

Наиболее популярные дистрибутивы ОС Linux по возможностям масштабирования и отказоустойчивости максимально приблизились к коммерческим версиям UNIX, и для поддержки критически важных приложений им не хватало лишь подходящей аппаратной платформы. С выпуском в конце 2014 года сервера HP Integrity Superdome X появилась реальная альтернатива дорогостоящим системам. По показателям RAS (Reliability, Availability, Serviceability — «надежность, доступность, удобство обслуживания») Superdome X выводит серверы архитектуры x86 на новый уровень, объединив средства RAS процессоров Intel Xeon E7 v2 с технологиями отказоустойчивости платформы HP Integrity Superdome 2 на процессорах Intel Itanium.

Разработчики Superdome X перенесли на архитектуру х86 технологии, интеллектуальную собственность и опыт компании HP из области таких сред, как HP-UX, OpenVMS и NonStop, усилив платформы Linux и Windows для решения критически важных задач. В результате удалось повысить производительность, масштабируемость, устойчивость к сбоям и уровень доступности систем на базе Superdome X по сравнению с традиционными x86-системами. Сочетание этих свойств с катастрофоустойчивостью, которой обладают системы на базе продукта Serviceguard [1] для Linux, позволило на основе архитектуры х86 предложить рынку решение для поддержки критически важных приложений.

Сервер Superdome X конкурирует с системами IBM Power, Oracle SPARC или Fujitsu SPARC64, однако стандартная архитектура открывает доступ к экосистеме x86, позволяя использовать множество имеющихся для данной архитектуры приложений. Бизнес-критичная аппаратная платформа — это высокие требования к уровню доступности со стороны приложений, поэтому расширенный набор аппаратных средств коррекции ошибок, возможность восстановления при отказах за минимальное время, проактивный мониторинг и управление неисправностями для предотвращения простоев становятся неотъемлемыми атрибутами таких систем. Принципиальным отличием критичных к сбоям архитектур от традиционной архитектуры х86 является возможность коррекции ошибок не только на аппаратном уровне, но и на уровне операционной системы и приложения. В обычных серверах стандартной архитектуры после того, как обнаружена некорректируемая ошибка на аппаратном уровне, системное ПО останавливает работу ОС, чтобы избежать дальнейшего распространения ошибки и повреждения данных. В системе Superdome X обнаруженная ошибка блокируется с помощью технологии Firmware First на уровне системного ПО, что предотвращает повреждение рабочих данных. Управляющее ПО получает информацию о сбое и состоянии компонентов, анализирует проблему, готовит систему к восстановлению и возвращает управление ОС, которая восстанавливает системное окружение, локализует ошибки и продолжает работу без перезагрузки сервера.

В основе Superdome X лежит шасси HP с7000, применяемое как в серверах ProLiant, так и в бизнес-критичных системах Integrity — Superdome 2 и NonStop, что позволяет HP использовать в своем серверном семействе единую модульную архитектуру (рис. 1). Сервер Superdome X имеет высоту 18U, что несколько выше, чем у с7000, содержит вдвое больше блоков питания и в полтора раза больше вентиляторов. Шасси вмещает до 8 коммутаторов Ethernet и Fiber Channel, поддерживая от двух до шестнадцати процессоров Intel Xeon. В шасси устанавливается до восьми серверных лезвий, но это не отдельные серверы, а ячейки, содержащие два сокета для процессора Xeon E7 v2, 48 слотов памяти, три слота PCIe Gen3 типа «мезонин» и два слота для сетевых адаптеров FlexLOM. Для Superdome X выпускается несколько типов ячеек с разными моделями процессоров. Все ячейки могут объединяться в единый пул вычислительных ресурсов либо работать как независимые, полностью электрически изолированные аппаратные разделы nPar. Аппаратный раздел nPar может содержать один, два, четыре или восемь «лезвий» и по существу представляет собой полноценный независимый сервер, имеющий от двух до шестнадцати процессоров. Конфигурирование разделов осуществляется из модуля управления Onboard Administrator. На каждой ячейке могут быть расположены два двухпортовых интегрированных адаптера 10-Gigabit Ethernet, три адаптера PCIe Gen3 Ethernet и Fibre Channel. В максимальной конфигурации система содержит до 40 адаптеров ввода-вывода.

 

Рис. 1. Структура Superdome X
Рис. 1. Структура Superdome X

 

У ячейки нет собственных дисков — Superdome X использует любую систему хранения, сертифицированную для применяемых в Superdome X версий операционных систем, гипервизоров и адаптеров ввода-вывода.

Объединение серверных лезвий в рамках Superdome X реализовано при помощи собственного набора микросхем sx3000, использование которого также позволило поднять надежность и доступность этой системы. Набор sx3000 состоит из контроллера ячейки XNC2 и системного матричного коммутатора Crossbar (Xbar), выполненного в виде четырех модулей-лезвий Crossbar Fabric Module (XFM) с возможностью резервирования, балансировки нагрузки и горячей замены. По существу, разработчики использовали архитектуру Superdome 2, заменив контроллер ячейки и процессоры. Контроллер ячейки XNC2 был модернизирован с учетом специфики процессоров Intel Xeon E7 и обеспечивает взаимодействие «вычислительных узлов» системы с коммутатором XBar.

Процессор Xeon имеет встроенный контроллер памяти, работающий только со своим пулом памяти, а к «удаленной» памяти соседних ячеек он обращается через контроллер ячейки и системный коммутатор. Модуль XNC2 — это не только интерфейс к системному коммутатору, но и каталог кэш-памяти, содержащий информацию о кэш-памяти других ячеек, что позволяет избежать избыточного системного трафика для согласования кэша и уменьшить задержку при обращении ко всей области оперативной памяти. Это дает практически линейный рост производительности с увеличением числа процессоров.

Процессоры ячейки объединены каналом Intel QuickPath Interconnect (QPI) и еще двумя такими каналами соединяются с контроллером XNC2 — интерфейсом к неблокируемому системному коммутатору. Каждый процессор имеет по два контроллера памяти, в сумме они поддерживают до 24 модулей DIMM — в максимальной конфигурации до 1,5 Тбайт оперативной памяти на ячейку. Слоты PCIe подсоединены непосредственно к процессорам без использования промежуточных расширителей и коммутаторов, что позволяет обеспечить максимальную пропускную способность подсистемы ввода-вывода. Компоненты сервера, включая ячейки, подсоединены к пассивной объединительной панели (midplane), состоящей из двух частей: нижней — для коммутации ввода-вывода, взятой от шасси c7000, и верхней — для объединения ячеек, взятой от Superdome 2 (рис. 2).

Рис. 2. Архитектура сервера Superdome X
Рис. 2. Архитектура сервера Superdome X

 

Коммутатор XBar объединяет вычислительные ресурсы системы в единый пул, агрегируя всю пропускную способность для обмена с памятью, позволяя достигать пропускной способности 1 Тбайт/c. Пропускная способность одной ячейки по вводу-выводу составляет 100 Гбайт/с с учетом адаптеров FlexLOM и мезонина. Коммутатор XBar имеет четырехкратное резервирование и архитектурно предназначен для объединения не только восьми ячеек в рамках одного шасси, но и нескольких корзин, что открывает возможность дальнейшего масштабирования в будущем. Логически такая структура имеет архитектуру SMP, а физически — это реализация ccNUMA.

Системный коммутатор XBar обладает «живучестью», максимально приближенной к уровню отказоустойчивости (Fault Tolerant) [2]. Помимо того что зарезервированы все логические каналы передачи данных, каждый канал включает в себя еще и резервные проводники. Передача и получение пакетов данных отслеживаются на транспортном уровне с подтверждением успешного завершения транзакции. Неисправность компонентов XBar или кабеля не влияет на работоспособность системы — в случае сбоя транзакции будут направлены по резервному пути.

Архитектура Intel Machine Check Architecture (MCA) объединяет свойства процессора, микрокода и операционной системы, позволяя на уровне операционной системы исправлять ошибки, которые не могут быть скорректированы на аппаратном уровне, что привело бы к аварийной остановке системы. Архитектура дает возможность корректировать и исправлять ошибки оперативной памяти, кэша и ввода-вывода, используя информацию, передаваемую процессором на уровень микропрограммного обеспечения, для предотвращения фатальных ошибок.

Работы на уровне микрокода потребовали серьезных усилий создателей Superdome X. Соответствующее ПО специально разработано для максимального использования встроенных в Xeon E7 средств RAS. Заимствованные из HP Superdome 2 средства упреждающей диагностики Error Analysis Engine позволяют предвидеть отказы оборудования и инициируют самовосстановление системы. Отказавшие компоненты помечаются как неисправные и после рестарта не используются, а вся накапливаемая статистика ошибок анализируется в Error Analysis Engine. Этот механизм позволяет реконфигурировать аппаратные компоненты — например, при превышении порогового уровня ошибок выводить из эксплуатации модуль памяти.

Для управления сервером Superdome X используется встроенный Superdome Onboard Administrator (OA), а каждое «лезвие» содержит сервисный процессор HP Integrated Lights-Out (iLO), передающий в OA необходимую информацию. В результате можно управлять как отдельными лезвиями, так и всей системой Superdome X. Программное обеспечение HP Insight Remote Support 7.x можно использовать для передачи необходимой информации в службу поддержки HP, осуществляющую удаленный мониторинг и диагностику. Защита от сбоев на уровне приложений обеспечивается средствами кластерного программного обеспечения HP Serviceguard (рис. 3).

Рис. 3. «Сквозная» надежность решения высокой доступности на базе Superdome X
Рис. 3. «Сквозная» надежность решения высокой доступности на базе Superdome X

 

Сервер Superdome X стал первой системой на платформе x86, преодолевшей барьер производительности в миллион jOPS (операций jAppServer в секунду) и предоставляющей лучшую среди систем стандартной архитектуры вертикальную масштабируемость, — коэффициент масштабируемости близок к линейному и составляет 1,86–1,92. Для сравнения: производительность системы Superdome X в разных конфигурациях в 1,85–9,5 раза превосходит производительность восьмипроцессорных серверов HP DL980 G7 с оперативной памятью емкостью 1 Тбайт.

Серверы Superdome X сертифицированы для работы c SUSE Linux, Red Hat Linux, Windows Server 2012 R2, VMware vSphere 5.5 Update 2 и с платформами виртуализации KVM/RHEV и VMware.

HP Integrity Superdome X это универсальная платформа для решения широкого круга задач, включая «тяжелые» транзакционные приложения и задачи, которым требуется большое количество вычислительных ресурсов. На сегодняшний день это самая мощная система из числа сертифицированных для работы SAP HANA. Сервер может использоваться в случаях, когда: не хватает производительности или масштабируемости текущих систем x86 и нужна вертикально масштабируемая система с перспективой роста; необходимо сократить стоимость владения и лицензионные отчисления за ПО для критически важных систем, перейдя с коммерческой платформы UNIX на ОС Linux; требуется замена унаследованных UNIX-серверов, используемых для поддержки корпоративных ресурсоемких и критичных для бизнеса приложений.

Возможны различные сценарии использования Superdome X. Первый — в качестве единой системы для крупных ресурсоемких приложений, таких как ERP, CRM, оперативная обработка транзакций, обработка данных в памяти (in memory), консолидация баз данных. Второй — для консолидации на единой платформе изолированных аппаратно друг от друга нагрузок с различными требованиями к вычислительным ресурсам — например, бизнес-приложений, аналитических задач и инструментальных сред разработки ПО. В последнем случае можно использовать аппаратные разделы, а программная виртуализация подойдет для смешанных нагрузок, особенно если требования к ресурсам не выходят за рамки одного серверного «лезвия». Это могут быть, например, тестовые или небольшие рабочие среды. Третий сценарий — применение Superdome X в качестве платформы для программной виртуализации на базе индустриально стандартных гипервизоров.

В России серверы Superdome X нашли применение, в частности, в телекоммуникационной отрасли, где активно используется ОС Linux — единственная на сегодняшний день платформа x86, способная поддерживать систему биллинга многомиллионной базы абонентов. Помимо этого, в России на базе Superdome X идут пилотные проекты для ряда финансовых и страховых компаний, к потенциальным заказчикам этой системы относятся также предприятия здравоохранения, промышленности и госсектора.

***

Серверы стандартной архитектуры все чаще применяются для решения ответственных задач, вторгаясь в область, где традиционно господствовали системы RISC/UNIX и мэйнфреймы, однако выпуск HP Integrity Superdome X не означает прекращения разработок Superdome на процессорах Itanium. Речь идет не о замене, а о расширении семейства Integrity — в ИТ-индустрии появляется новое направление развития серверов x86-архитектуры, предназначенных для выполнения ответственных приложений с гарантируемыми показателями производительности, масштабируемости и доступности. В ближайшем будущем выйдут новые лезвия для шасси Superdome X на базе Xeon E7 v3, появится ряд новых адаптеров ввода-вывода, включая InfiniBand и FCoE, а также поддержка памяти DDR4.

Литература

  1. Вячеслав Елагин. Кластеры против катастроф // Открытые системы.СУБД. — 2002. — № 6. — С. 29–36. URL: http://www.osp.ru/os/2002/06/181581 (дата обращения: 31.05.2015).
  2. Фолькер Хаманн. Отказоустойчивая операционная система Tandem NonStop Kernel // Открытые системы.СУБД. — 1997. — № 3. — С. 32–36. URL: http://www.osp.ru/os/1997/03/179152 (дата обращения: 10.06.2015).

Валерий Солоед (valery.soloyed@hp.com) — руководитель направления бизнес-критичных систем, компания HP (Москва).