Публичные облака для корпоративных приложений должны быть очень надежными — это необходимое условие для успеха на рынке облачного провайдера. Но при этом немаловажен и другой фактор — экономическая эффективность развернутой облачной инфраструктуры. Соблюсти оба условия можно только при применении передовых технических решений. Подтверждением этого утверждения может служить проект построения инфраструктуры для облака DataLine Cloud-V.
Российский рынок облачных услуг быстро развивается, конкуренция на нем становится все жестче. Чтобы сохранить ведущие позиции на этом рынке, провайдерам необходимо постоянно расширять набор предлагаемых сервисов. Хорошо понимая этого, руководство компании DataLine приняло в начале 2015 года решение дополнить свой портфель предложений облаком на базе технологии Microsoft Hyper-V, присоединившись к программе Microsoft Cloud OS Network Russia. Это облако получило название Cloud-V.
При построении инфраструктуры Cloud-V специалисты DataLine столкнулись с рядом непростых технических задач, в том числе в части организации сети. Она должна была не только гарантированно обеспечить высокую производительность (более 10 Гбит/c на сервер) и низкие задержки, но и разгрузить ЦПУ серверов от сетевых задач, что необходимо для реализации быстрой, эффективной и гибкой мультипользовательской среды виртуализации.
«Виртуализация серверов востребована бизнесом: это уже зрелая технология, которая при небольших накладных расходах позволяет значительно повысить доступность приложений и плотность их размещения на серверах, — рассказывает Михаил Соловьев, руководитель облачной практики в компании DataLine. — При этом к провайдерам сервисов IaaS («инфраструктура как услуга») корпоративные заказчики предъявляют все более высокие требования по размерам виртуальных машин: нередко они запрашивают ВМ с 48 ядрами и/или 512 Гбайт памяти. Бизнес-приложения на таких ВМ — например, крупные базы данных, CRM, аналитические системы — нуждаются в высокой скорости и низких задержках при операциях ввода-вывода, а также в надежной и производительной сети».
Сегодня большинство кластеров строится на базе двухсокетных систем, которые поддерживают максимум 36 ядер, что не позволяет удовлетворить описанные выше требования. В этих системах, если они проектируются с достаточным уровнем надежности, используются по два порта 10 Gigabit Ethernet и по два порта Fibre Channel 8G SAN на сервер. Чтобы решить задачу размещения крупных виртуальных машин, необходимы переход на четырехсокетную платформу и использование, например, 64 ядер на сервер. Согласно опыту DataLine, для таких систем скоростей 10G (Ethernet) и 8G (SAN) уже недостаточно — требуются увеличение числа портов или переход на более производительные сетевые технологии.
Другой блок требований к сетевой инфраструктуре современного облака связан с развитием систем хранения данных (СХД). Наряду с традиционными блочными СХД востребованы системы хранения с файловым доступом. Кроме хорошо известных поставщиков NetApp и EMC, в этой области активно работают новые игроки — например, компания Huawei, которая предлагает линейку СХД Ocean Store v3. Свой вклад вносят и разработчики ПО, развивающие решения, которые позволяют строить программно определяемые (software-defined) СХД. Выбор таких систем широк: от систем Ceph с открытым исходным кодом (open-source) до Microsoft Storage Spaces.
Применение программно определяемых СХД дает возможность отказаться от использования специализированной сети хранения (SAN) на базе Fibre Channel и организовать всю сетевую инфраструктуру на основе Ethernet. В такой инфраструктуре узлы программно определяемых СХД можно подключать к кластерам виртуализации по Ethernet с использованием таких протоколов, как SMB3 и NFS. Но, агрегируя сетевой трафик и потоки ввода-вывода, важно не забыть увеличить и пропускную способность.
«Программно определяемые СХД, как правило, можно и нужно настраивать достаточно «глубоко», адаптируя к конкретным условиям, специфике оборудования, — отмечает Михаил Соловьев. — При использовании таких систем хранения важны дополнительные возможности Ethernet-адаптеров по разгрузке ЦПУ».
Одна из ключевых технологий для этого — RDMA over Converged Ethernet (RoCE). Механизм удаленного прямого доступа к памяти (Remote Direct Memory Access, RDMA) был разработан еще в 90-е годы прошлого века для InfiniBand, а затем адаптирован для Ethernet. С его помощью приложение, находящееся на одном узле, может обращаться к ресурсам на другом без участия центральных процессоров обоих узлов. За взаимодействие с отправителем и получателем информации и за проверку данных в ходе операций отвечает сетевой адаптер. Платы с поддержкой RoCE позволяют практически мгновенно перемещать содержимое сегментов памяти между серверами, например, при использовании программно определяемых СХД, с узла хранилища на серверы-вычислители и обратно.
С учетом указанных выше требований, после тестирования решений нескольких производителей в качестве сетевого оборудования для проекта были выбраны продукты Mellanox. Сеть облака DataLine Cloud-V построена на базе оборудования, поддерживающего 40 GbE (сетевые карты Mellanox ConnectX-3 Pro и коммутаторы Mellanox MSX1710 SwitchX-2), что обеспечивает максимальную скорость обмена данными между всеми компонентами решения (см. рисунок). Вычислительный кластер облака объединяет четырехсокетные серверы Dell с процессорами Intel Xeon E5-4640 v2 («на борту» 40 ядер CPU и 512 Гбайт RAM), на которых можно размещать многопроцессорные виртуальные машины с высоким уровнем производительности. Единое хранилище данных, организованное на базе Windows Storage Spaces, включает как быстрые SSD-диски SAS для автоматического размещения горячих данных, так и емкие NL-диски SAS для хранения больших массивов данных.
Упрощенная схема инфраструктуры облака DataLine Cloud-V |
Для связи коммутаторов Mellanox использована современная архитектура Leaf-Spine, ее еще называют сетью Клоза. Эта топология предусматривает переход от традиционной трехуровневой схемы (доступ — распределение — ядро) к двухуровневой: на уровне ядра устанавливаются магистральные коммутаторы (spine), к которым напрямую подсоединяются коммутаторы доступа (leaf). Такое решение позволяет создать множество активных путей для пересылки трафика, добиться предсказуемых задержек при передаче данных между узлами сети, а также гибко масштабировать сетевую инфраструктуру.
Коммутаторы доступа в сети Cloud-V располагаются в каждой стойке (Top of Rack, ToR) максимально близко к конечному оборудованию. По мнению специалистов DataLine, такое решение позволяет увеличить плотность размещения оборудования, использовать недорогие DAC-кабели прямого подключения и снизить сложность монтажа.
Адаптеры Mellanox поддерживают уже упомянутую выше технологию RoCE для разгрузки центральных процессоров серверов. Эта технология встроена в протокол Microsoft SMB-Direct 3.0, что обеспечит максимальную производительность при взаимодействии узлов в облаке Cloud-V. Следует отметить, что продукты Mellanox реализуют еще один механизм разгрузки ЦПУ, важный для систем Microsoft. Речь идет о технологии NVGRE Offload (NVGRE — протокол организации виртуальных сетей, используемый в системах Microsoft). Адаптеры Mellanox способны самостоятельно обрабатывать инкапсулированные NVGRE-пакеты. Как показывают тесты, при этом загрузка процессора сервера снижается на 80%, а пропускная способность возрастает на 65%. Все это позволяет увеличить число виртуальных машин на сервере, сделав решение более эффективным.
Специалисты DataLine обращают внимание еще на одну реализованную в адаптерах Mellanox технологию — SR-IOV, которая обеспечивает возможность их виртуализации (на уровне самого сетевого адаптера). В этом случае физический адаптер разделяется на несколько виртуальных, каждый из которых использует необходимый набор механизмов. Это позволяет задействовать разный набор технологий оптимизации для разных информационных потоков в пределах одного сервера.
В качестве еще одного аргумента в пользу выбора сетевых решений Mellanox Михаил Соловьев указывает на то, что они постоянно обновляются и «идут в ногу со временем»: «Коммутаторы, приобретенные нами для работы с Microsoft Storage Spaces на базе Windows Server 2012 R2, поддерживают и все технологии, необходимые для Microsoft Storage Spaces Direct на базе Windows Server 2016».
Итак, облако DataLine Hyper-V основывается на высокопроизводительной сетевой инфраструктуре, способной обеспечить высокоскоростную обработку больших объемов данных. Ее ключевые особенности: очень низкие задержка и ее вариация при пересылке трафика, высокая производительность при минимальной загрузке ЦПУ (благодаря использованию эффективных механизмов разгрузки), а также тесная интеграция с продуктами Microsoft.
Аппаратная часть Cloud-V размещена в крупнейшем центре обработки данных компании DataLine — Nord 4, первая очередь которого была введена в коммерческую эксплуатацию весной 2015 года. Объект сертифицирован организацией Uptime Institute и имеет уровень надежности Tier III. На программном уровне отказоустойчивость и высокая доступность сервисов Cloud-V обеспечиваются технологиями Microsoft Failover Clustering и Microsoft NLB Clustering. В результате заказчики могут получить в свое распоряжение виртуальные машины c предустановленным системным и платформенным ПО, порталом управления Azure Pack и гарантированной доступностью 99,95%.
Александр Барсков, ведущий редактор «Журнала сетевых решений/LAN»