RCloud by 3data в партнерстве с HPC Park интегрировала в облачную платформу новый сервис с GPU ускорителями для задач ИИ

HPC Park Cloud Service – платформа на базе Docker-контейнеров, с помощью которых можно решать сложные задачи в сфере высокопроизводительных вычислений (HPC), машинного обучения (ML/DL) и искусственного интеллекта (AI). Контейнерам презентованы серверные ускорители Nvidia Tesla A100. Аппаратная платформа расположена в московском дата-центре с дублированными каналами связи и резервным питанием.

«Для заказчиков облачной платформы RCloud by 3data доступен уникальный стек из различных решений для автоматизации ИТ-инфраструктуры бизнеса, который мы постоянно расширяем, внедряя новые сервисы. Мы видим, что все больше компаний используют машинное обучения и ИИ, поэтому считаем, что уже сейчас специалистам необходимо задуматься над целесообразностью внедрения расчетов на GPU в свои бизнес-процессы», - поделился IT-директор облачной платформы RCloud by 3data Валентин Соколов.

Сервис HPC Park Cloud Service предоставляет контейнеры с готовым программным окружением и популярными фреймворками для ML: Pytorch, Tensorflow, чтобы специалисты в области DataScience и Big Data, могли быстро приступить к работе в привычной им среде.

В последнем релизе платформу дооснастили Nvidia Cuda. Данная технология предполагает минимальное окружение без установленных фреймворков, которое может быть дополнено любым удобным программным окружением. Также у заказчиков есть возможность подключать сетевое хранилище и переключать его между контейнерами, что позволяет объединять контейнеры в сеть для горизонтального масштабирования. Взаимодействие с контейнерами возможно при помощи заранее поднятого в них Jupyter Lab или по SSH.
Cохранение состояния контейнера работает через монтирование томов Ceph, что избавляет от необходимости загружать и скачивать сохраненные контейнеры. Файловая система монтируется напрямую из сетевого хранилища в любую точку кластера.

Отличительной особенностью сервиса HPC Park Cloud Service является работающая технология MIG для, своего рода, виртуализации физической GPU карты. Серверные GPU (A100, H100) поддерживают Multi-Instance GPU (MIG) и имеют семь независимых инстансов в одном GPU. Каждый из инстансов полностью изолирован, имеет высокоскоростную память, кэш и собственные вычислительные ядра. В рамках нового сервиса с GPU заказчику доступны контейнеры с 1/7, 2/7, 3/7 и далее до 7/7 дробных частей целой физической карты Tesla A100. Дробные части целой карты применяются для снижения стоимости или для менее ресурсоёмких задач, например там, где обычно используются игровые ускорители.

«Данный сервис уже доступен на облачной платформе RCloud by 3data, где действующие заказчики могут управлять им в едином окне управления вместе с другими услугами. Ресурсы (GPU, Хранилище, Сети) можно масштабировать из консоли управления в любой момент времени, а также комбинировать с дополнительными сервисами, например Виртуальными Машинами и Хранилищем S3 в рамках платформы RCloud by 3data.
Всем клиентам могут быть предоставлены эксклюзивные доступы к тесту и команда специалистов вокруг задачи», - добавил Андрей Селихов, директор по продажам HPC Park.

Пресс релизы