В Google Cloud анонсировали новое семейство суперкомпьютерных виртуальных машин, предназначенных для быстрого обучения масштабных моделей искусственного интеллекта.
Новые виртуальные машины суперкомпьютера A3, представленные на конференции Google I/O, специально созданы для удовлетворения потребностей больших языковых моделей (large language model, LLM) в необходимых им ресурсах.
«Виртуальные машины A3 в сочетании с современными процессорами, улучшенной памятью, графическими процессорами Nvidia следующего поколения и модернизированными сетевыми компонентами специально создавались для высокоскоростной подготовки современных систем машинного обучения», – говорится в сообщении компании.
Экземпляры оснащаются восемью новейшими графическими процессорами Nvidia H100, поставки которых начались в мае, процессорами Intel Xeon Scalable 4-го поколения, оперативной памятью емкостью 2 Тбайт и межкомпонентными соединениями Nvidia NVSwitch и NVLink 4.0, позволяющими осуществлять обмен данными между восемью графическими процессорами на скорости до 3,6 Тбайт/с.
В совокупности новые машины обеспечивают производительность до 26 эксафлопс. Речь здесь идет об общей производительности всей облачной группировки, а не каждого отдельного экземпляра. Это многократно больше рекорда самого быстрого суперкомпьютера Frontier, который выдает производительность немногих выше одного эксафлопса.
В суперкомпьютере A3 впервые на промышленном уровне реализован интерфейс передачи данных GPU-to-GPU, который в Google называют инфраструктурным процессором (infrastructure processing unit, IPU). Он позволяет графическим процессорам обмениваться данными на скорости 200 Гбит/с, минуя центральный процессор. В результате пропускная способность сети виртуальных машин A3 выросла в десять раз по сравнению с сетью виртуальных машин A2 предыдущего поколения.
Задания для A3 будут выполняться на специализированной сетевой платформе для ЦОДов Google Jupiter, которая способна объединять десятки тысяч тесно связанных друг с другом графических процессоров, а ее реконфигурируемые оптические каналы позволяют корректировать топологию при возникновении такой необходимости.
Google предлагает два варианта доступа к A3: клиенты могут осуществлять запуск самостоятельно или обращаться к управляемому сервису, где большую часть работы за них выполняет Google. При самостоятельном запуске виртуальные машины A3 будут работать на платформах Google Kubernetes Engine (GKE) и Google Compute Engine (GCE). В случае использования управляемого сервиса виртуальные машины работают на управляемой платформе машинного обучения Vertex.
Виртуальные машины A3 доступны для предварительного просмотра. Желающим предлагается заполнить заявку на участие в программе Early Access Program. Однако никаких гарантий участия Google не дает.