В консорциуме Ultra Ethernet Consortium (UEC) опубликовали первую версию спецификации Ultra Ethernet 1.0, которая должна адаптировать сети Ethernet к задачам высокопроизводительных вычислений и ИИ. В работе над стандартом приняли участие крупнейшие технологические компании, включая AMD, Broadcom, Cisco, HPE, Intel, Meta (признана экстремистской и запрещена в России. — Прим. ред.) и Microsoft.
Новая спецификация предусматривает повышение масштабируемости, производительности и надежности сетей Ethernet в условиях интенсивных нагрузок, характерных для современных дата-центров, суперкомпьютеров и ИИ-кластеров.
Ultra Ethernet 1.0 предлагает улучшения в механизмах передачи данных, управления задержками и снижении потерь пакетов, что особенно важно для распределенных вычислений и тренировки больших языковых моделей.
В спецификации подробно описываются усовершенствования Ethernet, которые улучшают передачу данных с низкой задержкой в высокопроизводительных сетях. Она включает в себя, в том числе, современные подходы удаленного прямого доступа к памяти (RDMA), реализации прямого доступа к памяти, транспортные протоколы.
Одним из важнейших нововведений в спецификации UEC 1.0 в UEC называют новый механизм управления перегрузками сети, который имеет решающее значение для рабочих нагрузок ИИ. Так, в частности, UEC вводит новый режим работы, при котором получатель может ограничивать передачу данных отправителем.
До сих пор Infiniband часто считали более совершенной, чем Ethernet технологией, для высокопроизводительных вычислений и ИИ-приложений, поскольку она обладает лучшей производительностью для этих задач. Теперь же во многих случаях нововведения UEC уравнивают возможности этих конкурентов, полагают эксперты.
В UEC поясняют, что используют семантический подход к рабочим нагрузкам, то есть определяют необходимые для них настройки сети, обеспечивающие доставку пакетов без внесения изменений в приложения.
По словам представителей UEC, настройка сети Ethernet требует понимания того, как и когда можно нарушить правила, особенно на сетевых уровнях. В UEC решают эту проблему с помощью открытых стандартов и на основе координации между рабочими группами, а также сотрудничества с такими отраслевыми организациями, как SNIA, OCP, IEEE, DMTF, NVM Express.
В ближайшее время в UEC планируют начать тестирование совместимости оборудования и ПО на основе нового стандарта, а также продолжить работу над дальнейшими версиями спецификации. Эксперты считают, что внедрение Ultra Ethernet может значительно ускорить развитие инфраструктуры ИИ и высокопроизводительных вычислений, а также снизить стоимость их эксплуатации.