Под эгидой OpenAI разработан сетевой протокол для ИИ-кластеров

12.05.2026

848 прочтений

Протокол MRC распределяет трафик по сотням каналов, что бы устранить заторы в ИИ-сетях.

Консорциум под руководством OpenAI, объединивший такие технологические гиганты, как AMD, Broadcom, Intel, Microsoft и Nvidia, представил новый сетевой протокол, созданный для борьбы с перегрузками сетей, которая постоянно усугубляется из-за передачи огромных объемов данных, необходимых для поддержки приложений ИИ.

Протокол Multipath Reliable Connection (MRC) предназначен для передачи данных в процессе обучения моделей на более чем 100 тыс. графических процессорах. MRC распределяет трафик по сотням сетевых каналов, а не по нескольким маршрутам, которые могут легко перегружаться. Проект координируется консорциумом Open Compute Project (OCP), спецификации протокола MRC и сопроводительная статья Resilient AI Supercomputer Networking using MRC and SRv6 опубликованы в официальном репозитории консорциума 8 мая 2026 года.

В Nvidia участвуют в работе над MRC со своей сетевой коммутационной платформой Ethernet Spectrum-X. В компании сообщили, что уже применяют новый протокол в производственном обучении ИИ в крупнейших мировых кластерах, включая кластеры OpenAI и обучение таких передовых LLM-моделей, как ChatGPT и Codex. Spectrum-X также используется в дата-центрах Microsoft Fairwater и Oracle Cloud Infrastructure Abilene — двух крупнейших «фабриках» ИИ, созданных для обучения и развертывания передовых больших языковых моделей.

MRC обеспечивает максимально эффективное использование графических процессоров, осуществляя балансировку коммуникационной нагрузки по всем доступным путям. Для исключения перегрузок осуществляется динамическое перераспределение трафика в режиме реального времени.

По данным OpenAI, обычным сетевым структурам требуется несколько секунд или даже десятков секунд для стабилизации после сбоев. Одного сбоя бывает достаточно, чтобы задание по обучению завершилось аварийно. Это приводит к остановке процесса, пока сеть пересчитывает маршруты. Перерывы в работе ИИ-кластеров из-за сетевых сбоев чреваты значительными экономическими потерями, как из-за неиспользованных циклов графических процессоров, так и в связи с избыточными трудозатратами инженеров.

MRC помогает поддерживать максимальную загрузку графических процессоров во время обучения, несмотря на замедление сети, перегрузку, сбои и другие проблемы, которые обычно прерывают или замедляют обучение. Администраторы получают возможность детально отслеживать и контролировать пути прохождения трафика, управлять им с помощью простого единого интерфейса.

В OpenAI утверждают, что многоуровневая сетевая архитектура MRC позволяет соединить более 100 тыс. графических процессоров всего двумя уровнями Ethernet-коммутаторов вместо трех или четырех уровней, необходимых стандартным сетям с производительностью 800 Гбит/с.

Под эгидой OpenAI разработан сетевой протокол для ИИ-кластеров

Zero Trust и Data Governance: как управление данными превращает дата-каталог в ядро контура безопасности