На конференции Nvidia GPU Technology Conference 2026 представили перспективную архитектуру дата-центров для ИИ, способных снизить затраты на генерацию токенов, которые становятся «ИИ-валютой», описывающей единицы данных и позволяющей оценить затраты на их обработку в процессах обучения моделей и формирования логических выводов.
ЦОДы, согласно Nvidia, превратятся в гигантские графические процессоры для ИИ. Это будут интегрированные ускоренные ИИ‑конвейеры на основе процессоров, коммутаторов, сетей, систем хранения, называемые «ИИ-фабриками», с содержащей пять уровней архитектурой — физическую инфраструктуру, чипы, ПО и системы, модели ИИ и приложения.
В основе проекта — графические процессоры Rubin и центральные процессоры Vera, объявленные на конференции GTC. В Nvidia также представили новый чип для логического вывода — Groq LPU, обладающий значительно большей, чем графические процессоры, пропускной способностью внутренней памяти SRAM, который предназначен для генерации токенов с низкой задержкой.
В Nvidia удвоили быстродействие межсоединений NVLink до 260 Тбайт/с, а также представили стоечную платформу BlueField-4 STX, которая расширяет память графических процессоров на весь системный кластер, используя «быструю» сеть и внешние СХД для работы с ключевыми для ИИ контекстными данными. Контекстная память ИИ «приближает» к графическим процессорам контекст и KV‑кэш, хранящий вычисленные матрицы ключей (Keys) и значений (Values) для предыдущих токенов, заметно снижая задержки и повышая эффективность использования ИИ‑агентов.
BlueField‑4 STX и объявленный на той же конференции суперкомпьютер Vera Rubin NVL72 образуют системное ИИ‑решение, где NVL72 выступает как масштабируемый вычислитель с высокоскоростной сетью на основе Ethernet‑платформы Spectrum‑X, а BlueField‑4 STX — как стоечная платформа контекстной памяти. В Nvidia сообщили, что совместно с TSMC началось производство коммутаторов Spectrum‑X с интегрированной в чипы фотоникой (co‑packaged optics, CPO).
Компания представила также ПО Dynamo, которое организует и оптимизирует взаимодействие графических и центральных процессоров, распределяет данные между различными уровнями памяти и управляет ими, формируя единую систему для инференса ИИ.
По словам Дженсена Хуанга, генерального директора Nvidia, сложность ИИ выросла в разы за счет многоагентных систем и таких технологий, как OpenClaw, которые, по значимости можно сравнить с HTML и Linux. Такие технологии будут генерировать токены с беспрецедентной скоростью и создадут высокую нагрузку на инфраструктуру. «ИИ-фабрики» помогут справиться со всем этим, считают в Nvidia.