Поддержка рабочих нагрузок ИИ приводит постоянному росту производительности ЦОДов. Традиционные кабельные соединения перестают справляться с требованиями высокой пропускной способности и малых задержек, поэтому все шире внедряется оптика. Одно из возможных решений – применение комбинированной оптики (Co-Packaged Optics, CPO) в сетевых коммутаторах дата-центров.
CPO — технология размещения в одном пакете оптических и электронных компонентов. Она делает ненужными приемопередатчики и цифровые сигнальные процессоры, так как преобразования электрических сигналов в оптические происходят в комбинированных чипах ASIC коммутатора, к которым можно подключить оптические кабели.
Серверы в ЦОДах обычно подключаются медными кабелями к коммутаторам в верхней части своих стоек, связанных общей оптической магистралью (сеть scale-out) центра. Поэтому в дата-центрах с ИИ насчитывается огромное число оптических коммуникаций, потребляющих электроэнергию для преобразования сигналов и питания лазеров. Каждый оптико-электронный переход приводит также к излишним потерям при прохождении сигналов. По данным Nvidia, энергопотребление оптической сети достигает 10% энергозатрат на вычислительные системы. Применение CPO может снизить его в 3,5 раза.
Комбинированная оптика решает также проблему быстродействия в дата-центрах с ИИ при передаче данных внутри стоек (в сети scale-up с короткими трассами). В архитектуре scale-up скоро потребуются линии 400G/lane (lane — канал одного лазера). К примеру, модуль 800G использует 8 лазеров по 100G. Сейчас выходят модули с поддержкой 1,6 Тбайт/с с линиями 200G/lane, а следующее поколение будет иметь 400G/lane, полагают эксперты. При таких показателях медные соединения непригодны (ограничение — 100G/lane), нужна оптика и высокая плотность портов.
Что же касается надежности CPO, то здесь пока нет определенного ответа, но есть много обоснованных предположений. В Nvidia заявили, к примеру, что их коммутаторы с CPO повысят отказоустойчивость в 10 раз по сравнению с предыдущим поколением. В том числе за счет в 4 раза меньшего числа лазеров, поскольку несколько оптических каналов используют один лазер. Многие отмечают, что если что-то становится неработоспособным в ASIC с CPO, то нужно менять весь корпус. По мнению сетевых экспертов, оптические модули не должны часто выходить из строя, а также всегда можно увеличить на 5-10% число портов коммутатора для оперативной замены дефектного канала.
Если говорить о производителях, то в TSMC уже разработали процесс создания чипов с поддержкой CPO и сотрудничают с Nvidia и Broadcom в их внедрении. В Broadcom создан коммутатор Ethernet с поддержкой оптики и производительностью 102,4 Тбит/с — TH6-Davisson. В Nvidia анонсировали фотонные коммутаторы с CPO — Nvidia Spectrum-X (400 Тбит/с) и Nvidia Quantum-X (144 порта InfiniBand 800 Гбит/с). В Cisco, где осторожно подходят к реализации оптической стратегии, как полагают, отчасти из-за проблем с надежностью, продемонстрировали без официального объявления в 2023 году коммутатор с CPO.
Сегодня технология CPO предназначена для высокопроизводительных коммутаторов дата-центров гиперскейлеров и может быть интересна также крупным корпоративным заказчикам. По мере того, как предприятия будут создавать собственные ИИ-кластеры, им стоит обратитить на CPO внимание, полагают эксперты. В Nvidia же считают, что CPO могут с успехом применяться во всех организациях, где строят ЦОДы.