Сорок тысяч ядер

Громоздить стойки из 400 серверов вам больше не придется. Суперкомпьютер Nvidia DGX-1 с графическими процессорами на базе архитектуры Volta уместится и на обычном столе.

Большая часть вычислительной мощности суперкомпьютера DGX -1, который выглядит как обычный стоечный сервер, заключена в восьми графических процессорах Tesla V100.

Первый графический процессор на основе новой архитектуры Volta был представлен на конференции GPU Technology Conference, организованной компанией Nvidia в Сан-Хосе.

«Достаточно просто достать нашу систему из коробки, включить ее в розетку — и можно работать», — заявил генеральный директор Nvidia Джен-Сан Хуанг.

Но стоит компьютер DGX-1 с процессорами Tesla V100 довольно дорого. Те 149 тыс. долл., которые за него просят в США, многим приходится копить всю жизнь. И все же Хуанг рассчитывает, что новый продукт будет достаточно популярным. Поставки суперкомпьютера начнутся в третьем квартале текущего года.

В нем заключено 40?960 ядер CUDA, которые по своей вычислительной мощности эквивалентны 800 высокопроизводительным центральным процессорам. Новый суперкомпьютер придет на смену предыдущей модели DGX-1 на базе архитектуры Pascal, вычислительная мощность которой была эквивалентна 250 двухпроцессорным серверам.

Наряду с графическими процессорами в системе установлено два 20-ядерных процессора Intel Xeon E5–2698 v4, работающих на частоте 2,2 ГГц. Суперкомпьютер оснащен четырьмя твердотельными накопителями емкостью 1,92 Тбайт и работает под управлением операционной системы Ubuntu Linux.

Энергопотребление его составляет 3200 Вт, и, если оставлять систему включенной на весь день, счета за электроэнергию могут оказаться довольно внушительными.

В настоящее время графические процессоры уже довольно активно используются при решении задач машинного обучения, и суперкомпьютер Nvidia вполне способен помочь в распознавании образов и обработке естественного языка.

По словам Хуанга, центральные процессоры не обладают достаточной вычислительной мощностью, особенно для построения систем искусственного интеллекта. Графические процессоры подходят для этого гораздо больше.

Процессоры Tesla V100 в DGX-1 работают в пять раз быстрее, чем продукты с архитектурой Pascal. Здесь используется целый ряд новых технологий, в том числе шина NVLink 2.0 с пропускной способностью до 300 Гбит/с. В каждом графическом процессоре насчитывается 5120 ядер и более 21 млрд транзисторов. Пропускная способность памяти HBM2 составляет 900 Гбайт/с.

На помощь обычным процессорным ядрам при решении задач глубинного обучения приходят ядра Tensor Core. Компания Nvidia структурировала ядра для ускорения матричного умножения, которое является одним из основных условий эффективного машинного обучения. Созданная структура помогает упорядочить низкоуровневые вычисления с плавающей запятой и ускорить тем самым глубинное обучение.

По свидетельству Хуанга, при решении задач глубинного обучения графический процессор обеспечивает производительность на уровне 120 TFLOPS, однако проверить это довольно затруднительно. Стандартных тестовых инструментов для приложений машинного и глубинного обучения не существует, хотя такие разработки и ведутся.