Как пишут научные сотрудники Google, система состоит из двух нейросетей разных типов. Одна конвертирует изображение в некую компактную репрезентацию, вторая — генерирует фразу, описывающую снимок.
Исследователи задавались целью обучить систему выдавать естественно звучащие подписи с упоминанием распознанных объектов. Система может генерировать фразы, точно описывающие содержание снимка, например «группа людей делает покупки на открытом рынке». Иногда программа совершает мелкие ошибки, в частности, подпись под снимком, изображающим трех собак, указывает, что их там две. Бывают и серьезные промахи — к примеру, изображение дорожного знака система приняла за холодильник.
Тем не менее, по словам исследователей, NIC набрала 59 баллов на определенном срезе данных, на котором самые современные подобные системы получают только 25, а люди — 69. Результативность оценивалась с помощью алгоритма ранжирования, сравнивавшего качество текста, сгенерированного машиной, с текстом, написанным человеком. Как отмечают исследователи, их эксперименты показали, что с увеличением среза данных точность работы NIC растет.