Специалисты Microsoft разработали платформу тестирования больших языковых моделей, имитирующую рабочие процессы редактирования документов в 52 предметных областях, относящихся к пяти основным категориям: программирование и конфигурирование ПО, наука и инженерное дело, творчество, работа со структурированными записями, повседневные задачи.

Всего платформа включает около 300 рабочих сред, широко применяемых в соответствующих предметных областях. С ее помощью были проверены 19 популярных больших языковых моделей на цепочках из 5-10 задач, каждая из которых состояла из операции изменения документа и обратной — восстановления оригинала. Все операции выполнялись с помощью типичных запросов, которые может делать к ИИ-боту пользователь, работающий в соответствующей сфере. По завершении выполнения цепочки полученный документ сравнивался с оригиналом для оценки степени искажения.

Конкретную задачу авторы описывают на примере бухгалтерии: нужно было, в частности, разделить реальный файл бухгалтерской книги на отдельные файлы по категориям расходов и получателям выплат, а потом восстановить. Чтобы приблизить имитируемую рабочую среду к реальным условиям, к основным файлам в запрос добавляли «отвлекающие внимание» — дополнительные документы по смежной теме, которые не требовали обработки для выполнения задачи.

Полученные результаты оставляют желать лучшего: в нынешнем виде большие языковые модели не подходят для автоматизации каких-либо процессов редактирования. Как пишут сами авторы, боты вносят «редкие, но серьезные ошибки, которые искажают документы и нарастают по мере увеличения количества итераций». Средний уровень искажений по всем проверенным моделям составил 50%, а лучшие из них на цепочках из 10 этапов теряют в среднем по 25% содержимого документов. Наиболее слабые модели чаще «теряли» фрагменты документов, а самые сильные — чаще искажали данные. Методика «отвлекающих» файлов сильно ухудшала качество выполнения задач.

Исключением стали задачи редактирования кода на Python: 17 из 19 моделей выполняли их без потерь. Авторы отмечают, что ИИ гораздо лучше справляется в условиях строгих сред программирования, чем в других ситуациях, что подтверждается результатами и других исследований. При этом не подтвердилась изначальная теория авторов о том, что если дать модели инструменты, заставив работать в агентском режиме, то результативность улучшится: все модели лучше генерировали документы самостоятельно, чем с помощью других инструментов, для которых модель писала скрипты, позволяющие выполнить требуемую задачу.

В тройку лучших задач помимо Python вошли манипуляции со схемами баз данных и работа с принципиальными электрическими схемами. А хуже всего модели справлялись с редактированием нотных записей, бухгалтерских отчетов и, как ни странно, повседневных файлов — кулинарных рецептов, меню, плейлистов: часть их содержания неизменно терялась или искажалась. В целом самой слабой стала категория задач «творчество» — здесь после длинных цепочек терялось до 80% содержимого документов.

Авторы подчеркивают, что полученные результаты не означают полной бесполезности ИИ для подобной работы — если каждый этап в цепочке тщательно проверяется, результат будет. Сейчас проблема на предприятиях решается с помощью сложных циклов проверки с участием людей, но нужны более эффективные способы, например математическая верификация результата в тех случаях, когда это возможно, или иные, новые подходы.