Один из крупных недостатков чатботов с ИИ — большая доля неверной информации при составлении рефератов объемных документов: если в длинном тексте много сведений не по теме или повторов, производительность модели снижается, она «теряет нить», добавляя нерелевантный контент или сведения, которых вообще нет в источнике.
Чтобы помочь ИИ сохранять сосредоточенность на главной теме, ученые Нью-Йоркского университета реализовали фреймворк предварительной обработки текста, основанный на принципах, позаимствованных у птичьих стай: они не распадаются благодаря тому, что каждая птица держится вблизи соседей, летит с ними в одном направлении и держит дистанцию.
В рамках фреймворка каждое предложение условно соответствует «птице». Система назначает предложениям рейтинг по репрезентативности относительно главной темы, степени важности и релевантности. Предложения с самым высоким рейтингом кластеризуются с помощью правил, похожих на те, которых придерживаются птицы в стае — так образуется несколько групп предложений со сходным смыслом. В каждом кластере выбирается лидер по рейтингу, и эти предложения-лидеры передаются ИИ-агенту, который формирует реферат.
Тестирование на 9 тыс. документах показало, что при использовании фреймворка чатботы с ИИ формируют более точные краткие изложения, чем без него.