Британские исследователи проанализировали более 400 тыс. ответов популярных больших языковых моделей, включая GPT-4o, Qwen, Llama и Mistral, выяснив, что их версии с «повышенной эмпатией» чаще дают неверные ответы, подкрепляют неверные представления и избегают излагать неприятную пользователю правду.

По сравнению с нейтральными ИИ-чатботами «дружелюбные» делают на 10-30% больше ошибок в беседах на важные темы, в частности, при выдаче медицинских рекомендаций. К тому же «благожелательные» на 40% чаще подкрепляют теории заговора: например, если спросить у дружелюбного варианта модели, высаживались ли астронавты в рамках программы «Аполлон» на Луне, она начинает рассказывать о том, что «многие в этом сомневаются», тогда как стандартный вариант дает прямой положительный ответ.

Дополнительные эксперименты показали, что именно «дружелюбие» и «стремление» угодить пользователю, а не какие-то иные особенности обучения модели, приводят к снижению точности ответов.

Исследователи также провели тестирование на вариантах моделей, настроенных более «холодно» к пользователю — выяснилось, что уровень достоверности ответов у них такой же, как у нейтральных.