Ученые Google проверили способности людей и новейших больших языковых моделей к решению логических задач трех видов: формирование логических выводов, оценка справедливости силлогизмов и задача выбора Уэйсона.
По результатам исследователи пришли к выводу о том, что ИИ склонен попадать под влияние тех же особенностей содержания задачи, что и люди. К примеру, и люди, и машина с большей вероятностью указывают неверный аргумент в качестве верного, если он звучит осмысленно и правдоподобно.
Кроме того, языковые модели так же плохо, как и люди, справляются с задачей Уэйсона, когда испытуемому дают четыре карточки с буквами и цифрами, например, D, F, 3, 7, и нужно ответить, какие карточки следует перевернуть, чтобы проверить справедливость утверждения наподобие «Если на карточке на одной стороне D, то на другой — 3». В этом примере и люди, и машина были склонны выбирать карточку с цифрой 3, хотя из утверждения не следует, что у такой карточки на обратной стороне D.
Чтобы языковые модели, обученные на подготовленных человеком данных, не делали свойственных людям ошибок, их нужно подвергать дополнительному формальному обучению для тренировки логического мышления, считают авторы.