В процессе работы над системой Perspective, которая должна выявлять в разговорах, происходящих на форумах и прочих площадках в Интернет, признаки оскорблений и преследования, инженеры Google обнаружили, что обученная на многочисленных примерах модель искусственного интеллекта начинает считать оскорблениями слова, в действительности таковыми не являющиеся. К сожалению, заключили разработчики, дело не в том, что модель срабатывает неверно, а в том, что в общении в Интернете те или иные слова действительно часто употребляются не в нейтральных фразах для указания на принадлежность человека к соответствующей группе, а в оскорблениях.
В теории машинного обучения такая ситуация называется нехваткой разнообразия данных для обучения. С марта прошлого года Google ведет программу сбора дополнительных данных, в том числе через специально созданный сайт под названием Project Respect. Участники программы предоставляют исследователям термины и фразы, описывающие их сексуальную ориентацию, религию, семейное положение и прочие характеристики. Уже в этом году в Google планируют предоставить собранные данные в общее пользование, чтобы разработчики могли на них обучать собственные модели.