Анализируя поставленные кем-либо отметки «нравится» Facebook, программная система статистического моделирования способна определить основные черты его личности не менее точно, чем супруга или близкие родственники.
Анализ «лайков» и других цифровых следов может помочь компьютерным программам более осмысленно взаимодействовать с людьми, считают ученые, опубликовавшие доклад в журнале Proceedings of the National Academy of Sciences.
Системы Больших Данных уже помогают анализировать поведение, в особенности покупательские привычки, но средства статистического моделирования сегодня применяются слишком узко. «Не всегда можно понять значение оценок, которые они дают, — полагает Микал Косински, сотрудник Стэнфорда, соавтор исследования. — Задача нашей работы — упростить интерпретацию смысла оценок».
Люди превосходно справляются с определением черт характера, отмечает он, но компьютеры могут делать это еще лучше.
Новое исследование — продолжение работы, в результате которой в марте 2013 года был опубликован доклад, показывающий что компьютер может с поразительной точностью определять особенности личности по «лайкам» Facebook.
Теперь же исследователи решили выяснить, могут ли компьютеры оценивать людей точнее, чем они сами.
Ученые предложили около 86 тыс. пользователям Facebook заполнить состоящую из 100 вопросов анкету о своем характере, предназначенную для оценки основных черт личности: открытость опыту, добросовестность, экстраверсия, доброжелательность и невротизм.
За несколько раундов машинного обучения перечисленные черты были ассоциированы с «лайками» Facebook. К примеру, если человеку «нравится» Сальвадор Дали или медитация, это значит, что у него большая степень открытости опыту.
Чтобы оценить эффективность реализованных ими компьютерных алгоритмов, исследователи выдали аналогичные анкеты друзьям и родственникам части участников. Результаты этого опроса и выполненные компьютером оценки затем сравнивались с оценками, которые сами себе дали участники.
Оказалось, что по десяти лайкам компьютер узнает человека так же хорошо, как его сотрудники. Если лайков больше 70, программа достигает уровня друга или соседа по комнате, а если свыше 300, то компьютер будет знать вас не хуже супруги или близкого родственника.
Исследование примечательно большим размером выборки, отметила Дженнифер Голбек, специалист по компьютерным наукам Мэрилендского университета, директор лаборатории взаимодействия компьютера с человеком. Она не участвовала в исследовании, но тоже занимается проблемой определения черт характера людей по их сетевым следам.
«Учитывая, что в исследовании приняли участие так много пользователей Facebook, можно быть уверенным, что полученный результат не случайность, — отметила Голбек. — Возможно, для еще более обширных выборок какие-то из корреляций и не будут справедливыми. Но общая методология установления связи между атрибутами личности и тем, как мы ведем себя в Сети, определенно выглядит многообещающей».
Facebook дает отличный материал для подобного анализа, но люди оставляют цифровой след и много где еще, отметил Косински. Информацию для анализа пользователей могут дать публичные форумы наподобие Twitter, статистика скачивания музыки и фильмов и даже протоколы корпоративного веб-сервера.
Онлайн-компании уже исследуют такие следы, правда для слишком узких целей, считает Косински, тогда как сопоставление различных данных о людях позволило бы идентифицировать больше общих черт.
К примеру, оператор сайта, посвященного Сальвадору Дали, уже знает что его частые посетители это ценители искусства. Но сведения о том, что они, возможно, более открыты для новых идей, чем другие, могут помочь принимать решения о развитии сайта — к примеру о том, что его можно было бы оформить в более экспериментальном стиле.
Естественно, использование таких данных может вызвать проблемы с приватностью. Косински указывает, что специалисты Facebook имеют возможность применять подобные методы для оценки характера своих пользователей, и не исключено, что это уже делается.
И хотя не у всех компаний есть такой объем данных о пользователях, как у Facebook, было бы достаточно легко объединить информацию из нескольких открытых и закрытых источников, чтобы провести анализ личности гораздо более подробный, чем профилирование, к которому уже много лет прибегают онлайн-рекламодатели, отметила Голбек.
Работа исследователей позволит повысить осведомленность о том, какие именно сведения онлайн-компании могут собирать о своих пользователях. «Причем можно представить себе довольно неприятные сценарии», — добавила Голбек. К примеру, особенности личности, выяснившиеся по сетевым следам, могут повлиять на вашу кредитную оценку или страховые тарифы — справедливо или безосновательно.
Анализ поведения может использоваться как в недобросовестных целях, так и во благо — к примеру, чтобы лучше адаптировать приложения в соответствии с потребностями пользователя.
«Существует вероятность раскрытия непрогнозируемых вещей — чего-то, чего я бы ни за что не выяснила сама, — продолжила Голбек. — Поскольку система очень многое знает обо мне и имеет доступ к информации о деятельности миллиарда других людей, она способна выявлять по общим данным какие-то тонкости, о которых я и не подозревала».
Сами исследователи не видят препятствий тому, чтобы изменить масштаб своих алгоритмов и задействовать их для определения черт личности миллиардов людей, причем для этого даже не понадобятся большие вычислительные ресурсы. Это можно было бы делать практически в режиме реального времени, составляя полный профиль личности за тысячные доли секунды.
«Можно профилировать огромное количество людей практически мгновенно с очень малыми затратами», — добавил Косински.