Чтобы идентифицировать человека, достаточно трех транзакций

Новое исследование показало, что существующие анонимные наборы данных на самом деле не вполне анонимны

Исследования выявили несостоятельность правил определения анонимности, диктуемых сегодня регулирующими органами. В одном из определений анонимности, предлагаемом Евросоюзом, содержится требование невозможности идентификации человека при любых обстоятельствах.

Источник: Yves-Alexandre de Montjoye/MIT

02.02.2015 Джереми Кирк

8870 прочтений

Всего в трех ключевых документах – чеках за пиццу, кофе и пару джинсов – содержится достаточно информации для того, чтобы отличить транзакции кредитной карты, принадлежащей конкретному человеку, от операций миллионов других людей.

Результаты исследований, выполненные в Массачусетском технологическом институте и опубликованные в журнале Science, наряду с другими работами демонстрируют, что в случае тщательного анализа наборы данных, кажущиеся на первый взгляд анонимными, на самом деле не могут обеспечить полной конфиденциальности.

«Если говорить о метаданных кредитных карт, то даже очень небольшого объема информации вполне достаточно для того, чтобы однозначно идентифицировать личность», – отметил один из авторов исследования, Ив-Александр де Монжуа.

Вместе с коллегами Монжуа проанализировал транзакции кредитных карт, выпущенных одним из крупных банков. В течение трех месяцев 1,1 млн клиентов банка совершили покупки в 10 тыс. магазинах.

Исследователи пытались выяснить, какой объем данных понадобится им для выделения транзакций какого-то одного конкретного человека из массы других. При этом в данных не было никаких имен, адресов, электронной почты и другой персональной информации.

В 90% случаев исследователи смогли назвать покупателя, руководствуясь сведениями о месте совершения им четырех покупок. Добавление к ним информации о ценах – например, товарных чеков – позволило идентифицировать человека всего по трем транзакциям.

А размещение в Instagram фотографии, на которой вы пьете с друзьями кофе, или твита о только что купленном телефоне обеспечивает идентификацию даже по одному чеку.

«С научной точки зрения основная задача здесь заключается в анализе поведения, – пояснил Монжуа. – Сравнение поступков одного отдельно взятого человека с поведением других людей в конечном итоге позволяет однозначно его идентифицировать».

При этом исследователи не пытались идентифицировать какую-то конкретную личность, а определяли, сколько данных понадобится в среднем для сужения круга транзакций до одного покупателя.

«Мы не ставили перед собой цель найти какого-то конкретного человека», – пояснил Монжуа.

Последние исследования дополнили собой работы, проведенные Монжуа в 2013 году и показавшие, что четырех наборов данных, включающих информацию о месте и времени, в 95% случаев достаточно, чтобы выделить звонки мобильного телефона какого-то одного человека из массы других звонков.

Исследования выявили несостоятельность правил определения анонимности, диктуемых сегодня регулирующими органами. Считается, что удаление из данных персональных сведений (например, имен и фамилий, а также адресов электронной почты) обеспечивает людям надежную защиту конфиденциальности, но на самом деле это не так.

«Наше исследование показывает, что этого недостаточно для того, чтобы предотвратить идентификацию», – заявил Монжуа.

В другом определении анонимности, предлагаемом Евросоюзом, содержится требование невозможности идентификации человека при любых обстоятельствах.

«Обеспечить соблюдение этого условия очень сложно, – признает Монжуа. – Кроме того, чрезмерная очистка данных может помешать их полезному использованию, например, для изучения привычек потребителей или оценки инфляции. Люди должны знать о потенциальном риске идентификации. Не думаю, что когда-нибудь нам удастся обезопасить себя на 100%, но к этому надо стремиться».

Чтобы идентифицировать человека, достаточно трех транзакций

ИИ в управлении продажами: как компании используют цифровых сотрудников для снижения рисков и ускорения сделок