Исследователи из Массачусетского технологического института разработали эффективный способ сопоставления данных о местоположении из разных наборов анонимизированных данных — например, из баз данных оператора мобильной связи и общественного транспорта. Метод позволяет оценить вероятность того, что данные в каждом из наборов соответствуют одному и тому же человеку.
Анализ больших наборов данных может дать много ценной информации о том, как функционирует человеческое общество, отмечают авторы. Однако важно выяснить, нельзя ли по этим данным идентифицировать передвижения конкретных людей. Предложенный авторами способ может использоваться для оценки вероятности деанонимизации данных.
Исследователи искали в данных мобильной связи и общественного транспорта пользователей с совпадающими отметками положения. По мере увеличения количества совпадающих отметок вероятность того, что они принадлежат одному и тому же человеку, повышается. Данных за четыре недели достаточно, чтобы вероятность дошла до 55%, а за одиннадцать недель — до 95%. При использовании дополнительно данных GPS, собираемых приложениями смартфонов в активном или пассивном режиме, задача значительно облегчается, и для сопоставления 95% маршрутов из двух баз оказывается достаточно данных за одну неделю.