Перед публикацией этой информации для исследователей из нее необходимо удалить идентифицирующие сведения. Ученые Массачусетского технологического института и Лувенского католического института (Бельгия) выяснили, что сделать это будет непросто.
Источник: Rendering by Christine Daniloff/MIT of an original image by Yves-Alexandre de Montjoye et al. |
Они обработали данные по 1,5 млн абонентам сотовой связи Бельгии за 15 месяцев и выяснили, что всего четырех опорных точек с низким пространственным и временным разрешением будет достаточно, чтобы идентифицировать участников массива. Другими словами, поясняют исследователи, всего по нескольким публикациям в Twitter, где вы укажете свое примерное местонахождение, обладатель такого среза данных может выяснить все ваши маршруты.
Ученые пронумеровали сотовые телефоны из набора данных, в котором для каждого из них указывалось время соединения с вышкой с точностью до часа. Для каждого аппарата случайным образом выбиралось несколько точек; для 95% следов оказалось, что достаточно всего четырех точек, чтобы отличить след от всех остальных, а в «худшем» случае понадобилось 11 точек. Выяснилось также, что даже если знать время с точностью до 15 часов, а местонахождение — до 15 вышек, все равно можно идентифицировать половину участников среза данных.