Много лет назад муниципальная библиотека воспринималась как воплощение знаний, накопленных за века, — своего рода репозиторий Больших Данных. Эти знания восхитительны и бесценны, но статичны — они представляют прошлое, не настоящее, и уж точно не будущее, а сегодня мы привыкли к тому, что информация постоянно меняется и обновляется. Это особенно отчетливо проявляется в мире Больших Данных, поступающих в режиме реального времени, в том числе генерируемых персональными мобильными устройствами. Анализ данных, собранных со смартфонов и полученных из инфраструктуры сотовой связи, впервые в истории позволяет получить подробные знания о людях, вещах и происходящих по всему миру событиях. Но сама возможность такого анализа стала предметом ожесточенных споров между теми, кто его практикует, исследователями и общественностью вокруг главного вопроса: добыча Больших Мобильных Данных является «добром» или «злом»?

Смартфоны и планшеты позволяют получать информацию по многим каналам и одновременно сами генерируют непрерывный поток информации о своих пользователях. Данные, собранные с датчиков в смартфонах, и особенно GPS, предоставляют изобилие информации, которую операторы сотовой связи могут собирать, хранить и анализировать в режиме реального времени. Такой анализ стал сегодня по-настоящему персональным — сама информация относится к нашему непосредственному окружению. Например, геопозиционный сервис Foursquare дает советы по посещению ресторанов и магазинов, ближайших к текущему местонахождению пользователя с учетом предыдущей истории его перемещений. Более того, пользователи и сами генерируют массу информации с помощью мобильных устройств. В Facebook, к примеру, летом 2013 года в среднем ежемесячно заходили 819 млн мобильных пользователей. Другими словами, можно говорить уже не только о революции Больших Данных, но и о феномене Больших Мобильных Данных.

В предстоящие годы более отчетливой станет еще одна тенденция — Большие Мобильные Данные все чаще используются не только для анализа прошлого или настоящего, но и для прогнозирования будущего. Постепенно рождается новая парадигма «опережающих мобильных вычислений» [1]. В проекте Telefonica Smart Steps, например, разрабатываются приложения для маркетинга в режиме реального времени и поддержки принятия стратегических решений в розничной торговле. Сервис GoogleNow предоставляет пользователям информацию, зависящую от их местонахождения и других личных сведений, — например, о продолжительности поездки до выясненного сервисом места работы пользователя. А судя по планам некоторых компаний, уже скоро появятся сервисы, предоставляющие информацию, связанную с предполагаемыми будущими действиями пользователя. Например, вы можете получить список мероприятий на пятничный вечер, потенциально могущих вас заинтересовать, или прогноз плотности движения в предстоящее воскресенье на шоссе, соединяющем вас с местом, где вы обычно отдыхаете.

Добыча Больших Мобильных Данных во имя добра

Информация, которую смартфоны генерируют с помощью встроенных датчиков, либо косвенные сведения, собранные мобильными операторами (путем анализа детализаций вызовов и закономерностей регистрации устройств на базовых станциях), сулят колоссальные возможности обществу в целом.

Мобильные данные можно использовать во имя добра — например, для улучшения ситуации с транспортными перевозками в развивающихся странах [2], для разработки стратегий сдерживания эпидемий и исследования реакции общества на землетрясения и другие стихийные бедствия. Компании, госструктуры и другие организации, владеющие такими данными, могут предоставлять их исследователям и широкой публике в рамках конкурсов, участникам которых предлагается искать способы использования данных для улучшения жизни общества. Пример подобного применения обработки Больших Данных — анализ поведения и эмоционального состояния групп людей, который мог бы помочь в борьбе с депрессией и другими расстройствами путем разработки стратегий поведенческой психотерапии для отдельных групп или населения в целом. Другое потенциальное применение крупномасштабной добычи мобильных данных — построение аналитических и прогнозных приложений для правоохранительных органов. Речь идет об исследованиях, связанных с попытками идентификации очагов преступности в городах, анализа их характеристик (например, с помощью информации о численности населения), выявления каких-либо географических закономерностей (например, «грабежи обычно происходят на тихих автодорогах, близких к крупным магистралям, чтобы правонарушители могли легко уйти») и даже прогнозирования эволюции преступности. Подобные инструменты могли бы приносить огромную пользу правоохранительным органам.

Другими словами, Большие Мобильные Данные предлагают новые возможности не только для коммерческого применения, но и для общественно значимых проектов. Но поскольку само это направление появилось лишь недавно, общество еще не успело к нему адаптироваться.

Приватность

Будущее бизнес-аналитики

Из всех приложений бизнес-аналитики в следующем десятилетии наибольший рост продемонстрирует прогнозная аналитика, позволяющая оценивать вероятность реализации событий в будущем.

Леонид Черняк 

Еще в 1945 году Ванневар Буш, один из первых людей, предвидевших наступление сегодняшней цифровой эпохи, написал статью «Как мы можем мыслить» о возможностях, которые откроются в будущем, предвосхитив будущий шквал научных и ненаучных данных, а также потенциал вычислительных технологий. Буш отмечал, что перед лицом этого шквала данных используемые учеными методы передачи и проверки результатов быстро окажутся дедовскими. Если оценить все время, потраченное на написание научных трудов и на их чтение, соотношение между этими показателями может оказаться пугающим — например, теория Менделя о законах наследственности оказалась потерянной для целого поколения, поскольку с ней не смогли вовремя ознакомиться те немногие, кто был бы в состоянии ее понять. Катастрофы подобного рода постоянно повторяются, и важные достижения просто теряются в массе несущественных. Совокупность научного опыта растет поразительными темпами, а способы, с помощью которых человек пробирается по этому растущему лабиринту к нужному ответу, остаются все теми же, что во времена парусных судов.

Вряд ли Буш мог предвидеть, что большая часть информации на Земле будет генерироваться персональными мобильными устройствами и что это будут потоки данных, поступающие от людей со всего мира в режиме реального времени. Он, скорее всего, не предвидел и использование обработки данных для изучения процессов, происходящих в мире и обществе. Какова же роль исследователей в эру Больших Мобильных Данных? Прежде всего ученые должны объяснять обществу, какие сегодня возникают проблемы с приватностью. Большинство пользователей в курсе, что посредством смартфонов их личная информация собирается и сохраняется в базах данных коммерческих компаний и госструктур. Страхи, связанные с тем, что Большие Данные могут использоваться как инструмент контроля над обществом, появляются из-за того, что соответствующие технологии выглядят сегодня загадкой для широкой публики. В итоге добыча информации из огромных объемов данных начала вызывать сегодня негативные ассоциации.

Этика Больших Данных

Профессионалам в области создания ПО сегодня уже недостаточно всего лишь «не делать зла» — все наши действия должны приносить максимальную пользу. В случае с Большими Данными здесь все пока сложно, и с этим призывом придется столкнуться каждому.

Гради Буч

Потребители должны быть проинформированы о том, какие именно данные о них сохраняют коммерческие компании и что можно выяснить при их анализе. А если говорить о госструктурах, то важность нераскрытия всех используемых ими процедур ясна, но обществу нужно усилить контроль над этими организациями, чтобы избежать злоупотреблений. Это станет возможным, только если политики будут осведомлены о потенциальных применениях технологий добычи данных.

Сегодня возникают проблемы и в связи с доступностью средств прогнозирования — например, возникли опасения не только по поводу приватности текущей информации о пользователе, но и по поводу предположений, которые можно делать на ее основе. Не меньше пугает то, что такие прогнозы и выводы могут оказаться ошибочными. Cтоит ли действительно беспокоиться о приватности нашего будущего? Кому оно принадлежит, если Большие Данные начнут использоваться для прогнозирования? Кто должен управлять информацией о предположениях, которые делаются по результатам анализа мобильных данных? Возможна ли разработка систем, способных применять технологии добычи данных, защищая при этом приватность?

Анализ пользовательских данных не должен применяться против самих пользователей. В то же время публике нужно разъяснять возможности, открывающиеся в связи с достижениями в области машинного обучения, анализа данных и мобильных датчиков,  —  трюки, которые возможны благодаря новым технологиям, должны стать частью стандартного корпуса знаний граждан. Ученые же должны популяризировать эти концепции и технологии и разъяснять риски и преимущества, которые общество может извлечь путем использования растущих объемов мобильных данных. Это важно, поскольку необходимо доверие к возможностям, открывающимся благодаря новым технологиям. Потенциальные варианты их применения еще по большому счету не изучены. Но нужно, чтобы в сборе данных и извлечении из них полезной информации компьютерщики и общество в целом видели новые перспективы.

Литература

  1. V. Pejovic, M. Musolesi. Anticipatory Mobile Computing: A Survey of the State of the Art and Research Challenges, tech. report, School of Computer Science, Univ. of Birmingham, 2013; Arxiv 1306.2356.
  2. M. Berlingerio et al. AllBoard: A System for Exploring Urban Mobility and Optimizing Public Transport Using Cellphone Data, Machine Learning and Knowledge in Databases, LNCS 8190, Springer, 2013, P. 663–666. 

Мирко Мусолеси (m.musolesi@cs.bham.ac.uk) — преподаватель, Бирмингемский университет.

Mirco Musolesi, Big Mobile Data Mining: Good or Evil? IEEE Internet Computing, January/February 2014, IEEE Computer Society. All rights reserved. Reprinted with permission.