Большие Данные обычно определяют как сумму структурированных и неструктурированных данных постоянно растущих объемов, а также методологий, инструментов и методов обработки данных в распределенной вычислительной сети с учетом многообразия форматов и источников этих данных. Целью обработки является получение понятных человеку результатов, обобщающих поведение изучаемых объектов и позволяющих его прогнозировать. Ключевой момент здесь, как отмечают авторы этого номера журнала, посвященного практике Больших Данных, — непрерывный прирост данных. Однако аналитики не любят, когда данные меняются во время выполнения запроса, поскольку изменения могут исказить результат — следовательно, надо уметь анализировать их «мгновенно», за время, сравнимое со временем их поступления.
Неверно характеризовать Большие Данные лишь их объемом — любой фиксированный объем хранения, вчера казавшийся огромным, сегодня помещается в мобильном устройстве, а послезавтра, как отмечает Кирилл Вахрамеев, его не хватит и на один фрагмент семейной хроники. Большие Данные — типичный пример перехода количества в качество — это не определенное количество байт, а, по аналогии с «Большой Водой» или «Большой Нефтью», такой объем, который трудно хранить традиционными способами, и поступает он таким потоком, что его трудно принимать, формализовывать и обрабатывать. Чтобы проводить анализ, нужно уметь извлекать данные из хранилища быстрее, чем они поступают, а это возможно, только если изменить подходы к хранению и обработке, однако всего этого сегодня не рынке еще нет.
Как следствие, ценная информация либо теряется, либо устаревает еще до того, как оказалась предоставленной руководителям. Согласно наблюдениям, проведенным ведущими ИТ-производителями, треть менеджеров считает, что более половины информации внутри компаний и организаций вообще никак не используется — не доступно и не связано с другими данными. Каждый третий директор уверен, что проведению эффективной информационной стратегии в его компании мешает неразбериха в корпоративных данных. Мало того, только 2% руководителей уверены, что по их запросам всегда доставляется достоверная и актуальная информация, однако более половины топ-менеджеров считает, что залог успеха их деятельности в эффективной работе с информацией. Такой процент, как отмечает в своей статье Леонид Черняк, свидетельствует о том, что работающих технологий поддержки принятия решений и приложений, критически важных для эффективного управления предприятиями, на самом деле нет, а все предлагаемые ИТ-продукты по сути предназначены лишь для автоматизации только рутинных операций.
Вывод неутешительный, но вместе с тем уже наметились пути создания платформ для разработки приложений, материализующих предприятие, управляемое в реальном времени. Похоже, что решение проблемы Больших Данных будет возможно уже теми средствами, о которых индустрия узнает в 2012-м и последующих годах.
Итак, какие просьбы деду морозу от ИТ-индустрии могли бы в канун нового 2012 года сформулировать пользователи информационных систем, требующие актуализации информации в соответствии с запросами бизнеса, обеспечения защиты данных и разработки сбалансированной политики работы компаний с разными проявлениями публичной активности, в частности, с социальными сетями?
Сделай так, чтобы можно было эффективно работать с неструктурированными данными (аудио, видео, сообщения из социальных сетей и блогов, электронная почта, телевизионные передачи, презентации в различных форматах и т.п.), составляющими сегодня 85% от всего объема генерируемых данных и ежегодно растущими на 62% (примечательно, что количество структурированных данных увеличивается лишь на 22% в год).
Сделай так, чтобы бизнес-аналитика вообще и прогнозная аналитика, в частности, обогатились инструментами работы с Большими Данными.
Сделай так, чтобы облака действительно превратились в коммунальную услугу, интегрировав в себя все необходимые для этого ресурсы.
Уповать на деда мороза, конечно, можно, но для воплощения всех этих пожеланий в жизнь, кроме технологий потребуются еще и люди новых специальностей, чья деятельность будет связана с анализом больших объемов данных с целью совершенствования систем управления бизнесом, компаниями и организациями: ученые по данным; архитекторы данных; проектировщики пользовательских запросов и специалисты, способные учесть опыт пользователей. Спрос на представителей этих специальностей, как отмечают в этом номере топ-менеджеры ведущих ИТ-компаний, будет расти экспоненциально. А пока, согласно данным еще одного исследования, компании принимают сегодня решения на основе данных более чем годичной давности, точность которых не превышает 55%.