Стив Кеннистон: «Пользователи Big Data запрашивают сервисы Big Data из источников Big Data» |
Как и многие аналитики, Кеннистон считает, что Большие Данные обусловят очередной сдвиг парадигмы в ИТ. Он подчеркнул важность решения задач, связанных с обработкой и хранением Больших Данных, поскольку от этого в конечном итоге будет зависеть успешность бизнес-процессов на каждом предприятии. Кеннистон привел наиболее подходящее, с его точки зрения, определение Больших Данных, опубликованное ранее в блоге вице-президента подразделения IDC Enterprise Platforms Мэтта Иствуда. Оно звучит так: «Big Data – это совокупное название нового поколения технологий и архитектур, обеспечивающих экономически эффективное извлечение ценных знаний из очень больших объемов весьма разнообразных данных посредством осуществляемых с высокой скоростью операций получения, выявления или анализа данных».
Сам же евангелист IBM назвал одним из важнейших признаков Big Data вкрапление в «обычные данные» данных, полученных от большого числа внешних источников, таких, например, как социальные сети или сети датчиков на основе RFID. Кроме того, архитектуры Big Data отличаются особой гибкостью, высокой степенью масштабируемости и применением облачных технологий. В трактовке Кеннистона, алгоритм использования Больших Данных в компаниях выглядит следующим образом: «Пользователи Big Data запрашивают сервисы Big Data из источников Big Data». К пользователям евангелист относит базовые корпоративные приложения и, например, системы информационной безопасности. Сервисы, по его словам, формируются на основе технологии MapReduce, потоковых вычислений, анализа и собственно хранения данных. А к источникам он отнес всевозможные датчики, интеллектуальные сетевые устройства, базы данных, файловые серверы и т. п.
Критичную роль в обработке и хранении Больших Данных Кеннистон отводит аналитическим средствам и методикам, таким как мониторинг в реальном времени, прогнозирующее моделирование, применение визуальных информационных панелей. В арсенале IBM уже имеются продукты, необходимые для выполнения этих задач, утверждает представитель компании. Это, помимо собственно систем хранения IBM, многочисленные решения из продуктовых линеек Cognos, SPSS, Clarity, OpenPages, а также решения, интегрированные с платформой Hadoop.
В конечном итоге все разработки корпорации для хранения данных нацелены на повышение эффективности этого процесса. Но среди множества технологий и продуктов IBM в этой области докладчик выделил пять наиболее перспективных: многоуровневое хранение, то есть построение архитектуры хранения с автоматическим разделением данных по уровням важности данных (на основе решения IBM System Storage EasyTier), виртуализация (платформа SAN Volume Controller), инициализация (решения Thin Provisioning для управления хранением данных), оперативное сжатие данных (технология Real-time Compression приобретенной недавно компании StoreWise) и дедупликация на базе ProtecTIER.
IBM призывает заказчиков использовать ее инновации в области хранения данных, после того как сама успешно опробовала их на практике. Кеннистон рассказал о нескольких знаковых проектах IBM в области Big Data. Так, усовершенствования в сфере производственной аналитики помогли корпорации повысить эффективность управления своим предприятием по выпуску полупроводниковых компонентов, расположенным в штате Нью-Йорк. Ежедневно на этом предприятии проводится более 100 млрд измерений. Задействованные здесь аналитические инструменты заблаговременно предупреждают об отклонениях, способных отрицательно повлиять на производственные результаты и на доходы подразделения. В этом примере эффективная обработка Больших Данных позволила сократить издержки на 32 млн долл. и повысить доходы на 21 млн долл. Еще один пример – использование в IBM системы моделирования Statistical Tracking and Assessment of Revenue, обрабатывающей разнообразные источники данных для улучшения прогнозирования будущих доходов. После развертывания этой системы число ошибок прогнозирования в IBM уменьшилось в среднем на 40%. Третья инициатива, реализованная в масштабе всей корпорации, называется Territory Optimization Program, она предназначена для повышения качества проектирования зон продаж на основе возможностей будущего роста, а не ретроспективных данных. Улучшение территориального распределения продаж в 2010 году обусловило рост годового дохода на 600 млн долл.; в IBM ожидают, что в 2014 году этот показатель составит 1,1 млрд долл. В заключение Стив Кеннистон упомянул об Outage Prevention — концепции из области Big Data, основанной на подобии предшествующих событий. Согласно данной концепции, в компании производится ретроспективный анализ заявок, связанных с инцидентами, проблемами и изменениями, с целью выявления последовательностей предшествующих событий, которые имели отношение к остановкам. После этого на основе подобия с известными последовательностями предшествующих событий в компании производится мониторинг новых заявок с целью выявления потенциальных остановок, имеющих высокую вероятность наступления. Это, в свою очередь, позволило минимизировать количество инцидентов и простоев в IBM. Этот ценный опыт работы с Большими Данными могли бы взять на вооружение и российские компании, полагает Кеннистон.