Большие Данные — комплексный подход | Computerworld Россия

СЕРГЕЙ ЛИХАРЕВ: «Обязательным условием для старта проекта Больших Данных является понимание того, что, начав работать с ними, компания получит нечто кардинально новое»

Делясь впечатлениями о форуме Big Data 2012, Сергей Лихарев, руководитель направления решений по управлению информацией IBM EE/A, заметил, что все выступающие на конференции выделяют определенную, наиболее близкую себе тему в широкой проблематике Больших Данных. Но важно, что рынок сегодня стремится к консолидации, старается прийти к общему знаменателю в понимании того, что такое Большие Данные и какие инструменты необходимы, чтобы эффективно решать связанные с ними задачи.

Что есть Большие Данные для IBM и какими решениями в этой области она располагает, у представителя корпорации поинтересовалась Наталья Дубова, редактор журнала «Открытые системы».

Что IBM вкладывает в понятие Больших Данных?

IBM характеризует Большие Данные по наличию как минимум одного из трех признаков. Первый — объем. Говоря о Больших Данных, мы имеем в виду огромные объемы — петабайты и зеттабайты данных. Нижний порог — десятки терабайтов данных. Второй критерий — разнородность данных. Если традиционно при работе с данными мы имеем дело с SQL-ориентированным хранилищем, то Большие Данные к структурированным данным добавляют информацию из социальных сетей, тексты, электронную почту, аудио, видео и т. д. И третий признак Больших Данных — скорость. Но не скорость роста хранилищ данных, а скорость, с которой данные поступают. Например, с сенсоров очень быстро идет нескончаемый поток информации. Встает вопрос, с одной стороны, о скорости обработки этих данных, а с другой — о скорости принятия решения на их основе.

Если присутствует один их этих признаков или все они в совокупности, то это задача из области Больших Данных. Часто эти признаки оказываются взаимосвязаны: разнородная информация, как правило, имеет очень большие объемы, а информация с датчиков поступает с огромной скоростью.

Ваши основные предложения в этой области?

Для Больших Данных в целом IBM на сегодня имеет четыре решения. Прежде всего, это хранилища структурированных данных больших объемов в десятки и сотни терабайтов — программно-аппаратные комплексы Netezza, Smart Analytics System. Для обработки потоковых данных предлагается специализированное решение Infosphere Streams. Этот продукт дает возможность написать программу, которая, принимая на вход множество потоков разнородных данных, будет их преобразовывать, анализировать, сопоставлять информацию из разных потоков, чтобы на выходе сохранить извлеченную из потока информацию в хранилище либо принять на ее основе то или иное решение. Например, в приложении Streams для торговли ценными бумагами изменение котировок может быть сигналом покупать или продавать акции.

Для работы с большими объемами разнородных данных — неструктурированных, полуструктурированных либо структурированных, которые не нужно сразу помещать в хранилище, но нужна возможность обращаться к ним с помощью SQL-запросов, — IBM предлагает продукт Infosphere BigInsights. Это промышленное решение на базе платформы с открытым кодом Apache Hadoop, к которой добавлены средства обеспечения высокой доступности, масштабируемости, инструменты администрирования, инструменты для разработчиков и для конечных пользователей.

Четвертый компонент — это интеграционные возможности системы Infosphere Information Server, которые позволяют связать перечисленные решения между собой и с другими компонентами портфеля IBM по управлению информацией.

Судя по вашим словам, Streams — это среда разработки, а не готовая аналитическая система?

Streams — это среда разработки и одновременно среда исполнения приложений для потоковых данных. Продукт включает в себя наборы библиотек, которые позволяют строить аналитические приложения для обработки различных типов данных — финансовых, текстовых, видео, аудио. Например, с помощью соответствующего тулкита в Streams можно написать приложение для обработки информации, поступающей с видеокамер, которое будет сопоставлять все лица с определенной базой данных и выполнять некоторые действия при выявлении совпадения. Приложение, разработанное с использованием набора библиотек для аудиоданных, сможет, например, выделять звук человеческого голоса из шума моря. Библиотеки для финансовых данных дают возможность разбирать форматы этого типа информации.

Streams предоставляет инструменты разработки на специальном языке Streams Processing Language, созданном в IBM. После того как программа на SPL написана и отлажена, она переносится в продуктивную среду Streams. В этот момент начинает работать технология по оптимизации. Во время написания программы разработчик не знает, в какой среде она будет исполняться. В зависимости от интенсивности потока данных приложение может быть развернуто на одном ноутбуке или на кластере из сотни мощных машин, которые будут вести параллельную обработку. Красота решения IBM в том, что программа на декларативном языке преобразуется в эффективный машинный код. Streams сначала получает задание осуществить те или иные преобразования данных, а затем информацию о том, что эти преобразования надо реализовать, например, для потока данных в 1 Тбайт в час. И приложение будет развернуто на оптимальной аппаратной конфигурации для такой скорости обработки.

Насколько Streams востребован и каковы, на ваш взгляд, его перспективы на нашем рынке?

Я уже вижу потребность у финансовых организаций и в телекоме, где постоянно имеют дело с потоками данных. Потенциальный пользователь Streams — промышленные предприятия, в частности нефтегазовая отрасль, где эксплуатируется множество датчиков, с которых все время приходит информация. Еще одна область — системы безопасности, где стоит задача распознавания видеоизображений и выполнения тех или иных действий по результатам анализа.

Сегодня предлагается не одна коммерческая реализация систем работы с Большими Данными на базе Hadoop. Что выделяет решение BigInsights?

BigInsights — полноценная корпоративная платформа с возможностями развертывания, администрирования, безопасности, высокой доступности. Кроме того, решение включает в себя Text Analytics Toolkit, который позволяет писать приложения по анализу текстов. Например, нужно извлечь из текста фамилию и имя человека и его контактную информацию. Эти данные могут быть перечислены в одном месте или разбросаны по тексту. Инструменты текстовой аналитики BigInsights позволяют строить предметно-ориентированные наборы правил для извлечения нужной информации из текста.

Кроме того, в этой системе, как и в Streams, реализована многопотоковая оптимизация времени исполнения, благодаря которой написанное приложение будет работать в продуктивной среде быстро, надежно и качественно.

Что вы можете сказать о востребованности комплекса Netezza?

Netezza близка по духу заказчикам, потому что это классическая SQL-реализация хранилища данных. Система позволяет ускорить работу с существующим у заказчика хранилищем — реализованная в нем аналитическая модель просто переносится в Netezza, где она будет работать без изменений, но значительно быстрее. При этом скорость, которую обеспечивает переход на Netezza, открывает возможность и для реализации новых проектов, например в области прогнозной аналитики. Как показывает общение с партнерами и заказчиками, сейчас в России приходит понимание, что прогнозная аналитика — это реальный бизнес-инструмент, способный приносить деньги. Когда прогнозная аналитика выйдет на промышленный уровень использования, Netezza с ее возможностями быстрой обработки больших объемов структурированных данных будет очень востребована. По Netezza сейчас идут пилотные проекты, которые делают IBM и партнеры компании.