Крис де Форж: «Большие Данные и облака буквально созданы друг для друга» |
Компания Hewlett-Packard сделала ряд значимых шагов с целью заполучить заметную долю зарождающегося рыночного сегмента. О проблематике Больших Данных и планах HP в этой области рассказывает Крис де Форж, директор по развитию бизнеса подразделения HP BCS в регионе EMEA.
В чем специфика Больших Данных, о которых в последний год так много говорят и эксперты, и ИТ-компании?
Применительно к Большим Данным можно выделить три проблемных области, с которыми сталкиваются заказчики: пересмотр существующих архитектур, аналитическая обработка и облачные сервисы.
Прежде чем вести речь об аналитической обработке Больших Данных, необходимо разобраться с множеством традиционных архитектур, систем и устройств, порождающих огромные объемы данных. Например, Oracle приступила к разработке своей флагманской СУБД 27 лет назад, а это как раз средний возраст сегодняших пользователей социальных сетей и мобильных терминалов, генерирующих новый контент в невиданных прежде масштабах. Поэтому серьезной проблемой является адаптация архитектур традиционных СУБД к новой реальности Больших Данных и разработка новых методов управления ими. Они должны базироваться не на экстенсивном, а на интеллектуальном подходе к обработке Больших Данных.
HP активно разрабатывает и выводит на рынок соответствующие технологии, например обработку данных в оперативной памяти, максимально приближенную к местонахождению основных вычислительных ресурсов. Очень важно, чтобы достигаемая в результате гибкость обработки была доступна всем приложениям, которые использует заказчик. При этом мы и развиваем технологии, и активно сотрудничаем со стратегическими партнерами, например с SAP, стремясь модернизировать существующие структуры данных и апробировать создаваемые решения. Это первый шаг к тому, чтобы через управление данными пользователи органично переходили к их анализу.
Но аналитическая обработка Больших Данных тоже имеет свою специфику?
Безусловно. В мае мы завершили сделку по приобретению компании Vertica. Даже такая крупная корпорация, как HP, не в состоянии все разрабатывать самостоятельно. Вместо того чтобы пытаться адаптировать технологии 60-80-х годов к новой реальности, которая связана с обработкой Больших Данных, мы решили интегрировать в свой портфель современную технологию, которая была придумана и затем доведена до коммерческого продукта компанией Майкла Стоунбрейкера – одного из основоположников реляционных баз данных.
Как известно, СУБД создавались в расчете на оперирование сравнительно небольшим числом сложных динамических наборов данных. Стоунбрейкер же спрогнозировал грядущее приближение эпохи лавинообразного нарастания числа компактных наборов статических данных, каковыми являются данные, генерируемые самими компьютерными системами, пользователями социальных сетей, сервисами сетей сотовой связи и т. п. Поэтому он предпринял кардинальное изменение традиционной модели данных, заменив ее на модель записи по колонкам. По сравнению с традиционными СУБД, в которых данные хранятся по строкам, переход к колоночной модели означал заметное сокращение числа необходимых операций ввода-вывода и повышение степени сжатия данных.
Пересмотр модели данных произошел на фоне трех ключевых изменений в ИТ-индустрии. Во-первых, крупные монолитные системы больше не сулили пользователям никаких преимуществ, поэтому их предстояло заменить на массивно-параллельные архитектуры, допускающие масштабирование практически в неограниченных пределах на стандартной платформе x86.
Во-вторых, радикальное сокращение жизненного цикла данных (наглядным примером могут служить текущие биржевые данные) потребовало принципиально иного подхода к их анализу. Всесторонний анализ данных недельной давности потерял актуальность, ему на смену должен был прийти анализ, максимально приближенный к режиму реального времени. Это изменение, в свою очередь, потребовало значительного ускорения операций ввода-вывода данных, которые являлись узким местом большинства систем с традиционной архитектурой. Решить проблему удалось с появлением средств интеллектуального сжатия данных.
В-третьих, предстояло разрубить гордиев узел, связанный с невозможностью одновременно выполнять операции загрузки данных и обрабатывать запросы. Мы проводили нагрузочное тестирование HP Vertica на широком спектре достаточно сложных тестов. Конечно, результаты этих тестов при одновременной загрузке новых данных не идентичны результатам тестов в отсутствие других операций, однако с точки зрения затрат времени различие измеряется наносекундами, и поэтому им можно пренебречь.
В какой мере эти новые технологии востребованы заказчиками?
Мы уже успели убедиться в том, что инновационные изменения в традиционных моделях данных и системах их обработки, о которых я рассказал, имеют огромный рыночный потенциал. Ранее мне не приходилось наблюдать столь быстрой положительной реакции пользователей на только что возникшие технологии. Сегодня огромное количество существующих заказчиков обращаются к нам с просьбой помочь в решении проблем, связанных с Большими Данными.
На момент приобретения HP у Vertica было 300 корпоративных клиентов, сегодня их уже 450. В России у нас имеется пара очень интересных пилотных проектов (в том числе в телекоммуникационной отрасли), направленных на апробацию предлагаемого HP подхода к обработке Больших Данных. Мы сами проводим серьезные исследования в этой области, надеясь привлечь новых заказчиков. На мой взгляд, скоро заказчики должны появиться и в России, где накоплены огромные объемы корпоративных данных и имеется множество талантливых высококвалифицированных специалистов.
Для нас ключевым аспектом является способность поспевать за спросом. Однако сделанное – только первый шаг. Совсем недавно мы завершили крайне важное для нас приобретение компании Autonomy. Мощность созданных ею средств консолидации данных и обработки запросов также позволяют реализовать анализ Больших Данных в режиме, максимально приближенном к реальному времени. Сейчас идет активная интеграция продуктов Autonomy в портфель решений НР.
По уже сделанным нами шагам видно, что управление Большими Данными и их анализ относятся к числу наиболее приоритетных направлений развития бизнеса компании. При этом важно подчеркнуть, что обращение к Большим Данным следует расценивать как расширение нашей экспертизы и портфеля предлагаемых решений в ответ на запросы клиентов, но никак не в качестве замены традиционных направлений бизнеса.
О Больших Данных много говорят в контексте облачных сервисов. В HP наверняка не могли пройти мимо этого «тандема»?
Интеграция технологий хранения и обработки Больших Данных, а также средств их анализа с облачными решениями — еще одно важное направление нашей деятельности. HP разработала собственную стратегию в сфере облачных вычислений и направляет значительные ресурсы на ее реализацию. Переход в облако позволяет заказчикам по максимуму модернизировать имеющуюся ИТ-инфраструктуру.
Компания HP привержена открытым интегрированным инфраструктурам, они позволяют заказчикам использовать стандартные компоненты и тем самым заметно снизить издержки и упростить управление инфраструктурой. Мы стремимся максимально облегчить заказчикам внедрение новых решений и интеграцию в облако уже существующих, строят ли они внутренние облака или делают ставку на модель SaaS. Существенное внимание при этом уделяется интеграции средств анализа Больших Данных в облачные инфраструктуры. Целесообразность «союза» Больших Данных и облаков мне представляется неоспоримой.