Hadoop для цифровой трансформации

Hadoop для цифровой трансформации Три года назад Сергей Золотарев, глава представительства Pivotal в России и СНГ, на форуме BIG DATA 2014 говорил о том, как важно уметь «прикрутить» Hadoop к реальным корпоративным ИТ-средам. В 2017 году на очередном форуме BIG DATA он, уже в качестве руководителя направления по разработке линейки собственных продуктов компании IBS для работы с данными, представил российскую версию дистрибутива Hadoop. В Computerworld Россия расспросили Золотарева о том, что произошло на российском и мировом рынке Hadoop за эти годы, для чего рынку еще один дистрибутив и чем российская разработка отличается от зарубежных.

— Насколько поменялась ситуация на рынке Hadoop за три последних года?

Ситуация изменилась кардинально. Три-четыре года назад на Hadoop делались в основном пилотные проекты — крупные телеком-компании и банки только приглядывались к этой платформе. Сейчас крупнейшие игроки на рынке коммерческих приложений, такие как SAP, SAS, IBM, Tableau, стали использовать Hadoop в качестве стандартной платформы хранения данных наряду с традиционными СУБД. И это, безусловно, с одной стороны облегчило адаптацию Hadoop в корпоративную инфраструктуру, потому что за эту задачу взялись крупнейшие вендоры. С другой стороны, интерес гигантов дал зеленый свет для инвесторов, и в разработки вокруг Hadoop хлынули огромные инвестиции. Hadoop превратился в огромную экосистему, в разработку которой вложены сотни миллионов долларов и миллионы человеко-часов.

Сергей Золотарев рассказывает на BIG DATA 2017 о том, как можно построить платформу хранения данных на базе решений с открытым кодом

Раньше Hadoop был отдельной системой для решения определенных задач, сейчас же его стандартно используют в связке с BI-системами в качестве платформы хранения, на его основе строят универсальные платформы хранения, к которым обращаются другие информационные системы. Это большой скачок.

Поменялась парадигма. Раньше пытались интегрировать традиционные хранилища данных и Hadoop, причем хранилища были главными, теперь хранилища остались для решения старых задач, а под новые аналитические задачи строится платформа сбора и анализа данных на базе Hadoop. Если для решения этих задач нужны какие-то данные из хранилища, то они достаются из хранилища, которое становится всего лишь одним из источников данных для этой платформы.

Отчасти поэтому, на мой взгляд, уходят из употребления такие термины, как «озера данных», и даже сам термин «Большие Данные». Все чаще в ходу понятие Data Platform, или Enterprise Data Platform — платформа работы с данными.

Именно она становится основой цифрового бизнеса, цифровой трансформации. И те компании, которые в это вовремя осознали и начали строить свои платформы данных, как минимум на шаг опередили своих конкурентов.

— Почему вы решили создать свою версию дистрибутива Hadoop?

В ходе проектов у заказчиков наша команда очень часто слышала, что в дистрибутиве Hadoop не хватает тех или иных компонентов, что версии компонентов, которые есть в базовой сборке, не устраивают и т. д. Удовлетворяя эти пожелания, дорабатывая дистрибутив, мы приобрели ценный опыт, а кроме того, поняли, как нужно правильно собирать дистрибутив и чего не хватает заказчику.

Следующий важный момент — доступность сложной экспертизы по решению. И касается это не только России, но и Европы в целом. Для основных разработчиков дистрибутивов Hadoop главный рынок — это рынок США. А еще точнее — рынок Калифорнии, потом остальной американский рынок, потом Великобритании. Европа и тем более Россия для них не так важны. Я могу это сказать по своему опыту, поскольку сам работал в крупном западном вендоре. Ресурсы на Европу и Россию выделяются крайне ограниченно, специалистов очень мало, поддержка доступна только удаленно, и к тому же такого качества, что не всегда позволяет устранить проблемы, возникающие в ходе комплексных проектов.

В какой-то момент мы поняли, что недостатки имеющихся на рынке продуктов, в сочетании с высокими ценами на их доработку под заказчика и поддержку, создали нишу для отечественного дистрибутива Hadoop, и если его сделать, то он будет востребован рынком. В 2015 году мы присоединились к Open Data Platform Initiative, международному сообществу разработчиков программных продуктов с открытым кодом в области Больших Данных. В прошлом году созданный нами дистрибутив ArenaData Hadoop был сертифицирован по спецификации ODPi, сравнявшись в этом отношении с разработками крупнейших западных компаний.

— Почему ваша команда вошла в состав IBS?

Мы искали партнера, который, с одной стороны, хорошо понимает данную проблематику и имеет сложившуюся практику по работе с данными, а с другой — сфокусирован на построении для своих клиентов универсальных платформ данных на основе проектов с открытым кодом. IBS заинтересована в развитии портфеля собственных решений, и наш проект является площадкой для разработки целой линейки новых продуктов.

— В чем отличия вашего дистрибутива от иностранных аналогов?

«Технически» наш продукт от западных аналогов не отличается, да и не должен, потому что есть единая, утвержденная ODPi спецификация, как должен собираться дистибутив Hadoop, и мы ей следуем. ArenaData Hadoop — полноценный корпоративный дистрибутив, в нем полный набор средств, позволяющих автоматизировать процесс установки и планирования кластера Hadoop, дальнейшие процессы, связанные с его мониторингом, администрированием, модернизацией и т. д. Для российских пользователей принципиальное преимущество использования нашего дистрибутива — это прежде всего доступная локально экспертиза по разработке архитектуры решения, русскоязычная документация, поддержка на русском языке, более доступные цены на специалистов и поддержку.

Мы готовы предоставить ArenaData Hadoop не только как программное обеспечение, но и как программно-аппаратный комплекс на базе разработанной в IBS платформы «Скала-Р» с единой поддержкой всего комплекса. Последнее важно: я уже говорил, что большая наша проблема сейчас — отсутствие экспертизы, подкрепленной реальным опытом.

Особого акцента на том, что это полностью российское, «импортозамещающее» решение, мы не делаем, но тем не менее это так. Это российский продукт, и для тех организаций, где этот момент важен, у нас есть теперь что предложить.

Важная техническая особенность ArenaData — мы собрали все необходимые репозитории не только для Hadoop, но и для всего программного окружения в пакет, который можно развернуть без подключения к Интернету. Работая у крупнейших российских заказчиков, мы столкнулись с тем, что практически у всех создан закрытый контур, нет возможности выхода в Интернет из корпоративной сети, а все существующие на тот момент дистрибутивы предполагали, что установка идет в режиме онлайн и все вспомогательные утилиты, библиотеки и т. п. скачиваются с самых разных сетевых ресурсов.

— Насколько вырос спрос на Hadoop в России?

Если еще два-три года назад за проекты с использованием Hadoop у нас брались телекоммуникационные компании и банки из первой тройки, то сейчас в этих сферах, а также в ретейле, в промышленности задачи по его внедрению готовы ставить уже компании из первого десятка. Многие госкомпании так или иначе попробовали у себя эту технологию и нашли те задачи, которые можно эффективно решать с помощью Hadoop.

Мы, конечно, по-прежнему еще отстаем от Запада, где у крупных компаний и банков Hadoop стал частью типовой ИТ-инфраструктуры. Даже если они еще не начали использовать Hadoop, в ИТ-стратегии есть пункт, касающийся внедрения этой технологии. Там понимают, что на сегодняшний день нет реальной альтернативы Hadoop для построения универсальной платформы данных.