Имя Hadoop уже около полугода как исключили из названий крупных отраслевых мероприятий, пишет сайт Datanami. Например, конференция, организуемая компаниями Cloudera и O’Reilly Media, теперь носит название Strata Data Conference, а раньше — Strata + Hadoop World.
Говоря о причинах, аналитики Gartner в недавнем докладе «Цикл зрелости технологий управления данными» пишут, что дистрибутивы Hadoop выходят из моды ввиду «сомнительной пользы» от наличия на предприятии соответствующего полного стека, в который, помимо стандартных компонентов — распределенной файловой системы HDFS, платформы управления ресурсами кластеров YARN и системы обработки данных MapReduce, может входить еще целый ряд модулей, таких как Apache Pig, Hive, HBase и др.
К трем ведущим дистрибутивам Hadoop обычно относят MapR, Cloudera и Hortonworks. Глава компании MapR Мэтт Миллс на недавней конференции Strata признал, что сегодня дистрибутивы Hadoop — это «бизнес проигравших, поэтому мы убрали слоника из нашего дома». В MapR предпочитают называть компанию поставщиком конвергентной платформы данных.
В Cloudera, в свою очередь, сообщают, что в компании сознательно стали избегать использования имени Hadoop при маркетинге, поскольку «оно неоднозначно толкуется и путает заказчиков». Взамен в Cloudera предпочитают объяснять, как можно решать задачи бизнеса — распознавание мошенничеств, прогнозирование текучки клиентов и т. п. — с помощью пакетных предложений компании, включая платформу Data Science, комплект аналитических СУБД и пакет транзакционных баз данных.
Однако, хотя Hadoop больше не в центре внимания, фреймворк по-прежнему пользуется спросом: продажи растут и у Cloudera, и у Hortonworks, и у MapR. О том же говорят и представители компаний, разрабатывающих вспомогательное ПО для Hadoop. Например, в Trifacta, предлагающей платформу подготовки данных для аналитики, отмечают рост продаж Hadoop, в частности для облачных развертываний. А в Pepperdata, поставляющей ПО для мониторинга и оптимизации рабочих задач Hadoop и Spark, за прошлый год удвоили объем продаж, в основном благодаря клиентам, расширяющим кластеры Hadoop. Но в дальнейшем, уверены в Pepperdata, основная часть спроса будет приходиться на тех, чьи рабочие задачи выполняются в облаке, преимущественно на базе новых архитектур наподобие системы управления контейнеризованными приложениями Kubernetes. Pepperdata вместе с Google, Red Hat и другими участвует в проектах, в рамках которых обеспечивается взаимодействие Kubernetes, HDFS и Spark.
Взлет и падение Hadoop произошли примерно за десять лет. Сегодня корпоративных заказчиков больше волнует вопрос не какую технологию анализа выбрать, а где разместить данные — локально или в облаке, полагает Эш Манши, глава Pepperdata, бывший директор по технологиям Yahoo, где зародился Hadoop. Во многих случаях это зависит от законов о репатриации данных, действующих в различных странах, добавляет он.
Многие участники Strata высказали наблюдение, что сегодня Hadoop вытесняется Spark, фреймворком распределенных вычислений в кластерах, лишенным некоторых ограничений MapReduce.
Например, в Cloudera называют MapReduce «безусловно мертвым», утверждая, что в 2016 году дистрибутив Hadoop компании покупали преимущественно ради Apache Spark. При этом, хотя основные компоненты Hadoop заменяют на другие, в Cloudera убеждены в верности основной архитектурной идеи Hadoop: данные должны быть централизованы, и средства их обработки необходимо размещать там же, где находятся сами данные.
Между тем в компании AtScale, которая предлагает работающую поверх Hadoop систему бизнес-анализа, не согласны с тем, что Hadoop утрачивает ценность. Глава компании Дейв Мариани говорит, что настоящей революцией стало не появление Hadoop, а замена хранилищ данных на озера данных, а у Hadoop, ставшего «самой первой реализацией озера данных», сегодня просто есть много альтернатив. В AtScale также не согласны с Gartner в том, что предприятия массово отказываются от Hadoop: есть данные, показывающие, что дистрибутивы по-прежнему покупают, а прежние пользователи расширяют имеющиеся инфраструктуры.
По словам Мариани, в компании не считают, что Hadoop мертв: на конференциях нет прежнего энтузиазма по поводу фреймворка просто потому что ему уже десять лет, и аудитория мероприятий изменилась; сам же он за это время лишь стал более зрелым.
Gartner: дистрибутивы Hadoop изживут себя до выхода на плато продуктивности
Аналитики Gartner опубликовали доклад «Цикл зрелости технологий управления данными — 2017». Двух участников цикла составители выделяют как хорошо иллюстрирующих влияние облачных вычислений на предметную область управления данными. В частности, дистрибутивы Hadoop, как прогнозируют в Gartner, морально устареют до достижения плато продуктивности, так как из-за высокого уровня сложности и сомнительных преимуществ полных стеков Hadoop во многих организациях отказываются от них в пользу удобных облачных альтернатив с оплатой по мере использования и оптимизацией для конкретных задач.
Той же тенденции облачного влияния отвечает появление SQL-интерфейсов для объектных хранилищ на стадии «триггер инновации». В Gartner предвидят, что такие интерфейсы, позволяющие взаимодействовать с данными в облаке с помощью привычного синтаксиса SQL, станут центральной функцией облачных платформ баз данных в виде сервиса и выйдут на плато продуктивности в течение двух-пяти лет, поскольку именно на них сейчас ориентируется большинство облачных провайдеров и разработчиков. Аналитики добавляют, что объектные хранилища хорошо подходят для размещения больших объемов информации смешанной структуры, характерных для озер данных.
Среди 35 остальных технологий в цикле зрелости в Gartner называют преобразующими четыре, в том числе обработку потока событий (event stream processing, ESP) и выполняющиеся в памяти транзакционные базы данных, которые, как прогнозируют аналитики, достигнут плато за срок от двух до пяти лет, а также блокчейн и распределенные реестры в целом, которым до выхода на плато еще пять–десять лет.
Что касается самого цикла, в секцию «триггер инноваций» аналитики помимо SQL-интерфейсов поместили внутрипроцессную гибридную транзакционно-аналитическую обработку, а на пике завышенных ожиданий сейчас находятся выполняемая внутри СУБД аналитика, данные в виде сервиса, анализ файлов, каталоги данных, распределенные реестры, подготовка данных по принципу самообслуживания, обработка потока событий, многомодельные СУБД, блокчейн, транзакционно-аналитическая обработка на этапе принятия решений и озера данных.
На стадии «избавление от иллюзий» — графовые СУБД, приложения для контроля качества данных предприятия (data stewardship), Apache Spark, выполняющиеся в памяти транзакционные СУБД, управление данными приложений, СУБД «ключ — значение», кросс-платформенная архивация структурированных данных, корпоративные таксономии и онтологии, платформы интеграции данных в виде сервиса, SQL-интерфейсы для Hadoop, СУБД с расширяемыми столбцами, логические хранилища данных, управление основными данными, дистрибутивы Hadoop и документные хранилища.
На этапе преодоления недостатков — обрабатываемые в памяти аналитические СУБД, решения для управления метаданными, размещаемые сервисы архивации сообщений, инструментарии интеграции данных, архивация корпоративной информации, средства переноса веб-контента, распределенные системы хранения данных в памяти и шифрование баз данных.
На «плато продуктивности» находятся платформы баз даных в виде сервиса, виртуализация данных и средства обеспечения качества данных.