«Ошибки айтишников дорого обходятся космонавтике», — отметил на открытии мероприятия Владимир Сурдин, российский астроном и популяризатор науки. Сегодня это справедливо и для экономики данных: успех цифровых предприятий напрямую зависит от эффективности платформ работы с данными — они должны обрабатывать произвольные объемы любых данных, обеспечивая их качество и достоверность.
«Как расширяется Вселенная, так расширяется и пространство данных», — считает Максим Пустовой, генеральный директор группы Arenadata. В состав группы входят компании Arenadata, Picodata, Clean Data, «Тера Интегро» и «Дата Каталог», решения которых вместе образуют единую технологическую платформу, призванную обеспечить высокое качество данных и необходимую скорость их обработки.
Консолидированная выручка группы по итогам 2023 года составила 4 млрд руб., увеличившись за год на 58%, чистая прибыль выросла на 50% до 1,5 млрд руб., а количество сотрудников — на 30%. Такие темпы роста были обеспечены расширением клиентской базы на фоне ужесточения требований к импортозамещению, а также масштабированием инфраструктур и инсталляционной базы ПО текущих клиентов. Вместе с тем, по словам Пустового, проектов по выполнению чистой миграции нет: заказчикам обычно требуется дополнительная функциональность, а не просто замена западного ПО.
Портфель группы содержит полный спектр отечественных решений, замещающих западные аналоги. Сегодня продукты группы: Arenadata DB, Arenadata Hadoop, Arenadata QuickMarts, Arenadata Catalog, Arenadata Streaming, Picodata и другие — устанавливают в российских компаниях, ранее работавших с программными средствами Oracle, Teradata, SAP, IBM, Microsoft, Cloudera, Hortonworks, HCL Informix, TIBCO, Informatica, Ataccama, Qlik, VMware, Apache и многих других известных западных вендоров. Поэтому неудивительно, что аудитория ArenaDay 2024 удвоилась по сравнению с прошлогодней: около 1 тыс. человек приняли участие в работе конференции в очном формате, и почти 4 тыс. слушателей подключились к мероприятию удаленно.
О тенденциях и перспективах развития технологий, о циклах и этапах их становления рассказал Александр Ермаков, технический директор и сооснователь Arenadata. «Все продукты Arenadata — части единой платформы, они совместимы и управляются через оркестратор Arenadata Cluster Manager, а для каждого типа нагрузки и сценария использования имеются свои компоненты», — отметил Ермаков.
Предлагаемые компанией инструменты позволяют обрабатывать и анализировать данные в реальном времени. Arenadata Streaming — это масштабируемая отказоустойчивая система для потоковой обработки, она адаптирована для корпоративного использования и построена на базе Apache Kafka и Apache Nifi. Arenadata QuickMarts — кластерная поколоночная СУБД на основе ClickHouse, способная выполнять различные запросы пользователей и систем анализа данных, используя информацию, хранящуюся в витринах данныx. Arenadata DB — массивно-параллельная аналитическая СУБД для построения корпоративных хранилищ данных. Arenadata Hadoop — корпоративный дистрибутив сервисов экосистемы Hadoop, с расширенными механизмами обеспечения безопасности.
Для решения разнообразных задач заказчиков предлагаются типовые архитектурные шаблоны по созданию озер данных, корпоративных хранилищ, оперативных и аналитических систем, систем машинного обучения, а также по поддержке управленческих решений, сбору данных, развертыванию отказоустойчивых инфраструктур, архивов, фабрик данных и пр.
Александр Ермаков: «В ближайшее время единую платформу Arenadata ждет активное развитие. Ее пополнят новые продукты, которые помогут нашим клиентам реализовывать проекты по работе с данными» |
Развитие технологий работы с данными, по наблюдениям Ермакова, проходит через периодические циклы «слияние-разделение»: от разделения мейнфреймов к СУБД — слияние; хранилища и далее озера, облачные хранилища, Data Mesh — разделение; и, наконец, сегодня снова слияние — Lake House. А что дальше? Разделение на фоне унификации работы с данными — это использование единой платформы, но для решения конкретного круга задач. В таком контексте и будет развиваться платформа данных группы — по трем направлениям:
— распределенный SQL — сервис для федеративной и интерактивной аналитики, совместимый с ANSI SQL, включающий интеграцию с различными источниками (Hadoop, S3, MySQL и пр.), с возможностью доступа к данным из нескольких систем в рамках одного запроса, поддерживающий работу в локальных и облачных конфигурациях;
— Cloud DB — облачная бессерверная база данных со встроенными средствами высокой доступности, автоматическим масштабированием, многоуровневым хранением данных и моделью «ветвления» данных;
— Lakehouse Platform — платформа для решения задач обработки различных типов данных, адаптированная под облачную инфраструктуру со встроенными механизмами высокой доступности, интерактивным рабочим пространством, транзакцинной моделью разделяемой архитектуры вычисления и хранения, а также развитым механизмом обеспечения безопасности и поддержки политики управления доступом.
Очевидна явная тенденция движения от хранилищ к платформе с обеспечением производительности и безопасности, что и подтвердили отраслевые доклады конференции.
Руслан Мухаметгалин, руководитель службы обеспечения проектной деятельности и качества данных Управления отчетности и финансовых данных, и Иван Останин, руководитель группы разработки управления автоматизации хранилища данных и отчетности банка ВТБ, рассказали о внедрении управленческой отчетности по эквайрингу на новой платформе данных.
«Первое боевое решение на Arenadata DB появилось еще в 2019 году, а теперь банк перешел к развертыванию единой платформы на базе стека технологий Arenadata, что ознаменовало масштабную трансформацию всей инфраструктуры поддержки бизнеса», — рассказал Мухаметгалин. Предпосылки для запуска проекта были более чем весомыми: неприемлемая технологическая и экспертная зависимость от Teradata, Oracle и SAS; отсутствие единой точки доступа ко всем данным из-за разрозненности хранения; неудовлетворительная скорость доставки данных при высоких затратах на их управление. Проект должен был решить следующие задачи: предоставить возможность оперативного обновления данных; улучшить регламент предоставления данных; обеспечить доступ к данным через запросы к хранилищам; реализовать обработку всех целевых источников и непрерывную доработку функционала. Основой проекта стали Arenadata DB и Arenadata Hadoop.
Подход «Газпромбанка» к построению новой платформы данных представил Игорь Ашметков, исполнительный вице-президент банка, который сформулировал основные принципы создания платформы данных, отметив, что ведущая роль в проектировании платформы должна принадлежать бизнесу, а не ИТ.
«Чаще всего с инициативами по функциональности платформ выступает ИТ-подразделение, что обычно ничем не кончается: у бизнеса всегда есть заботы поважнее, чем тестировать предложенные кем-то новшества», — сказал Ашметков. Он сформулировал ряд важных требований к эффективной архитектуре платформы данных:
— децентрализация — в периметре платформы формируются домены данных со своими самостоятельными командами, отвечающими за весь цикл развития дата-продукта и его передачу потребителю;
— применение сервисной модели — все объекты инфраструктуры и инструменты предоставляются доменам в виде сервисов;
— глобальная стандартизация — платформа использует общие для всех участников стандарты проектирования архитектуры и разработки, процессы управления данными и регламенты взаимодействия между доменами;
— использование метаданных — они формируются для всех процессов загрузки и трансформации данных и являются основой для мониторинга жизненного цикла дата-продуктов и качества данных.
Среди унаследованных решений в «Газпромбанке» были инструменты IBM, SAS, SAP и Cloudera. Объем корпоративного хранилища составлял 200 Тбайт, а кроме того, в озере находились 5 Пбайт данных, используемых для аналитики и машинного обучения. Примечательно, что у банка не было амбиций делать все самостоятельно, и сегодня здесь развертывается импортозамещенная платформа на основе Arenadata DB, которую теоретически можно неограниченно масштабировать. На текущий момент, благодаря применению Data Mesh, уже втрое сократилось время вывода на рынок новых банковских продуктов, интегральный показатель качества данных вырос до 98%, а стоимость владения в расчете на 1 Тбайт снизилась.
«Из DWH в КХД за 180 дней» — так Юрий Близгарев, ИТ-директор «Юнилевер Русь», и Андрей Дмитриев, архитектор данных компании, озаглавили свой рассказ о проекте, реализация которого была вызвана необходимостью локализовать систему бизнес-аналитики, обеспечить поддержку 3 тыс. пользователей и выполнить миграцию с SAP. «Мы не хотели рисковать при выполнении проекта миграции, но и не желали отказаться от привычного уровня культуры глобальной компании. И своих целей мы добились», — отметил Близгарев. «Мы развернули полноценное хранилище — основу работы продвинутых инструментов аналитики», — добавил Дмитриев. Сейчас в инфраструктуре «Юнилевер Русь» задействованы Arenadata DB, Arenadata QuickMarts — витрины данных, Arenadata Hadoop и Arenadata Catalog.
Татьяна Щеглова, руководитель Data Platform, и Александр Кулиев, директор Data Office сети «Бургер Кинг Россия», рассказали о подходе data-driven как основном условии успеха бизнеса цифровой компании. «У нас быстрая компания — все решения принимаются оперативно, поэтому требуется обеспечить непрерывный процесс на линии 'бизнес — платформа данных'», — сообщил Кулиев. До старта проекта данные в компании имели разрозненную структуру, возможности их обмена были ограниченными, а централизованная система хранения и анализа данных и вовсе отсутствовала. Все это приводило к сложностям с масштабированием, вызывало перегрузку команд, а проблемы с неоднородными данными и процессами усложняли выполнение нормативных требований. «Мы возглавили и усмирили хаос: в компании развернут Data Office, данные поступают из озера на основе Arenadata DB, выполняется аналитика, формируются витрины, отлаживаются новые дата-продукты», — резюмировала Щеглова. В итоге бизнес получил практическую возможность реализовать цифровой ресторан: динамическое меню, контроль потока клиентов, речевая аналитика, персональные рекомендации, поддержка стратегии «пожизненная ценность клиента», прогноз требуемого количества персонала и его оттока. Однако не только технологии обеспечивают повышение эффективности бизнес-процессов. По мнению Кулиева, требуются выстроенные процессы поддержки качества данных и управления ими, а также решения ИИ, позволяющие извлекать прибыль из бизнес-процессов, причем при условии точнейшей координации непрерывного процесса «бизнес — платформы данных».
Весьма актуальную в стране тему миграции с SAP HANA затронул в своем выступлении Максим Билоконь, директор департамента развития бизнес-приложений ретейлера «Детский мир», на примере проекта расчета ретробонусов — вознаграждения от производителя дистрибьюторам. После проведения пилотного проекта компания сделала выбор в пользу Arenadata DB: минимум времени на настройку, стабильная работа, использование навыков уже имеющейся команды разработчиков. «Сегодня Arenadata DB выполняет расчет бонусов за час, а в SAP HANA на это уходил весь день. Кроме того, снизилась стоимость хранения данных».
В компании «Вкусно — и точка» ситуация иная, как следовало из доклада «Построение корпоративного хранилища данных с нуля», сделанного Дмитрием Исаковым, архитектором цифровых платформ. Вместе с партнером — компанией Navicon, которую представляла Мария Аверина, директор по стратегическому развитию, — сеть быстрого питания за год смогла построить масштабируемую систему высокой доступности для обработки и анализа данных. Кроме того, удалось запустить процесс оптимизации логистики с привлечением технологий машинного обучения и обработки данных из семи источников. Компания Navicon построила хранилище на стеке Arenadata DB, Arenadata Streaming, Arenadata QuickMarts, Arenadata Cluster Manager и Arenadata Catalog. Однако для успешного развития развернутой системы, по мнению Авериной, одних технологий недостаточно: «Платформа данных — это больше, чем просто хранилище данных. Успех подобных проектов во многом зависит от правильной организации работы: публичный дедлайн по срокам, единое информационное пространство для представителей всех рабочих групп, топ-менеджер как активный консолидатор требований». Кроме того, важно, чтобы вендор был готов развивать продукт с учетом пожеланий заказчиков, а такое условие, в случае использования западных продуктов, раньше выполнялось далеко не всегда.
Ярким завершением программы конференции стал доклад «'Тинькофф': бизнес на основе данных», с которым выступил Валерий Поляков, CDO «Тинькофф Банк». Спикер задался вопросом: как катализировать получение бизнес-ценности из данных? Сегодня к хранилищу банка ежемесячно обращаются 16 тыс. активных пользователей, в нем содержится 5 Пбайт уникальных данных, а весь массив данных составляет 20 Пбайт. После выполнения проекта, предусматривающего, в частности, миграцию с Pivotal Greenplum 5, все эти ресурсы размещаются на платформе, построенной на Arenadata DB. Отвечая на свой вопрос, Поляков отметил, что именно переход на платформу данных позволяет обеспечить масштаб, экономию и сокращение времени вывода банковских продуктов на рынок, а синтез подходов Data-driven (бизнес-процессы), Data-Inspired (креатив) и Data-Informed (интерпретация) в итоге дает Data-Intelligent (осмысленность) — катализирующую получение бизнес-ценности из данных.
Экономика данных невозможна без достижения нового уровня цифровизации — основы трансформации бизнес-процессов во всех отраслях, успех которой строится на осмыслении всех накопленных и непрерывно собираемых данных. «Пришло время осмысленно действовать на основе данных», — подвел итог обсуждения Максим Пустовой.