Россельхозбанк создал единую платформу для аналитиков (Data Research Platform, DRP), развернутую в одном кластере на базе Arenadata DB, куда были перенесены порядка 10 тыс. таблиц из разных источников. Это позволило централизовать все разрозненные аналитические «песочницы» банка и создать единую управляемую и импортонезависимую платформу, исключив дублирование данных и обеспечив единые правила доступа. О реализации проекта рассказывает Кристина Проскурина, управляющий директор «РСХБ Автоматизация» и номинант на премию Data Award.

- Как РСХБ пришел к реализации проекта? В чем выражались ключевые проблемы?

У нас сложилась типичная для крупных финансовых организаций ситуация: разные команды в разное время внедрили свои песочницы на базе СУБД Oracle и Microsoft SQL Server, по части из них не было документации, команды менялись, одни и те же данные хранились «на разных серверах» и потребляли лишние ресурсы. Это требовало значительных ресурсов для поддержки решения с точки зрения как трудозатрат, так и технических ресурсов.

Вместе с тем никто не отменял ориентиры на импортонезависимость и выравнивание аналитического контура.

- Почему это важно для банка?

Мы поставили перед собой задачу создать решение, которое должно было работать быстро, удобно для пользователей, при этом способное обрабатывать большие объемы информации, а также сократить сроки реализации создания новых интеграций. Песочница в первую очередь необходима для проверки гипотез бизнеса и подготовки оперативной отчетности, поэтому скорость и отказоустойчивость была для нас приоритетом.

- Какие были поставлены цели?

Требовалось мигрировать и централизовать все объекты из разрозненных аналитических «песочниц» банка и создать единую управляемую и импортонезависимую платформу DRP для работы аналитиков, чтобы исключить дублирование данных, разные правила доступа и зависимость от устаревших СУБД, а также перейти на импортозамещенное ПО. Эта задача была сложной и интересной, по причине отсутствия какой-либо документации много сил ушло на анализ.

Важным моментом в создании платформы также было создание зеркала корпоративного хранилища данных. Это дает бизнесу возможность на уже готовых витринах строить свою отчетность и проверять гипотезы, не нагружая корпоративное хранилище данных. Таким образом мы разгружаем хранилище и даем свободу пользователям.

- На каких технологиях реализована платформа?

Ядром платформы данных стала Arenadata DB — кластер на 100 Тбайт с возможностью расширения. Оркестрация и загрузка осуществляется с помощью Airflow, а также собственного ETL-фреймворка на Python с использованием компонента PXF, позволяющего напрямую обращаться к внешним источникам данных.

Кроме того, реализована интеграция с BI-платформой Visiology и AI/ML-платформой RAISA — собственной разработкой РСХБ. Это позволяет бизнес-пользователям не только создавать витрины данных и делать ad-hoc-запросы, но также строить свои собственные дашборды и ML-модели. У нас есть примеры решений, когда подразделение в своей области создает витрины данных, на основе их формирует дашборды и делится с коллегами.

Документация поддерживается с помощью Confluence и бизнес-глоссария. С помощью бизнес-глоссария организована интеграция, и на ежедневной основе мы получаем актуальную информацию по всем объектам в песочнице.

- Что представляет собой созданное решение?

Платформа DRP охватывает массив порядка 10 тыс. таблиц из разных источников: аналитический CRM, озера данных, хранилища, пользовательские песочницы и внесистемные источники. В ежедневном режиме система загружает и обновляет около 10 тыс. объектов из более чем десятка источников данных.

Отдельная возможность — зеркало хранилища данных. В DRP поступают данные как базового, так и бизнес-слоя хранилища и обновляются на ежедневной основе, а из озера берутся витрины «под задачу».

- Какими силами и в какие сроки реализован проект?

Проект выполнялся в период с сентября 2024-го по сентябрь 2025 года, его общая трудоемкость — более 2 тыс. человеко-часов.

- Какие сложности возникали в ходе проекта?

Проблемой была консолидация большого объема источников без документации и выявление именно тех объектов, которые необходимы в работе бизнес-подразделениям и их необходимо перенести. 10 тыс. таблиц из разных систем и пользовательских песочниц — это очень много, при этом по части из них не было документации и команды давно поменялись, и владельцев данных было сложно найти.

Еще одной сложностью было то, что пользовательские песочницы были на других СУБД (Oracle, Microsoft SQL Server) и это требовало переработки кода под Greenplum.

Кроме того, по ходу проекта произошла архитектурная эволюция. Собственный ETL-движок на Airflow и Python в процессе работ был переписан из монолитного варианта в модульный (набор функций), что позволило ставить в расписание загрузку сначала 200 объектов, а затем массово более 2,5 тыс. объектов.

- В чем ваш проект уникален?

В первую очередь используемой комбинацией данных и инструментов. В одном решении собраны: платформа данных (Arenadata DB), оркестрация (Airflow), доступ к внешним источникам (PXF), визуализация (Visiology), ИИ-исследования (RAISA), документация (Confluence, бизнес-глоссарий), — то есть это не просто «песочница», а уже законченная исследовательская платформа.

Кроме того, создана единая система сопровождения. В итоговой целевой модели банку нужно поддерживать и развивать только DRP.

- Каких результатов уже удалось достичь?

Создана единая централизованная платформа DRP, которая заменила набор разрозненных песочниц на разных СУБД. В нее перенесен и приведен к единому способу загрузки и описания массив из 10 тыс. таблиц. Настроена эксплуатационная схема: более 5 тыс. объектов из пяти систем-источников обновляются чуть больше чем за полтора часа, что мы считаем очень хорошим показателем. Внедрена ролевая модель и единые стандарты загрузки — бизнес может сам открывать доступ к своим данным. На данном этапе платформой пользуются около 500 пользователей, но мы видим интерес к системе и прогнозируем увеличение числа и пользователей, и интеграций.

Все аналитические данные пользовательских песочниц и пользовательские витрины сведены в единый кластер Arenadata DB с едиными правилами загрузки и доступа. Достигнута полная импортонезависимость: проект реализован на отечественном стеке.

Важно, что удалось добиться прозрачности и управляемости. Все загруженные в DRP объекты описываются и актуализируются в Confluence и бизнес-глоссарии, что снимает проблему «нет документации по старым песочницам». Наблюдается и снижение эксплуатационных затрат.

- Какими цифрами с точки зрения бизнес-эффектов можете похвастаться?

Это внутренний проект банка, поэтому мы можем оперировать повышением качества данных и скорости работы системы, а также скоростью поставки новых данных в платформу, что также немаловажно для бизнес-подразделений.

- А что говорят сами пользователи?

От пользователей мы часто получаем отзывы: «Не думал, что можно так быстро получить необходимые данные в платформе, а также что платформа работает быстро».

- Пытались ли оценить финансовый эффект от оптимизации работы аналитиков?

Нет, такой задачи в проекте не было.

- Что в ходе проекта получилось особенно удачно?

Во-первых, это разработка собственного фреймворка по загрузке данных, благодаря сильной внутренней команде проекта. Это получилось не сразу, но финальный результат радует. Во-вторых, это взаимодействие с бизнес-пользователями: было много разных команд и много привычных пользовательских песочниц, сложно было убедить пользователей переходить с привычных решений на новое, но нам удалось. Также сложно было выстроить процесс получения новых запросов на загрузку новых объектов или интеграций, но и это мы смогли.

- Какое значение имеет созданная платформа для банка?

Это управляемый self-service. Бизнес-подразделения получили единую точку доступа к данным и могут запрашивать загрузку новых объектов по стандартной заявке — тикет в сервис-деске или форма запроса. В DRP подключение данных упрощено: не нужно поднимать свою песочницу и писать ETL — обращение оформляется, объект подключается в общий кластер по типовым шаблонам загрузки и снабжается описанием в глоссарии. Действуют ролевая модель доступа и квотирование по объему, то есть это self-service в контролируемых рамках.

Самое важное — это поставки данных в платформу для аналитики и ad-hoc-запросов. Поскольку данные из хранилища и озера уже находятся в DRP, аналитика и подготовка отчетов делаются в одной среде — без выгрузок и обмена файлами между подразделениями. Наличие бизнес-глоссария и описаний в базе знаний снижает входной порог для новых команд и устраняет печальную ситуацию «данные есть, но никто не знает их структуру».

И конечно, вместо поддержки нескольких «домашних» песочниц банк развивает одну импортонезависимую платформу.

- Есть ли планы по дальнейшему развитию платформы?

Ожидается интеграция DRP с операционным слоем корпоративного хранилища. С учетом роста числа источников и объектов будем масштабировать кластер Arenadata DB на объем свыше 100 Тбайт. Расширяем сценарии загрузки «несистемных» данных через решение на базе платформы ИИ, которое уже начали использовать первые подразделения.

- Каково значение проекта для отрасли?

Проект показывает, что типовую для банков проблему разрозненных аналитических песочниц без документации можно решить через консолидацию в один кластер на отечественной платформе и при этом сохранить эксплуатационные показатели, встроить в систему BI и ИИ и описать объекты в глоссарии. Это делает кейс тиражируемым для банков и других финансовых организаций, которые сейчас переходят на импортонезависимый стек и борются с унаследованными песочницами в подразделениях.