Россельхозбанк внедрил технологию захвата измененных данных (Change Data Capture, CDC) с помощью решения «Датафлот Репликация». В результате существенно снизились сроки реализации инфраструктурных проектов импортозамещения операционных систем и СУБД. Решение создает фактически нулевую дополнительную нагрузку на ИТ-системы, что избавило от необходимости закупки дорогостоящего оборудования. Задача была реализована совместно с ИТ-кластером РСХБ.Цифра. О реализации проекта рассказывает Владимир Зубков, архитектор департамента больших данных РСХБ и номинант на премию Data Award.

- Как РСХБ пришел к реализации этого проекта? Какие бизнес-проблемы требовалось решить?

Если глобально, то нам как государственному банку требовалось в кратчайшие сроки обеспечить импортозамещение ПО – решить задачи миграции данных из зарубежных баз данных в отечественные аналоги быстро и с минимальными трудозатратами. Было вадно обеспечить информационное взаимодействие между ними как в переходный период, так и в дальнейшем, а также минимизировать финансовые затраты на работы и оборудование.

Мы стремимся обеспечить технологическую независимость и платформу для развития, которое основано на отечественном стеке решений, служить примером и быть флагманом для всего финансового рынка.

- Почему это важно для банка?

Информационные системы банка характеризуются большими потоками и объемами данных с высокой нагрузкой в круглосуточном режиме. Применяется много разных типов систем на разных СУБД, различные комбинации систем-источников и приемников.

С учетом сжатых сроков цикла импортозамещения требовалось обеспечить универсальность – поддержку существующих и перспективных источников и приемников данных: Oracle, PostgreSQL, Greenplum, Hadoop, S3, Iceberg, Tarantool, Kafka, а также возможность репликации данных между разными СУБД. При этом было важно минимизировать нагрузку на источники и приемники данных, а также сделать акцент на удобстве — в простоте разработки, администрирования и сопровождения решения.

- Какие принципы пытались соблюсти при создании решения?

Ключевое – соответствие требованиям Минцифры при выборе программных продуктов, поскольку технологический суверенитет является приоритетом РСХБ. Еще один важный принцип – демократизация данных и оперативность их получения. Принцип технической и экономической эффективности решения с точки зрения инфраструктуры. Наконец, надежность решения.

- По каким критериям выбирали поставщика?

Мы искали надежного, проверенного поставщика, имеющего богатый опыт разработки и внедрения в крупнейших банках. Выбранная нами компания – DIS Group – имеет многолетний опыт сотрудничества и внедрений, в том числе в нашем банке, и является одним из лидеров рынка в области управления данными.

- Что представляет собой созданное решение?

Внедренное решение доставляет данные в хранилища и мигрирует данные между различными СУБД, в том числе контролирует процессы переноса информации из Oracle в PostgreSQL и обратно, а также в хранилища S3 и Hadoop и системы потоковой обработки данных Apache Kafka. Репликация данных из БД-источника, создающего 3 Тбайт журналов в сутки, происходит с отставанием не более 5 минут.

«Датафлот Репликация» анализирует лог-файлы, поэтому эти файлы периодически выгружаются на отдельный сервер, на котором логи разбираются для формирования репликационных записей и транзакций для целевых систем. Такая процедура предназначена для ограничения доступа непосредственно к серверам СУБД, и разбор логов исходных СУБД ведется с абсолютным отсутствием нагрузки на сервера СУБД.

Специалисты DIS Group сыграли важную роль в адаптации системы под специфические требования банковской инфраструктуры, в том числе координировали необходимую доработку решения с вендором – компанией «Датафлот».

- Что получилось особенно удачно?

Мы получили выигрыш в части почти полного снижения нагрузки на системы-источники, а бизнес-пользователи получили возможность развивать и масштабировать задачи миграции и репликации данных в режиме самообслуживания, без привлечения технических специалистов.

- Каких результатов удалось достичь?

Коробочное решение «Датафлот Репликация» с учетом проведенных доработок позволило закрыть все задачи, необходимые в контексте импортозамещения операционных систем и СУБД, по репликации и миграции данных и стало корпоративным стандартом. Более того, проект способствовал демократизации данных, обеспечив возможность развития и масштабирования задач миграции и репликации данных заинтересованными бизнес-подразделениями в режиме самообслуживания, без привлечения технических специалистов.

Решение создает фактически нулевую – менее 1% – дополнительную нагрузку на ИТ-системы, что избавило от необходимости дорогостоящей закупки дополнительных ядер для базы данных источника. При этом оно может работать как в режиме времени, близком к реальному, так и в пакетном.

- В чем роль проекта для бизнеса компании?

Бизнес-эффект от внедрения решения заключается в существенном снижении срока реализации инфраструктурных проектов и многократном сокращении времени на разработку. То, что раньше могло делаться месяцами, теперь сводится к часам.

Мы резко снизили нагрузку на источники данных благодаря подходу к процессу репликации, при котором внедренное решение «Датафлот Репликация» не использует SQL-запросы к исходным базам данных и не требует создания репликационных слотов в PostgreSQL, что исключает риски снижения производительности основных систем. Решение было принято в стек технологий РСХБ и согласовано как стандарт для задач CDC – как при импортозамещении существующих решений в банке, так и при использовании в новых информационных системах.

- Каково значение проекта для отрасли?

Результаты проекта с учетом выбора тиражируемого ПО и схожести банковской инфраструктуры могут быть с успехом повторены и в других российских банках, а также в любых других крупных компаниях, которым требуется обеспечить миграцию между различными СУБД и онлайн-репликацию данных между базами данных.

- Что дальше? Для каких новых инициатив открыл возможности этот проект?

Дальнейшее направление активностей – в ближайшую навигацию наш Флот отправится в Озера с Айсбергами. Если серьезно, сейчас активно идут работы по внедрению следующего поколения хранилища – LakeHouse. Транспортом по доставке данных из источников будет «Датафлот». CDC «Датафлот» обеспечивает репликацию данных непосредственно в формате Iceberg, что позволит сразу работать с ними как с высокопроизводительной базой данных. Это даст возможность создать на отечественных технологиях решение для хранения больших объемов актуальной, вплоть до близкой к реальному времени, информации с возможностью горизонтального масштабирования и снижения стоимости владения.