«СберФакторинг» собственными силами построил систему управления данными SBF DM. За счет этого компании удалось обеспечить «Единое окно» по работе с данными, упорядочив процессы и повысив их качество. О реализации проекта рассказывает Михаил Пекер, директор по управлению данными «СберФакторинг» и номинант на премию Data Award.
- Что привело к реализации проекта по управлению данными в «СберФакторинг»? В чем заключались проблемы, какова была головная боль бизнеса?
У нас долгое время не было функции по управлению данными. Не было четкого описания, категоризации и разметки данных, понимания, кто ими владеет. В результате появлялись расхождения в терминах, их определениях, в бизнес-сущностях, их составе и связях, возникали ошибки в отчетах. Основные знания и понимание работы систем на уровне базы данных были лишь у определенных экспертов, и они не были централизованы. Следствием этого становились дополнительные трудозатраты сотрудников на поиск необходимой информации, проработку новых задач, а также анализ и устранение проблем. Повышались риски потери экспертизы, а также риски кибербезопасности. А это может быть критично для финансовой компании.
Кроме того, у руководства компании было желание получать дополнительную пользу от уже существующих данных. Эти предпосылки послужили катализатором для построения и развития функции по управлению данными в компании.
В начале 2023 года нам удалось сделать важный шаг для построения в компании функции по управлению данными – создать и внедрить собственную автоматизированную систему Sberfactoring data management (SBF DM). Конечно, это был лишь первый шаг, который требовал развития и реализации целого комплекса организационных и технических мероприятий. На это и была ориентирована наша команда в 2023 году.
- Какой был выбран подход для решения этих проблем?
Определив методологию, на базе которой мы выстраиваем функцию по управлению данными в компании и стратегию развития, мы находились в контакте с заинтересованными сторонами – представителями ИТ- и бизнес-подразделений. Нам было важно учесть специфику бизнеса, существующие процессы и пожелания наших коллег. Поэтому в начале каждого нового этапа развития обсуждали, что планируется сделать, как будет работать новый функционал или процесс, от кого какое участие потребуется, ну и конечно, как это поможет им в решении рабочих задач и какую пользу принесет компании.
- Какие задачи стояли перед проектом?
В рамках проекта предстояло создать набор инструментов и процессов, который был бы удобен сотрудникам компании и позволял решить несколько ключевых задач. Было важно определить категории и разметить данные, разграничить доступ к данным, создать и автоматизировать процесс доступа к данным. Требовалось создать корпоративную модель данных – концептуальную, логическую и физическую модели. Наконец, стремились сократить время поиска и согласования использования необходимых данных, а также снизить риски качества данных, сократить количество инцидентов качества данных.
- Какие требования предъявлялись к будущему решению?
Нам было необходимо не просто охватывать основные области знаний и процессы управления данными, но реально сделать их доступными, понятными и удобными для всех сотрудников компании. Для этого требовалось учитывать специфику деятельности "СберФакторинга", бизнес-процессы компании, а также рекомендации со стороны «Сбера». И конечно, решение должно было укладываться в рамки выделенного бюджета.
- На каких технологиях реализован проект?
Изначально для реализации проекта мы рассматривали несколько очевидных вариантов: покупку существующего на рынке продукта, установку и развитие открытого ПО и разработку решения внутренними ресурсами компании. Проанализировав плюсы и минусы, существующие риски и ограничения по каждому из этих вариантов, было принято решение строить SBF DM внутренними ресурсами компании. Кстати, уже в процессе разработки собственного решения в 2023 году мы дополнительно рассмотрели еще несколько вариантов вендорских решений и открытого ПО, но все равно приходили к выводу, что выбрали верный для себя курс.
Основа системы написана на Python. Это извлечение данных, преобразование и загрузка, а также механизмы взаимодействия с другими автоматизированными системами и базами данных. Для оркестрации, визуализации и поиска необходимой информации мы адаптировали некоторые open source решения – в частности, Airflow и Superset. В конце 2023 года мы добавили еще один компонент – DocHub. Используя его и язык JSONata, нам удалось добиться той наглядности и интерактивности логической модели данных, которую мы с коллегами хотели видеть.
- Каких ресурсов потребовала реализация проекта?
Масштаб проекта оценивается около 9 тыс. человеко-часов. В реализацию были вовлечены представители различных подразделений. Основные ресурсы были выделены со стороны команды ИТ, офиса CDO. Но и представители бизнес-подразделений, а также методологи активно принимали участие на различных этапах. Это позволило добиться наибольшей эффективности при реализации проекта.
- Каких результатов удалось достичь? Чем можно похвастаться?
В течение 2023 года мы активно развивали наш продукт. Проработали и внедрили модели данных, которые помогают избежать расхождений в трактовке и определении бизнес-сущностей. Это, в совокупности с наглядной визуализацией, делает адаптацию новых сотрудников быстрее и проще. Помимо этого, можно выделить несколько количественных показателей. Мы в среднем на 20-25% сократили время поиска данных, которое обычно требуется коллегам при развитии продуктов и процессов. Удалось на 33% снизить количество инцидентов качества данных. Финансовый эффект от автоматизированной разметки и применения ML-модели поиска чувствительных данных составил более 20 млн руб. Кроме того, мы смягчили риски негативного влияния новых релизов на смежные продукты и процессы компании, а также разграничили доступ к данным и автоматизировали процессы согласования и предоставления доступа.
- Что представляет собой решение, какие компоненты оно включает?
SBF DM является комплексным решением, которое позволяет автоматизировать ряд процессов по управлению данными согласно DAMA-DMBoK. Решение включает в себя пять ключевых компонентов.
Во-первых, это бизнес-глоссарий, который позволяет получить информацию об основных для компании терминах, их определениях, статусе, датам ввода в эксплуатацию и изменению, а также владельце. Дополнительно в глоссарий включены наиболее распространенные аббревиатуры, встречающиеся в компании.
Второй компонент – логическая модель данных. Она отображает информацию о бизнес-сущностях компании: основные объекты бизнес-процессов, их взаимосвязи и атрибутный состав, принадлежность к тому или иному бизнес-продукту и автоматизированной системе. Кроме того, она содержит информацию о связи логической модели данных с физической на уровне бизнес-сущность – таблица в базе данных, атрибут – поле в таблице базы данных. Функционал данного модуля системы доступен как в табличном, так и в схематичном виде.
Третья составляющая – реестр (каталог) данных, позволяющий найти информацию о таблицах в базах данных компании и узнать, к каким системам и продуктам они относятся. Также в реестре данных содержится описание этих таблиц и признак их критичности для компании или наличия персональных данных. Реестр позволяет осуществить и более глубокий поиск необходимой информации – на уровне полей таблиц, как по названию полей, так и по описанию.
Еще один важный элемент – реестр отчетов. Он отображает информацию об отчетах компании, их статусах и владельцах, позволяет посмотреть общую статистику в различных разрезах. Также с его помощью можно получить детальную информацию по использованию любого из отчетов по подразделениям и пользователям, работающим с этим отчетом и статистике количества запусков за интересующий период.
Наконец, модель поиска чувствительных данных. Она позволяет получить актуальную информацию о наличии персональных данных (ПДн) физических лиц в таблицах баз данных. Модель анализирует записи в таблицах баз данных и сообщает в случае нахождения, возвращая названия таблиц и сообщая о признаке, по которому она разметила таблицу как содержащую ПДн. Результат работы модели и статистика в различных разрезах выводятся на разработанных для этого дашбордах.
- Как появление SBF DM отразилось на процессах работы с данными?
Появление данного инструмента не только сделало удобнее работу по ряду процессов, таких как управление архитектурой, безопасностью, качеством данных, метаданными, НСИ, но и обеспечило необходимою доступность и централизацию информации в рамках развития функции по управлению данными в «СберФакторинг».
- Как вы намерены бороться за качество данных? Как будете его измерять?
Качество данных – это одно из важнейших направлений, которому уделяется большое внимание в компании. Для его развития мы проводим как технические, так и организационные мероприятия. В рамках технических мероприятий производится разработка самих проверок качества данных, постановка их на мониторинг, подключения каналов информирования ответственных специалистов об отклонениях, и исправления выявленных отклонений. С организационной точки зрения мы формируем требования к качеству данных, договариваемся с владельцами данных о сроках реагирования и устранения отклонений.
В 2023 году мы начали измерять несколько показателей. К примеру, нам удалось сократить количество инцидентов качества данных на 33%, а доступность или «свежесть» данных – от момента их внесения в систему-источник до отображения в отчете – смогли повысить примерно в 2,5 раза. Кроме того, мы добавили автоматические напоминания разработчикам о необходимости описания таблиц там, где оно отсутствует, чтобы четко понимать точки для улучшения. Также мы будем измерять охват и глубину реализации проверок качества данных как на стороне корпоративного хранилища данных, так и на стороне систем-источников данных.
- Каковы планы по развитию платформы управления данными?
Безусловно, мы планируем развивать нашу систему, так как сейчас она является единым окном, через которое сотрудники компании могут получить необходимую информацию о данных, владельцах, терминах, определениях. Мы будем делать ее еще более удобной для пользователей и расширять ее функционал. Среди ближайших шагов, которые мы планируем, – добавить связь физической и логической моделей данных на уровне сервисов взаимодействия автоматизированных систем с бизнес-сущностями и процессами, а также реализовать модуль качества данных, чтобы перевести существующие процессы по данному направлению в нашу систему.
Помимо внутренних пользователей, наш опыт и инструменты оказались интересны и коллегам из других компаний. Учитывая этот интерес, наша команда совместно с командой Центра технологического консалтинга «Сбера» организовала демонстрационный стенд, на котором развернули SBF DM и наполнили синтетическими данными. Доступ к демостенду предоставляется по запросу. Таким образом, коллеги могут не только посмотреть демо в рамках видеоконференции или на очной встрече, но и самостоятельно познакомиться поближе с функционалом и возможностями нашей системы в любое удобное для себя время.