Сбербанк автоматизировал контроль качества данных, разработав полностью автономный ИИ-агент на базе GigaСhat. Решение самостоятельно проводит разбор аномалий в данных и автоматически регистрирует инциденты качества данных в системе ITSM. Им охвачено 100% данных риск-менеджмента. О реализации проекта рассказывает Марк Дубинский, исполнительный директор Департамента интегрированного риск-менеджмента Сбербанка и номинант на премию Data Award.
- Расскажите о предыстории проекта.
Сегодня данные появляются и используются очень быстро: любой атрибут может за считанные дни попасть в модель машинного обучения или в отчет для топ-менеджмента. Поэтому в Блоке Риски мы придерживаемся принципа «100% данных – критичные». В 2024 году наша команда покрыла хранилище статистическими проверками, выявляющими аномалии – это 8 Пбайт данных, что позволило значительно снизить риски их использования в процессах Блока. И тут мы столкнулись с классической проблемой – статистические проверки дают большой уровень «шума». Представьте, что вы каждый день проверяете качество воды во всем озере Байкал – самом объемном и прозрачном озере в мире. Мы создали систему, которая автоматически находит места, где вода вдруг становится мутной или меняет температуру – то есть аномалии.
Говоря «научным» языком, аномалия – это данные, не соответствующие характерному для них поведению: набору или интервалу значений, тренду, прогнозу модели. Например, каждый день в течении месяца в таблице появляется 100 новых записей. Если в один из дней в таблице 500 новых записей – это аномалия.
Вернемся к нашему примеру с Байкалом: вода может помутнеть не только из-за грязи, но и потому, что просто подул ветер или проплыла лодка. Причинами наших аномалий могут быть как ошибки, сбои, так и работы на витринах и источниках, реальные изменения профиля данных или в логике формирования данных. Выявляются аномалии с помощью типовых статистических проверок, реализованных в инструменте контроля качества данных. Для реализации проверок, рассчитываем метрики по каждому атрибуту за каждый день. Инструмент использует прогнозные модели для анализа временных рядов на основании исторических данных. Аномалией считается значительно расхождение прогноза модели и реальной метрики по проверяемым данным.
Потребовалась целая команда людей, чтобы ежедневно вручную разбирать тысячи таких сигналов и отличить реальную проблему от «шума». Это может занимать до полутора суток. За это время «грязная вода» могла уже уйти в трубу и «навредить» процессам.
Поэтому нам было важно повысить качество данных, сократив время реагирования на инциденты. А реализовать это можно было только одним способом – уйти от ручного разбора. Наш ИИ-агент проводит первичный разбор – смотрит на все аномалии, анализирует ситуацию, отсеивает шум и, если надо, мгновенно «бьет тревогу».
- Почему сложившаяся ситуация не устраивала, насколько сильно она влияла на качество данных? И к каким показателям рассчитывали прийти?
Как я уже сказал, процесс первичного разбора оказался крайне трудозатратным. Реализованный процесс контроля качества позволил в значительной степени митигировать риски данных на процессах Блока, однако в ряде случаев между обнаружением отклонения и реакцией на него проходило слишком много времени, что приводило к реализации потерь или упущенной выгоде.
Для дальнейшего масштабирования нашего принципа и процесса на весь банк необходимо было выделение дополнительных ресурсов в Блоках. Так автоматизация инцидент-менеджмента стала следующей естественной ступенью развития процесса.
- Какой подход был выбран?
В силу вероятностной природы нашего инструмента качества данных, простая установка детерминированных правил автоматической регистрации инцидентов не дала бы нужных результатов: либо процесс утонул бы в ложных тревогах, если бы порог чувствительности инструмента оказался завышен, либо начал бы пропускать реальные проблемы, если порог занижен. Поэтому мы приняли решение разработать агента, который бы проводил первичный разбор аномалий и автоматически регистрировал инциденты качества данных в системе ITSM и постоянно настраивал бы инструмент поиска аномалий, повышая его точность.
- Какие требования предъявлялись к решению? Какие принципы хотели соблюсти?
Агент должен был стать не просто ассистентом, помогающим человеку, а полностью автономным решением, которое трансформирует процесс инцидент-менеджмента по качеству данных. Он должен обладать всей полнотой информации о данных, высокими степенями точности работы, надежностью, интегрироваться в общебанковские процессы. В процессе реализации команда успешно решила несколько сложных инженерных задач, используя разнообразный технологический стек.
- На каких платформах реализовано решение?
Платформы выбирали с учетом как общероссийского вектора на импортозамещение, так и внутренних технологических ограничений. В итоге мы опирались преимущественно на существующий стек банка и отечественные продукты.
Агент реализован на Python (LangGraph), базируется на нашей нейросетевой модели GigaСhat, для хранения данных используем собственные сборки Postgres и Hadoop, интеграции – Kafka и Rest API.
.jpg)
- Какие результаты достигнуты?
Это – первый агент, автономно разбирающий статистические аномалии в данных и дающий вердикты по их возможным причинам. Достигнут 100% автоматический инцидент-менеджмент. Полное покрытие проверками позволяет обеспечить достаточный уровень доверия к данным – это стимулирующий фактор для автоматических процессов, в том числе обучения и переобучения моделей.
Сейчас от обнаружения аномалии до регистрации инцидента качества данных проходит не более двух часов. Риски данных снижаются, а трудозатраты на отсев «шума» снижены до нуля. Полностью покрываем данные Блока Риски проверками – сотни тысяч проверок на десятках тысяч атрибутов, за 2025 год это позволило обнаружить около 2 тыс. ошибок качества данных. Эффект от внедрения оцениваем в сотни миллионов рублей в год.
- В чем роль проекта для бизнеса Сбербанка?
Мы одними из первых в банке создали агента в целевой инфраструктуре. Кроме того, вместе с командой разработчиков GigaChat мы обучили LoRA-адаптер (Low-Rank Adaptation – метод дообучения нейросетей, который позволяет адаптировать большие предварительно обученные модели к конкретным задачам без значительного увеличения вычислительных затрат – Прим. ред.) на внутренних данных банка, что позволяет агенту понимать специфику именно наших данных и процессов на очень глубоком уровне. В результате этого созданные инструмент и процесс снижения рисков получились эффективными и масштабируемыми.
Внедрение системы позволяет управлять рисками данных и минимизировать их последствия с приемлемой стоимостью. Высокая степень автоматизации позволит масштабировать систему на весь банк без существенного повышения трудозатрат.
- В каком направлении будет развиваться проект?
В этом году будем масштабировать агента на весь банк – наше решение будет полезным всем, кто сталкивается с аналогичными вызовами. Пилотный проект уже идет в одном из бизнес-блоков «Сбера».
В планах – расширение функциональности. Сделаем мультиагентную систему контроля качества данных, чтобы агенты могли самостоятельно генерировать и настраивать проверки качества данных для каждого атрибута, понимая его бизнес‑смысл. А еще они будут обрабатывать ответы сопровождения на инциденты в ITSM и подстраивать систему в соответствии с ними. О достигнутых результатах обязательно расскажем.