Производитель товаров повседневного спроса «ЮниРусь» создал платформу управления метаданными корпоративного хранилища данных с поддержкой искусственного интеллекта. Автоматизированная экосистема охватывает полный жизненный цикл управления метаданными — от проектирования до сверки с промышленной средой. О реализации проекта рассказывает Андрей Дмитриев, архитектор данных и владелец платформы DWH/BI компании «Арнест ЮниРусь» и номинант на премию Data Award.

- Как компания пришла к реализации этого проекта?

Для того, чтобы удерживать позицию лидера отрасли, необходимо обеспечить бизнес топливом для принятия решений, основанных на данных. Хранилище данных, которое мы разработали с нуля в ходе локализации 2023-2024 года с использованием российских технологий, заложила мощный фундамент для реализации этой цели. Рост запросов на интеграцию новых систем, а также модернизацию существующих решений потребовал пересмотра подходов к управлению метаданными. Мы осознали, что без автоматизации и применения ИИ дальнейшее масштабирование DWH станет невозможным из-за роста ошибок, задержек и затрат на рутинное сопровождение. Кроме того, бизнес требовал большей прозрачности и скорости получения данных для принятия решений.

- Какие проблемы требовалось решить?

До реализации проекта процесс документирования в GitLab велся вручную, что влекло за собой высокую трудоемкость, ошибки валидации и несогласованность форматов. Было критически важно снизить операционные издержки, обеспечить качество данных, исключив человеческий фактор при описании метаданных, и повысить скорость изменений за счет быстрой адаптации документации под новые требования бизнеса через гибкие шаблоны.

- Что стало ключевыми целями проекта?

Во-первых, ликвидация ручного труда при документировании и валидации объектов хранилища данных за счет ИИ-автоматизации. Высвобождение ресурсов команды разработки для переориентации на стратегические задачи — оно могло составить до 150 человеко-дней в год. Кроме того, требовалось создать «единый источник правды» о данных, доступный как техническим специалистам, так и бизнес-пользователям.

- Какой подход был выбран?

Мы пошли по пути создания гибридной платформы, которая сочетает автоматизацию на основе ИИ с сохранением экспертного контроля. Вместо точечных решений мы реализовали сквозной процесс — от проектирования до эксплуатации. Ключевым был принцип «метаданные как код», что позволило внедрить CI/CD-практики и обеспечить версионирование, согласованность и автоматическую валидацию.

- Какие платформы использованы при создании решения?

В качестве платформы управления метаданными на всех этапах жизненного цикла хранилища данных использовали Dat.ax Meta. Решение «НейроКод» отвечает за встраивание ИИ-инструментов в процессы. Использование on-premise ИИ-решения позволяет автоматизировать интеллектуальные задачи внутри корпоративного периметра с гарантией безопасности данных. Само хранилище данных построено на базе Arenadata DB, а процессы управления данными – на базе Arenadata Catalog.

- Какие данные охвачены?

Используются метаданные объектов DWH, в том числе исторические метаданные, накопленные за несколько лет в разных форматах, документация и описания. Кроме того, используется SQL-код в сценариях ревью и автогенерации технического задания.

- Что представляет собой созданное решение?

Мы создали цифрового двойника процесса управления метаданными, где ИИ выступает не просто инструментом, а полноценным участником команды — цифровым сотрудником. В результате создан ИИ-консультант с архитектурным контролем: система не только описывает текущее состояние, но и помогает проектировать целевое. ИИ проверяет соблюдение соглашения об именах (Naming Convention), типов данных и архитектурных гайдлайнов, что ранее выполнялось только вручную.

«ЮниРусь»: интеллектуальная платформа для метаданных

Нам удалось реализовать сценарии, ранее считавшиеся неосуществимыми. Первый из них — автогенерация технического задания в Word: прямая конвертация SQL-кода в текстовое ТЗ. Второй такой сценарий — чат-бот для ревью SQL. Он снимает нагрузку с senior-разработчиков, проводя первичный анализ кода.

При этом важно отметить глубокую интеграцию — реализовано сквозное обогащение метаданных на всем жизненном цикле благодаря бесшовной связке с дата-каталогом.

- Что в ходе проекта было самым сложным?

Самым сложным оказалось приведение к единому стандарту исторических метаданных, накопленных за годы в разнородных форматах. Также потребовалось тонко настроить ИИ-модели под специфику нашей предметной области и бизнес-терминологии, чтобы автоматическая генерация и проверка были не только технически корректными, но и содержательно осмысленными.

- Как благодаря появлению платформы управления метаданными изменились процессы работы с данными? На что она повлияла? Приведите несколько примеров.

Платформа радикально изменила процесс согласования и внедрения изменений. Например, раньше на ревью SQL-кода senior-разработчик тратил до нескольких часов в неделю. Теперь чат-бот проводит первичный анализ, и эксперту остается проверить только сложные случаи. Также система подсказывает аналитикам методы реализации с учетом внутренних документов, описывающие утвержденные архитектурные решения, подходы к проведению стандартизированных операций, правила наименования объектов. На выходе вместе с кодом мы получаем полный комплект документации, включая описание потоков данных и их происхождения, что раньше занимало дни ручной работы.

- Каких результатов удалось достичь?

Достигнута заметная экономия ресурсов: сокращение трудозатрат команды на 7%, что эквивалентно высвобождению 150 человеко-дней в год. Произошло ускорение формирования технических заданий для регламентных процессов в три раза. За счет оптимизации процедур приемки на 15% сократился показатель Data-to-Market, то есть происходит более быстрый вывод данных и их изменений в контуры.

Среди качественных результатов можно отметить повышение прозрачности данных для бизнес-заказчиков и обеспечение соответствия регуляторным требованиям, а также формирование новой технологической компетенции в компании по прикладному использованию ИИ в управлении данными.

- Как отреагировали сотрудники на появление в процессах генеративного ИИ?

Первоначально была некоторая настороженность, особенно среди опытных аналитиков и разработчиков, которые опасались, что ИИ заменит их экспертизу. Однако после обучения и первых успешных кейсов команда увидела в системе помощника, который берет на себя рутину. Теперь сотрудники чаще предлагают новые сценарии использования ИИ в своих процессах.

- Каково значение проекта для отрасли?

Во многом это технологический бенчмарк: один из первых на российском рынке примеров синергии специализированной платформы управления метаданными и on-premise ИИ-решения. Наш подход демонстрирует возможность применения генеративного ИИ в корпоративном секторе без вывода чувствительных данных во внешние облака.

Кроме того, проект формирует новый стандарт работы с хранилищем данных за счет концепции «цифрового двойника» процессов управления метаданными и встроенного ИИ-ассистирования на всем жизненном цикле.

- Каковы дальнейшие направления развития проекта?

Мы планируем расширить применение ИИ для прогнозного анализа качества данных и автоматического предложения оптимизаций в архитектуре хранилища. Также хотим глубже интегрировать платформу с системами бизнес-аналитики, чтобы бизнес-пользователи могли получать не только данные, но и их трактовку, сгенерированную ИИ на основе метаданных и контекста.