Производитель товаров повседневного спроса «ЮниРусь» создал платформу управления метаданными корпоративного хранилища данных с поддержкой искусственного интеллекта. Автоматизированная экосистема охватывает полный жизненный цикл управления метаданными — от проектирования до сверки с промышленной средой. О реализации проекта рассказывает Андрей Дмитриев, архитектор данных и владелец платформы DWH/BI компании «Арнест ЮниРусь» и номинант на премию Data Award.
- Как компания пришла к реализации этого проекта?
Для того, чтобы удерживать позицию лидера отрасли, необходимо обеспечить бизнес топливом для принятия решений, основанных на данных. Хранилище данных, которое мы разработали с нуля в ходе локализации 2023-2024 года с использованием российских технологий, заложила мощный фундамент для реализации этой цели. Рост запросов на интеграцию новых систем, а также модернизацию существующих решений потребовал пересмотра подходов к управлению метаданными. Мы осознали, что без автоматизации и применения ИИ дальнейшее масштабирование DWH станет невозможным из-за роста ошибок, задержек и затрат на рутинное сопровождение. Кроме того, бизнес требовал большей прозрачности и скорости получения данных для принятия решений.
- Какие проблемы требовалось решить?
До реализации проекта процесс документирования в GitLab велся вручную, что влекло за собой высокую трудоемкость, ошибки валидации и несогласованность форматов. Было критически важно снизить операционные издержки, обеспечить качество данных, исключив человеческий фактор при описании метаданных, и повысить скорость изменений за счет быстрой адаптации документации под новые требования бизнеса через гибкие шаблоны.
- Что стало ключевыми целями проекта?
Во-первых, ликвидация ручного труда при документировании и валидации объектов хранилища данных за счет ИИ-автоматизации. Высвобождение ресурсов команды разработки для переориентации на стратегические задачи — оно могло составить до 150 человеко-дней в год. Кроме того, требовалось создать «единый источник правды» о данных, доступный как техническим специалистам, так и бизнес-пользователям.
- Какой подход был выбран?
Мы пошли по пути создания гибридной платформы, которая сочетает автоматизацию на основе ИИ с сохранением экспертного контроля. Вместо точечных решений мы реализовали сквозной процесс — от проектирования до эксплуатации. Ключевым был принцип «метаданные как код», что позволило внедрить CI/CD-практики и обеспечить версионирование, согласованность и автоматическую валидацию.
- Какие платформы использованы при создании решения?
В качестве платформы управления метаданными на всех этапах жизненного цикла хранилища данных использовали Dat.ax Meta. Решение «НейроКод» отвечает за встраивание ИИ-инструментов в процессы. Использование on-premise ИИ-решения позволяет автоматизировать интеллектуальные задачи внутри корпоративного периметра с гарантией безопасности данных. Само хранилище данных построено на базе Arenadata DB, а процессы управления данными – на базе Arenadata Catalog.
- Какие данные охвачены?
Используются метаданные объектов DWH, в том числе исторические метаданные, накопленные за несколько лет в разных форматах, документация и описания. Кроме того, используется SQL-код в сценариях ревью и автогенерации технического задания.
- Что представляет собой созданное решение?
Мы создали цифрового двойника процесса управления метаданными, где ИИ выступает не просто инструментом, а полноценным участником команды — цифровым сотрудником. В результате создан ИИ-консультант с архитектурным контролем: система не только описывает текущее состояние, но и помогает проектировать целевое. ИИ проверяет соблюдение соглашения об именах (Naming Convention), типов данных и архитектурных гайдлайнов, что ранее выполнялось только вручную.
.jpg)
Нам удалось реализовать сценарии, ранее считавшиеся неосуществимыми. Первый из них — автогенерация технического задания в Word: прямая конвертация SQL-кода в текстовое ТЗ. Второй такой сценарий — чат-бот для ревью SQL. Он снимает нагрузку с senior-разработчиков, проводя первичный анализ кода.
При этом важно отметить глубокую интеграцию — реализовано сквозное обогащение метаданных на всем жизненном цикле благодаря бесшовной связке с дата-каталогом.
- Что в ходе проекта было самым сложным?
Самым сложным оказалось приведение к единому стандарту исторических метаданных, накопленных за годы в разнородных форматах. Также потребовалось тонко настроить ИИ-модели под специфику нашей предметной области и бизнес-терминологии, чтобы автоматическая генерация и проверка были не только технически корректными, но и содержательно осмысленными.
- Как благодаря появлению платформы управления метаданными изменились процессы работы с данными? На что она повлияла? Приведите несколько примеров.
Платформа радикально изменила процесс согласования и внедрения изменений. Например, раньше на ревью SQL-кода senior-разработчик тратил до нескольких часов в неделю. Теперь чат-бот проводит первичный анализ, и эксперту остается проверить только сложные случаи. Также система подсказывает аналитикам методы реализации с учетом внутренних документов, описывающие утвержденные архитектурные решения, подходы к проведению стандартизированных операций, правила наименования объектов. На выходе вместе с кодом мы получаем полный комплект документации, включая описание потоков данных и их происхождения, что раньше занимало дни ручной работы.
- Каких результатов удалось достичь?
Достигнута заметная экономия ресурсов: сокращение трудозатрат команды на 7%, что эквивалентно высвобождению 150 человеко-дней в год. Произошло ускорение формирования технических заданий для регламентных процессов в три раза. За счет оптимизации процедур приемки на 15% сократился показатель Data-to-Market, то есть происходит более быстрый вывод данных и их изменений в контуры.
Среди качественных результатов можно отметить повышение прозрачности данных для бизнес-заказчиков и обеспечение соответствия регуляторным требованиям, а также формирование новой технологической компетенции в компании по прикладному использованию ИИ в управлении данными.
- Как отреагировали сотрудники на появление в процессах генеративного ИИ?
Первоначально была некоторая настороженность, особенно среди опытных аналитиков и разработчиков, которые опасались, что ИИ заменит их экспертизу. Однако после обучения и первых успешных кейсов команда увидела в системе помощника, который берет на себя рутину. Теперь сотрудники чаще предлагают новые сценарии использования ИИ в своих процессах.
- Каково значение проекта для отрасли?
Во многом это технологический бенчмарк: один из первых на российском рынке примеров синергии специализированной платформы управления метаданными и on-premise ИИ-решения. Наш подход демонстрирует возможность применения генеративного ИИ в корпоративном секторе без вывода чувствительных данных во внешние облака.
Кроме того, проект формирует новый стандарт работы с хранилищем данных за счет концепции «цифрового двойника» процессов управления метаданными и встроенного ИИ-ассистирования на всем жизненном цикле.
- Каковы дальнейшие направления развития проекта?
Мы планируем расширить применение ИИ для прогнозного анализа качества данных и автоматического предложения оптимизаций в архитектуре хранилища. Также хотим глубже интегрировать платформу с системами бизнес-аналитики, чтобы бизнес-пользователи могли получать не только данные, но и их трактовку, сгенерированную ИИ на основе метаданных и контекста.