Магнитогорский металлургический комбинат перешел на российскую платформу ведения бизнес-глоссария и работы с метаданными Arenadata Catalog и выстраивает на его основе систему Data Governance. Реализация проекта по миграции каталога данных ускоряет запуск и внедрение цифровых инициатив ММК. О его ходе и результатах рассказывает Дмитрий Ганаев, начальник офиса управления данными «ММК-Информсервис» и номинант на премию Data Award.
- В каком состоянии компания подошла к реализации проекта? Что с точки зрения реализации подходов Data Governance уже было сделано?
К моменту старта проекта в компании уже была заложена основа для системного управления данными. В ММК сформирован рациональный подход к наполнению глоссария и каталога данных – мы не ставим задачу описать все данные сразу. Вместо этого, участвуя в реализации всех проектов по направлению информационных технологий, мы постепенно дополняем и развиваем концептуальную модель данных основных предметных областей и терминов предприятия.
Требования к описанию данных закреплены в качестве обязательного элемента к реализации всех проектов. Таким образом, наш глоссарий наполняется актуальными терминами, которые находятся в текущей повестке дня. То же самое касается и описания физических данных в каталоге – эту деятельность проще производить в ходе реализации проекта, а не после его завершения.
По мере наполнения каталога данных, процессы поиска данных для новых проектов стали ускоряться, описанные и загруженные в корпоративное хранилище данные стали доступны аналитикам в более короткие сроки. Каталог данных стал рабочим инструментом, который нужно развивать и поддерживать в актуальном состоянии.
- Какие стояли дальнейшие цели?
Чтобы убрать риски использования импортного программного обеспечения, потребовалось перейти на отечественный инструмент для каталога данных, сохранив функциональность и производительность решений Informatica Axon и EDC. Также было важно сделать работу пользователей удобнее: вместо «набора разных инструментов и переключений» хотелось иметь единый универсальный инструмент, обеспечивающий доступ к информации для ИТ-команд и аналитиков в «одном окне».
- Насколько этот проект важен для компании?
Уровень использования данных в ММК высокий: управленческие решения принимаются на основе данных корпоративного аналитического портала, функционирует хранилище данных, внедрены аналитические BI-инструменты, разрабатываются и эксплуатируются автоматизированные системы управления производством с применением предиктивных моделей.
В этих условиях систематизация метаданных и единый бизнес-язык становятся необходимым условием устойчивости и дальнейшего масштабирования практик работы с данными. Кроме того, без актуального каталога и глоссария невозможно масштабирование проектов искусственного интеллекта и Индустрии 4.0. Проект обеспечивает доверие к данным, на основе которых принимаются управленческие решения.
И, конечно, важно снижение технологических и регуляторных рисков за счет отказа от импортного ПО в критичном контуре управления данными.
Таким образом, реализованный проект следует позиционировать не как простую замену ПО, а как очередной этап развития системы Data Governance. В его рамках был выполнен переход на отечественный инструмент Arenadata Catalog, который стал опорой текущих процессов и основой для следующих шагов.
- Исходя из каких принципов выбирали инструмент? Какие критерии были наиболее важными?
Опираясь на опыт администрирования и настройки предыдущего каталога, мы сформулировали порядка 30 критериев выбора, ранжировали их по критичности и сгруппировали по функциональным блокам: количество типов сканируемых источников, полнота отсканированных данных, интуитивный поиск и интерфейс пользователя, гибкие возможности по настройке глоссариев, возможности программной интеграции (наличие API).
Дополнительно оценивались нефункциональные критерии: удобство развертывания и администрирования, быстрота и качество техподдержки вендора, скорость внесения изменений в существующее ПО, общая стоимость владения.
- В какие сроки был реализован проект?
Удалось провести работы достаточно оперативно. Стартовали в апреле 2025 года, в октябре начали опытно-промышленную эксплуатацию и к концу 2025 года завершили проект.
- Каковы объемы работ?
Масштаб проекта составил около 4 тыс. человеко-часов. В рамках переноса данных мигрировано более 2,5 тыс. объектов глоссария и 28 СУБД (включая Oracle, PostgreSQL, Microsoft SQL Server, Arenadata DB) – суммарно в каталоге учтено более 100 тыс. объектов метаданных и более 3 млн связей между ними.
- Что в ходе проекта было самым сложным?
Основная сложность миграции с Informatica Axon и EDC на Arenadata Catalog заключалась в фундаментальном различии методологических подходов двух платформ. Это касается как организации и логики хранения бизнес-терминов самого глоссария, так и способа описания и хранения связей между бизнес-терминами (объектами глоссария) и физическими активами (объектами технических метаданных). Структуры и взаимосвязи, заложенные в одной экосистеме, не имеют прямых аналогов в другой, что требует трансформации и перепроектирования, а не простого переноса информации. Мы потратили значительное количество времени и провели много экспериментов для выработки такой архитектуры глоссария, чтобы совместить и достаточный уровень удобства, и нужную степень каталогизации бизнес-терминов. Идеал сложно достижим в этом вопросе, но мы понимаем, что в будущем, с ростом наших компетенций, сможем изменить архитектуру глоссария, если столкнемся со сложностями или увидим возможность какой-либо оптимизации.
При этом нужно отметить, что обе системы имеют широкие функциональные возможности по импорту и экспорту данных, что значительно облегчило процесс миграции.
- С какими решениями интегрирован каталог данных?
Интеграция каталога данных может рассматриваться с двух направлений – это сканирование источников метаданных стандартными коннекторами, и разработка дополнительных механизмов получения метаданных через API.
С помощью стандартных сканеров реализовано подключение к более чем 50 сервисам, таких как корпоративное хранилище данных, СУБД корпоративной ERP- и MES-систем, аналитический BI-портал и т.п. Также мы самостоятельно разработали коннекторы к нашим унаследованным системам, например, был разработан коннектор к SAP Sybase ASE.
Кроме того, мы самостоятельно разработали важные межсистемные взаимодействия – например, интеграцию с Active Directory для гибкой работы с группами пользователей, интеграцию с системой управления проектами для получения полного справочника реализуемых проектов.
- Что реализованный проект дал компании?
У нас появился важный корпоративный инструмент – бизнес-глоссарий, который стандартизирует терминологию между производством, финансами и продажами, исключая разночтения в отчетах и показателях. Каталог данных позволяет ИТ-командам быстро находить нужные данные, понимать их контекст, делать запросы на новые данные. Это ускоряет запуск и реализацию цифровых инициатив, главным внутренним заказчиком которых выступает проектный офис и центр искусственного интеллекта.
- Какие результаты достигнуты и ожидаются?
Основным результатом я считаю внедрение процессов по управлению данными в продедуры реализации цифровых проектов. Такой процесс увеличивает качество реализации продуктов, требует описания ключевых данных в связке с бизнес-терминологией. В дальнейшем это позволит более легко перейти к процессам сопровождения и поддержки таких продуктов на следующих этапах их жизненного цикла.
Есть и прямые эффекты на скорость внедрения проектов. Например, при наличии загруженных в КХД и описанных данных, требуемых для нового проекта, время подготовки датасета для Центра искусственного интеллекта сокращается радикально – с примерно месяца, как было ранее, до двух-трех дней. Такой эффект достигнут благодаря выстраиванию процессов офиса управления данными, построению каталога данных и его связке с хранилищем данных.
- Пытались ли оценивать эти эффекты в финансовом виде?
Экономическое обоснование процессов управления данными – очень непростая задача. Концептуально мы понимаем, что эффект от скорости поиска и предоставления данных положительно сказывается на скорости внедрения любого проекта. И тут можно оттолкнуться от эффекта самого исходного проекта. Но выстроить строгую, понятную и доказуемую систему экономического расчета – это само по себе тянет на отдельный проект.
- Каково значение проекта для отрасли?
Проект можно рассматривать как референс импортозамещения инструмента Data Governance в тяжелой промышленности: выполнена миграция на отечественный каталог и глоссарий при значимом масштабе и с интеграцией в корпоративный ИТ-контур.
- Чем можно особенно гордиться?
Уникальность проекта – в сочетании скорости внедрения и совместной доработки продукта под промышленный контур. Миграция с иностранного решения была выполнена в сжатые сроки: за шесть месяцев достигнута полная реализация поставленной цели и обеспечен переход в промышленную эксплуатацию.
Могу отметить, что высокая скорость и качество реализации стали возможны благодаря двум факторам: сильной проектной команде ММК, обладающей компетенциями в управлении данными и системной интеграции, а также активному участию вендора – расширенной технической поддержке и сопровождению на критически важном этапе миграции.
В ходе проекта мы сформировали более 30 рекомендаций и запросов по развитию функциональности и улучшению качества решения. 16 обращений были оперативно реализованы командой разработки и поддержки, что повысило производительность и надежность внедряемого решения. Остальные предложения приняты в работу и запланированы к реализации в следующих релизах.
- В каком направлении будет развиваться проект?
Во-первых, это популяризация каталога данных как инструмента для самостоятельного поиска данных бизнес-пользователями без привлечения ИТ-специалистов. Во-вторых, самообслуживание коснется и ИТ: у ИТ-аналитиков появилась возможность поиска данных с указанием систем-источников, ИТ-экспертов, бизнес-владельцев.
Польза для разработчиков ИТ-систем – в том, что каталог данных с реализованным автоматизированным построением data lineage позволит разработчикам быстрее анализировать обращения от пользователей, понимать влияние своих данных на смежные системы. Все это позволит быстрее и качественнее выполнять задачи по технической поддержке цифровых продуктов.
Для построения data lineage планируем применение нейросетевых технологий, так как видим большую перспективу в возможностях LLM для разбора объектов данных и построения связей между ними. Прототип такого коннектора уже спроектирован, полученные положительные результаты позволяют надеяться, что такая технология на порядок увеличит количество связанных объектов и, соответственно, каталог данных будет приносить больше пользы для всех пользователей.