В ОАО «РЖД» создано корпоративное хранилище данных на импортонезависимой платформе, существенно повысившее аналитические возможности компании. Создание единой отраслевой модели данных для такого крупного железнодорожного холдинга как РЖД позволяет эффективно использовать информацию как внутри компании, так и за ее пределами. О реализации проекта рассказывает Ирина Долженко, руководитель проекта, главный эксперт департамента информатизации РЖД и номинант на премию Data Award.
- Как в РЖД пришли к реализации проекта?
С начала 2000-х годов корпоративное информационное хранилище, разработанное на базе решений SAS, являлось основным инструментом для формирования статистической отчетности для 40 тыс. пользователей, подготовки информационно-аналитических материалов и интеграции отчетных данных с другими системами. Однако уход вендора из России и прекращение технической поддержки повысили приоритет разработки собственного технологически независимого решения для работы с большими объемами данных – корпоративного хранилища данных (КХД РЖД). Помимо этого, за 25 лет нами накоплен огромный массив данных, который важно сохранить и мигрировать на новую платформу.
Целью проекта стала разработка импортонезависимой платформы, которая позволит обеспечить надежное хранение и обработку данных в соответствии с требованиями РЖД. Проект направлен на стандартизацию и повышение качества работы с данными через унификацию процесса подготовки данных и внедрение единого методологического подхода в проектных командах.
- Почему построение современного корпоративного хранилища данных важно для РЖД?
Проект предполагает расширение аналитических возможностей за счет интеграции данных из множества систем-источников различного типа. Оптимизация процессов поставки, расчетов, предоставления и управления данными также является важной задачей, что позволит создать экосистему для решения задач в области аналитики и машинного обучения.
Еще одним важным аспектом является обеспечение возможности горизонтального и вертикального масштабирования платформы, что дает возможность адаптировать ресурсы и добавлять новые сервисы и функциональные модули. Наконец, проект формирует возможности для создания корпоративного рынка данных, что позволит эффективно использовать данные как актив. Монетизация данных в компании РЖД означает использование данных, как ценного актива для улучшения работы, повышения эффективности и создания новых продуктов и услуг для клиентов. Анализ данных помогает выявлять слабые места в операционных процессах, что позволяет сократить затраты и повысить производительность. Сотрудничество с государственными органами и внешними партнерами в области обмена данными, а также участие в разработке отраслевых стандартов, создаст единый подход к взаимодействию. Это повысит ценность и эффективность использования данных.
- Какие решения использовались при построении платформы?
КХД РЖД реализовано на базе Платформы корпоративного распределенного хранилища больших данных – продукта компании «Цифровые сервисы» – и собственной разработки дополнительных модулей. Кроме того, КХД РЖД синхронизировано с инструментами по управлению и анализу данных: Глоссарием бизнес-терминов и Репозиторием форм и аналитических справок, которые реализованы на базе решений, зарегистрированных в Реестре российского программного обеспечения. В Глоссарии пользователи получают единую согласованную бизнес-терминологию, правила формирования показателей и информацию о владельцах данных. Репозиторий форм отчетности и аналитических справок содержит нормативную базу по показателям.
- Каков масштаб работ? Какими силами и в какие сроки он реализован?
Масштаб проекта и по длительности и по результатам работ действительно амбициозный. В проекте задействовано более 10 команд – это около 300 человек. Работы по текущей стадии проекта в части реализации платформы КХД РЖД, включая работы по импортозамещению, проводились в период с января 2023-го по ноябрь 2024 года.
- Что было самым сложным при реализации проекта?
Сложность при реализации проекта обусловлена большим количеством интеграций – более 100 систем-источников, которые были параллельно с нами в импортозамещении, что создавало необходимость дополнительной синхронизации дорожных карт и ресурсов. Одновременная работа более 10 команд, каждая из которых отвечает за свою область, также требовала регулярной координации, поскольку результаты одной команды могут зависеть от работы других.
- Какие результаты достигнуты?
Мы успешно разработали и внедрили единую импортонезависимую платформу – Корпоративное хранилище данных РЖД. Ее архитектура позволяет нескольким командам одновременно работать с дата-продуктами без дублирования операций, что значительно ускоряет миграцию. Реализована доменная структура хранения данных, охватывающая 27 ключевых бизнес-процессов РЖД по концепции data mesh, что позволяет более гибко управлять данными.
Также мы создали область для хранения архивных данных с 20-25-летней историей, объем которой на текущий момент составляет 1,5 Пбайт. Кроме того, мы успешно провели миграцию данных из 57 систем-источников и 30 систем-потребителей, а также обработали 620 справочников, участвующих в формировании показателей. Разработаны аналитические домены для решения задач продвинутой и предиктивной аналитики, что открывает новые возможности для анализа данных.
За 20-25 лет часть экспертизы по обработке данных была утрачена, поэтому наш проект включает не только миграцию, но и реинжиниринг с аудитом и актуализацией всей методологической базы по подготовке данных. В том числе, мы проводим работу по выстраиванию взаимодействия с существующей НСИ и обеспечению актуальности и согласованности справочных данных между системами-источниками и системами-потребителями, так как разные системы могут использовать различные справочники.
Мы видим экономию на реализации интеграционного взаимодействия с системами-источниками на базе КХД за счет переиспользования исходных данных при формировании аналитических витрин для BI. Также отмечаем экономию времени на внедрение BI, снижение затрат на найм и содержание персонала для ручного сбора критической статистической отчетности, а также экономию на ведение методологии.
- В чем роль проекта для бизнеса компании?
Во-первых, миграция на новую платформу обеспечивает технологический суверенитет компании. Во-вторых, она стала основой для создания единой системы корпоративной отчетности, способствующей унификации и формализации алгоритмов формирования отраслевых показателей. КХД обеспечивает не только сохранение функциональности прежнего хранилища, но и позволяет осуществлять доработки платформы под требования РЖД, что является стратегически важным для дальнейшего развития компании.
Новое КХД преобразовало наши подходы к статистике. Ранее отчеты формировались лишь на основе утвержденных бумажных форм. Теперь автоматизация позволяет сосредоточиться на показателях, а не на формах, не меняя методологию расчета. Прогнозирование становится более точным благодаря использованию исторических данных, которые учитывают сезонность и аномальные события – например, пандемию 2020 года. Это позволяет более эффективно планировать и анализировать данные, улучшая качество принимаемых решений.
- С учетом масштабов РЖД и его роли для страны, вероятно, проект способен оказать влияние и на обычных граждан…
РЖД обладают одним из самых больших в стране объемом накопленных данных. Социальная значимость проекта заключается в создании более доступной и удобной инфраструктуры для граждан, что способствует повышению уровня жизни. Эффективное взаимодействие с государственными органами и участниками транспортно-логистического рынка в части обмена данными позволяет значительно улучшить качество предоставляемых цифровых сервисов.
- Каково значение проекта для транспортной отрасли?
КХД РЖД имеет особую ценность для отрасли, так как предоставляет возможность взаимодействия с государственными органами и внешними партнерами в части обмена качественными данными.
Создание единой отраслевой модели данных для такого крупного железнодорожного холдинга как РЖД, позволяет оптимально использовать информацию как внутри компании, так и за ее пределами, что открывает возможности для тиражирования успешных практик и внедрения инноваций в отрасли.
- В каком направлении будет развиваться проект?
В рамках стратегии импортозамещения ИТ-ландшафта мы планируем продолжать работы по структурированию и наполнению данными КХД РЖД по единой методологии с целью повышения эффективности автоматизации, оптимизации и трансформации текущих процессов ОАО «РЖД».
Кроме того, мы планируем расширять аналитические возможности, создавая новые витрины данных для бизнес-аналитики под требуемые бизнес-направления или бизнес-задачи, гибкие отчеты, а также аналитические домены для построения предиктивных моделей и прогнозной аналитики.