НИИ «МосТрансПроект» — ведущий интеллектуальный центр транспортного планирования, проектирования и аналитики с 77-летней историей. Институт создает решения, которые напрямую влияют на развитие городской среды, мобильность миллионов людей и стратегию транспортной системы столицы. «МосТрансПроект» создал единую цифровую экосистему знаний и информации столичного транспортного комплекса, которая объединяет презентационные и аналитические материалы, документы и накопленные знания в централизованной системе и превращает их в структурированный, управляемый и доступный цифровой актив. Ключевым элементом проекта стала система «Информатум» — единая точка доступа к знаниям и информации, вокруг которой была выстроена экосистема сервисов. О построении решения и его роли для транспортной отрасли столицы рассказывает Алла Загуменная, руководитель проектов отдела данных НИИ «МосТрансПроект» и номинант на премию Data Award.
- Какую задачу столичной транспортной отрасли требовалось решить?
В условиях активного развития транспортной инфраструктуры Москвы формируется большой объем аналитических и презентационных материалов. Основным форматом хранения и обмена знаниями традиционно являются служебные презентации и документы, используемые в ежедневной работе. Однако знания столичного транспортного комплекса не были объединены в единую систему.
В основе нашего решения лежала практическая потребность: оперативно находить актуальные материалы, в том числе на мобильных устройствах, и устранить риск зависимости знаний от отдельных сотрудников или локальных хранилищ. Поиск и подготовка материалов занимали значительное время, сотрудники тратили человеко-часы на создание, актуализацию и повторный поиск информации, а знания часто были привязаны к конкретным людям или подразделениям.
Создание цифровой экосистемы должно было позволить обеспечить быстрый и единый доступ к актуальным материалам, снизить время на поиск и подготовку информации, сфокусировать сотрудников на решении профессиональных задач, а не на поиске данных, а также сохранить и масштабировать знания организации.
- В чем заключался ключевой вызов?
Прежде всего, важно было повысить операционную эффективность организации. Знания все хранились разрозненно, и чтобы найти нужную информацию, приходилось тратить больше времени. В инфраструктурной отрасли с высокой сложностью проектов и большим количеством участников это увеличивает управленческие риски и снижает предсказуемость процессов. Фактически организация обладала значительным интеллектуальным капиталом, но не имела инструмента его капитализации и масштабирования.
- Насколько значимой была эта задача?
Задача носила системный характер и была связана с повышением эффективности работы с большим объемом аналитических и презентационных материалов. В условиях масштабных инфраструктурных проектов важно обеспечивать быстрый доступ к актуальной информации и минимизировать временные затраты на ее поиск и обработку.
Реализация экосистемного подхода позволила повысить управляемость процессов, сократить трудозатраты и создать условия для устойчивого развития data-driven практик.
- Какие принципы были заложены в систему?
Система строилась как инфраструктурный цифровой актив, а не как сервис хранения файлов. В основу были заложены следующие принципы: централизация и управляемость – единая точка входа и ролевой контроль доступа; алгоритмичность – интеллектуальный поиск и обработка контента по смыслу; стандартизация знаний – единая атрибутивная модель материалов; прозрачность метрик – контроль продуктовых и пользовательских показателей через BI; интеграционность – связка знаний с геоинформационными сервисами и корпоративными системами; масштабируемость – архитектура, позволяющая расширять экосистему без переработки ядра.
- Какие инструменты были выбраны для реализации проекта?
Для реализации проекта была выстроена масштабируемая архитектура обработки и индексации знаний.
В основе хранения лежит S3-совместимое объектное хранилище, обеспечивающее устойчивость и централизованное управление материалами. Индексация и интеллектуальный поиск реализованы на базе ElasticSearch с расширенной настройкой лингвистических анализаторов, что позволяет корректно обрабатывать русскоязычный контент, различные словоформы и вариативность написания. Для обработки неструктурированных данных (PPTX, PDF) реализован пайплайн извлечения текста, включая OCR-распознавание и автоматическую атрибутизацию. Это позволяет индексировать содержимое слайдов и аналитических материалов, а не только названия файлов. BI-компонент на базе Superset используется для мониторинга продуктовых метрик, анализа логов и контроля стабильности экосистемы.
Такой стек обеспечивает гибкость, масштабируемость и возможность дальнейшего внедрения ИИ-модулей.
- Что представляет собой созданное решение?
В целом система реализована как централизованная платформа в корпоративном мессенджере с интеллектуальными механизмами обработки информации. Она позволила перейти от разрозненного хранения материалов и ручного поиска к системному управлению знаниями.
Экосистема Информатума состоит из пяти основных модулей. Первый из них – модуль безопасности и управления доступами. Его задача – обеспечить безопасный, контролируемый и масштабируемый доступ пользователей ко всем сервисам экосистемы. Он реализует единую систему авторизации и ролевую модель доступа, которая позволяет централизованно управлять правами пользователей, контролировать действия сотрудников и обеспечивать информационную безопасность при работе с материалами. Модуль создает единый контур доступа ко всем компонентам экосистемы и обеспечивает ее устойчивое масштабирование.
Второй блок – ИИ-модуль работы с контентом. Он повышает качество, скорость и удобство работы с текстовыми материалами и знаниями. В его рамках используются инструменты интеллектуальной обработки контента: OCR-распознавание документов, автоматическое определение атрибутов, проверка орфографии, пунктуации и фактов, а также формирование кратких содержаний документов и писем. Этот модуль радикально снижает трудозатраты сотрудников и повышает качество контента, загружаемого в экосистему.
Третий модуль обеспечивает интеграцию с геоинформационным картографическим веб-сервисом Транспортного комплекса. Он привязывает знания и информационные материалы к реальным объектам транспортной инфраструктуры Москвы, что позволяет реализовать связку «данные – объекты – знания». За счет этого обеспечивается визуальная навигация по материалам в пространственном контексте и повышается прикладная ценность информации при принятии управленческих и проектных решений.
Модуль визуализации и мониторинга на базе Superset BI обеспечивает прозрачность работы экосистемы и контроль ее стабильности. BI-система используется для мониторинга продуктовых и сервисных метрик, анализа логов и контроля корректности работы компонентов экосистемы. Она позволяет оперативно выявлять отклонения в работе сервисов и поддерживать развитие экосистемы на основе данных.
Наконец, пятая часть – алгоритмический модуль интеллектуального поиска. Он дает быстрый, точный и контекстный доступ пользователей к релевантной информации и знаниям независимо от формата и источника материалов. Суть модуля заключается в реализации нескольких взаимодополняющих типов поиска, которые работают как единый алгоритмический контур: атрибутивный поиск по категории, дате, району, округу, метро и другим структурированным атрибутам; географический поиск с учетом пространственной привязки материалов и объектов; векторный поиск по смысловой близости документов и запросов; ИИ-поиск с интеллектуальной обработкой запросов с учетом контекста и содержания материалов; многошаговый поиск – последовательное уточнение запроса для повышения точности выдачи.
Алгоритмический модуль объединяет структурированные и неструктурированные данные и является ключевым механизмом навигации по экосистеме. Именно он превращает Информатум из хранилища файлов в полноценную систему управления знаниями, ориентированную на реальные задачи пользователей.
- Какими силами выполнялся проект? Какие ресурсы были потрачены?
Проект реализован внутренней кросс-функциональной командой: специалисты по данным, разработчики, аналитики, эксперты транспортной отрасли. Важной особенностью стало развитие проекта без остановки текущих бизнес-процессов и без масштабных внешних подрядов. Инвестиции были направлены преимущественно в развитие архитектуры, алгоритмического поиска и ИИ-модулей. Экономическая модель проекта строится на сокращении трудозатрат, повышении скорости принятия решений и снижении операционных рисков.
- Что было самым сложным в ходе проекта?
Ключевой сложностью стало не техническое внедрение, а трансформация модели работы с информацией. Необходимо было структурировать исторический массив знаний, сформировать единую атрибутивную модель, обеспечить точность алгоритмического поиска, изменить пользовательское поведение сотрудников. Поэтому проект потребовал системной работы по выстраиванию культуры работы с данными и знаниями.
С технической точки зрения одной из наиболее сложных задач стала корректная обработка презентационных материалов. Значительная часть информации в отрасли хранится в PPTX-файлах, где текст распределен по слоям, графическим объектам и таблицам. Для обеспечения полноты поиска был реализован механизм извлечения и нормализации текста с сохранением контекста.
Также требовалась настройка релевантности выдачи, чтобы система корректно ранжировала результаты при различных типах запросов. Это потребовало сочетания лингвистической настройки, алгоритмической логики и тестирования на реальных сценариях использования.
- Почему вы считаете решение технологически инновационным?
Информатум изначально проектировался как интеллектуальная система управления знаниями, а не как инструмент хранения файлов. Архитектура решения построена по принципу гибридного поиска, объединяющего структурированные и неструктурированные данные в едином алгоритмическом контуре.
В основе системы лежит ElasticSearch с тонкой настройкой лингвистических анализаторов: реализована морфологическая обработка словоформ, нормализация «Ё/Е», стемминг, обработка различных грамматических форм и вариативности написания. Это обеспечивает корректную работу с русскоязычным контентом и повышает полноту выдачи.
Однако ключевая инновация заключается в развитии поиска от лексического к семантическому уровню. В системе внедряется векторный анализ документов и механизм Retrieval-Augmented Generation (RAG), при котором большие языковые модели работают поверх корпоративной базы знаний. Такой подход позволяет анализировать смысл документа, а не только текстовые совпадения, формировать краткие ответы на основе нескольких источников, извлекать ключевую информацию без скачивания файлов, учитывать контекст запроса пользователя.
Фактически Информатум трансформирует массив презентаций и документов в структурированную базу знаний, пригодную для машинной обработки и интеллектуального взаимодействия.
- Чем инновационен алгоритмический поиск?
Поиск в Информатуме реализован как многоуровневая гибридная система. На атрибутивном уровне осуществляется поиск по структурированным параметрам: категория, дата, район, объект инфраструктуры. На лексическом уровне – полнотекстовый поиск с морфологическим анализом. На семантическом уровне – векторный поиск по смысловой близости документов. Наконец, на интеллектуальном уровне происходит ИИ-обработка запроса с генерацией краткого ответа (RAG-подход). Это позволяет системе корректно интерпретировать запросы с неполной формулировкой, учитывать различные словоформы и опечатки, находить документы по смыслу, даже если ключевые слова не совпадают дословно, а также работать с презентациями и PDF-документами через OCR и извлечение текста со слайдов. В результате поиск становится не операцией по нахождению файла, а инструментом навигации по знаниям организации.
- Какие результаты достигнуты?
Вокруг ядра Информатума удалось сформировать экосистему сервисов. Внедрены такие ИИ-инструменты, как Корректум – проверка орфографии, пунктуации и фактов, и Саммари – автоматическое краткое содержание документов для повышения качества и скорости работы с контентом. В результате скорость закрытия запросов увеличилась втрое. При этом обеспечен контроль доступа, качества и актуальности информации. Система служит фундаментом для data-driven решений.
В результате внедрения Информатума скорость поиска материалов выросла примерно в 60 раз. Инструменты ИИ позволяют получать ответы на управленческие вопросы без необходимости скачивания документов, что существенно ускоряет принятие решений. Сервис также стал инструментом быстрой адаптации новых сотрудников: до 50% типовых вопросов они решают самостоятельно.
Наблюдается быстрый рост вовлеченности пользователей: количество запросов увеличилось на 213%, а число и новых пользователей – на 45% за полгода.
- В чем роль проекта для организации?
Информатум стал инфраструктурной основой повседневной деятельности сотрудников. Экосистема повысила эффективность внутренних процессов за счет систематизации работы с информацией и знаниями, формирования единого стандарта работы с презентационными и аналитическими материалами. Она повышает качество подготовки материалов, используемых при проектировании и планировании транспортной инфраструктуры, и способствует формированию культуры самостоятельной и осознанной работы с информацией.
За счет этого обеспечено формирование прозрачного, управляемого и масштабируемого цифрового контура работы с информацией и внедрения data-driven подходов в госсекторе.
- Насколько может быть полезен ваш опыт для отрасли?
Проект демонстрирует практический переход от фрагментарной работы с документами и презентационными материалами к платформенному подходу управления знаниями в транспортной и градостроительной отрасли. Он создает основу для тиражирования подхода в других организациях транспортного и инфраструктурного профиля. Фактически мы формируем новую нишу цифровых экосистем знаний для сложных инфраструктурных отраслей, где критически важны точность, актуальность и преемственность информации.
- В каких направлениях будет развиваться проект?
В дальнейшем ожидается расширение экосистемы за счет подключения новых сервисов и модулей. Будет происходить развитие интеллектуального поиска: углубление семантического анализа, внедрение контекстных рекомендаций и персонализированной выдачи. Планируем интеграцию с корпоративными данными – подключение новых источников, включая проектные, аналитические и управленческие системы.
Движемся в направлении поддержки data-driven решений, связывая знания с аналитическими панелями и метриками для принятия управленческих решений на основе данных. Происходит масштабирование экосистемы – расширение на новые подразделения и сервисы транспортного комплекса. Развиваем пользовательскую аналитику, реализуем мониторинг сценариев использования для повышения эффективности и точности сервисов.