НОРБИТ: в работе с НСИ поможет генеративный ИИ

Компания НОРБИТ в 2025 году выпустила собственное решение для автоматизации процесса нормализации нормативно-справочной информации – AI MasterData. Это новый подход к обработке записей НСИ, от чистоты которых напрямую зависит качество цифровых процессов и бизнес-результаты. О создании продукта рассказывает Артем Ивакин, директор по развитию бизнеса НОРБИТ, номинант на премию Data Award.

- Как появилось решение AI MasterData?

Мы в течение нескольких последних лет запустили целый ряд проектов для нормализации сотен тысяч НСИ под ключ для крупных заказчиков. В ходе их реализации были созданы технологии и разработаны алгоритмы на базе машинного обучения, которые позволяли ускорить операции, выполняемые ранее вручную. Эти ноу-хау стали основой первой версии решения. Вскоре его обогатили за счет появившихся недавно подходов на основе больших языковых моделей.

- На решение каких проблем и задач оно направлено?

AI MasterData нормализует НСИ по всей цепочке процесса очистки, выдавая на выходе максимально качественные записи. В число возможностей решения входит проверка орфографии и синтаксиса, категоризация НСИ по основному и вспомогательным деревьям категорий, выделение атрибутов из наименований, обогащение атрибутов из внешних источников, очистка от дублей, категоризация по ОКПД-2, поиск аналогов.

- Почему это важно?

За последние годы на российском рынке сформировалась растущая потребность в эффективных инструментах работы с НСИ. Особенно критична она была для среднего и крупного бизнеса, работающего с обширной номенклатурой товаров.

- Каковы ключевые возможности решения?

Платформа позволяет автоматизировать процесс нормализации НСИ, используя комбинацию алгоритмов обработки текста, классического машинного обучения и больших языковых моделей для реализации полного цикла очистки данных. AI MasterData применяет специализированные алгоритмы для различных ситуаций обработки информации, включая самые сложные задачи: некатегоризированные записи, НСИ с большим количеством ошибок.

Обширная внутренняя база знаний помогает обогащать значения атрибутов, получать требуемые характеристики номенклатурных записей из внутреннего хранилища. Платформа определяет значение класса НСИ по общероссийским классификаторам, категориям и справочникам организации, убирает дублирующиеся позиции, формирует чистое наименование.

Решение легко интегрируется с существующими информационными системами, поддерживает как on-premise, так и облачное развертывание, и может быть настроено сотрудником без навыков программирования.

- На каких технологиях реализована система?

Решение основано на технологиях с открытым исходным кодом, широко применяемых в России, и зарегистрировано в Реестре отечественного ПО. AI MasterData содержит базу данных для хранения информации на основе PostgreSQL. В нем используются технологии микросервисов, облегчающие масштабирование в зависимости от доступных вычислительных ресурсов. Также применяется API, благодаря которому продукт может интегрироваться в систему управление мастер-данными или другие, такие как ERP и SRM (управление отношениями с поставщиками).

Важной частью решения является LLM-модель: она обеспечивает работу с неструктурированными данными и помогает в операциях, когда обучение ML-модели невозможно или дорого. Для деятельности во внутреннем контуре мы предлагаем еще одно собственное решение NorbitGPT – это готовая система на основе дообученных LLM-моделей с открытым исходным кодом. В целом для AI MasterData подходит любая модель, даже облачная или та, которая уже функционирует во внутреннем контуре. Платформа обладает собственным интерфейсом пользователя, который помогает ускорить оставшиеся ручные операции при нормализации, в частности, проверку качества моделей.

- Какой математический аппарат используется в части ИИ?

В составе решения содержится множество разных ИИ-подходов. Например, для определения категории мы предлагаем четыре варианта. Результаты в зависимости от выбранного типа будут отличаться для различных видов информации. Если у заказчика качественные данные и стоит задача добавлять новые НСИ, то лучше всего подходит обученная на сведениях заказчика ML-модель категоризации. Она дает максимальную точность. При этом у LLM-модели будет чуть более низкая точность категоризации, однако она может работать без дообучения и каких-либо эталонных данных.

Для извлечения атрибутов из наименований могут использоваться регулярные выражения, дающие 100% результат, если атрибут определен и всегда соответствует формату. LLM-модель позволяет выполнить извлечение, даже если в атрибутах хаос, но это будет дольше и точность несколько снизится.

Рассказать про весь математический аппарат решения в рамках интервью достаточно сложно, главное, что хочу подчеркнуть, – алгоритмы постоянно развиваются и решение пополняется самыми современными разработками. В частности, проводится анализ возможности применения NER-моделей для извлечения значений атрибутов, так как они в некоторых условиях могут быть эффективнее, чем LLM. Также рассматриваем потенциал NLP-библиотек для дедупликации и поиска аналогов. Новые подходы будут доступны в следующей версии платформы. Можно назвать это исследованием возможных способов тюнинга качества работы системы.

- Что, на ваш взгляд, в продукте получилось удачнее всего?

Удачнее всего у нас получился комплекс математического аппарата и алгоритмов. Такая комбинация позволяет адаптировать платформу для практически любых ситуаций: если эталонных данных нет, много дублей и незаполненных значений, получится выбрать ряд алгоритмов для обработки. И наоборот, для качественных данных, когда много эталонов для сравнения и задача стоит только в изменении формата чистых наименований или заполнения отдельных значений, есть другие алгоритмы.

- Каков портрет типичного заказчика? Кто больше всех заинтересован в системе?

Потенциальные заказчики решения – крупный и сверхкрупный бизнес, работающий с большими номенклатурами товаров: промышленность, строительство, добывающие предприятия, розница.

- Что получает заказчик и итоге?

Главное, конечно, – это экономический эффект. Он достигается за счет прямой экономии на очистке НСИ и кумулятивного эффекта от работы с качественными данными: бизнес становится продуктивнее, а точность управленческих решений и прогнозов повышается, что ведет к росту прибыли. Также это и переход от рутины к интеллектуальной автоматизации. Мы перемещаем решение задач НСИ из области ручного труда и полуавтоматических скриптов в эпоху ИИ. Он задает новый технологический стандарт для подобных систем.

Естественно, речь идет о локализации и развитии передовых технологий. Внедрение комбинации классического машинного обучения и больших языковых моделей для решения прикладных бизнес-задач, а не только для чат-ботов или генерации текстов, демонстрирует зрелость российского ИТ-рынка и его способность создавать сложные гибридные продукты.

Важна и борьба с «мусорными» данными. Некорректные, дублирующиеся и неструктурированные данные НСИ – это хроническая болезнь многих компаний, которая тормозит цифровизацию. AI MasterData предлагает отраслевое «лекарство» для этой проблемы, повышая качество данных как основы для всех последующих цифровых инициатив – аналитика, ERP, CRM, Интернет вещей.

Стоит отметить и снижение входного барьера – демократизацию технологий. Возможность настройки силами бизнес-пользователя без навыков программирования делает мощный ИИ-инструмент досягаемым для множества компаний, у которых нет больших отделов data science. Это демократизирует доступ к передовым технологиям. При этом поддержка как облачных, так и on-premise вариантов учитывает разнообразие требований к безопасности и ИТ-архитектуре в разных отраслях.

Наконец, чистая и структурированная НСИ – необходимое условие для работы цифровых систем. Ускоряя и удешевляя их подготовку, продукт повышает темпы цифровизации целых отраслей.

- Какие конкретно результаты могут достигаться?

Решение позволяет не только в разы ускорить процесс очистки и структурирования НСИ, но и серьезно снижает затраты в сравнении с другими инструментами. При ручном разборе на одну запись эксперт будет тратить 5 минут, а стоимость таких услуг составит порядка 300 руб. Генеративный ИИ справляется за 7 секунд и десятки рублей – разница составляет один или два порядка.

- Каковы успехи на рынке? Насколько востребованным оказался продукт? Есть ли конкретные заказчики?

Уже было проведено три пилотных проекта, плюс идет ряд больших внедрений. В рамках пилотов удобство технологии было подтверждено, достигнута десятикратная экономия. Востребованной оказалась наша услуга нормализации больших пакетов информации под ключ: с решением AI MasterData мы нормализуем сотни тысяч НСИ для заказчика существенно быстрее и дешевле, чем делали это буквально год назад.

Отмечу проект для «Сегежа Групп». Запуск первого пилота в крупной промышленной группе – важный прецедент для всей отрасли, который доказывает жизнеспособность и эффективность продукта в реальных, сложных условиях. Он создает эталонный кейс, на который будут ориентироваться другие компании, стимулирует развитие смежных сервисов и интеграций вокруг платформы.

- В чем роль продукта для рынка?

Продукт AI MasterData играет роль катализатора и стандарт-сеттера. С технологической точки зрения поднимается планка в решении проблем управления данными. С экономической – создается инструмент для массового снижения издержек и повышения эффективности. Мы прокладываем путь, доказывая работоспособность сложных ИИ-решений в корпоративном секторе, и тем самым стимулируем всю отрасль к более быстрому внедрению инноваций.

Продукт работает на повышение конкурентоспособности не отдельной компании, а целого пласта российского бизнеса, обеспечивая его качественными цифровыми фундаментами. Есть потенциал для отраслевой экономии сотен миллионов рублей. Это высвободит ресурсы компаний для более стратегических задач.

- В каком направлении будет развиваться решение?

Правительство РФ сейчас активно продвигает, субсидирует робототехнику и прикладные решения на основе ИИ для обеспечения технологического суверенитета, а также скорейшего перехода к инициативам Индустрии 4.0. Вектор развития AI MasterData вписывается в такие направления развития промышленности: мы будем углублять интеллектуализацию решения и выходить на новые рубежи. Там, где до недавнего времени трудились методологи и специальные подразделения, будет использоваться ИИ, высвобождая человеческий ресурс для решения действительно важных задач – например, в науке.

Мы надеемся, что AI MasterData станет незаменимой частью инфраструктуры ERP.Next, обеспечивая не только нормализацию, но и полный цикл задач управления НСИ, включая оркестрацию справочников, подбор материалов, формирование шаблонов и т.д. AI MasterData – это уже готовые агенты для уровня мультиагентной AI-платформы (AMAP), берущие на себя задачи обработки НСИ. Сами же списки номенклатуры – часть семантического слоя данных (USDL) предприятий следующей технологической генерации. Управление справочниками может в будущем полностью вестись через агентов, которые будут адаптировать форматы НСИ и структуры справочников к задачам реализации стратегических целей.

AI MasterData уже применяется в ряде прототипов агентных платформ для закупок. Решение отвечает за обработку НСИ, которая поступает в договорах, прайс-листах, заявках на закупку от подразделений. Мы поставляем готовых агентов, которые пока вписываются в традиционные SRM-процессы.

НОРБИТ: в работе с НСИ поможет генеративный ИИ

Zero Trust и Data Governance: как управление данными превращает дата-каталог в ядро контура безопасности