Многие компании несут сегодня финансовые потери из-за ошибок в мастер-данных, часто не представляя себе, с чего начать их исправление, как правильно распределить ресурсы и какой бюджет целесообразно выделить на соответствующие инструменты? Иногда кажется, что проблема разом пропадет после внедрения специализированной системы MDM, однако стоимость подобных решений столь высока, что проект может подвиснуть на неопределенное время, за которое ком проблем с НСИ будет продолжать расти.
Конечно, в зависимости от конкретной ситуации при работе с данными можно выбрать определенный фокус и сконцентрировать усилия на отдельной области, однако все этапы жизненного цикла НСИ (см. рисунок) тесно взаимосвязаны и при решении проблем с основными и справочными данными надо устранять корневую причину ошибок и проблем, а не только их последствия. Понимание особенностей жизненного цикла НСИ позволит построить целостный, прозрачный и управляемый процесс.
Каждому из этапов жизненного цикла присущи определенные типы проблем, имеющих конкретные способы решения, включающие отладку процессов и применение специальных технических средств.
![]() |
| Жизненный цикл НСИ |
НСИ
Нормативно-справочная информация включает следующие типы сведений.
- Основные данные. Это объект информационной системы, контекст для сведений о бизнес-деятельности в форме общепринятых абстрактных понятий. Включают описания (определения и идентификаторы) деталей внутренних и внешних объектов, вовлеченных в бизнес-процессы, таких как клиенты, продукты, сотрудники, продавцы и контролируемые области.
- Справочные данные (справочники). Эти объекты информационной системы используются для определения характеристик или классификации данных или для соотнесения данных внутри организации с внешней информацией. Состоят из кодов и их описаний. Например, таблицы кодов и определений. Справочники являются вспомогательными сущностями по отношению к объектам основных данных.
Хранение НСИ
Основные данные — фундамент для работы любой корпоративной информационной системы: ERP, CRM, BI, хранилища данных и т. д. В то же время в этих системах также содержатся данные, а значит, есть место для их хранения (например, база под управлением какой либо СУБД) и структура хранения (логическая модель); имеются связи между объектами данных, которые могут быть описаны в виде контекстной диаграммы. В этом контексте видно, что основными данными необходимо управлять, как и любым другим объектом хранения информационной системы. Кроме того, хранение исторических массивов основных данных в информационных системах может быть сопряжено с:
- ошибками присвоенных атрибутам значений;
- дубликатами записей основных и справочных данных;
- избыточностью или неполными данными;
- отсутствием стандартного формата/маски;
- отсутствием гармонизации данных;
- устаревшими данными (не актуальные, наследуемые при миграции из исторических систем и пр.).
В случае если поток НСИ проходит через несколько информационных систем, будь то аналитические платформы или автоматизированные бизнес-приложения, то появляются и дополнительные сложности с децентрализованными данными: неконсистентность данных из-за использования «похожих» НСИ параллельно из нескольких источников; расхождение данных между системами при интеграции.
Перечислим пути ликвидации подобных проблем.
- Нормализация и стандартизация НСИ. Для оценки текущего качества данных, выявления аномалий и потенциальных проблем (таких как дубликаты, неполное заполнение полей, несоответствие формату — даты, почтовые индексы, номера телефонов, невалидные значения и пр.) помогут инструменты профилирования и анализа данных. После чего требуется применить отдельный инструментарий для очистки и нормализации данных — требуемым функционалом обычно обладают системы класса Data Quality, а также собственная разработка.
- Сбор НСИ из различных источников и их консолидация в едином месте. Возможные варианты: закрепление одной из систем в ИТ-ландшафте компании в качестве «мастер-системы» в разрезе конкретного объекта НСИ. Для разных объектов это могут быть разные приложения, и тут рекомендуется следовать принципу целесообразности. Например, для справочника Номенклатуры «мастер-системой» может стать ERP, а для справочника Контрагентов — CRM. Если в компании функционирует несколько систем ERP, то одну из них необходимо использовать для хранения базовых атрибутов мастер-сущностей и настроить обмен данными вокруг выбранного приложения. Второй вариант — выстроить централизованное MDM-решение на базе собственной разработки или коробочного ПО, например, «Планета НСИ», «Юниверс MDM», «Гармония MDM», БФТ.ЕНСИ и пр.
- Стандартизация корпоративных объектов НСИ и создание мастер-сущностей. Здесь можно также унифицировать справочную информацию за счет использования Общероссийских и общеотраслевых классификаторов, таких как ISO/ГОСТ, например ISO 3166 Код страны, ISO 4217 Общероссийский классификатор валют.
- Сверка данных между различными системами после межсистемной интеграции. Эта операция необходима для выявления расхождений после миграции данных из одной ИС в другую. Особенно актуально ее выполнение при отладке и в процессе опытно-промышленной эксплуатации новых интеграционных потоков данных. Основная задача здесь — сравнение записей и атрибутов НСИ по уникальным ключам, поиск расхождений и формирование отчетов о них.
Ведение НСИ
Перед тем как внести данные в информационную систему, их необходимо собрать, проверить на достоверность, соответствие техническим правилам и бизнес-логике. Процессы создания и изменения основных данных достаточно сложны, включают множество шагов, требуют назначения ответственных за наборы атрибутов, разработки ролевой модели, управления и контроля за уровнями доступа, определения правил присвоения значений атрибутам, контроля качества и актуализации. Отсутствие этих процедур, а также попытки реализации самого процесса вручную грозят появлением ошибок в мастер-данных.
Описание процесса, его регламентация (приведение в управляемое состояние), а затем его автоматизация позволят минимизировать ошибки или вовсе их избежать.
Типовой состав бизнес-процесса создания и изменения элементов НСИ должен включать в себя: ролевую модель (инициаторы, согласующие, валидаторы) с выделением отдельной группы специалистов, единственно имеющих доступ к созданию новых записей и внесению изменений; документ с описанием шагов процесса и связанных с ними рабочих задач; документ с описанием состава полей для заполнения (для каждого шага в разрезе роли); документы и файлы, требуемые для выполнения сценариев прохождения процесса, включающих условия завершения процесса, отклонения процесса, исключения и ограничения.
Автоматизация процессов ведения мастер-данных может быть выполнена с помощью систем документооборота, систем управления бизнес-процессами (BPMS), инструментов управления процессами внутри систем CRM/ERP/PIM, а также инструментов собственной разработки внутри существующего информационного ландшафта. Для крупных компаний, объем мастер-данных в которых составляет сотни тысяч записей и имеющих разветвленные многошаговые процессы с несколькими десятками ролей, сложную структуру правил проверки значений атрибутов и исключений из них, целесообразно рассмотреть внедрение системы MDM.
Цель автоматизации на этом этапе жизненного цикла НСИ:
- стандартизация процессов создания и изменения записей (единообразное выполнение задач внутри процесса, независимо от того, кто из сотрудников принял их в работу);
- автоматическое документирование и аудит — фиксация и хранение истории всех действий с указанием времени и ответственных лиц;
- безболезненное масштабирование: новые процессы, новые роли, дополнительные пользователи.
Контроль
Цель этого этапа состоит в регулярном измерении качества данных, обнаружении ошибок и анализе их влияния, исполнении процедур корректировки в соответствии с планом коммуникации на заинтересованных лиц. Для проведения инспекции необходимы формализованные правила проверки качества данных, ответственные за их разработку (владельцы наборов атрибутов мастер-данных) и организация регулярного мониторинга.
В рамках жизненного цикла НСИ можно выделить три точки контроля. Во-первых, в процессе создания и изменения записей. Здесь в качестве инструмента лучше всего подходят системы MDM, в частности, для настройки бизнес-процессов создания, изменения основных данных и установки бизнес-правил для проверки значений, присвоенных атрибутам внутри этих процессов. Возможно также выполнение проверок в ручном режиме на основе регламента и правил. Во-вторых, в момент внесения данных в информационную систему. Как правило, в информационной системе имеются настройки обязательных проверок для критически важных полей. Если их нет или их недостаточно, то может потребоваться кастомизация информационного приложения. В-третьих, при проверке фактически внесенных в информационную систему данных. Здесь нужен мониторинг качества данных в историческом массиве и сверка данных в случае межсистемной интеграции. Такой мониторинг может быть выполнен вручную (Microsoft Excel, Power Query и пр.); средствами, встроенными в системы MDM (функционал поиска и обработки дублей, объединения данных в золотую запись есть почти во всех системах); специализированными инструментами платформ Data Quality («Юниверс DQ», Unidata DQ); инструментами Data Governance с функциями DQ Monitoring (Arenadata Catalog, «Юнидата Data Governance», RT/DataGovernance); аналитическими средствами или инструментами бизнес-аналитики; с помощью средств ИИ, позволяющих исправить ошибки на основе исторических данных путем, например, автозаполнения категорий товаров по описанию, предсказания корректных значений атрибутов и выявления аномалий (некорректная цена или вес товара).
Имеется несколько подходов к исправлению ошибок данных в НСИ:
- Автоматически. Информационная система применяет заранее настроенные правила для корректировки данных без участия человека (нормализация форматов, заполнение пустых значений по справочникам, исправление опечаток и т. д.). Здесь возможно использование внешних справочников и источников для валидации и исправления ошибок на основе внешних эталонов (геокодеры и почтовые справочники для адресов, классификаторы ISO, ОКПД для товаров, государственные реестры ЕГРЮЛ для контрагентов).
- Полуавтоматически. Информационная система формирует задачу (workflow), а бизнес-пользователь принимает решение утвердить исправление, объединить записи или назначить ответственного (объединение дублей, подтверждение правильной классификации, выбор корректной записи при конфликте и пр.).
- Вручную. Выделенные специалисты по работе с данными или владельцы данных вручную корректируют ошибки, что обычно актуально для сложных случаев, где невозможна автоматизация (например, исправление юридического адреса или редкая категория товара).
Использование НСИ
Мастер-данные и справочники потребляются как информационными системами, так и бизнес-процессами, и здесь часто можно столкнуться с неконсистеностью данных и сложностью аналитики из-за дублирования однотипных справочников в разных информационных приложениях, отсутствия мастер-объекта; ошибками в НСИ в результате импорта-экспорта данных вручную в информационные системы при отсутствии межсистемной интеграции; сложностями с интерпретацией данных и длительным поиском при отсутствии бизнес-описания значений атрибутов НСИ, документации о логической модели данных и информации о происхождении данных.
Для корректного использования НСИ описание бизнес-смысла и происхождение каждого его атрибута должны быть формализованы и согласованы с владельцами данных.
В качестве единого места хранения описания НСИ (репозитория) можно использовать любую доступную и подходящую технологию: платформы организации совместной работы и управления документами (SharePoint, Yandex Wiki, Confluence и пр.); Каталог данных (Arenadata Catalog, Юнидата Data Governance, RT/DataGovernance, OpenMetadata, DataHub, Apache Atlas и пр.). Таким образом, необходимо документировать и хранить в доступном для всей организации источнике описание объектов НСИ и атрибутов, из которых они состоят (в бизнес-терминах); описание логики выбора значений для атрибутов объектов НСИ (бизнес-правила); описание связей между объектами НСИ; описание логики построения классификаций и иерархий для ключевых сущностей НСИ; описание процессов создания и изменения записей, ролевой модели.
Важным является обеспечение доступности НСИ, гарантирующей, что данные, требуемые для управления предприятием, доступны всем участникам (пользователям, процессам и системам), в соответствии с их правами:
- необходима организация уровней доступности данных с точки зрения информационной безопасности (высоконадежный, восстанавливаемый, высокодоступный, постоянный);
- необходимы процесс и регламент управления доступами к данным, а также управление персональными и конфиденциальными данными;
- требуются методы обеспечения доступности данных: резервное копирование, отказоустойчивые системы, защита от DDoS-атак и пр., устанавливаемые при настройке и администрировании серверов СУБД и экземпляров базы данных, в которых хранится НСИ.
MDM для работы с НСИ
В общем случае системы MDM — это специализированные решения поддержки полного цикла работ с основными и справочными данными. Однако технические возможности и назначение систем MDM, предлагаемых сегодня на российском рынке, отличаются, поэтому при выборе всегда важно фокусироваться на особенностях конкретных практических задач предприятия. Конечно, не стоит забывать и про целевой поток данных, интеграционную архитектуру и в целом ИТ-ландшафт предприятия.
В первую очередь надо обратить внимание на наличие в системе функций, важных для решения задач НСИ, и возможностях интеграции. Разные системы MDM могут быть специально ориентированы на работу со справочной информацией (Reference Data Management, RDM) или на обработку основных данных (Master Data Management, MDM). И если в системе вполне удобно вести множество простых плоских справочников (часто они являются вспомогательными объектами по отношению к основным данным), то реализация объектов основных данных в системах RDM может оказаться проблематичной.
Основные функции систем MDM, важные для работы с НСИ:
- ведение репозитория данных, который можно использовать как единый источник правды организации;
- настройка моделей данных для объектов основных данных и справочников, а также их взаимосвязи, иерархии, классификации;
- поддержка ролевой модели, средства управления доступом к данным (в том числе персональным и конфиденциальным);
- управления бизнес-процессами создания и изменения записей НСИ;
- настройка бизнес-правил для проверки значений атрибутов на этапе сбора информации;
- интеграции (коннекторы) с системами — источниками и потребителями данных (встроенная в MDM шина данных);
- удобный интерфейс пользователя и администратора данных, облегчающий решение рутинных задач по работе со справочниками.
Задачи нормализации исторических массивов данных, поиска и исправления ошибок в исторических данных обычно решаются не средствами системы MDM, а благодаря подходам и практикам Data Quality. Для этого можно использовать доступные и релевантные именно для конкретной ситуации технологии: обработка данных вручную, инструменты Open Source, коробочные решения.
Решая задачи с качеством НСИ на уровне хранения, следует помнить, что если отсутствуют процессы создания и изменения записей или они работают некорректно, то спустя небольшое время очищенные данные вновь обрастут ошибками. Всегда надо работать с корнями проблемы, а не только с их последствиями.
Для автоматизации межсистемного обмена используется межсистемная интеграция.
- Платформы ETL/ELT. Пакетный обмен большими объемами данных: подход — регулярная загрузка (batch processing), применение — перенос справочников между системами, загрузка в корпоративное хранилище данных.
- ESB (Enterprise Service Bus) и интеграционные шины. Обеспечивают в реальном времени обмен сообщениями между приложениями: подход — SOA, применение — MDM/ERP/CRM/e-commerce/корпоративное хранилище данных.
- iPaaS (Integration Platform as a Service). Облачные интеграционные платформы, подход — Low-code/No-code для подключения приложений по модели SaaS, применение — интеграция CRM, ERP, маркетинговых и аналитических платформ.
- Платформы API Management. Управление REST/SOAP API, шлюзами и безопасностью, подход — архитектура API-first, микросервисы, применение — доступ к системе MDM через API, интеграция с мобильными приложениями и внешними сервисами.
- Сообщения и стриминг (Messaging & Event Streaming). Инструменты для асинхронной передачи сообщений и обработки событий, подход — модель обмена сообщениями (publish-subscribe), в которой отправители не передают сообщения напрямую получателям, а публикуют их в каналы/темы. Потребители подписываются на интересующие их темы и получают только те сообщения, которые им необходимы). Архитектура — event-driven, применение — синхронизация данных в реальном времени, обработка потоков (например, изменения в справочниках).
- Коннекторы. В случае внедрения системы MDM используются встроенные механизмы, подход — настройка потоков обмена в самой системе MDM.
Вывод НСИ из эксплуатации
В определенный момент записи в справочнике теряют свою актуальность, однако нельзя их бесследно удалить из системы — со временем может понадобиться идентифицировать использовавшиеся ранее коды и изучить историю работы с ними внутри информационного приложения. Преждевременное удаление устаревших элементов и отсутствие процедур по архивации влечет потерю ценной исторической информации и затруднения при ее поиске для внешних и внутренних аудитов.
Вывод данных из эксплуатации должен проходить поэтапно начиная с блокировки для использования, далее через архивирование и только по истечении минимум трех-пяти лет этот срок рассчитывается исходя из глубины данных, требуемых для внешних и внутренних аудитов, к полному удалению из информационной системы.
Для предупреждения сложностей, связанных с удалением НСИ, может быть разработана процедура удаления элементов справочников, внедрен функционал блокировки элементов справочника на уровне использования для конкретных транзакций и пользовательского интерфейса, а также функционал архивирования элементов справочника на уровне хранилища данных (элемент не виден и не доступен на уровне пользовательского интерфейса и транзакций, но имеется в базе данных).
***
Управление мастер-данными — сложный, многоэтапный процесс, охватывающий всю компанию, и строить его требуется вдумчиво и терпеливо, неуклонно двигаясь по пути усовершенствования и развития культуры обращения с данными предприятия.
Сегодня на рынке имеется множество технических средств для работы с мастер- и справочными данными, однако перед выбором конкретного необходимо иметь точное понимание, какие именно проблемы и на каком этапе жизненного цикла НСИ планируется решить с его помощью. Выбор средств автоматизации должен быть следствием осознанных и формализованных потребностей, обусловлен целесообразностью и уровнем зрелости бизнеса в целом. Для небольших предприятий основную часть процесса управления НСИ можно настроить в ручном режиме за счет проработки процесса и внедрения соответствующих процедур.
Анна Ерохина (pochanya@mail.ru) — независимый эксперт (Москва). Статья подготовлена на основе материалов выступления на форуме «Управление данными 2025».
.jpg)