В руководстве DAMA-DMBOK2 отмечается, что большинство методологических подходов к обеспечению качества данных были позаимствованы из теории управления качеством технологического производства. В рамках такой парадигмы любые данные считаются конечным продуктом комплекса технологических процессов по переработке информационного сырья, поэтому общий подход к повышению качества данных должен предусматривать реализацию классического цикла Шухарта—Деминга: планирование → реализация → контроль → доработка → планирование [1].

Хотя взгляд на данные как на продукцию (в контексте обеспечения качества) не нов [1–3], сегодня он приобретает особую актуальность. С чем это связано?

С 2025 года в России стартовал нацпроект «Экономика данных и цифровая трансформация государства». Предыдущий проект «Цифровая экономика» предполагал подготовку инфраструктуры (технологических платформ и пр.) для перехода от материальной экономики к экономике, в основном производящей уже не только материальные ресурсы, но и данные. Теперь в рамках нового нацпроекта будет осуществляться переход к производству данных [4], упростить который может набор практик, накопленных в рамках исследований по обеспечению качества промышленной продукции и отраженных в международных стандартах на системы менеджмента качества: ИСО 9000, ИСО 9001 и ИСО 9004.

В ГОСТ Р 56214-2014/ISO/TS 8000-1:2011 «Качество данных. Часть 1. Обзор» явно обозначена связь стандартов на системы менеджмента качества со стандартами по качеству данных: «Данные — это продукция процессов бизнеса и производства. Управлять информацией следует так же, как и продукцией. Поэтому общие принципы управления качеством по ИСО 9001 можно отнести к управлению качеством данных как к управлению продукцией». ИСО 8000 уточняет стандарт ИСО 9001 относительно данных как продукции. Стандарты ИСО 9000, ИСО 9001 и ИСО 9004 посвящены вопросам развития и повышения качества данных, а ИСО 8000 описывает характеристики данных, влияющие на их качество и устанавливающие требования к процессу обмена данными и соответствующим характеристикам их качества.

ГОСТ Р ИСО 9001-2015 «Системы менеджмента качества. Требования» устанавливает семь принципов менеджмента качества:

  1. Ориентация на потребителей.
  2. Лидерство.
  3. Взаимодействие работников.
  4. Процессный подход.
  5. Улучшение.
  6. Принятие решений, основанное на свидетельствах.
  7. Менеджмент взаимоотношений.

Эти принципы, а также структура и содержание стандартов ИСО 9000, ИСО 9001, ИСО 9004 показывают, что проблема повышения качества трансформировалась из технической в социально-экономическую, причем изменения произошли не в инструментах управления организациями, а в моделях построения отношений между людьми. Достижение долгосрочных взаимовыгодных отношений между потребителями, сотрудниками и поставщиками, ведущих к общим целям, — суть системы менеджмента качества. Компании осознали, что изучить клиентов, а затем настроить процессы деятельности организации на максимальное удовлетворение их запросов выгоднее и менее рискованно, чем производить продукцию без знания потребителей, рассчитывая лишь на ее агрессивное продвижение средствами маркетинга.

В этой связи важное значение приобретают понятия «цепочка ценности» и «цепочка поставок», а применительно к производству данных — «цепочка ценности данных» и «цепочка поставок данных».

Цепочка ценности и цепочка поставок данных

Процесс извлечения ценности, например из нефтегазовых ресурсов, практически идентичен аналогичному процессу, но применительно к данным. Технологии (Интернет вещей, Промышленный интернет и пр.) позволяют собирать данные, а в качестве «трубопроводной сети» выступают сети передачи данных к ЦОДам, в которых осуществляется переработка данных. На выходе получается «топливо» для инноваций — индивидуальная информация для конкретных потребителей: государства, бизнеса, граждан.

Концепции «цепочки ценности данных» (data value chain) и сопутствующей ей «цепочки поставок данных» (data supply chain) достаточно подробно рассматриваются в работах [2, 3], поэтому здесь разберем их роль в управлении качеством данных.

Цепочка ценности — система взаимозависимых видов деятельности по выпуску компанией своей продукции на рынок. Подобные виды деятельности направлены на создание потребительской ценности, благодаря которой покупатель приобретает товар или услугу. Эти виды объединены связями, возникающими в момент, когда способ выполнения одного вида деятельности влияет на стоимость или эффективность других. Когда все виды деятельности (процессы) систематизированы и представлены в виде единой цепочки, то становятся очевидны конкурентные преимущества продукта, резервы увеличения его ценности и возможности для улучшения бизнес-процессов. Анализ цепочки ценности дает представление о структуре бизнеса.

В многочисленных источниках можно найти варианты рамочных структур (frameworks) цепочки ценности данных для различных видов организаций и отраслей. На рис. 1, в качестве примера [2], представлены звенья типичной рамочной структуры цепочки ценности данных, ориентированной на крупные компании, занимающиеся розничными продажами.

Рис. 1. Пример цепочки ценности данных

Ключевые отличия данных и информации от материальных ресурсов — неистощаемость и возможность одновременного использования неограниченным количеством потребителей — усложняют цепочку ценности данных [2]. Ее бывает трудно описать — она не столь линейна, как цепочка ценности в материальном производстве, а образующие ее виды деятельности, как правило, перекрываются по времени. Тем не менее понимание процесса в целом может помочь определить пути сокращения издержек и повышения ценности данных.

С точки зрения управления качеством данных как продукции модель цепочки ценности подразумевает необходимость ответа на ряд вопросов по процессам, обеспечивающим перемещение данных [3].

  • Входящая логистика. Какие затраты связаны с созданием или приобретением данных и их перемещением от их источника к потребителю? Какие подпроцессы могут улучшить подготовку данных, чтобы их можно было проще и многократно использовать?
  • Операции. Что требуется для обеспечения безопасности, доступности, актуальности и готовности данных к использованию? Какие существуют процессы, позволяющие многократно использовать данные? Как поддерживается работа с метаданными, упрощающими использование данных?
  • Исходящая логистика. Какие затраты связаны с распространением данных внутри организации? Где имеется избыточность в хранении данных? Как стимулировать повторное использование данных и не допускать дублирования? Как можно упростить доступ к данным и как отслеживать эффективность их использования?
  • Маркетинг и продажи. Каковы затраты на информирование потребителей о доступных им данных? Какая имеется информация, побуждающая потребителей данных использовать источники, обозначенные как «доверенные» (trusted sources) и «системы записи» (systems of record)? Аспекты маркетинга и продаж в цепочке ценности данных часто игнорируются, что приводит к снижению их выгоды для компании. Инвестиции в информирование потребителей данных о существующих источниках данных могут повысить их ценность за счет уменьшения избыточности данных. Избыточность напрямую снижает ценность данных — создание и хранение избыточных данных требуют ресурсов и увеличивают риск появления ошибок (избыточные копии данных с большей вероятностью не будут синхронизированы и со своими источниками, и друг с другом).
  • Сервис. Каковы затраты на ведение данных и поддержку их использования? Как потребители информируются об изменениях и обновлениях данных? Как они информируются об уровне качества данных? Как они узнают о проблемах, которые могут повлиять на использование данных?

Исследование цепочки ценности позволяет получить знания об операционной деятельности организации, включая факторы, определяющие затраты для каждого вида деятельности и взаимосвязи между ними. Понимание того, как виды деятельности зависят друг от друга, может помочь организации определить возможности для снижения затрат и рисков.

Анализ цепочки ценности также может применяться для улучшения продуктов путем выявления действий, формирующих их характеристики, наиболее ценные для клиентов, а также поиска уникальных конкурентных преимуществ.

Полезным инструментом для анализа цепочки ценности продукта является цепочка поставок — сеть, объединяющая людей, организации, ресурсы, виды деятельности и технологии, участвующие в создании и продаже продукта, начиная с поставки исходных материалов от поставщика производителю и заканчивая их доставкой конечному потребителю. Визуальное представление взаимосвязей в этой сети — первый шаг к снижению ее сложности. На рис. 2, в качестве примера [3], представлена упрощенная схема цепочки поставок данных для страховой медицинской компании.

Рис. 2. Упрощенная схема цепочки поставок данных для страховой медицинской компании

Данные о клиентах (организациях, предоставляющих медицинские льготы своим сотрудникам), участниках (сотрудниках, которые получают эти льготы) и продуктах (сами льготы) объединяются для определения получателей льгот в определенное время. Данные о поставщиках медицинских услуг, заключаемых с ними договорах и медицинских сетях, в которые они входят, используют (в сочетании с данными о соответствии требованиям) для осуществления страховых выплат.

Страховая история конкретного клиента используется страховщиком для определения размера страхового взноса, а клинические результаты лечения — для оценки поставщиков медицинских услуг. Рейтинги поставщиков влияют на условия договоров с ними. Значительная часть описанных данных затем используется в финансовой отчетности [3].

Цепочку поставок данных можно рассматривать как одну из форм представления происхождения данных (data lineage). Разница в том, что схема data lineage обычно ориентирована на детальное отражение всех шагов трансформации данных в процессе их перемещения, а цепочка поставок данных подробно описывает, кто создает и использует данные и для каких целей. Ее оптимизация позволяет повысить эффективность цепочки ценности данных путем снижения совокупных затрат в отдельных звеньях [2, 3].

Даже упрощенные схемы цепочек поставок показывают наличие сложных взаимоотношений между производителями и потребителями данных, причем большинство участвующих в поставках систем и процессов играют обе роли. Цепочки поставок — это удобная метафора для визуализации, определения, уточнения и оценки процессов и ресурсов, поддерживающих жизненный цикл данных. Они позволяют улучшить взаимодействие между отдельными функциями управления данными.

Несмотря на то, что термин «цепочка поставок» звучит так, будто фокусируется на поставщике, на самом деле эта цепочка разрабатываются с учетом потребностей клиента [2, 3]. Концепция цепочки поставок данных сильно перекликается со стремительно набирающей популярность парадигмой Data Mesh, направленной на максимальное извлечение ценности из данных. В рамках Data Mesh культивируется так называемое продуктовое мышление в отношении данных, а ландшафт данных организации представляется как сеть взаимосвязанных автономных блоков (продуктов данных), создаваемых для максимального удовлетворения потребностей их пользователей. Очевидно, что анализ цепочек поставок данных и их совершенствование способствуют выстраиванию эффективной сетки данных [5].

Какие методы из современной практики обеспечения качества продукции можно позаимствовать применительно к оптимизации цепочек поставок данных?

«Шесть сигм», DMAIC и SIPOC

Требования к менеджменту качества, определенные в ГОСТ Р ИСО 9001-2015, сильно перекликаются с идеями концепции всеобщего управления качеством (Total Quality Management, TQM). В начале 1980-х годов появилась концепция TQM, которая вобрала в себя практически все передовые подходы к управлению качеством продукции и услуг. Впоследствии появились новые концепции, которые, не отвергая идей TQM, сместили акценты. Одно из наиболее популярных расширений TQM — методология «Шесть сигм» (Six Sigma), предложенная в 1986 году компанией Motorola.

Особенность этой методологии — четкая направленность на потребности клиента, воспринимаемые как приоритетные (учет «голоса потребителя», Voice Of the Customer, VOC). Если TQM превращает улучшение качества в составную часть повседневной работы без четкой связи с конкретными требованиями потребителя, то «Шесть сигм» направлена на решение наиболее важных проблем улучшения качества. Методология основана на процессном подходе и сосредоточена на достижении стратегических целей бизнеса. В TQM инициативы проектов исходят преимущественно с рабочих мест, а в «Шести сигмах» из бизнес-стратегией [6].

В 2011 году ISO выпустила два базовых стандарта, посвященных методологии «Шесть сигм», а вскоре идентичные стандарты были введены и в России: ГОСТ Р ИСО 13053-1-2015 «Статистические методы. Количественные методы улучшения процессов “Шесть сигм”. Часть 1. Методология DMAIC»; ГОСТ Р ИСО 13053-2-2015 «Статистические методы. Количественные методы улучшения процессов “Шесть сигм”. Часть 2. Методы».

Стандарты группы 13053 рассматривают «Шесть сигм» как один из подходов, способных помочь улучшить действующую систему менеджмента качества организации. Существенным моментом оптимизации цепочек поставок является то, что в группу стандартов по методологии «Шесть сигм» включен стандарт ГОСТ Р ИСО 17258-2015 «Статистические методы. Количественные методы улучшения процессов “Шесть сигм”. Бенчмаркинг». Кроме того, имеется еще национальный стандарт ГОСТ Р 50779.100-2017 «Статистические методы. Методология «Шесть сигм». Основные критерии бенчмаркинга в организации». Методология «Шесть сигм» предусматривает проведение анализа уровней качества, эффективности и производительности процессов организации с использованием бенчмаркинга — сравнения с процессами на лучших предприятиях. Стандарт ИСО 17258 устанавливает, что надо сравнивать и как провести правильное сравнение. Числовые значения, полученные в результате бенчмаркинга, можно использовать при составлении программы улучшений и для анализа улучшений, достигнутых организацией. Один из важных видов бенчмаркинга — бенчмаркинг цепочки поставок. В общий уровень качества продукции или эффективности услуг, поставляемых потребителю, входят уровни качества и эффективности работы отдельных передающих звеньев в цепочке поставок. Целью методологии бенчмаркинга является сопоставление этих уровней по всей цепочке снизу вверх (бенчмаркинг эффективности цепочки поставок) или по отдельным звеньям (конкурентный бенчмаркинг).

Вместо классического цикла Шухарта—Деминга PDCA (Plan, Do, Check, Action), определенного в требованиях к системам менеджмента качества по ГОСТ Р ИСО 9001-2015, в «Шесть сигм» предложена его расширенная модификация — метод DMAIC (Define, Measure, Analyze, Improve, Control). PDCA и DMAIC используются для улучшения процесса и его конечной продукции, но этапы в них определены по-разному: «планируй → делай → проверяй → действуй» в первом случае и «определение → измерение → анализ → улучшение → контроль» во втором.

В DMAIC важную роль отводят этапу «Определение». Выходом этого этапа является положение о проекте, в котором перечислены основные проблемы, подлежащие решению. Положение содержит описание проблем и включает в себя данные об их масштабе и влиянии на прибыль. Область применения проекта и цели, которые нужно реализовать, должны быть четко определены как в отношении производства, так и в отношении финансов.

Применительно к данным акцентирование внимания на этапе «Определение» — крайне существенно. Особенно это касается внедрения подхода Data Mesh, предполагающего децентрализацию ответственности за данные. Ответственность за отдельные продукты данных передается соответствующим областям бизнеса (бизнес-доменам), что требует серьезного анализа и обоснования [5].

Один из ключевых инструментов методологии «Шесть сигм», используемый на этапе «Определение», — это диаграммы SIPOC (suppliers, inputs, processes, outputs, consumers — поставщики, исходные данные, процессы, выходные данные, потребители), представляющие собой наглядные представления процессов, помогающие рабочим группам проекта «Шесть сигм» проводить анализ всех пяти составляющих SIPOC и приходить к лучшему пониманию общего процесса в целом [6].

Приобретя популярность благодаря методологии «Шесть сигм», диаграммы SIPOC стали широко использоваться и вне ее рамок [7], в частности в DAMA-DMBOK. Контекстные диаграммы областей знаний по управлению данными стали третьей составляющей основной рамочной структуры DMBOK, наряду с колесом DAMA и шестиугольником факторов среды.

Контекстные диаграммы DAMA-DMBOK2 и оптимизация цепочек поставок данных

Данные как продукция
Рис. 3. Диаграмма SIPOC: «Руководство данными»

В отличие от колеса DAMA и шестиугольника факторов среды контекстные диаграммы обсуждаются редко. Возможно, причина в неудачном визуальном решении, где диаграммы изображены не в «классическом» горизонтальном представлении, а вертикально. На рис. 3 представлен пример диаграммы SIPOC, соответствующей контекстной диаграмме DAMA-DMBOK2, в горизонтальном представлении. А между тем контекстные диаграммы могут помочь в оптимизации цепочек поставок данных.

При анализе того или иного звена цепочки поставок данных можно легко сопоставить его с рамочной структурой функций управления данными DMBOK2 и отобрать из нее необходимые элементы в соответствии с конкретной ситуацией и назначением этого звена. Далее для каждой из отобранных функций можно на основе предлагаемой в DMBOK2 контекстной диаграммы построить диаграмму SIPOС, адаптировав ее к конкретной ситуации. Например, в цепочке поставок (рис. 2) большинство звеньев связано с обработкой основных данных (master data): данные о клиентах, участниках, продуктах, поставщиках, договорах и сетях. При анализе этих звеньев должна в первую очередь быть использована контекстная диаграмма DMBOK2, описывающая управление справочными и основными данными.

По сути, эта деятельность будет соответствовать этапу «Определение» метода DMAIC. Важно, что при использовании рамочной структуры DMBOK в поле зрения попадут все необходимые для анализа функции управления данными, их взаимосвязи и внутренняя структура. Это очень существенно, c учетом сложности реальных цепочек поставок. В частности, важную роль в анализе цепочки поставок из рис. 2 может сыграть применение контекстной диаграммы «Руководство данными» (Data Governance). Существенной оптимизации при такой сложной схеме поставок можно достичь, только наладив руководство данными — деятельность по осуществлению руководящих и контрольных полномочий, а также обеспечению совместного принятия решений (планирование, мониторинг и обеспечение выполнения) в отношении управления информационными активами (рис. 3).

Диаграммы SIPOC позволяют организации лучше понять свои данные и процессы, с помощью которых они создаются и используются. По результатам анализа цепочки поставок данных (аналог этапа «Определение» метода DMAIC) можно сформировать более простую целевую схему поставок, позволяющую уменьшить издержки и повысить ценность данных. Хороший пример такой унифицированной схемы — реализация процессов управления основными данными в SAP Master Data Governance (рис. 4) [8].

Рис. 4. SAP Master Data Governance: консолидация и централизованное руководство

Продукт SAP Master Data Governance архитектурно построен как два отдельных функциональных комплекса: консолидация (consolidation) и централизованное руководство (central governance). Оба сценария реализованы как независимые решения для выполнения различных бизнес-задач в ходе управления основными данными. Но они также могут быть опционально интегрированы друг с другом, чтобы использовать функциональность обоих сценариев. Такая схема была выработана на основе учета опыта проектов внедрения MDM-решений. Каждый из сценариев, по сути, представляет собой оптимизированную цепочку поставок данных. Например, сценарий консолидации — это конвейер (pipeline process), в ходе которого данные стандартизируются и, при необходимости, сопоставляются (match) с существующими основными данными с целью устранения дублирования. Затем автоматизированные правила объединяют идентифицированные дублирующиеся данные для создания наилучшего представления записи основных данных.

Консолидация мастер-данных в центральном MDM-хабе является первым шагом в процессе преодоления проблем с основными данными организации. После того как основные данные будут централизованы, работающие с ними команды смогут сосредоточиться на внедрении процессов руководства (всестороннего контроля данных на основе централизованной обработки запросов на внесение изменений) для повышения их качества. В этом продукте централизованное руководство рассматривается как основной сценарий, и именно поэтому продукт называется не Master Data Management, а Master Data Governance [8].

Реализация подобных готовых сценариев «из коробки» позволяет организациям-заказчикам в короткий срок наладить у себя эффективные цепочки поставок основных данных.

***

Применение к производству данных подходов и практик из сферы менеджмента качества продукции, отраженных в международных стандартах на системы менеджмента качества, позволяет получить ряд преимуществ. Например, ориентация на потребителей дает возможность перейти от абстрактной деятельности по повышению качества данных, не учитывающей связи с требованиями пользователей, к эффективной оптимизации цепочек поставок качественных данных конкретным адресатам. Кроме того, выделение цепочек поставок данных дает возможность проводить их бенчмаркинг, что важно для оценки эффективности применяемых решений, в частности, проектов импортозамещения. Понимание сотрудниками организации цепочек поставок данных улучшает культуру работы с данными — с материальным производством знакомы практически все, а с производством данных — пока немногие. Переход к производству данных как продукции особенно важен для организаций, внедряющих подход Data Mesh и стремящихся создать оптимальную сетку взаимосвязанных продуктов данных.

Литература

1. DAMA-DMBOK: Свод знаний по управлению данными. Второе издание / DAMA International. — М.: Олимп-Бизнес, 2020.

2. Кузнецов С., Константинов А., Скворцов Н. Ценность ваших данных. — М.: Альпина ПРО, 2022.

3. Sebastian-Coleman L. Meeting the Challenges of Data Quality Management. Elsevier, 2022.

4. В чем же различие между программой «Цифровая экономика» и нацпроектом «Экономика данных»? (Интервью с П. В. Терелянским, заместителем начальника Управления цифровой трансформации РЭУ им. Г.В. Плеханова) // РИА «СНГС», 27.03.2024. — URL: https://sngs.info/ru/article/v-chiom-zhe-razlichie-mezhdu-programmoi-tsifrovaia-ekonomika-i-natsproektom-ekonomikoi-dannykh (дата обращения: 17.05.2025).

5. Майхжак Я., Балноян С., Сивяк М. Data Mesh в действии / Пер. с англ. Н. Григорьева; Под науч. ред. К. Майнхардт. — СПб: Питер, 2024.

6. Ватсон Г. Методология «Шесть сигм» для лидеров, или Как достичь 3,4 дефекта на миллион возможностей / Пер. с англ. А. Л. Раскина; Под науч. ред. Ю. П. Адлера. — М.: РИА Стандарты и качество, 2006.

7. Brown C. Why and how to employ the SIPOC model // Journal of Business Continuity & Emergency Planning. — 2019. — Vol. 12. — № 3. URL: https://www.henrystewartpublications.com/sites/default/files/JBC12.3Whyandhowtoemploythe%20SIPOCmodel.pdf (дата обращения: 26.05.2025).

8. Dogra B., Isacc A., Kalwachwala H. et al. SAP Master Data Governance: The Comprehensive Guide (Third Edition). SAP PRESS, 2023.

Николай Скворцов (n.skvortsov@ 1c-datalogic.ru) — руководитель направления методологии, компания «1С: Логика Данных» (Москва).