В феврале прошла седьмая всероссийская конференция «Качество данных», организованная издательством «Открытые системы». Как отметили участники конференции, интерес к этой теме постоянно растет, что и не удивительно: большинство цифровых инициатив без качественных данных не имеют смысла. Особенно значимым качество данных (Data Quality, DQ) является для задач ИИ, которому компании доверяют принятие решений.

Проактивный контроль

Обычно важность качества данных признают все, но на практике контроль качества зачастую достигается «тушением пожаров». А пожары в данных, в конечном итоге, тушатся деньгами.

«Данные – важнейшее направление, где имеет смысл переходить к проактивному управлению: не «тушить пожары», а просто не пускать некачественные данные в контур принятия решений», — подчеркнул Владимир Анисимов, независимый эксперт в области управления данными и бизнес-аналитики. Очень долго многие компании не понимали, что разработанные системы вторичны, а первичны именно данные. Но сейчас в их восприятии происходят радикальные изменения, и вопросы качества данных начинают закладывать еще при проектировании решений, интегрируя в них соответствующие инструменты и формируя подход DQ by design. Качество данных должно закладываться в системы в самом начале, а не исправляться в конце.

Качество данных: как заработать доверие
Владимир Анисимов: «Данные – важнейшее направление, где имеет смысл переходить к проактивному управлению: не тушить пожары, а просто не пускать некачественные данные в контур принятия решений»

По словам Анисимова, самое трудное – именно работа с доверием: авторитет зарабатывается долго, а теряется очень быстро. И CDO – это тот человек, который должен создавать доверие к данным в компании и выстраивать культуру работы с ними.

Владимир Кресюн, CIO TanukiFamily, в ходе своего выступления проанализировал типичный путь компании от споров о «правильных цифрах» до формирования культуры доверия и управляемости данными. Симптомы «созревания» компании для борьбы за качество данных вполне очевидны: появление в департаментах Excel в качестве суррогата внедренной BI-системы, неоднозначность расчетов, потеря взаимопонимания и совещания, превращающиеся в битву за показатели. В этом случае продать идею DQ бизнесу несложно, используя фактор времени: сроки выявления истинных цифр, временные затраты техподдержки на вопросы, связанные с качеством данных, неэффективно потраченное время на совещаниях. Все это имеет вполне осязаемое финансовое выражение.

Качество данных: как заработать доверие
Владимир Кресюн: «Продать идею DQ бизнесу несложно, используя фактор времени: сроки выявления истинных цифр, временные затраты техподдержки на вопросы, связанные с качеством данных, неэффективно потраченное время на совещаниях»

При этом, как предложил Кресюн, начать работу вполне можно и без бюджета. Например, внедренную BI-систему можно использовать как инструмент диагностики, выявляя дубли, пропуски и различия в расчетах показателей. Кроме того, полезно формировать реестр проблем с данными, указывая ответственных и последствия, а также искать неформальных экспертов по доменам данных, помогающих быстрее принимать и согласовывать решения.

«Высокий уровень автоматизации не гарантирует высокого качества данных. Но BI является лупой, показывающей все промахи в данных», — согласилась Ирина Долженко, главный эксперт департамента информатизации РЖД и руководитель проектов по управлению данными.

Екатерина Моисеева, руководитель направления качества данных T2, рассказала, как перейти от ручного управления качеством данных к автономной системе DQ. В прошлом году в T2 сделали большой шаг в создании такого решения. Работа в этом направлении шла уже давно, но прорывом стала автоматизация процессов управления данными с помощью роботов. При этом были решены три ключевых задачи: отловить ошибку, исправить ее и оповестить пользователей. Решение DQ, созданное в T2, охватило весь жизненный цикл ошибки в данных и превратилось в self-service инструмент для бизнеса, который практически все пользователи применяют в ежедневной работе.

Алексей Шокуров, руководитель направлений Data Governance и Data Quality в «Сибуре», рассказал о внедрении контрольной среды управления качеством данных. Для этого пришлось решить несколько задач, главная из которых – определить реальных потребителей данных. Именно они, в отличие от владельца данных, могут подсчитать реальные потери от невыполненной работы. Далее потребовалось определить требуемый набор сервисов и порядок внедрения, а также «приземлить» их в существующие процессы.

«Мы все сталкиваемся с вечными компромиссами: скорость и гибкость против качества и контроля», — констатировал Александр Мамонтов, CDO «АстраЗенека». Данные в компаниях могут представлять четыре различных мира, живущих параллельно: электронные таблицы, BI-системы, хранилища и озера данных. По мнению Мамонтова, это нормально, когда в компании одновременно существуют разные уровни зрелости данных, и не надо приводить разные департаменты к единому стандарту. Дата-офис должен выстроить мосты между различными мирами, позволяя им сосуществовать и развиваться.

Качество данных: как заработать доверие
Александр Мамонтов: «Мы все сталкиваемся с вечными компромиссами: скорость и гибкость против качества и контроля»

«Наш подход – экосистема вместо контроля. Мы отказались от тотального контроля сверху и вместо этого строим экосистему качества данных, включающую инструменты, процессы и роли, где каждый элемент усиливает все другие», — резюмировал Мамонтов.

Дата-контракты как правила игры

Крайне актуальной и широко обсуждаемой в последнее время темой являются дата-контракты – машиночитаемые соглашения о качестве данных.

«На качество данных важно смотреть через умение договориться: 100% качества – это всегда дорого, а избыточные требования ведут к повышению затрат», — уверена Елена Будерацкая, лидер функции управления данными ОТП Банка. В ОТП банке дата-контракты представляют собой соглашения о качестве данных (data quality level agreement, DQLA). Они призваны ответить на вопрос: «Какого качества данных достаточно, чтобы бизнес-процесс работал?» Это похоже на ITSM, но объектом выступают данные. При этом ручной контроль качества – это затратно и не масштабируемо: требуется множество проверок, коммуникаций, человеческих ресурсов. Чтобы подход DQLA был масштабируемым в масштабах всей компании, он должен быть автоматизирован, и в банке создали конвейер, автоматизирующий работу с инцидентами в данных.

Качество данных: как заработать доверие
Елена Будерацкая: «На качество данных важно смотреть через умение договориться: 100% качества – это всегда дорого, а избыточные требования ведут к повышению затрат»

Чтобы встроить качество данных в ДНК компании, необходимо ввести институт владельцев данных, выстроить фреймворк работы с данными, обучить сотрудников и популяризировать практики управления данными. Именно в этот момент рождаются проактивные процессы, когда прекращается тушение пожаров, а данные становятся стратегическим активом.

«Мы не контролеры, а фасилитаторы, ведь качество данных – это не задача для одного аналитика, а кросс-функциональный процесс. Мы создали свод правил, позволяющих обеспечить качество данных», — рассказал Максим Буянов, руководитель направления цифровизации технологических- и бизнес-процессов, Светогорского ЦБК. Ключевым принципом стало определение явных правил игры в виде DQLA для ключевых источников, включая точность, полноту, формат данных и сроки их предоставления. Именно это превратило хаос в договоренность.

Качество данных: как заработать доверие
Наиля Галимова: «Дата-контракты трактуются везде по-разному, но решаемые проблемы у всех компаний общие: петабайты данных, несогласованность в действиях команд, размытая ответственность, отсутствие доверия»

«Дата-контракты трактуются везде по-разному, но решаемые проблемы у всех компаний общие: петабайты данных, несогласованность в действиях команд, размытая ответственность, отсутствие доверия», — отметила Наиля Галимова, лидер направления Data Governance в Билайне. Дата-контракты постепенно становятся частью платформы управления данными, предлагая единый формат соглашений между подразделениями, единые процессы заведения проверок качества данных и автоматизацию разрешения инцидентов. Соглашения должны включать описания данных, гарантии выполнения обязательств, условия публикации данных и способы уведомления заинтересованных лиц.