Как меняются требования к данным и к управлению ими по мере расширения масштабов компании и ее ИТ-инфраструктуры? Как должна выглядеть грамотно выстроенная система управления данными в компании? Какой для этого нужен функционал и какие инструменты помогут его реализовать? На эти и другие актуальные вопросы отвечают Кирилл Евдокимов, директор практики Data Governance в ГК GlowByte, Михаил Маслов, директор практики управления данными направления MDM компании Data Sapience, и Ярослав Игнатьев, старший архитектор решения Ingresso One этого вендора.

– Как должна выглядеть грамотно выстроенная система управления данными в компании? Каким требованиям и критериям она должна отвечать?

Ярослав Игнатьев: «Грамотно выстроенная система управления данными — это единая, безопасная и понятная "экосистема"»

Ярослав Игнатьев: Сразу отмечу, что под управлением данными буду иметь в виду именно Data Governance (DG). Это понятие включает следующие требования к функционалу. Во-первых, ведение бизнес-глоссария — централизованного словаря бизнес-терминов с четкими, одобренными определениями. Во-вторых, ведение каталога данных с техническими метаданными (именами таблиц, столбцов) и установление их связей с терминами из бизнес-глоссария. В-третьих, отслеживание происхождения данных (Data Lineage) — визуализацию пути данных от источника до отчета. В-четвертых, управление качеством данных — их анализ с целью выявления аномалий и проблем. И, наконец, управление доступом и безопасностью данных: их классификацию, разработку и контроль политик, назначение владельцев данных.

Грамотно выстроенная система управления данными, с моей точки зрения, — это единая, безопасная и понятная «экосистема», в которой любой уполномоченный сотрудник может легко найти нужные данные, понять их смысл и, доверяя их качеству, использовать для решения бизнес-задач — разумеется, с соблюдением всех правил безопасности. Такой подход превращает данные из хаотичного побочного продукта в важный актив.

Такая система, на мой взгляд, должна представлять ценность для бизнеса и решать конкретные задачи, а не существовать сама по себе. При этом ценность должна быть измеримой, ее метриками могут выступать конкретные KPI — например, время сокращения подготовки отчетности, ускорение реализации опирающихся на данные инициатив по выводу продуктов на рынок, минимизация операционных рисков и пр. Система должна служить единым источником правды. Должны быть метрики качества, измеряемые и отслеживаемые, и процесс быстрого исправления ошибок. Пользователи должны знать, кто отвечает за каждый конкретный набор данных. Роли и зоны ответственности должны быть формализованы, а политики доступа к данным — определены.

– Какие этапы проходит компания, осваивая решения и подходы для управления данными? Какого рода продукты стоит внедрять на разных этапах?

Михаил Маслов: «Компании проходят через несколько ступеней или уровней развития управления данными»

Михаил Маслов: Компании проходят через несколько ступеней или уровней развития управления данными. На базовом уровне данные — это побочный продукт работы приложений (CRM, ERP), нет ни ответственных, ни стандартов, ни процессов, каждое подразделение работает со своей «версией правды». На этом этапе необходимо осознать важность управления данными и сформировать первичную стратегию его развития. Следующий шаг — стандартизация инструментов, инвентаризация источников и назначение владельцев данных верхнего уровня.

На начальном уровне функция управления данными находится на стадии планирования, осуществляется неформализованное использование процессов. Здесь необходимо развивать инвентаризацию данных с использованием дата-каталога и бизнес-глоссария и начинать выстраивать процессы управления данными. Начать можно с описания данных и унификации процессов их поставки. Должна быть сформирована стратегия управления данными, разработаны политики, стандарты и регламенты.

На развивающемся уровне управление данными должно быть внедрено в повседневную практику: четко распределены роли и ответственные, политики и стандарты встроены в регламенты и стандарты компании, реализована базовая инфраструктура. Стратегия управления данными должна регулярно актуализироваться в соответствии со стратегией развития организации и бизнес-инициативами. На этом этапе целесообразно внедрять DWH, RDM для поддержки внедрения хранилища, развитые механизмы поставки данных, DataOps, аналитический MDM, маркетинговые решения, решения для анализа и визуализации.

На управляемом уровне развития процессы работы с данными включают мониторинг, контроль, аудит и ревизию. В организации скоординированы процессы взаимодействия со всеми функциями, строго соблюдаются политики и стандарты. Стратегия управления данными неразрывно связана со стратегией организации, осуществляется стратегическое финансирование. На данном этапе в зависимости от индустрии могут внедряться специфические нишевые платформы хранения данных, пакеты расширенной аналитики и Data Science, MLOps, операционный MDM, маркетинг в режиме реального времени и многое другое.

– Как меняются требования к данным и к управлению ими по мере расширения масштабов бизнеса компании и ее ИТ-инфраструктуры?

Ярослав Игнатьев: На начальных этапах данные часто живут в изолированных друг от друга системах, и управление ими носит тактический, реактивный характер. Однако по мере роста компании и умножения числа систем данные превращаются в важный инструмент для анализа и принятия решений, осуществляется переход от ИТ- к бизнес-подходу.

На начальном этапе необходимо научиться избавляться от противоречий в данных, добиться централизованного ведения общих справочников, которые используются в разных системах. Если какие-либо справочники должны вестись в разных местах, то нужно научиться собирать единые эталонные справочники, используя системы класса MDM. Требуется создание хранилища или озера данных как некой точки входа для аналитиков.

На определенном этапе развития компании потребуется организация процессов, политик и стандартов управления данными, чтобы проактивно предотвращать возможные инциденты. Нужно постепенно передавать ответственность за качество данных от ИТ-специалистов к бизнес-пользователям. Чтобы обеспечить безопасную работу широкого круга пользователей с данными, надо уметь корректно управлять доступом.

– С какими вызовами будет сталкиваться по мере эволюции компании ее дата-офис?

Кирилл Евдокимов: «Одна из первых и базовых потребностей, которую обеспечивает дата-офис, — выстраивание системы управления качеством данных»

Кирилл Евдокимов: Одна из первых и базовых потребностей, которую обеспечивает дата-офис, — выстраивание системы управления качеством данных. Она предполагает не только наличие технических процедур контроля, но и вовлечение бизнеса для формирования семантического контроля (бизнес-контроля) и определения требований (порогов) необходимого и допустимого уровней качества данных. Также необходимо выстроить процессы мониторинга качества данных, решения инцидентов и системного принятия мер для сокращения числа ошибок. На этом уровне должен сформироваться фундамент культуры ответственности за данные.

На следующем этапе строится институт владения данными — осуществляется переход от ответственности за системы к ответственности за данные, а также поиск, идентификация и назначение владельцев данных на стороне бизнес-подразделений. По нашему опыту, это одна из самых сложных задач как с точки зрения методологии и процессов, так и с точки зрения развития культуры.

Завершение двух предыдущих этапов ведет к демократизации данных и становится основой для формирования восприятия данных как продукта и интеграции управления данными в процессы компании. Кроме того, нельзя не отметить растущие требования к данным со стороны бизнеса в части скорости и простоты доступа, а также сокращению времени подготовки данных к использованию, которые команде дата-офиса придется решать совместно с ИТ.

– Какой функционал нужен для управления данными? С помощью каких инструментов его можно реализовать?

Ярослав Игнатьев: Лично я не знаю ни одного «волшебного» инструмента, способного охватить сразу все потребности бизнеса в управлении данными. На практике обычно используется комбинация решений. Если все же нужно выбрать что-то одно, то существует два подхода: лучшее в своем классе (Best-of-Breed) и покрывающее большинство задач (All-in-One). Инструменты можно также разделить на основанные на технологиях с открытым кодом (Amundsen, OpenMetadata, Soda Core, Apache Ranger и т.д.) и проприетарные. Существует большой выбор как западных решений (Informatica, SAS, Talend), так и российских. Среди отечественных могу отметить разработанную нашей компанией платформу Data Ocean Governance. Так или иначе, выбор инструмента зависит от политики и возможностей компании.

– «Коробочное» решение для управления данными — это реальность или утопия?

Кирилл Евдокимов: Успех и эффективность управления данными на 80% зависит от процессов и только на 20% — от инструментов. Именно в этом заключается основная проблема при создании идеального «коробочного» решения: концепция «один размер подходит всем» не работает. Процессы в различных компаниях даже одного сектора имеют существенные различия, зависящие от организационной структуры, культуры принятия решений, стандартов работы и множества других факторов.

В будущем, на мой взгляд, гораздо более вероятна эволюция решений в сторону адаптивных конструкторов с использованием ИИ, чем создание универсального решения. На основе анкетирования и анализа артефактов подобный инструмент сможет подстраиваться под особенности заказчика во время установки или по мере появления потребностей в изменениях. Параллельно такие решения смогут полностью или частично автоматизировать отдельные функции.

– Решения в стиле «сделай сам» или «коробочный» вариант: какие из них лучше использовать, начиная управлять данными, и почему?

Кирилл Евдокимов: Выбор между DIY и одним из «коробочных» вариантов компания должна делать, отталкиваясь от своих бизнес-задач, собственной зрелости, имеющихся ресурсов и стратегических целей.

Обычно собственная разработка занимает больше времени, обходится дороже и сопряжена с существенными рисками — это и отсутствие экспертизы и ясного видения конечного продукта, и стандартные риски разработки ПО. Поэтому вариант «сделай сам» наиболее применим в части технических инструментов для контроля качества данных, которые могут быть реализованы на основе существующих фреймворков ETL/ELT.

Выбор «коробочного» решения, на мой взгляд, — более эффективный вариант, поскольку оно предоставляет ряд готовых возможностей уже на старте. Это может стать серьезным подспорьем в развитии практик управления данными. Решения от вендоров отличаются разной степенью гибкости и удобства, имея сильные и слабые стороны.

«Коробочные» решения, созданные на основе Open Source, хороши только на начальных этапах внедрения процессов: они дают возможность быстрого старта без лишних затрат, но содержат ряд ограничений, наследуемых от исходных продуктов. Коммерческие решения обходятся дороже, при этом дают такой же быстрый старт, как и технологии с открытым кодом, но будут в разы эффективнее — при условии системного подхода. Впрочем, следует внимательно изучать возможности готовых продуктов в части их настройки и адаптации.

– Какие подводные камни ждут компании, которые внедряют решения, разработанные или собранные своими руками, или решения, созданные на заказ?

Михаил Маслов: Есть успешные примеры как компаний, следующих путем собственной разработки, так и тех, что используют заказные решения. Кроме того, множество продуктов для управления данными (как проприетарные, так и Open Source) были созданы на основе обоих подходов.

Тем не менее, ни тот, ни другой подход не избавляет от ряда сложностей. Одна из них связана с функциональным MVP: чтобы быстро закрыть конкретную потребность, бизнес может нарушить общую систему управления данными, в итоге организация получает несколько нишевых реализаций со всеми вытекающими последствиями. Еще один подводный камень — скрытая стоимость: довольно часто при расчете стоимости собственной реализации учитываются только прямые затраты, а это лишь вершина айсберга. Осознание затрат на поддержку, исправление ошибок, развитие, масштабирование, обучение может прийти позже. И когда такое осознание приходит, работа команды разработки оказывается надолго заблокированной…

Недостаточная масштабируемость также может стать серьезным барьером: небольшое решение, успешное на объемах данных одной функции, нередко оказывается неспособно работать с данными всей организации. В большую проблему может вылиться и зависимость от нескольких ключевых специалистов-разработчиков внутри компании. Ну и, наконец, нельзя не упомянуть о дефиците компетенций: концентрируясь на создании программного обеспечения своими силами, компания зачастую упускает возможность получить в распоряжение более удобное и производительное решение.

– Как изменятся ожидания и требования компаний в отношении управления данными в ближайшие годы?

Михаил Маслов: В ближайшие годы расширится применение подхода «данные как продукт» (Data-as-a-Product). Важную роль в этом сыграют большие языковые модели (LLM). Уже сейчас их применение позволяет значительно ускорить и облегчить использование данных. По мере развития узкоспециализированных моделей и упрощения их аугментации применение данных как продукта выйдет на новый уровень.

Повысятся требования к критической оценке результата и нынешние решения в области качества данных, бизнес-глоссарии и каталоги данных будут широко использоваться все большим количеством сотрудников с новыми пользовательскими ролями. Сейчас происходит коренное изменение в работе с данными: потребность во владении привычными языками программирования (SQL, Python, R) уменьшается, а необходимость общей эрудированности в области DG растет. В дальнейшем эта тенденция будет усиливаться и развиваться. Кстати, полагаю, что сами глоссарии и каталоги будут двигаться в сторону маркетплейсов данных с проактивным управлением доступом, видимостью и, главное, целями использования данных.

Также растет потребность в максимально актуальных данных. Бизнес все чаще будет требовать предоставления проверенных и актуальных данных в реальном времени: мгновенные обновления данных при их изменении в операционных MDM, онлайн-поставки данных для маркетинга в реальном времени и систем помощи при принятии оперативных решений.