Единство управления Разные отделы, разные приложения – и, как правило, у каждого свои системы интеграции данных, решения для управления основными данными, архитектуры баз данных и т. д. Условия таких информационных «силосных ям» становятся сегодня несовместимы с требованиями бизнеса к информационной поддержке своей деятельности: для успеха и развития, для реальной инновационности компаниям нужна актуальная, достоверная, согласованная и полная информация, предоставляемая в нужный момент нужным специалистам. В этой связи аналитики отмечают сейчас рост интереса предприятий к формированию единой стратегии управления корпоративными данными, например, в начале 2009 года TDWI Research, исследовательское подразделение The Data Warehouse Institute, в ходе опроса участников своей ежегодной конференции выяснило, что большинство из них так или иначе решают вопросы координации различных направлений деятельности, связанных с управлением информацией. В ответ на эту тенденцию и в стремлении стимулировать ее развитие эксперты рынка предлагают концепцию унифицированного управления данными (Unified Data Management, UDM), а производители программного обеспечения – соответствующие технологические платформы.

EIM, EDM и UDM

В одном из документов TDWI унифицированное управление данными определяется как координация различных дисциплин управления данными, направленная на обеспечение достижения корпоративных целей. UDM способствует технической эффективности работы с данными и поддерживает стратегические задачи бизнеса, связанные с данными. Идея унифицированного подхода к управлению данными не нова и в той или иной степени уже реализуется предприятиями и производителями соответствующего ПО, правда, названия для нее подчас используются иные, наиболее известные – управление корпоративными данными (Enterprise Data Management, EDM) и управление корпоративной информацией (Enterprise Information Management, EIM).

Стратегия корпоративного управления данными предполагает охват всех уровней (см. рисунок), от интеграции сырых данных из различных источников до этапов бизнес-анализа и управления контентом предприятия, когда можно уже говорить о трансформации данных в бизнес-информацию. Предметом UDM являются методы и технологии интеграции различных направлений работы с корпоративными данными.

Почему тема унифицированного управления данными стала актуальна? Ряд важных бизнес-инициатив, таких как бизнес-анализ, управление взаимоотношениями с клиентами, обеспечение соответствия регулятивным нормам, поддержка принятия оперативных и стратегических решений, невозможно хорошо реализовать без механизмов получения качественных и полных данных, если модели данных не согласованы, не выполняются политики соответствия данных корпоративным и внешним нормативам, использование данных в корпоративном масштабе плохо контролируется. Фактически компании начинают рассматривать информацию как стратегический ресурс и, осознавая важность данных в принятии решений, к их качеству начинают предъявлять соответствующие требования, однако без объединения практик управления данными в корпоративном масштабе выполнить их оказывается сложно.

Данные все чаще нужны практически в реальном времени, что меняет требования к базовой архитектуре хранилищ, выводя ее за рамки традиционных решений. Унификация работы с данными становится востребованной в связи с распространением новых технологий, таких как сервисная архитектура, Web 2.0, облака, использование в корпоративных приложениях данных от интеллектуальных устройств, снабженных датчиками и метками RFID, а также все более активное включение в корпоративную среду мобильных устройств сотрудников.

С точки зрения тактических задач ИТ-департамента унификация управления данными позволяет справиться с разрозненностью существующих дисциплин управления, вызывающей избыточность и непродуктивность действий разработчиков, участвующих в разных проектах, с проблемой дублирования ресурсов, инфраструктур и, в конечном итоге, самой информации. С помощью UDM появляется возможность согласовать действия и повысить продуктивность разных команд, которые занимаются разработкой и поддержкой источников данных, сформировать единую архитектуру и стандарты работы с данными.

В TDWI подчеркивают, что UDM – это синергия технологических и бизнес-задач и процессов, причем в идеале усилия по формированию унифицированного управления данными должны диктоваться прежде всего стратегическими бизнес-целями, определяющими приоритеты и последовательность действий UDM. Это важно, поскольку UDM невозможно построить одномоментно. Как уже отмечалось, многие предприятия начали проводить координацию различных дисциплин управления данными, и задача UDM – предоставить необходимую технологическую базу для этого, придать целенаправленность и структуру в зависимости от приоритетов бизнеса. Достижение этой глобальной цели связано с решением ряда организационных и технологических подзадач. Прежде всего, необходимо наладить взаимодействие всех команд, которые раньше работали изолированно в различных доменах управления данными. Основой для этого на технологическом уровне должна быть единая информационная архитектура, которую в Forrester определяют как «фреймворк, обеспечивающий структурированное описание корпоративных информационных ресурсов, включая структурированные данные и неструктурированный и квазиструктурированный контент, и взаимосвязи этих ресурсов с бизнес-процессами и ИТ-системами». С организационной точки зрения координацию всех работ по управлению данными в идеале должна осуществлять отдельная структура типа центра компетенции или cовета по стратегическому руководству данными (data governance board).

Следующим шагом к UDM является координация работы различных бизнес-подразделений, что подразумевает, в частности, согласованность в рамках корпоративной информационной архитектуры определений бизнес-объектов с помощью общих метаданных или системы управления основными данными (Master Data Management, MDM). Кроме того, взаимодействие как ИТ-специалистов, так и бизнес-пользователей должно поддерживаться интеграцией соответствующего инструментария управления данными, что является задачей программной платформы для UDM.

Одна из ключевых характеристик унифицированного управления – возможность совместного использования данных. Помимо технологических механизмов разделения данных в корпоративном масштабе, UDM должна обеспечивать соответствующее качество данных, согласованную семантику и возможность их синхронизации, а также поддерживать создание и распространение стандартов данных, методов взаимосвязи различных команд и политик использования данных. Для решения актуальных задач выполнения нормативных требований, которые ставят перед компаниями как внутреннее руководство, так и внешние регуляторы, реализация UDM должна обеспечивать соответствующее качество метаданных и основных данных, а также формирование и выполнение политик по использованию, отслеживанию и защите данных. Эксперты считают, что UDM в идеале реализуется как итеративный процесс из нескольких этапов, включающих в себя организационные и технологические задачи, такие как:

  •  совместная работа ИТ и бизнеса по определению бизнес-целей управления данными (например, обеспечение анализа продаж в глобальном масштабе, полномасштабное управление взаимоотношениями с клиентами, реализация оперативного бизнес-анализа или, более глобально, превращение данных в ключевой корпоративный ресурс);
  •  координация работы ИТ-команд и технологических инструментов управления данными;
  •  улучшение, агрегирование и трансформация данных;
  •  совместное использование данных в бизнес-процессах корпоративного масштаба;
  •  достижение поставленных бизнес-целей.

В конечном итоге формирование UDM – это база для создания «предприятия, направляемого данными» (data-driven enterprise). Дэвид Лайл, вице-президент компании Informatica, один из идеологов UDM и ключевых разработчиков инструментария корпоративного управления данными, расшифровывает этот термин так: «data-driven enterprise – это предприятие, в котором принятие решений базируется на актуальных, заслуживающих доверия и релевантных данных, а не на догадках или необходимости реагировать на те или иные события».

UDM в деталях

В широком смысле UDM должно охватывать все инициативы и технологии, связанные с управлением структурированными данными и неструктурированным контентом на предприятии. Однако в TDWI подчеркивают, что сейчас имеется несколько реальных дисциплин управления данными, составляющих ядро UDM, с развития и интеграции которых должно начинаться формирование унифицированного управления данными. Это, прежде всего, интеграция данных и тесно связанные с ней практики и технологии обеспечения качества данных, их семантики, MDM, а также управление корпоративным контентом.

Совместное использование данных в бизнес-процессах корпоративного масштаба подразумевает наличие механизмов интеграции данных, которые играют в реализации UDM ключевую роль. Аналитики Gartner в дисциплину интеграции данных включают все практики, архитектурные подходы и программные инструменты для обеспечения согласованного доступа и доставки данных для всего спектра работ с данными и типов их структур, существующих в компании, и удовлетворения требований в данных всех приложений и бизнес-процессов.

Современные платформы интеграции имеют развитые механизмы извлечения данных из различных источников для их использования в приложениях, от традиционных «извлечения-трансформации-загрузки» (extract, transformation, load, ETL) до федеративного объединения данных в единое хранилище без их физического перемещения и предоставления данных в виде сервисов. Для создания полномасштабной инфраструктуры унифицированного управления данными важна также возможность объединения платформы интеграции данных со средствами интеграции корпоративных приложений.

Надо отметить, что все остальные дисциплины управления данными, которые в TDWI считают основными составляющими построения UDM, — обеспечение качества данных, управление метаданными для согласования семантики данных, управление основными данными и даже, до некоторой степени, управление неструктурированным контентом – находятся в тесной взаимосвязи с методами и инструментами интеграции данных, а также друг с другом, и ведущие поставщики программных решений все чаще объединяют их в своих платформах. Аналитики Gartner считают методы повышения качества данных ключевыми в решении задач корпоративного управления информацией и называют их фундаментальным компонентом решений по интеграции данных, управлению мастер-данными и бизнес-аналитике.

Базовые средства обеспечения качества данных – профилирование и мониторинг. Профилирование реализует статистический анализ наборов данных для выявления в них потенциальных ошибок. Мониторинг — постоянный контроль данных для обеспечения соответствия заданным параметрам качества. Эти средства дополняются функциями стандартизации (автоматическое распознавание и стандартизация важных элементов данных, например имен, адресов и телефонных номеров клиентов, в соответствии с отраслевыми стандартами или внутренними бизнес-правилами), очистки (модификация данных с учетом ограничений, зависящих от определенного домена, задач обеспечения целостности или других бизнес-правил, регулирующих качество корпоративных данных), корреляции (выявление связанных элементов данных с их последующим слиянием или установкой связей между ними) и др.

Еще одной важной задачей в процессе подготовки данных к совместному использованию в корпоративном масштабе является согласование их семантики. Управление метаданными призвано обеспечить полные и осмысленные описания данных. Для гарантии согласованности данных в рамках UDM необходимо провести определенную стандартизацию метаданных и других типов «данных о данных», размещенных в репозиториях, словарях, глоссариях и на семантических уровнях различных средств управления данными, оперативных системах и средах бизнес-аналитики. Это может оказаться нетривиальной задачей, поскольку модели метаданных для разных применений могут сильно отличаться, а метаданные часто скрыты для внешнего использования. Помочь в решении этой проблемы способна единая программная платформа для различных дисциплин управления данными.

Управление основными данными обеспечивает единый источник определенных типов данных для бизнес-приложений, например данных о клиентах, о продуктах или контрагентах компании. MDM позволяет добиться согласованности этих данных при работе с ними различных систем, задавая для них единую модель и правила использования. Система MDM обеспечивает идентичность справочников и классификаторов в масштабах всей организации, создание, хранение, предоставление, обмен и синхронизацию согласованных, точных и актуальных данных справочников, а также управление изменениями этих данных.

Известно, что около 80% корпоративной информации создается в неструктурированных форматах, и, хотя в трактовке аналитиков управление контентом является неотъемлемой частью корпоративного управления информацией, практика UDM, по данным опросов TDWI, на реальных предприятиях пока мало затрагивает источники неструктурированных данных. Тем не менее это направление также необходимо иметь в виду, разрабатывая стратегию унифицированного управления данными. К тому же ряд новых технологий, таких как текстовая аналитика или обработка естественных языков, позволяет трансформировать неструктурированные данные в структурированные.

UDM для анализа

По данным исследований TDWI, больше всего нуждаются в унифицированном управлении данными и получают наибольшие преимущества от реализации UDM такие инициативы, как развертывание систем бизнес-аналитики и построение корпоративных хранилищ данных. Для качественной аналитики, обеспечивающей поддержку принятия обоснованных решений на разных уровнях, необходим полный спектр достоверных и актуальных фактов по тому или иному направлению деятельности компании. А такие факты всегда базируются на качественных, согласованных данных, интегрированных из различных корпоративных источников. Поэтому BI-проекты часто становятся отправной точкой, своего рода полигоном для UDM.

В общем случае UDM направлено на обеспечение четырех ключевых характеристик корпоративных данных: полнота (completeness), чистота (cleanliness), согласованность (consistency) и актуальность (currency). В контексте BI полнота информации означает формирование единой, полной базы фактов для принятия решений на разных уровнях. Чистота, которая достигается благодаря методам и технологиям UDM для обеспечения качества данных, включая их стандартизацию, очистку и улучшение, является залогом качества результатов бизнес-анализа. Согласованность информации благодаря использованию механизмов управления метаданными и MDM обеспечивает BI-системы точным знанием, из какого источника взяты данные и каким образом они представляют бизнес-объект, что важно для выбора оптимальных источников информации для определенных задач отчетности и анализа. Требования к актуальности данных для различных направлений и задач BI разнятся, но развитая платформа UDM должна поддерживать обработку и предоставление данных с необходимой конкретному процессу принятия решений скоростью, вплоть до реального времени.

Как правило, уже имеющийся в компаниях технологический стек для поддержки бизнес-аналитики, включающий в себя средства интеграции данных, обеспечения качества данных, управления метаданными и MDM, является хорошей отправной точкой для реализации UDM, но он должен быть расширен. Так, во многих случаях интеграция данных в хранилища ограничивается инструментарием ETL, но поддержка в UDM и других механизмов, таких как федеративное объединение, репликация данных, сервисы данных, обеспечивает более широкий охват источников данных для бизнес-аналитики и предоставление их в реальном времени. Базовые функции очистки и стандартизации данных могут быть дополнены функциями для обеспечения качества, такими как корреляция данных, очистка в реальном времени и улучшение данных, например добавление сведений о потребителях из внешних систем к записям о клиентах в хранилище данных. Управление метаданными в BI-системах, как правило, находится на достаточно высоком уровне, но в контексте UDM активизируется использование функциональности MDM в целях анализа, а кроме того, управление метаданными и основными данными координируется с семантическими уровнями инструментария для отчетности и анализа. И наконец, одно из основных преимуществ UDM, которое не достигается в простом стеке BI, это глубокая интеграция его различных технологических компонентов.

UDM для оперативной работы

В транзакционных и других приложениях для оперативной поддержки бизнеса (ERP, CRM, PLM и др.) данные обычно существуют и развиваются в контексте бизнес-процессов. Информация о бизнес-объектах, таких как кредит в финансовых операциях, претензия в страховании, данные о пациенте в медицине, инженерная спецификация изделия на производстве, контракт на поставку в любой индустрии, претерпевает изменения, переходя с этапа на этап бизнес-процесса. Часто такие бизнес-процессы охватывают различные департаменты и имеют сложные ветвления.

Данные для операционных приложений иногда называют «данными в движении» в противовес «данным в покое», которыми оперируют системы бизнес-аналитики. Для «данных в движении“ возможности UDM не менее важны, хотя и практикуются пока несколько реже. Унифицированное управление данными в применении к задачам оперативной поддержки бизнеса делает данные более согласованными между разными этапами бизнес-процессов и повышает их доступность для разных подразделений. Использование UDM помогает совершенствовать не только данные в оперативных приложениях, но и бизнес-процессы в целом.

В корпоративных приложениях используются в основном те же базовые средства UDM, что и для поддержки систем бизнес-аналитики. Полнота данных, которая важна для качественной реализации бизнес-процесса в любой индустрии, достигается благодаря использованию систем интеграции данных. Но в случае поддержки оперативной работы особое значение приобретает интероперабельность, а в идеале – тесная интеграция между корпоративной инфраструктурой интеграции приложений и серверами интеграции данных. Использование сервисной архитектуры для обеих сред интеграции упрощает решение этой задачи.

Как отмечают в TDWI, функции очистки наиболее эффективны, если применяются сразу же после того, как новые или измененные данные помещаются в базу данных приложения. Это означает, что поддержка чистоты данных в оперативных приложениях требует реализации средств обеспечения качества данных в реальном времени. Поскольку фактически один и тот же набор инструментов качества данных понадобится всем приложениям, оптимальным подходом может быть реализация многократно используемых сервисов качества.

Согласованность данных в оперативных приложениях – это задача прежде всего систем управления мастер-данными, которые помогают различным приложениям на разных этапах бизнес-процессов однозначно идентифицировать клиентов, продукты и другие объекты бизнеса. Актуальность данных в оперативных приложениях в определенных случаях должна обеспечиваться практически на уровне реального времени, например при реализации управления запасами точно в срок (just in time inventory), а в производстве на заказ по принципу build to order. Подобные процессы работают с постоянно изменяющейся информацией, которая полностью устаревает или теряет свою значимость вскоре после того, как она была интегрирована и синхронизирована для использования в бизнес-процессе. Для работы с такой информацией система UDM должна предоставлять технологии интеграции, приближенные к реальному времени, такие как федеративное объединение данных и сервисы данных. В решении задачи получения актуальных данных имеет значение также координация инструментария UDM с системой управления жизненным циклом информации (Information Lifecycle Management, ILM), которая регулирует размещение и использование информации по мере изменения ее значимости и полезности для тех или иных применений.

Рисунок. Комплексная среда управления информацией
Платформы UDM

Сегодня многие производители активно расширяют свои портфели средств управления данными, которые в большем или меньшем объеме реализуют функции поддержки рассмотренных дисциплин управления данными. Однако идеальная платформа UDM должна не просто поддерживать, а тесно интегрировать эти функции, но, по оценкам TDWI, именно интеграция является слабым местом решений многих игроков рынка управления данными, которые предлагают сегодня не платформы UDM, а «наборы» (suite) слабо связанных между собой функциональных модулей, хотя вектор развития направлен именно в сторону формирования полноценных UDM-платформ. Помимо расширения функциональности и углубления внутренней интеграции между модулями будут активно развиваться такие новые направления функциональности, как поддержка стратегического руководства данными и корпоративная архитектура данных.

Теоретически стратегическое руководство данными (data governance) является неотъемлемой частью UDM, однако на практике оно пока чаще рассматривается как отдельная область, связанная преимущественно с организационными вопросами – заданием и контролем соблюдения корпоративных правил и процедур хранения, доступа и использования данных и выполнением внешних регулятивных норм. Для этой области появляется свой инструментарий, например функциональность Governance, Risk & Compliance (GRC), реализованная компанией SAP, или продукт IBM InfoSphere Business Information Monitor, но таких примеров пока мало. Что касается реализации корпоративной архитектуры данных, в TDWI не смогли привести ни одного примера среди существующих решений, хотя сама практика создания таких архитектур сегодня активно развивается.

По оценкам Forrester, лидером с точки зрения стратегического и унифицированного подхода к управлению информацией пока является IBM, которая имеет в своем портфеле практически полный набор функций для управления данными всех типов, от создания хранилищ до интеграции данных и высокоуровневых средств бизнес-анализа. Но наиболее важно, по мнению аналитиков Forrester, то, что этот набор дополняется методологией Information Agenda, которая позволяет поставить управление информацией в контекст бизнес-задач конкретных отраслей. В 2010 году компания дополнит подход Information Agenda продуктами и сервисами для реализации стратегического руководства информацией.

Следующим игроком рынка интеграции данных является компания Informatica, которая, в отличие от своего всеядного конкурента, специализируется исключительно на задачах управления данными. Последовательно развивая свой портфель именно в направлении UDM, компания в начале 2010 года представила платформу Informatica 9, которую позиционирует в качестве основы для предприятия, направляемого данными. В своих решениях компания поддерживает разнообразные возможности интеграции данных, обеспечения их качества, а после приобретения Siperian предоставляет функциональность MDM, позволяет работать с неструктурированными данными, имеет средства ILM и т. д. Ключевыми особенностями Informatica 9 в компании считают сервисный подход к интеграции данных, возможность подключения к работе с платформой управления данными бизнес-пользователей, а также средства интеграции данных, размещенных в облаке.

Относительно обширный портфель средств управления данными предоставляет компания SAP, предпочитая объединять свой инструментарий под шапкой управления корпоративной информацией (EIM). Компания работает над глубокой интеграцией решений для создания хранилищ и витрин данных, управления мастер-данными, интеграции данных, обеспечения их качества, руководства данными, управления метаданными, текстовой аналитики, ILM, управления контентом, BI.

Управлением корпоративными данными (EDM) называет свой комплекс инструментов DataFlux, подразделение SAS Institute. Эта компания давно предлагает на рынке развитые возможности обеспечения качества данных, а недавно в портфель DataFlux перешли продукты SAS по интеграции данных. В совокупности со средствами хранилищ данных и бизнес-аналитики SAS, а также функциями, которые эволюционируют в сторону поддержки руководства данными, все это образует достаточно зрелый комплекс управления данными.

Пакет решений компании Talend базируется на технологиях с открытым кодом и предоставляет компоненты UDM, соответствующие основным шагам эволюции большинства компаний в сторону унифицированного управления данными. Как правило, они начинают с инструментария интеграции данных, который затем дополняют средствами обеспечения качества данных, помогающими справиться с ошибками, выявленными на этапе интеграции. Следующим шагом часто становится внедрение системы управления основными данными (MDM). Компания Talend объединяет эти решения общей платформой, в которой все интерфейсы разработки интегрированы в Eclipse, используется единый репозиторий метаданных и только один сервер для развертывания решений.

UDM сегодня

Для выяснения тенденций в области унифицированного управления данными на современных предприятиях, TDWI Research в конце 2009 года провела опрос специалистов по управлению данными. Респондентов попросили оценить степень формальной координации дисциплин управления данными в их организации. Как выяснилось, у большинства такая координация не превышает среднего уровня, однако уже в будущем ситуация должна кардинально измениться — 90% участников опроса в ближайшие три года ожидают, что этот показатель у них будет средним, высоким или очень высоким.

Рисунок. Светлое будущее UDM

Среди преимуществ UDM 65% опрошенных назвали совершенствование решений и стратегий, вырабатываемых бизнесом. Унификация подходов к управлению данными, по их мнению, способствует принятию обоснованных решений и выработке эффективных стратегий. Многие респонденты использовали термин «доверительные» данные в применении к UDM, подчеркивая тем самым, что практики UDM помогают сформировать уверенность в тех данных, которые используются в организации, и тех решениях, которые на основании этих данных принимаются. Другие преимущества UDM — сфокусированность управления данными на корпоративных целях, которые больше всего в нем нуждаются, повышение продуктивности бизнеса, упрощение совместного использования данных в масштабах организации, стимулирование деятельности по стратегическому руководству данными, создание интегрированных моделей данных.

Около 60% участников опроса назвали основными барьерами на пути UDM сложившуюся корпоративную культуру разрозненных с точки зрения работы с данными подразделений и отсутствие политик управления данными. Другими проблемами являются недостаток высокоуровневого руководства процессами реализации UDM, низкий уровень качества данных и метаданных и отсутствие поддержки в существующем программном инструментарии.