В основу инициативы «информация по требованию» (Information on Demand), выдвинутой корпорацией IBM, положена концепция предоставления данных в качестве сервисов, обеспечивающих сборку данных, рассеянных по многочисленным системам и хранилищам, их преобразование и предоставление различным приложениям и потребителям.
Информационное взаимодействие людей и систем происходит не только внутри компании, но и на глобальном уровне. Чтобы понимать текущую ситуацию и тенденции развития, анализировать происходящие события и адекватно реагировать на вызовы глобализации, усложнение цепочек поставок, производства и сбыта, слияния и поглощения компаний, чтобы обеспечивать аутсорсинг услуг среднему и малому бизнесу, крупным компаниям и государственным учреждениям, нужно иметь «прозрачный» доступ ко всей совокупности данных. Процессы управления распределенными цепочками поставок, взаимоотношениями с клиентами и партнерами, оперативного бизнес-анализа, контроля выполнения законодательных и нормативных требований невозможны без эффективного управления данными, которые нередко оказываются разбросанными по множеству источников компании. Реализовать совокупную ценность важнейшего нематериального актива — информационных ресурсов — можно только, интегрировав отдельные технологические решения и платформы от разных поставщиков. Однако ИТ-инфраструктуры усложняются, затраты на их развитие постоянно растут, и многие компании приходят к выводу, что монолитные системы следовало бы перепроектировать, выделив более мелкие компоненты, из которых можно собирать требуемые в различных приложениях решения. Каждый такой компонент должен предоставлять «внешнему миру» определенную услугу.
В сервис-ориентированной архитектуре (Service-Oriented Architecture, SOA) элементы бизнес-процессов, реализующих их прикладных систем и поддерживающей технологической инфраструктуры рассматриваются как стандартизированные управляемые сервисы, которые могут взаимодействовать, многократно использоваться и динамически объединяться для получения того или иного решения. По мнению аналитиков Gartner (Establishing an Agile Information Architecture, November 2007), SOA вынудит организации реализовать в архитектуре и инфраструктуре информации и данных общий слой сервисов, обеспечивающий все заинтересованные стороны своевременными, точными и непротиворечивыми данными для управления по событиям в близком к реальному масштабу времени.
Предложенная компанией IBM концепция «информация по требованию» предусматривает интеграцию множества решений и технологий, обобщающих как собственный опыт разработки различных систем и реализации проектов, так и потенциал и технологии приобретенных компаний: Ascential (интеграция и хранилища данных), Cognos (инструменты и приложения бизнес-аналитики), DataPower (специализированные XML-устройства), DWL (интеграция данных о клиентах), FileNet (управление контентом и бизнес-процессами), iPhrase (средства поиска на естественном языке), SRD (управление идентификационными данными), Unicorn (управление метаданными) и др.
Стек сервисов и продуктов
Стек сервисов и продуктов компании IBM для управления и предоставления данных по требованию обеспечивает сквозное решение задач, от управления источниками данных до оптимизации деятельности, и включает в себя три слоя (рис. 1).
Источники данных образуют фундамент стека, который обслуживают сервисы управления структурированными данными (серверы СУБД DB2, IMS, Informix) и слабоструктурированным контентом (IBM Content Manager, IBM FileNet), а также интеграционные адаптеры.
На среднем уровне располагаются сервисы, позволяющие сформировать общекорпоративную платформу виртуализации и объединения данных распределенных неоднородных систем, которая в течение длительного времени должна быть источником точных и достоверных сведений (единственной версией истины) для всех заинтересованных процессов, пользователей и приложений. Продукты и сервисы этого слоя объединяются под общим брендом IBM InfoSphere, в котором выделяются подуровни интеграции данных (IBM Information Server), управления основными данными (IBM InfoSphere MDM Server) и объединения данных в корпоративные хранилища (IBM InfoSphere Warehouse).
Средства верхнего уровня обеспечивают основное целевое назначение использования данных — оптимизацию бизнеса: повышение доходности клиентов и продуктов, снижение рисков, эффективное использование кадров и других ресурсов, построение динамических цепочек поставок и сбыта, ведение многоканального маркетинга и т.д. Этой цели служат прежде всего отраслевые модели данных, шаблоны и методики, а также аналитические решения.
Управление источниками данных
Системы управления базами данных и серверы баз данных — важнейшие компоненты стратегии управления данными. В концепции IBM Information on Demand — это масштабируемый, многоцелевой гибридный сервер баз данных DB2 Universal Database, поддерживающий реляционные и XML-структуры с функциями сжатия и шифрования, средствами оптимизации производительности для смешанных рабочих нагрузок транзакционных систем и хранилищ данных. На сервисы DB2 опираются решения по интеграции данных, управлению неструктурированными данными и средства интеллектуального бизнес-анализа.
DB2 Universal Database обладает высокой производительностью для использования в крупных корпорациях и в то же время достаточной степенью гибкости для обслуживания предприятий малого и среднего бизнеса; базируется на открытых стандартах и может устанавливаться на множестве аппаратных платформ; интегрируется со средами J2EE и Microsoft .Net и располагает Web-интерфейсом. Система включает в себя инструментарий разработки и управления средой исполнения, а также решения для специфических применений, например обеспечения нормативных требований по хранению данных, электронного бизнеса и аналитической обработки. В системах оперативной обработки транзакций может применяться также сервер Informix Data Server, обладающий мощными средствами автоматического управления и настройки систем управления базами данных иерархической структуры IMS.
Для управления жизненным циклом обеспечения конфиденциальности данных на уровне записей о бизнес-операциях предлагается новое решение IBM Optim, а разработка приложений и администрирование баз данных обеспечиваются инструментом IBM Data Studio.
По некоторым оценкам, лишь 15% цифровых данных структурированы. При помощи сервисов управления корпоративным контентом IBM Content Manager, Filenet и Omnifind обеспечивается накопление, систематизация, поиск, управление жизненным циклом, интеграция, совместное использование и предоставление по требованию разнообразного контента для автоматизации и оптимизации сложных бизнес-процессов в сервисной среде.
Интеграция данных
Сервер интеграции IBM Information Server представляет собой набор согласованных программных компонентов и сервисов: IBM Metadata Server и Workbench (сквозное управление метаданными и поддержка связей между источниками и потребителями данных), WebSphere Information Analyzer (анализ и управление правилами проверки и обработки «сырых» данных источников), WebSphere Business Glossary (управление описаниями бизнес-сущностей), WebSphere QualityStage (согласование и унификация данных из разрозненных источников), WebSphere DataStage (выборка, преобразование и загрузка данных), WebSphere DataStage MVS Edition (интеграция данных систем на мэйнфреймах), WebSphere Federation Server (виртуализация доступа и федеративная интеграция распределенных источников данных), WebSphere Information Services Director (реализация интеграционных процессов в виде повторно используемых сервисов), Connectivity Software (программный слой адаптеров и коннекторов для доступа и отслеживания изменений источников данных в неоднородной среде как в пакетном режиме, так и в реальном масштабе времени) и др. В совокупности они обеспечивают решение широкого круга задач и поддержку разнообразных интеграционных функций (рис. 2).
Согласованное и единообразное представление данных облегчает анализ имеющихся источников, очистку, корректировку и стандартизацию представлений данных и позволяет представить результаты их обработки в форме, обеспечивающей многократное использование всеми информационными системами предприятия. Аналитики и эксперты по предметным областям с помощью WebSphere Business Glossary создают бизнес-метаданные — концептуальное описание сущностей и их взаимосвязей. Инструмент WebSphere Information Analyzer позволяет проанализировать определения и характер использования данных в приложениях, базах данных и файлах. Разработчики, пользуясь Rational Data Architect, конструируют структуры и уточняют типы данных и общие правила. Наличие единого механизма управления метаданными позволяет пользователям различных категорий работать с общим ресурсом описаний в рамках представления, соответствующего содержанию их деятельности и должностным обязанностям.
Рационализация инфраструктуры управления данными направлена на выявление взаимосвязей между системами и определение правил перемещения данных при консолидации информационных ресурсов, включая унаследованные системы, а процедуры очистки и согласования данных обеспечивают высокое качество данных, образующих интегрированное представление.
Качество данных гарантируется едиными правилами и процедурами стандартизации, контроля и согласования значений. Компонент WebSphere QualityStage обеспечивает проверку соответствия значений заданным критериям, исправление и дополнение значений по проверенным источникам, анализ корреляций различных источников. Для каждой бизнес-сущности строится единственная выверенная виртуальная запись, которой затем пользуются все корпоративные системы. Управление рисками и обеспечение соответствия нормативным требованиям позволяет предоставлять пользователям полные и достоверные данные и при необходимости подтверждать наличие источников их происхождения и критерии качества исходных данных. Управление правилами контроля и аудита данных осуществляется централизованно.
Преобразование данных, их реструктуризация и агрегирование, необходимые в любых схемах интеграции, осуществляются с помощью различных механизмов и функций, например инструмента объединения, сортировки преобразования и перемещения больших объемов данных сложной структуры WebSphere DataStage или, при федеративном объединении данных в реальном масштабе времени, посредством WebSphere Federation Server.
Предоставление данных заинтересованным пользователям, процессам и приложениям обеспечивается путем объединения, публикации и синхронизации по времени или регистрируемым событиям (Change Data Capture, Data Event Publisher), репликации (физического перемещения) или виртуализации доступа к распределенным источникам. Гармонизация бизнес-процессов достигается за счет быстрого развертывания новых решений и оперативного предоставления заинтересованным системам и приложениям многократно используемых информационных сервисов из централизованного общекорпоративного ресурса.
IBM Information Server может работать с различными структурированными и неструктурированными данными, расположенными на мэйнфреймах, генерируемыми современными приложениями или находящимися в узлах Сети. В IBM Information Server применяется единая модель и ресурс метаданных. На этапе проектирования производится импорт метаданных, просмотр и отбор данных, а в процессе исполнения — получение метаданных, устранение ошибок, а также доступ непосредственно к данным (специальные адаптеры обеспечивают подключение к информационным ресурсам внешних систем, например, SAP, Siebel, Oracle и др.). В репозитории метаданных хранятся описания объектов, формируемых при проектировании систем, результаты мониторинга и аудита функционирования действующих компонентов работающих систем, характеристики реальных данных и т.п. Изменения, вносимые в описания объектов системы каким-либо модулем IBM Information Server, сразу же становятся доступными остальным компонентам платформы и внешним программам.
Административные сервисы позволяют управлять профилями пользователей, ролями, сессиями, безопасностью, журналами и расписаниями и централизованно решать общесистемные задачи. К числу последних относятся администрирование, развертывание целевых сервисов интеграции данных и управление средой их выполнения, обеспечение безопасности на основе ролевой модели, аутентификацию и контроль доступа пользователей, шифрование данных, ведение системных журналов, планирование и мониторинг заданий, получение отчетности и управление сетевой инфраструктурой. Web-консоль обеспечивает средства глобального администрирования.
Большинство ресурсоемких задач, решаемых компонентами IBM Information Server (анализ больших баз данных, очистка данных, сложные преобразования данных и т.п.), выполняется с помощью встроенных механизмов динамического сегментирования и перераспределения данных, распараллеливания и конвейерной обработки. Эти механизмы опираются на возможности параллельных СУБД, технологии построения кластерных и grid-архитектур и позволяют масштабировать интеграционные решения.
Конвейерная обработка предусматривает последовательную выборку записей из источника и передачу их без записи на диск обрабатывающим функциям (их состав определяется потоком данных). Разбиение данных на подмножества (по значениям хеш-индекса, по диапазонам, в порядке круговой очереди, в случайном порядке, по базам данных и т.д.) позволяет распараллелить процессы обработки и за счет этого ускорить выполнение приложений. При динамическом разбиении данные распределяются между процессами без промежуточной записи на диск, а управление потоками данных и координация вычислений возлагаются на соответствующие механизмы IBM Information Server.
Управление основными данными
Информационные системы компаний, их партнеров и клиентов должны «понимать» друг друга. Управление основными данными обеспечивает систематизацию хранящихся в различных информационных системах наиболее существенных и «устойчивых» данных о клиентах, продуктах, поставщиках и других субъектах и объектах деятельности предприятия таким образом, чтобы все процессы «по требованию» пользовались актуальной и согласованной версией описаний данных.
IBM InfoSphere Master Data Management Server содержит полный набор технологий и сервисов (рис. 3) для формирования, хранения и предоставления актуальных и согласованных данных об «общекорпоративных» субъектах и объектах деятельности (клиентах, бухгалтерской отчетности, персонале, агентах, изделиях и комплектующих, пакетах предложений и портфелях продуктов, соглашениях и т.д.).
Формирование хранилищ данных
Ядро сервисов для построения хранилищ данных образует продукт IBM DB2 Warehouse Edition 9.5, в котором механизмы управления данными сервера СУБД дополнены аналитическими функциями, средствами оперативного многомерного, глубинного и прогностического анализа данных. В зависимости от масштаба и назначения целевой системы (от специализированной витрины данных до многотерабайтного хранилища) этот продукт предлагается в начальной, промежуточной, базовой, расширенной и корпоративной версиях.
Аппаратно-программные решения для быстрого развертывания сбалансированных хранилищ данных IBM Balanced Warehouse включают в себя готовые типовые наборы сконфигурированных программных средств IBM DB2 Warehouse и дополнительных программ для среды ОС Windows, Linux или AIX, а также серверы на многоядерных процессорах AMD, Intel, Power5, Power6 и системы хранения данных IBM. В специализированном устройстве IBM Compliance Warehouse for Legal Control программное обеспечение и технологии IBM Tivoli, Lotus и Cognos обеспечивают контроль, анализ и подготовку отчетности по бизнес-процессам с учетом нормативных требований к обработке данных и документов.
Решение IBM InfoSphere Warehouse with Optim Data Retention обеспечивает построение хранилищ данных, в которых на основе политик и правил управления жизненным циклом данных организовано динамическое взаимодействие оперативной и архивной области хранилища данных.
Бизнес-аналитика, планирование, финансовый анализ
Для проведения бизнес-анализа и управления по результатам, кроме точных данных, которым можно доверять, и высокопроизводительных, масштабируемых и надежных технических средств, необходимы аналитические программы, методология, процессы и соответствующие сервисы.
После приобретения IBM компании Cognos в качестве первого шага были разработаны комбинированные решения, объединяющие технологии обеих компаний (функциональные возможности аналитических решений IBM и Cognos отчасти перекрываются, например, IBM WebSphere Data Federator и Cognos Composite, IBM WebSphere DataStage и Cognos 8 Data Manager, IBM DB2 9.5 Cubing Services и Cognos PowerCube, Applix TM1). Таким образом, на рынке систем бизнес-аналитики, где доминировали специализированные компании, например SAS Institute и SPSS, появился мощный игрок, предлагающий интегрированные решения.
Портфель продуктов IBM для предоставления информации по требованию дополняют типовые решения, которые призваны облегчить внедрение новых технологий. Для реализации хранилищ данных и аналитических систем применяются отлаженные отраслевые модели (IBM Industry Models), ориентированные на специфику конкретных предметных областей и направлений деятельности (финансы, страховая деятельность, розничная торговля, телекоммуникации, медицина, здравоохранение, производство и т.д.). Типовой продукт включает в себя рекомендуемый для данной отрасли или предметной области набор сервисов для управления данными и решения планово-аналитических задач, описание передового опыта и некоторое стартовое ноу-хау: глоссарии бизнес-сущностей модели данных, наборы ключевых показателей, шаблоны и схемы для реализации бизнес-процессов, планы разработки и т.п.
***
Развитие архитектуры сервисов управления данными в IBM рассматривают в качестве катализатора разработок стратегии предоставления информации по требованию. Однако многообразие функций и хитросплетение взаимодействующих компонентов виртуальной среды не всегда однозначно воспринимаются заказчиками. Программная инфраструктура информации по требованию настолько разрослась (в работе над ней сейчас задействовано более 35 тыс. сотрудников), что с каждым новым технологическим приобретением IBM, ее партнерам и заказчикам приходится корректировать стратегические планы. Недавно эта инфраструктура пополнилась продуктами для создания хранилищ данных InfoSphere Warehouse и управления основными данными InfoSphere Master Data Management Server. Этим компания IBM, очевидно, подчеркивает свои достижения в области управления данными и связующего программного обеспечения, одновременно сообщая рынку, что сервисы семейства продуктов InfoSphere для интеграции и обеспечения качества данных, управления основными данными и реализации хранилищ данных предназначены для гетерогенных SOA-сред и адресованы не только пользователям IBM DB2 и Webshere, но и приверженцам других технологий и платформ. Будущее покажет, насколько IBM удастся интегрировать разнообразные продукты для бизнес-анализа (Cognos), управления контентом (FileNet и WebSphere Content Manager), управления данными приложений (Optim) и анализа текстов (OmniFind) в единый набор сервисов.