Практические шаги по развертыванию корпоративной системы бизнес-интеллекта

Пожалуй, самый поразительный парадокс, связанный с управлением данными, состоит в том, что рабочие системы — критически важные приложения, которые служат основой повседневного потока работ в организации, — хранят огромные объемы информации, которую при этом практически невозможно использовать для принятия решений. Бухгалтерские, производственные и другие системы предназначены в большинстве своем для поддержки большого числа периодически повторяющихся транзакций, а не для помощи руководителям компании, принимающим решения.

Многие такие системы опираются на данные о транзакциях, которые хранятся в соответствующих реляционных таблицах. Подобные нормализованные схемы помогают в производстве и ограничивают избыточность. Но одновременно они мешают адекватной поддержке принятия решений, поскольку нормализованные данные трудно анализировать. Технологии хранилищ данных позволяют устранить эти недостатки за счет создания относительно ненормализованных репозиториев данных и дают конечным пользователям возможность быстро и интуитивно анализировать данные в рамках общего решения управления бизнес-знаниями. Должным образом тщательно спроектированное и широко используемое хранилище данных позволяет компании получить существенные преимущества перед конкурентами.

Рассмотрим ситуацию, когда в компании нет средств бизнес-интеллекта. Конечные пользователи не имеют времени, навыков и инструментальных средств для сбора данных из рабочих систем, и должны полагаться на мнение людей, которые выступают как «программирующие посредники», создавая для них программы формирования запросов и подготовки отчетов. В этой ситуации пользователи вынуждены постоянно разыскивать необходимые данные, а программисты пытаются адекватно поддерживать бесконечный поток все новых запросов.

Давая пользователям возможность самостоятельно извлекать и анализировать интересующую их информацию, хранилища данных оказывают огромную помощь руководителям, принимающим решения, и позволяют программистам сосредоточиться на решении иных задач. Если вы всерьез собираетесь поставить возможности хранилища данных на службу своей организации, особое внимание следует уделить четырем этапам этой работы.

Планирование проекта

Перед тем как начинать проектирование хранилища данных, следует выяснить, нужно ли вашей организации хранилище данных для обработки общекорпоративной информации, или требуются киоски данных для конкретных подразделений, или же требуется и то и другое.

Корпоративные хранилища данных (или просто хранилища данных) требуют намного больше ресурсов и времени на их создание, нежели киоски данных. Поэтому в большинстве организаций предпочитают вместо корпоративного хранилища реализовать несколько киосков данных. Помимо более быстрого возврата инвестиций этот подход имеет ряд дополнительных преимуществ. Во-первых, киоски данных предъявляют более скромные требования к вычислительным мощностям, оперативной памяти и дисковому пространству, чем корпоративные хранилища данных. Вдобавок киоски данных наполнять, поддерживать и модифицировать намного проще. Наконец, время ответа при обработке запросов для киосков данных меньше, чем для хранилищ.

Киоски данных легче адаптировать; их можно создать такими, чтобы они отвечали потребностям конкретного подразделения или даже отдельных сотрудников. Конечно, киоски данных не содержат общекорпоративную информацию, поэтому они не могут поддерживать анализ, для которого необходимы разнородные данные. К примеру, корпоративные хранилища данных могут содержать информацию о продажах, сделанных заказах и товарообороте, которая подходит для сравнительного анализа, но киоск данных обычно подобную разнородную информацию не содержит. Крупные организации, обладающие необходимыми ресурсами, могут предпочесть реализацию обоих решений.

Затем необходимо очертить сферу применения создаваемой системы в соответствии с содержимым (какие данные будут в ней размещаться), аудиторией (кто сможет получить к ней доступ), расположением (где будут храниться данные) и инфраструктурой (каким образом будет осуществляться поддержка данных и доступ к ним). Только после того как определен диапазон и степень детализации содержимого системы, появляется возможность оценить, какой мощностью процессоров и какой емкостью дисковой памяти должны обладать серверы.

Выбор правильных продуктов

Анализируя возможности серверов и баз данных, следует иметь в виду несколько основных критериев. Во-первых, обратите внимание на масштабируемость базы данных и платформы. Если хранилище данных будет содержать сотни миллионов записей, необходима СУБД уровня предприятия, такая как Oracle, Sybase, Informix или IBM DB2, а также 64-разрядная вычислительная платформа. Если планируется создавать относительно небольшие киоски данных, вполне достаточно воспользоваться 32-разрядными решениями, такими как NT Server и Microsoft SQL Server.

Если предполагается развертывать приложения оперативной аналитической обработки (OLAP — OnLine Analitical Processing), база данных может не потребоваться вовсе. Продукты OLAP имеют собственные интегрированные базы данных, способные содержать миллионы записей. Однако в любом случае полезным свойством избранной платформы может быть кластеризация, чтобы в случае необходимости можно было объединить ресурсы нескольких машин.

Выбор открытой платформы — еще один важный вопрос, особенно для тех организаций, которые образовались в результате слияния или приобретения одной компании другой, поскольку источники данных в этих случаях зачастую размещаются в разных средах. В зависимости от инфраструктуры сети и приложений могут понадобиться продукты, которые поддерживают интерфейсы ODBC; Distributed Relational Database Architecture 2; X/Open SQL Call Level Interface; ANSI SQL; Data Access Language Apple; протокол TCP/IP; Advanced Program-to-Program Communication; Advanced Peer-to-Peer Networking; службы ОС, соответствующие стандарту POSIX, на которые ориентируются поставщики Unix-приложений. Набор обязательных интерфейсов может существенно разниться в зависимости от создаваемой системы. Скажем, если предполагается организовать доступ к системе через Web, следует особое внимание обратить на поддержку протокола TCP/IP.

Безусловно, при выборе необходимо учитывать и приверженность компании к какой-то конкретной платформе. Навыки программирования и администрирования баз данных не так-то легко переносятся с одной платформы на другую, поэтому если в организации используется, к примеру, программное обеспечение Oracle, имеет смысл и в области бизнес-интеллекта выбирать решения, ориентированные на эту платформу.

Выбор средств тиражирования

На этом этапе реализации проекта необходимо подготовить план переноса данных в хранилище. Следует рассмотреть три процесса: получение данных, их преобразование и распространение.

Эти процессы иногда также называют извлечением (extraction), преобразованием (transformation) и загрузкой (loading) данных.

Первое техническое препятствие, которое необходимо будет разрешить, — это получение исходных данных. Следует подготовиться к тому, что придется потратить немало времени на опрос пользователей с тем, чтобы выяснить, какие именно данные необходимо собирать и где их нужно размещать. Поскольку операционные данные часто хранятся в сложных базах данных на различных платформах, надо рассмотреть использование отчетов как дополнительный источник информации. Отчеты скрывают сложность используемых для их подготовки баз данных. Возможность генерации отчетов предусмотрена в большинстве систем.

Затем необходимо создать процедуры преобразования для денормализации, объединения, комментирования, фильтрации и удаления ненужной информации для данных, размещаемых в хранилище. В ходе этой работы, скорее всего, придется столкнуться с различными структурами баз данных, несогласованностью имен полей, недостаточно подробной документацией и неточными данными. Чтобы максимально сократить создание специальных программ, я бы порекомендовал использовать инструментальные средства преобразования на базе таблиц, предлагаемых Ardent, IBM, ETI, Informatica и целым рядом других компаний.

До того как данные действительно будут преобразованы, следует решить, нужно ли тиражировать данные постоянно, или достаточно делать это периодически. Периодическое тиражирование выполняется по расписанию (ежедневно, еженедельно и так далее) или может проводиться в случае возникновения определенных событий, например по завершении расчетного периода. Недостаток такого подхода в том, что изменения в операционных данных не будут сразу отражены в хранилище данных, поэтому конечные пользователи не смогут работать с самой последней информацией.

Если периодическое тиражирование кажется недостаточным, проанализируйте возможность постоянного тиражирования. В таком случае тиражирование происходит в реальном времени по мере того, как пользователи сохраняют данные в операционных системах. Однако постоянное обновление трудно реализовать, поскольку система должна обладать достаточными вычислительными ресурсами для того, чтобы удовлетворять требованиям пользователей, параллельно копируя данные в файлы для хранилища данных.

Кроме того, обновление в реальном времени требует организации выделенного коммуникационного канала с большой пропускной способностью между системой бизнес-интеллекта и хранилищем данных. Наконец, поскольку хранилища и киоски данных содержат предварительно обработанную информацию в компактных структурах данных, обычно просто нет возможности для преобразования данных в реальном времени. Обновление этих баз данных обычно требует значительных промежутков времени и, как правило, выполняется по выходным.

В любом случае необходимо решить, следует ли полностью обновлять информацию, или достаточно использовать программы, реализующие инкрементальный подход. В первом случае хранилище данных полностью очищается перед переносом в него нового варианта данных. Во втором — новые данные добавляются к существующей информации. Полное тиражирование требует меньшего планирования, и его проще реализовать. Обычно этот подход используют для обновления небольших киосков данных, которые не требуют интенсивной предварительной обработки.

Правильное представление данных

Теперь, когда создан «двигатель» и залито «горючее» для хранилища данных, необходимо предоставить информацию конечным пользователям. По аналогии со спортивными автомобилями — система должна хорошо работать, привлекательно выглядеть и быть простой в управлении. В противном случае все затраты, которые были сделаны до сих пор, пойдут прахом.

Правильно выбрав системы формирования запросов, электронные таблицы, инструментарий оперативной аналитической обработки и средства формирования отчетности, можно обеспечить успех проекта в целом. Системы формирования запросов используются для извлечения данных из корпоративных хранилищ и крупных киосков данных. Следует обратить внимание на инструментарий, который позволяет вести обработку на естественном языке, на продолжительность обработки и получения результатов, обеспечивает параллельную обработку внутренних и внешних запросов, а также поддерживает многочисленные источники данных и инструментальные аналитические средства на базе ПК.

Благодаря широкому распространению, активному использованию и относительной дешевизне электронные таблицы стали популярным инструментарием в области систем бизнес-интеллекта. Как минимум, хранилище данных должно позволять экспортировать данные в Lotus 1-2-3 и Microsoft Excel. Еще лучше, если оно снабжено модулями расширения для интеграции с электронными таблицами.

Создаваемое хранилище данных должно также поддерживать приложения OLAP. Эти программы хранят данные в специализированных базах данных, называемых «кубами решений», и дают пользователям возможность анализировать данные благодаря простой подстановке ключевых бизнес-параметров (продуктов, потребителей, регионов) и таких характеристик, как количество и стоимость. Основные программные продукты в этой области предлагают компании Brio, Business Objects, Cognos, Hyperion, Silvon, ShowCase и ряд других.

Помимо интерактивного анализа данных пользователям необходимо готовить отчеты. Создаваемая система должна содержать модуль генерации отчетов, позволяющий объединять текст и графику и поддерживающий параметры отбора данных, определения на уровне комментариев, производные поля и другие базовые требования к формированию отчетности. Среди всех инструментальных средств представления и анализа данных следует выбирать генератор отчетов, который поддерживает доступ в Internet. Наиболее популярные средства формирования отчетности предлагают Actuate, Cognos, Oracle, Seagate, Silvon и другие компании.

Поскольку хранилища и киоски данных дают пользователям возможность анализировать информацию новыми способами, вполне вероятно, что это скажется на критически важных бизнес-процессах и метриках, позволит увеличить рентабельность и даст организации конкурентные преимущества. При адекватном планировании и выборе правильного инструментария пользователи в полной мере подготовятся к реализации всех преимуществ данной технологии.

Скотт Стейначер (ssteinach@aol.com) — технический редактор журнала NEWS/400 и автор книги Data Warehousing and the AS/400 («Хранилища данных и AS/400»), вышедшей в издательстве 29th Street Press


Что дает и чего не может дать хранилище данных

Принимая критически важные решения в области бизнеса, менеджеры обычно полагаются на анализ данных. В приведенных ниже примерах менеджеру необходимо проанализировать данные о продажах. При наличии хранилища данных (справа) менеджер по продажам может обратиться с запросом и самостоятельно оценить полученную информацию. В противном случае (слева) для извлечения данных придется обратиться за помощью к программисту.

Преимущества хранилища данных

  • Отсутствие информационного посредника сокращает число невыполненных заказов
  • Повторный анализ может проводиться столько раз, сколько это необходимо
  • Использование киоска данных не снижает производительности операционной системы
  • Увеличение числа аналитических функций и совершенствование возможностей генерации отчетов

Хранилище данных - шаг за шагом

  1. Определите стратегическое направление. Решите, нужно ли вашей организации хранилище данных, содержащее всю корпоративную информацию, киоски данных с информацией по определенной тематике, либо и то и другое
  2. Выберите сервер и базу данных. Остановитесь на платформе, поддерживающей открытые стандарты, и базе данных, которая предлагает оптимальное сочетание масштабируемости, надежности, функциональности и совместимости
  3. Определите стратегию тиражирования. Выясните, где расположены источники информации и как вы намерены получать, преобразовывать и тиражировать данные с помощью своих приложений бизнес-интеллекта и поддержки принятия решений
  4. Выберите инструменты предоставления и анализа данных. Выбирайте инструментарий формирования запросов, оперативной аналитической обработки и генерации отчетов, которые предоставляют конечным пользователям доступ к развертываемой системе

Web-сайты, посвященные хранилищам данных

Более подробную информацию об организации и использовании хранилищ данных можно найти в следующих Internet-источниках.

  • Сайт независимого консультанта Ларри Гринфилда (http://pwp.starnetinc.com/larryg) является неплохим источником информации о хранилищах данных и соответствующих программных продуктах
  • Сайт, организованный ведущими производителями систем OLAP (http://www.olapcouncil. org), предлагает посетителям развернутую информацию об этой технологии
  • Сайт Найджела Пендса и Ричарда Гриса по адресу http://www.olapreport.com — для тех, кто интересуется рынком OLAP-приложений. Часть содержащейся здесь информации предоставляется только подписчикам
  • IntelliBusiness (http://www.datawarehousingonline.com) предлагает прекрасные исследования, статьи ведущих консультантов, пресс-релизы, новости и исчерпывающую информацию о продуктах
  • Сайт, организованный производителем систем тиражирования с преобразованием — компанией Datamirror (http://www.datawarehousing.com), предлагает посетителям информативные статьи, документы и ссылки на полезные ресурсы
  • Официальный сайт Института хранилищ данных Data Warehousing Institute (http://www.dw-institute.com) содержит информацию о конференциях и иных событиях, исследования, а также интерактивный дискуссионный форум и каталог продуктов
  • Сайт, созданный при поддержке ряда ведущих производителей (http://www.datawarehousing.org), ведет некоммерческая организация; его категории: литература, продукты, услуги и события
  • Организованный компанией PingNetworks. com сайт (http://www.datawarehouseforum.com) может похвастаться информативными статьями, документацией, свежими отчетами и интересными дискуссионными группами