Сложности по-прежнему есть. Такова, вкратце, суть высказываний администраторов ИС, "воюющих" с проектами хранилищ данных, которые содержат сотни гигабайт информации и более.

Создание и администрирование крупных хранилищ данных, из которых конечные пользователи могли бы быстро получать интересующую их информацию, большей частью - тяжкий неавтоматизированный труд. Накопление данных, поступающих из массы всевозможных систем, поглощает огромное количество ресурсов и требует непрерывного обновления хранилищ в соответствии с изменяющимися деловыми нуждами. Работавшие вначале архитектуры баз данных при увеличении объема хранимой информации могут отказать.

"Обеспечение малого времени реагирования для терабайтного хранилища данных - задача, достаточно сложная, чтобы два-три администратора занимались ею весь рабочий день, - говорит Бренда Монкла, старший директор служб управления информацией и поддержки U.S. West Communications. - Причем на сегодня этот процесс не автоматизирован".

Нельзя сказать, что в мире средств работы с хранилищами данных не появилось ничего нового. В последние месяцы несколько производителей выпустили продукты, автоматизирующие администрирование и мониторинг.

Однако большая часть новых инструментов либо выпускается начинающими компаниями, либо привязана к конкретному аналитическому ПО для конечного пользователя. По словам Монкла и других администраторов ИС, готовых средств создания и пополнения хранилищ данных пока не так уж и много. Это вынуждает компании собственноручно идти на всяческие ухищрения, чтобы заставить хранилища данных побыстрее реагировать на запросы.

"Объем использования хранилища данных настолько велик, что для нормальной работы необходима почти запредельная производительность. Особенно ярко это проявляется у нас - наши отделения собираются поместить в хранилище все свои данные", - говорит Ховард Эдельс, главный администратор ИС CVS.

CVS обладает фармацевтической базой данных в формате Oracle объемом 1 Тбайт и собирается добавить новое хранилище объемом 500 Гбайт для анализа продаж в розничных магазинах своей сети сбыта.

Чтобы достичь приемлемой производительности, CVS приходится постоянно создавать мини-хранилища для бизнес-аналитиков, работающих с определенными наборами данных в течение недели-другой. "Это гораздо удобнее, чем каждый раз обращаться к основному массиву", - утвреждает Эдельс.

Anthem, крупная медицинская страховая компания, снабжает ключами для нахождения данных каждую запись своего хранилища объемом 650 Гбайт. По словам Джо Брускато, консультанта Anthem по базам данных, это должно ускорить обработку запросов конечных пользователей. "Но администраторов ожидает поистине адская работа", - заметил он.

В течение 18 месяцев Anthem работала над проектом объединения трех хранилищ ранее раздельных компаний. Единый пул создавался на основе базы данных Teradata компании NCR. Anthem надеялась воспользоваться готовыми средствами добычи данных, но в конце концов ей пришлось написать собственные "огромные программы на SQL и Коболе" для обеспечения приемлемой производительности, как сказал Брускато.

Преобразование данных в форматы, удобные для быстрой обработки запросов и обобщения информации, - это "невероятно трудоемкая задача, похожая на упражнения в матанализе" - сказал Майкл Уэйд, старший менеджер по системам годовой отчетности MCI Communications.

Уэйд руководит разработкой нескольких хранилищ на основе БД Informix общим объемом 600 Гбайт. "Найти наилучший способ обобщения данных непросто, потому что каждый пользователь имеет свое мнение на этот счет", - отметил Уэйд.

Администраторы хранилищ предупреждают, что решения, связанные с разбиением на более мелкие массивы, могут утратить свою эффективность при увеличении объемов информации. В частности, отделение Lucent Technologies по коммуникационному оборудованию вкладывает более 3 млн. в модернизацию финансового хранилища, объем которого увеличивается с 25 до 250 Гбайт.

По словам Марка Фразье, менеджера отдела финансовых систем, частично деньги пойдут на более мощную систему параллельной обработки от NCR. Оставшаяся часть средств предназначена для перепроектирования базы данных: в связи с увеличением объема хранилища использовавшийся ранее метод предварительного построения всех соединений применять уже нельзя, поскольку такой подход отнимает немало дорогого дискового пространства.


Секреты мастерства при работе с хранилищами данных

  • Помещение подмножеств данных в более мелкие хранилища, которые могут быть как временными, так и постоянными накопителями информации по определенной теме.
  • Создание сводных таблиц, индексов, ключей для нахождения данных и многомерных "кубов", снижающих время обработки запроса.
  • Отслеживание тенденций применения хранилища с помощью внутренних разработок или посредством прямого общения с конечными пользователями. За счет этого система приводится в соответствие с изменившимися деловыми нуждами.
  • Когда уже ничто не помогает, - повышение мощности аппаратного обеспечения.
  • Затраты на киоски и хранилища данных вызывают тревогу

    Разработка киосков и хранилищ данных обходится пользователям недешево, поэтому производители программного обеспечения выпускают пакеты для снижения этих расходов.

    Разработчики программного обеспечения, такие как Oracle и Information Builders, предлагают продукты, которые уменьшают административные и другие расходы на прикладные приложения и средства поддержки.

    Например, пакет Data Mart Suite компании Oracle для Window NT или Unix, стоимостью 39 500 долл., способен несколько облегчить жизнь пользователей. Он включает в себя такие компоненты, как среда разработки киоска данных, база данных Oracle, поддержка Web, и программное обеспечение для очистки данных.

    "Разработка обернулась кошмаром из-за объединения различных систем, к тому же выполнять его приходилось даже для киосков данных, - посетовал Вайян Экерсон, директор подразделений деловой информации и хранилищ данных в компании Patricia Seybold Group. - Даже с новыми, менее дорогими пакетами, разработка киосков и хранилищ данных остается делом накладным. Причем нужно учитывать и стоимость новой аппаратуры, сетевого обеспечения и очистки данных".

    Создание киоска данных, способного обслуживать несколько десятков потребителей, даже если не брать в расчет стоимость нового программного обеспечения, такого, например, как пакет компании Oracle, может обойтись пользователям в 300 тыс. долл., включая оплату консультаций.

    Кроме того, необходимо помнить не только о стоимости, но и о времени, которое понадобится для обучения работе с киоском данных.

    Тем не менее в последние месяцы независимые компании выпустили множество специальных пакетов, чтобы "смягчить удар" от разработок киосков и хранилищ данных. Например, Information Builder предложила пакет SmartMart стоимостью примерно в 50 тыс. долл., который содержит инструменты для создания баз данных, извлечения данных и преобразования их, в том числе и для многомерных баз.

    Компания DataTools снижает цены хранилищ данных различными способами, используя, в частности, Data Optimizer, который уплотняет данные в системах хранения информации в среднем на 400%. По мнению сотрудников DataTools, дисковое пространство является самым дорогостоящим в обслуживании хранилищ данных. Стартовая цена Data Optimizer для управления пространством в 25 Гбайт - 5 тыс. долл.

    Адрес Oracle: http://www.oracle.com; Information Builders: http://www.ibi.com; DataTools: http://www.datatools.com.


    Производители предлагают следующие пакеты, киоски и хранилища данных

    Производитель
    Пакет
    Oracle
    Data Mart Suite
    SAS
    SAS/Warehouse Administrator
    Information
    SmartMart Builders
    Sybase
    Sybase IQ 11.1
    - Пол Крил,
    InfoWorld, США

    Электронные киоски сложны в управлении

    Пользователи требуют все большего от систем хранения данных. По словам администраторов информационных систем, при нынешних бизнес-потребностях довольно сложно создать одно хранилище и остановиться на достигнутом.

    Это означает, что нужно разрабатывать тематические электронные киоски по отделам или проектировать несколько смешанных хранилищ. В любом случае, на администраторов ложится ответственность за распределение ограниченных ресурсов и обеспечение эффективной работы информационных систем, при которой обработка данных произойдет за приемлемое время, а пользователи не будут страдать от избыточной информации. Сложность таких систем может привести к тому, что уйдет лишнее время на разработку и появится необходимость привлечения специалистов со стороны для успешного выполнения поставленных задач. "В основном это вопрос управления", - сказал Том Бурзински, администратор хранилищ торговой информации компании ShopKo Stores. Эта компания, занимающаяся торговлей, старается наладить совместную работу шести электронных киосков, содержащих информацию из разных областей бизнеса. Компания использует СУБД Oracle и параллельные процессоры в системах IBM RS/6000.

    ShopKo надеется, что система позволит эффективнее контролировать цены, полнее удовлетворять требования покупателей и учитывать другие факторы путем анализа накопленной информации. Скорость также важна, так как система связана с обслуживанием клиентов, как отметил Бурзински. Компания рассчитывает получить ощутимые результаты в течение 120 дней. "В противном случае, люди попросту забудут о нашем проекте, - говорит Бурзински. - А мы хотим, чтобы интерес к нашей разработке не пропадал".

    400-гигабайтный электронный киоск, способный хранить ежедневные записи о продажах за три года, будет введен в эксплуатацию в следующем месяце. Второй элемент системы, работающий с ценами на продукцию, вступит в действие в августе. Бурзински предупреждает, что в будущем году общий объем хранилищ данных превысит 1 Тбайт. ShopKo разрабатывает собственную модель данных для поддержания целостности и единообразия. Также создаются программы преобразования данных для устранения проблем совмещения компонентов системы. Бурзински также отметил еще одну очень важную задачу - обеспечение поддержки системы после того, как пользователи начнут ее применять.

    ShopKo - не единственная компания, приступившая к использованию множественных хранилищ данных. "Данные для приложений поддержки принятия решений поступают в таком количестве, что разделение данных будет просто необходимо для поддержания достаточной скорости выполнения запросов", сказал Алан Пэллер, директор по исследованиям и образованию института по хранилищам данных. В этом году "вопрос управления станет приоритетным" для информационных систем, как добавил он.

    Компания CVS имеет хранилище фармацевтических данных объемом почти 1 Тбайт и предполагает в этом месяце добавить еще одно независимое хранилище объемом 500 Гбайт для анализа ценообразования и развития отделов продаж. Однако работникам сети магазинов в Вунсокете, Род-Айленд, пришлось пригласить независимых консультантов, чтобы справиться с возникшими в прошлом месяце проблемами. "Все наши разработчики заняты фармацевтической системой, - сказал Говард Эдлс, глава отдела информации в CVS. - Мы хотим распараллелить загрузку хранилищ, чтобы быстрее повлиять на продажи". Немедленная отдача от применения новой технологии очень важна, так как фирма не хочет проходить полный цикл подтверждения цен до создания нового хранилища.

    Даже для поставщиков компьютерных систем создание хранилищ данных представляет проблему.

    Отдел информационных систем компании Amdahl потратил 12 месяцев на создание инфраструктуры, объединяющей различные киоски данных, параллельно пытаясь реорганизовать работу отделов. "Единственный способ убедить людей в преимуществах новой технологии - это предоставить им практические результаты. Иногда просто приходится подчиняться мнению большинства", - пришел к выводу исполнительный директор Amdahl Джоэн Эшмен.

    Компании понадобится полгода для доработки системы хранилищ данных, использующей Oracle, чтобы исключить необходимость загрузки данных с мэйнфрейма в каждый из шести электронных киосков. "Мы не хотим тратить машинное время на передачу одной и той же информации", - заявил Эшмен.

    Крупная страховая компания Premera столкнулась с аналогичными проблемами. Сейчас она старается разгрузить мэйнфрейм, создав пять киосков данных на базе Oracle. Этот шаг позволит расширить круг пользователей, работающих с базой. Технолог компании Premera Гай Холлинберри сказал, что разбиение хранилища данных не только повысит производительность, но и позволит отделам получать только необходимые им данные.

    Однако до осуществления проекта по созданию нового хранилища еще предстоит решить вопрос о синхронизации данных и сохранении целостности в масштабах всей компании. "Технология - это только один из аспектов, - сказал Холлинберри, выражая мнение других пользователей. - Но для того, чтобы управлять подобной системой, необходимо создать соответствующую инфраструктуру".

    - Крейг Стедман,
    Computerworld, США