"Если помещать в склад данные низкого качества, то в конце концов и решения окажутся никудышными", - говорит Роберт Крейг, аналитик компании Hurwitz Group.
Опрос, проведенный Data Warehousing Institute в 1997 году среди 320 человек, показал, что проблема качества данных является для них первостепенной.
Выбор правильного инструмента - не единственная проблема при определении "чистоты" данных. По мнению пользователей, четкость структуры коллекции данных, процессы отбора, а также набор метаданных и информация об источнике также имеют большое значение.
Среди обслуживающего персонала склада данных NDC/Health Information Services более 30 человек работают над улучшением качества поступающей информации.
"Наша деятельность напрямую связана с данными, поэтому мы не жалеем средств, чтобы быть уверенными в точности получаемой информации", - сказал директор NDC Алан Хиршман.
Построенный на основе технологии DSS компании Microstrategy склад данных NDC поддерживает проверку данных.
Для выявления статистических аномалий NDC использует статистические пакеты SAS Institute. Например, если данные говорят о том, что врач в течение месяца выписал 3000 рецептов (совершенно нереальное число), то персонал отдела информационных технологий сообщит об ошибке. Компании, для перевода информации с мэйнфрейма в реляционную базу данных, пришлось разработать собственные программы на языке Cobol.
Чтобы обеспечить целостность данных, проводится работа по преобразованию кодов, используемых в программах мэйнфреймов, к виду, понятному для пользователей. Например, в программе число 1 может применяться в качестве кода операции выписки счета. Тогда оно должно быть преобразовано во фразу "выписать счет".
Отдельной задачей является обновление данных. Независимый консультант, принимавший участие в организации склада данных одной из крупных телекоммуникационных компаний, вспомнил по этому поводу случай, когда архив заказчика исчез вследствие смены номера телефона.
На рынке по-прежнему высок спрос на программное обеспечение, поддерживающее такие функции, как отображение адресов и имен, позволяющие избежать хранения избыточной информации.
По словам одного из должностных лиц корпорации Oracle, разница в специфике работы с данными при их складировании и при проведении операций должна быть учтена еще на этапе разработки информационного хранилища. Например, правильность почтового индекса не столь важна при отправке корреспонденции, но может вызвать серьезные трудности при проведении маркетинговой политики, основанной на информации из склада данных.