Заслон на пути грязных данных

В последнее время только и слышишь об очередном «сдвиге парадигмы», о датацентричных системах, о SAN, о новых средствах передачи и хранения информации. И вправду, объемы хранимых данных возрастают с такой скоростью, что даже привычных единиц измерения уже не хватает. Появляются устройства, способные хранить на одном шпинделе сотни гигабайт, пространство хранения виртуализируется...

Однако по большей части все относящееся к управлению и хранению данными можно назвать своего рода логистикой, если следовать определению: «ЛОГИСТИКА — наука о планировании, контроле и управлении транспортированием, складированием и другими материальными и нематериальными операциями». Логистике и логистикам по природе своей безразлично ЧТО, важно КАК.

Но нельзя же все ограничить одной логистикой, жизнь разнообразнее и богаче, а на первом месте, если дело касается информации, стоит содержание. Возникает естественный вопрос, а оправдано ли хранить данные в неимоверных количествах, каков коэффициент полезного действия хранилищ данных, не забиты ли все тера- и петабайты мусором? С мультимедийными данными все понятно, а вот разрастающиеся алфавитно-цифровые, кто и как может контролировать их качество? Адресованный производителям, этот вопрос выглядит крамольным. Но больше адресовать его было некому, так вопрос до поры и оставался открытым. И вдруг совсем недавно он стал актуализироваться, а во второй половине 2001 года ответы на него посыпались, будто из рога изобилия.

Многие теперь начинают говорить о проблеме «грязных данных», которая особенно обостряется, когда пытаются интегрировать данные, накопленные в разных базах или вовсе извлекаемые из неэлектронных источников. Кто может сказать, что в них хранится мусор или золото? В одной из статей было сказано так: «Информация это сила, и это так, но плохая информация хуже, чем ее отсутствие вовсе. Лучше уж не знать чего-то, чем иметь ошибочное представление».

Оказалось, одними из первых с проблемой качества накопленных данных столкнулись заказчики и разработчики систем управления отношениями с клиентами (CRM — customer relationship management). Функционирование систем CRM, по признанию большинства авторитетов в этой области, всерьез затрудняет такие проблемы, как ошибочность и неполнота данных. Один и тот же пользователь может именоваться в разных источниках как И. Иванов, И.И. Иванов, Иванов И., Иванов И.И., Иван Иванов, Иванов Иван, Иван Иванович Иванов и, наконец, Иванов Иван Иванович. Но это не все, еще ведь могут быть ошибки. Gartner Group в своем отчете, опубликованном в июле 2001, года, констатировала, что свыше 75% предприятий, пытающихся внедрить CRM, не могут добиться позитивного результата, т. е. реализовать имеющиеся у них данные о клиентах в форме полезных советов и рекомендаций своим сервисным и торговым службам. Причина, по мнению Gartner, кроется в «подлинном информационном кризисе, вызванном противоречивостью, недоступностью, неверностью и отсутствием синхронности информационных источников». Дела обстоят настолько плохо, что, по меньшей мере, 80% организаций недооценивают время и средства, потребные для упорядочивания данных, а перерасход средств на проекты, вызванные необходимостью очистки данных, составляет от 200 до 300%.

Пожалуй, самое полное представление о состоянии дел в области качества данных дает отчет Global Data Management Survey 2001, подготовленный компанией PricewaterhouseCoopers. Его можно назвать печальным. Отчет находится в открытом доступе, рекомендую как очень полезное чтение. Исследование построено на основании репрезентативного опроса 599 компаний разного размера, расположенных в США, Европе и Австралии. Полученные результаты дают основание считать, что глобальные издержки из-за низкого качества данных составляют свыше 1,4 млрд. долл. в год, при общей тенденции к росту. С проблемами «грязных данных» сталкиваются примерно 75% компаний. Острота вопроса обостряется тем, что даже в развитых странах примерно половина управляющих в традиционных компаниях и почти четверть в компаниях, связанных с электронным бизнесом, не рассматривают информацию как важнейший корпоративный ресурс.

Помимо обязательных организационных форм борьбы появились и соответствующие новые технологии. Ответом на сложившуюся ситуацию стало новое направление, которое называют Data Content Analysis или Data Profiling (профилирование). Иногда также используют термины data cleansing (очистка), scrubbing (промывка), или даже house-holding (уход за домом).

Программное обеспечение, относящееся к этой области, позволяет автоматически распознавать и фильтровать данные и, таким образом, обеспечивает последующую процедуру их эффективной миграции и интеграции. Эти технологии позволяют снизить риски проектов и повысить качество данных.

В основе профилирования данных лежат сложные алгоритмы анализа контента, структуры и внутренних взаимосвязей в традиционных реляционных СУБД. Работа обычно выполняется в три, казалось бы, очевидных последовательных этапа.

Профилирование столбцов включает анализ значений в каждом поле исходных данных, позволяющий сделать вывод о характеристиках столбца, включая типы и размеры данных, диапазон значений, частоту повторения и распределение значений, уникальные особенности.
Профилирование зависимости анализирует данные по строкам и выявляет связи, существующие между атрибутами в каждой таблице. Оно обнаруживает первичные ключи (primary key) и области, где какие-то взаимосвязи обнаруживаются, но всегда, они называются серыми (gray-area dependency). Последними обычно и определяется качество данных.
Профилирование избыточности выполняет межтабличное сравнение данных, стараясь обнаружить перекрытия или идентичные значения, обнаруживаются синонимы и омонимы, а также избыточные данные, которые могут быть удалены.

Эти процессы завершают создание нового отображения (data mapping) с целью получения полностью нормализованной реляционной модели. Затем пользователь может модернизировать модель, переведя ее в удобную для себя форму.

Системы, относящиеся к этому классу, обеспечивают интеллектуальное согласование интегрируемых баз данных. В настоящее время на рынке действуют в основном две компании: Evoke Software, предлагающая программный продукт Evoke Axio стоимостью от 400 тыс. долл. до нескольких миллионов в зависимости от конфигурации, а также Metagenix со своим Metarecon, находящимся в ценовой нише от 25 тыс. до 300 тыс. долл. По цене видно, что пока эти решения ориентированы на компании, попадающие в списки Fortune, но проблема, которую они решают, конечно же, более общая.

Лидером направления признана Evoke Software, компания, созданная в 1996 году. В отличие от других начинающих компаний Evoke создали ветераны. Если посмотреть послужной список топ-менеджеров, то в нем людей, имеющих производственный стаж меньше четверти века, не найдется. Все они прежде работали в самой IBM или близких к ней компаниях.

Основной продукт Evoke Axio предназначен для предприятий, переходящих на новые приложения категорий CRM и EAI (Enterprise Integration Application — «интеграция приложения предприятия»), а также готовящихся к слияниям. Axio позволяет проанализировать информационные системы прежде интеграции, он помогает выявить скрытые места, оценить качество данных, несогласованности, обычно остающиеся незамеченными.

Пакет Axio построен вокруг центрального репозитория и содержит несколько отдельных компонентов.

Axio Data Profiling анализирует существующие источники данных, раскрывает их контент, структуру и качество, а в завершение строит нормализованную модель данных.
Axio Data Mapping используется для создания целевых баз данных.
Axio Fixed Target Mapping отображает данные в форматы существующих приложений электронного бизнеса, хранилищ данных, систем CRM и ERP.
Axio Import извлекает данные из различных источников и формирует реляционную модель.
Axio Source Profiler использует данные из источников в корпоративной сети, необходимые для управления источников процессом импорта и подготовки в Axio Import.
Evoke Repository хранит данные, подготовленные в Axio.
Data Profiling & Mapping делает данные доступными другим компонентам или продуктам от третьих фирм. Для упрощения работы включен Evoke Repository Navigator, обеспечивающий интерфейс к хранимой информации.

Metagenix — компания, созданная примерно в то же время и с той же целью, явно моложе, но тоже не из новичков. На сайте Metagenix, в отличие от Evoke, можно найти документацию, которая может послужить хорошим введением в предмет. По идеологии продукты компании очень близки к тому, что делает Evoke, но у нее иначе устроена линейка продуктов, в нее входят:

Metaquick, продукт с наименьшей функциональностью, работающий на однопроцессорной рабочей станции под управлением ОС Windows;
Metarecon Desktop, обладающий почти полной функциональностью, но способный работать только на одной клиентской машине и одном сервере;
Полнофункциональная система Metarecon Enterprise с характеристиками, близкими к Axio, может работать под управлением Unix.

На дороговизну продуктов, производимых Evoke Software и Metagenix, можно взглянуть двояко. С пользовательской позиции понятно, что без особой нужды покупка такого инструментария не рациональна. Однако, быть может, ограниченность предложений на рынке и их высокая цена станут стимулом для отечественных разработчиков испытать себя на этом поприще.

Даже в развитых странах примерно половина управляющих в традиционных компаниях и почти четверть в компаниях, связанных с электронным бизнесом, не рассматривают информацию как важнейший корпоративный ресурс.