ЗОЛОТАЯ ЖИЛА ИНФОРМАЦИИ НАЙДЕНА? НИКТО НЕ МОЖЕТ СКАЗАТЬ НАВЕРНЯКА, НО ДОБЫЧА ДАННЫХ ЗАСТАВИТ МНОГИХ ПОЛЬЗОВАТЕЛЕЙ СЕТИ ПОКОПАТЬСЯ В БАЗАХ ДАННЫХ СВОИХ ОРГАНИЗАЦИЙ В ПОИСКАХ ЗАРЫТЫХ СОКРОВИЩ.
ОПРЕДЕЛЕНИЕ ДОБЫЧИ ДАННЫХ
ПРОЕКТ ДЛЯ ДОБЫЧИ
ОСВОБОЖДЕНИЕ МЕСТА ДЛЯ ДАННЫХ
НАДЕЖНЫЙ И БЕЗОПАСНЫЙ
КИРКА И ЛОПАТА
ГИГАБАЙТ ЗА ГИГАБАЙТОМ
Шумихи вокруг добычи данных ничуть не меньше, чем в свое время вокруг искусственного интеллекта и систем автоматизированного проектирования. Разница только в том, что первые два направления развивались преимущественно небольшими поставщиками, а в рассматриваемом нами случае бразды правления держат такие гиганты, как IBM и AT&T.
Однако, несмотря на участие последних, добыча данных - это всего только формирующийся сектор рынка. Он настолько незрел, что поставщики и эксперты не выработали даже определения добычи данных. Поэтому никто не вправе утверждать на законном основании об инструменте или базе данных, будто они обеспечивают средства для добычи данных. Подобная информация может стать откровением, если вы читали не жалеющие ярких красок бюллетени для прессы о том, как организация может использовать добычу данных для повышения доходности вследствие лучшего понимания клиентов.
В наиболее успешных реализациях поиск необнаруженных образцов в данных компании осуществляют мощные параллельные процессоры и приложения с изощренными алгоритмами. Обнаруженные образцы помогают организации предвидеть запросы, разрешать претензии и предупреждать пожелания клиентов. А то, что некоторые поставщики продвигают как добычу данных, может оказаться совсем иным - все зависит от точки зрения. Иными словами, добыча данных отнюдь не проще электронной таблицы.
Вы в замешательстве? Тогда прочтите эту статью.
ОПРЕДЕЛЕНИЕ ДОБЫЧИ ДАННЫХ
Добыча данных производится сложнейшими инструментами из разряда инструментов поддержки принятия решений. Майкл Сейлор, президент и исполнительный директор поставщика программных средств MicroStrategy, говорит, что простейшие инструменты представляют собой информационные системы руководителя с генерацией ограниченного числа высокоуровневых отчетов.
Системы поддержки принятия решений более сложны. Эти системы предоставляют возможность пользователям выбирать параметры при генерации большего числа отчетов; при помощи произвольных фильтров они позволяют создавать отчеты на лету.
Самые сложные инструменты - те, что используются для добычи данных, - дают пользователям средства для создания отчетов об исключительных состояниях или о результатах обследования.
Наибольшим успехом добыча данных пользуется у реселлеров, использующих ее для выявления ранее необнаруженных образцов в заказах своих клиентов. Например, работающие с кредитными карточками компании, определив клиентов, купивших купальный костюм и записавшихся на уроки подводного плавания, посылают им затем купоны для получения скидки при путешествии на Карибы. Сеть универсальных магазинов, проанализировав покупательские корзины, приходит к выводу, что покупающие косметику покупают вместе с ней и поздравительные открытки. В результате им удается увеличить продажу и косметики, и открыток за счет того, что оба вида товаров теперь продаются в одном отделе.
Каждый из этих информационных "самородков" помогает "добытчикам" увеличить прибыль, повысить уровень обслуживания клиентов и, следовательно, добиться преимущества в конкурентной борьбе.
Первые успехи добычи данных породили активный спрос на приложения и инструменты. Пять лет назад рынок инструментов для добычи данных насчитывал не более 10 поставщиков. Сегодня рынок может похвастаться свыше 50 малыми и средними компаниями, не говоря уже об отраслевых гигантах.
Однако, как правило, компании предлагают на рынке инструменты, оцениваемые экспертами как ложные. Вместо поиска необнаруженных образцов многие из предлагаемых решений суммируют оперативные данные новыми способами, после чего пользователи могут подавать запросы при помощи изощренных инструментов. Эксперты рассматривают их как новое поколение изощренных инструментов поддержки принятия решений, а не как истинные инструменты добычи данных, потому что основной функцией этих систем проверки является анализ статистики, позволяющий аналитику подтвердить или опровергнуть некоторые предположения.
"Термин "добыча данных" используется и поставщиками и пользователями неверно, - говорит Брюс Лав, директор исследовательского отдела Gartner Group, занимающейся анализом рынка. - Это вполне определенный процесс, и этот процесс - обнаружение, а не проверка образцов данных". Gartner Group определяет добычу данных следующим образом.
"Добыча данных - это процесс, цель которого обнаружить новые значимые корреляции, образцы и тенденции в результате просеивания большого объема хранимых данных с использованием методик распознавания образцов плюс статистических и математических методов".
Добыча данных включает системы предсказуемого моделирования, системы группировки, системы обнаружения ассоциаций и систем регистрации отклонений (см. Рис.1 с сопоставлением инструментов добычи данных и поставщиков баз данных в версии Gartner Group).
(1x1)
Рисунок 1.
Gartner Group составила из инструментов добычи данных пирамиду в соответствии
с их возможностью предоставить новаторское исчерпывающее решение в области
информационных технологий.
Добыча данных используется в настоящее время только в "редких организациях по обслуживанию заказчиков, - считает Роберт Моран, директор по исследованию поддержки принятия решений в Aberdeen Group. - Речь идет о сложной технологии, она по силам только специалистам, а не обычным пользователям".
"Сейчас мы только запрягаем и понукаем, - соглашается Брайан Мак-Гилл, менеджер по разработкам одной из линий программных продуктов для добычи данных в Kenan Systems. - Большинство людей относятся не слишком серьезно к [подлинным] решениям по добыче данных".
Даже если они не заинтересованы в полновесных решениях по добыче данных, многих пользователей локальных сетей все же манит перспектива нахождения информационного самородка. Поставщики стараются привлечь внимание потенциальных заказчиков изобилием продуктов и решений якобы по добыче данных. Прежде чем искать на полках компьютерных салонов предложения по добыче данных, администраторы локальных сетей должны определиться с аппаратной платформой и проектом сети.
ПРОЕКТ ДЛЯ ДОБЫЧИ
Мощные системы добычи данных не терпят ошибок в проекте. Даже небольшая избыточность и неэффективность ведет к образованию заторов при опросе многогигабайтных или терабайтных хранилищ данных сложными многомерными запросами. "Значимость архитектуры с ростом объема данных возрастает нелинейным образом, - говорит Сейлор из MicroStrategy. - Так, вполне вероятно, что небольшой изъян не вызовет никаких последствий в одноэтажном здании, но приведет к разрушению 50-этажного небоскреба. Грубая сила редко, если вообще когда-либо, становится решением для такого рода систем".
Параллельная обработка - это краеугольный камень для создания успешной системы добычи данных. Так как каждый запрос запрашивает данные из различных хранилищ, обрабатывает их с использованием устройств ввода/вывода, а также выполняет итеративную сортировку и объединение, то последовательные процессоры возвращают ответ на запрос только через несколько дней или недель, если вообще это делают. Параллельные процессоры же разделяют запросы на крохотные куски и затем распределяют их между несколькими ЦПУ, извлекающими информацию параллельно.
Появление сравнительно недорогих систем параллельной обработки дало возможность поставщикам повысить сложность программного обеспечения добычи данных. Традиционные приложения поддержки принятия решений были зачастую ограничены двухмерными запросами, например: "продажа за ноябрь [деятельность и период времени]". Благодаря параллельной обработке многие приложения для добычи данных стали ставить многомерные запросы, например: продажа сезонных товаров в северовосточном регионе в ноябре месяце [деятельность, товар, география, период времени].
После параллелизма проектировщики сетей должны рассмотреть передаваемый по сети объем данных. Если пользователям будет разрешено подавать сложные запросы или производить поиск в крупных корпоративных базах данных, то без мощных серверов и процессоров не обойтись. Предположим, новая кампания по рассылке каталогов торговой компании может потребовать поиска в 50 Гбайт данных о 25 миллионах клиентов. При неадекватном проекте такой поиск может полностью исчерпать пропускную способность системы.
Помимо объема данных, отдельный вопрос - сколько пользователей одновременно может осуществлять проверку на соответствие данных. Эвангелос Симодиус, директор по решениям в области добычи данных в IBM, приводит пример финансовой компании, использующей добычу данных в подразделении по исследованиям конъюнктуры и выработке стратегии. Операции одного типа могут одновременно выполнять до 15 пользователей, при этом некоторые из них просматривают данные объемом 30 Гбайт.
Здравомыслящие проектировщики сетей структурируют обычно сети для добычи данных одним из двух способов: либо они используют большой центральный сервер для хранения данных и обращаются к нужным секторам данных только для обработки, либо они извлекают компоненты из складов данных и передают нужные части в меньшие вместилища данных. Типичная конфигурация дает возможность пользователям генерировать запросы с рабочей станции, затем запросы посылаются по локальной сети (обычно в виде того или иного запроса на SQL) суперсерверу, осуществляющему анализ и возвращающему ответ.
Большинство проектировщиков сетей делят данные. Некоторые используют специализированные небольшие склады данных, называемые ярмарками данных, или даже меньшие копи данных. Эти хранилища подразделяют данные в зависимости от назначения (например, инвентарные данные) или по имени заказчика (например по заказчикам, фамилии которых начинаются с буквы "А"). Это позволяет осуществлять добычу данных в меньших объемах данных, экономя время и затраты на обработку.
Кое-где ярмарки данных, первоначально оптимизированные для добычи, затем подразделяются в соответствии с назначением. Каждая группа в корпорации использует отдельное хранилище данных, предоставляемое центральным хранилищам данных или даже более крупным ярмаркам данных. Разделение данных таким способом позволяет увеличить эффективность добычи данных и снабдить хранилища информацией, необходимой конкретным приложениям. Поле, не включенное с самого начала в склад данных, возможно затем включить во вместилище данных, так что информация может быть отслежена на уровне подразделения. Данный комментарий принадлежит Камрану Парсайе, президенту и исполнительному директору Information Discovery, поставщика систем добычи данных и консалтинговой компании. "Я думаю, что [ярмарки данных] должны хорошо работать в локальных сетях", - говорит он.
Некоторые компании делают небольшие ярмарки данных доступными отдельным приложениям с сохранением доступа к другим корпоративным данным; некоторые создают ряд мелких ярмарок данных вне центрального склада данных, ограничивая доступ в зависимости от пользователя. Если склад данных построен правильно, то, как говорит Донна Прлич, менеджер по развитию рынка в Sun Microsys-tems, "причин, почему бы пользователи небольших локальных сетей при необходимости не могли бы находить все нужные данные, нет".
По словам Симодиуса, подразделение по добыче данных в IBM рекомендует классическую трехзвенную логическую архитектуру для поддержки приложения по добыче данных. При этой схеме клиент запускает приложения и графически представляет результаты добычи данных. Сервер приложений, сердце приложения по добыче данных, хранит относящуюся к бизнесу и приложениям информацию и обрабатывает данные при помощи специально спроектированных инструментов. Сервер данных хранит оперативные и суммарные данные.
Лав из Gartner Group соглашается, что трехзвенная архитектура при правильном проектировании решает большинство проблем с пропускной способностью в локальных сетях, где производится добыча данных. "Работающий над реальным процессом добычи данных и производящий минимальный объем данных сервер будет поддерживать трафик в локальной сети на относительно небольшом уровне благодаря малому числу время от времени передаваемых сообщений, так что настольный и локальный серверы могут заняться собственными делами, для которых они и предназначены, - говорит он. - И наоборот, если вы берете какое-либо здоровое приложение и загружаете его на маленький сервер с тридцатью пользователями, то он не вынесет такой нагрузки. В результате вы ни за что не сможете добиться требуемой производительности".
ОСВОБОЖДЕНИЕ МЕСТА ДЛЯ ДАННЫХ
Конечно, правильный проект системы - непременное условие для наивысшей эффективности добычи данных. Однако администраторы локальных сетей должны также учитывать и другие моменты, касающиеся управления перегрузками, неизбежными для такой системы. Правильность размещения и хранения данных зависит от узла и требований системы, но продуманный план безусловно важен для эффективного управления данными.
Решить, где хранить данные, - на складе данных, на ярмарке данных или в удаленной среде - отнюдь не просто. "Как правило, достичь должного равновесия с первой попытки удается немногим", - отмечает Джим Эшбрук, президент Prism Solutions, поставщика программного обеспечения для складов данных.
В течение некоторого времени администраторы сетей могут измерить частоту использования определенных данных, перемещая различные множества данных в соответствующие места. Реже используемые данные можно переместить в менее доступные места хранения, в то время как чаще всего используемые данные следует хранить централизованно.
Администраторам сетей часто приходится выбирать между доступностью и общей производительностью сети, объединяя и перемещая данные в течение всего срока службы приложений добычи данных. Поставщики утверждают, что такой метод вполне законен. "Нет никакой необходимости решать все заранее, до получения результатов", - говорит Симодиус из IBM.
Еще один важный момент - приобретение инструментов добычи данных, использующих оптимизационные методики. Современное поколение инструментов довольно искусно переводит SQL в пригодный для бизнеса язык. Многие из них предоставляют также управляющих запросами для предотвращения генерации пользователем, как говорит Моран из Aberdeen, "запроса из ада".
Некоторые поставщики утверждают, что за счет правильного выбора оборудования время отклика может быть сокращено. Такие компании, как IBM и Sun, защищают необходимость аппаратной платформы с возможностью масштабирования от сети из нескольких соединенных друг с другом рабочих станций до сети суперпроцессоров - такая платформа будет обеспечивать не только наращиваемость, но и эффективность обработки. Машина SP2 от IBM, известная так же, как "локальная сеть в жестянке", использует несколько соединенных высокоскоростным мостом модульных RISC-процессоров для параллельной обработки сложных запросов. Линия продуктов Solaris компании Sun масштабируется от рабочих станций до сетей с высокомощной симметричной многопроцессорной обработкой (SMP).
"С началом выполнения более изощренных операций по добыче данных приходится перемещать гораздо больше данных, - говорит Дэвид Гералди, менеджер по маркетингу коммерческих параллельных систем в подразделении RS/6000 компании IBM. - Чем выше интеграция таких компонентов, тем лучше".
НАДЕЖНЫЙ И БЕЗОПАСНЫЙ
Плановая интеграция может стать важным вопросом хранения данных. Админстраторам сетей, в которых будут добываться большие объемы данных, - от сотен гигабайт до терабайт - нужен эффективный по цене план хранения и управления этими данными. Для локальных сетей с различными типами накопителей и ЦПУ стратегия централизованного хранения скорее всего окажется значительно эффективнее, нежели отдельные устройства хранения информации.
За последние два года благодаря узлам, нуждающимся в хранении больших объемов данных с обеспечением оперативного доступа, доходы поставщика средств хранения EMC резко возросли. Линия продуктов хранения Symmetrix компании EMC позволяет подключать несколько серверов к одному центральному устройству хранения. По мнению Роя Санфорда, директора программ поддержки партнеров в EMC, для успеха приложений добычи данных очень важна быстрая и эффективная передача.
Вероятно, стоимость решений по хранению как централизованных, так и децентрализованных данных для некоторых организаций покажется слишком высокой. Нерасполагающих большими средствами администраторов сетей может отпугнуть плата за возможность хранения гигабайтов и терабайтов данных в пределах достижения пользователя. По оценкам Санфорда, затраты на хранение составляют до 30% затрат на систему добычи данных. Отраслевые эксперты считают, что хранение 500 Гбайт данных обойдется не менее чем в миллион долларов. "Хранение - это скрытый краеугольный камень вычислительной среды, - говорит Санфорд. - Но больше он не должен быть скрыт".
На первый взгляд подобные затраты кажутся действительно фантастическими, но общая стоимость решения по добыче данных может быть меньше ожидаемой. "Добыча данных стала гораздо более приемлемой по цене, - уверяет Парсайе из Information Discovery. - Снижение стоимости и рост производительности платформ с параллельной обработкой, например RISC-машин и SMP-устройств, дает покупателям возможность иметь миллион операций в секунду по минимальной на сегодняшний день цене".
С увеличением мощности небольших серверов и крупных рабочих станций они способны справляться с большей нагрузкой по анализу добычи данных, чем необходимые прежде суперсерверы. "То, для чего пять лет назад требовалась система Teradata стоимостью 10 миллионов долларов, теперь можно осуществить на рабочих станциях Hewlett-Packard, Sun Solaris, Digital Alpha и Silicon Graphics", - отмечает Лав.
КИРКА И ЛОПАТА
Рост числа поставщиков и продуктов для добычи данных говорит о том, что конечные пользователи заинтересованы в самых разных подходах, позволяющих упростить и расширить доступ к прежде покрытым туманом оперативным данным корпорации. Предлагаемые продукты в значительной мере перекрывают друг друга в смысле функциональных возможностей. Стив Смит, директор по аналитическим исследованиям в Pilot Software, говорит, что инструменты можно разделить на три категории:
· инструменты для доступа к базам данных (обычно при помощи графического
интерфейса в структуре запросов SQL);
· инструменты для создания отчетов с формулированием более подробных вопросов
и "выуживания" более специфичной информации;
· многоразмерные среды баз данных с возможностью постановки запросов в нескольких измерениях.
Путаница на рынке возникает также из-за стихийного и неизбежного формирования партнерских отношений: некоторые поставщики идут на соглашения друг с другом, пытаясь объединить ряд возможностей и находок и предоставить пользователям конкретные решения по добыче данных.
Например, Pilot Software скооперировалась с Dun&Bradstreet Information Services ради производства приложений по управлению продажами и маркетингом для траспортной, фармацевтической отрасли и отрасли связи. "Новый продукт, появление которого запланировано на лето, будет интегрировать передовые средства добычи данных с крупномасштабными хранилищами данных, - говорит Пол Бута, менеджер по продуктам для интеллектуального маркетинга в Pilot. - Компании учитывают опыт партнеров в этой области для ускорения работы инструментов добычи данных".
По словам Бута, комплект продуктов LightShip компании Pilot представляет собой среду оперативной аналитической обработки (OLAP), и потому он использует оперативные данные, сведенные в специальный формат, пригодный для многомерного поиска. Решения OLAP дают также возможность пользователям опускаться на более подробные или подниматься на более высокие и более обобщенные уровни информации.
Одним из партнеров Pilot является Lightbridge, предоставляющая услуги беспроводной связи. Сотрудничающая с Pilot компания Lightbridge намерена предложить систему добычи данных с развитым интеллектом для владельцев беспроводных сетей связи. Приложение призвано помочь владельцам сетей связи в понимании нужд клиентов, сокращении текучести клиентуры и снижении цены приобретения. Кроме того, владельцы беспроводных сетей связи могут использовать продукт для прогнозирования на основе анализа активности клиентуры с целью определения клиентов, собирающихся отказаться от услуг. Чтобы удержать таких клиентов, можно будет предложить им, например, скидку.
Изобретательность поставщиков продуктов для добычи данных не исчерпывается партнерскими отношениями. Помимо этого, особой похвалы заслуживает тот факт, что все технические усовершенствования реализуются мгновенно. "Подходы поставщиков инструментов к работе с локальным трафиком становятся все более изощренными, - замечает Моран из Aberdeen Group. - Они учатся создавать необходимые множественные нити для этой вселенной. Если у вас есть огромная толпа требовательных пользователей, то вы должны знать, как данные передаются по локальной сети".
При таких кардинальных изменениях на рынке инструментов для добычи данных как потенциальному покупателю сделать правильный вывод? Большинство программ поддерживают Windows, хотя некоторые инструменты с интенсивной обработкой, например Statistical Analysis System, лучше подходят для сред RISC или Unix. Учет совместимости инструмента перед приобретением поможет предотвратить возникновение ситуации, когда инструмент оказывается неспособным к наращиванию с ростом потребностей компании в добыче данных.
Администраторы локальных сетей, выбирающие инструменты для добычи данных, должны учитывать запросы (известные или предполагаемые) пользователей. Спросите пользователей, что они собираются делать с инструментами для добычи данных прямо сейчас и полгода спустя, и вы увидите, что зачастую у них нет четкого представления о типах подаваемых запросов, а стало быть, вопрос гибкости весьма актуален. "Большинство пользователей обращаются к 20% информации из базы данных в 80% случаев, - говорит Донна Рубен, менеджер по технологиям складирования данных в Sun. - Зная это, администраторы сетей могут выбрать инструмент с быстрым доступом к часто требуемым данным".
ГИГАБАЙТ ЗА ГИГАБАЙТОМ
Если вы уж взялись за добычу данных, то, предупреждает Рубин, обратного пути нет. "Это как наркотик - с каждым разом хочется все больше", - говорит она. Учитывая вероятность "склонности к употреблению" сетевых пользователей, администратору локальной сети необходимо аккуратно спланировать наращивание приложений для добычи данных, но как это сделать?
"Предположим, что в случае успеха потребности резко возрастут, - говорит Гералди из IBM. - Они удвоятся и даже утроятся за полтора года. Так что глядите на потолок, а не на пол".
При первом знакомстве со средствами добычи данных большинство администраторов локальных сетей интересуются организацией оперативного доступа к накопленным рабочим данным. Такие объемы данных могут оказаться очень большими, и цена организации оперативного доступа к ним будет непомерно высока. А определение общего объема требует детальной оценки оперативных данных и ответов на вопросы типа: "Какова степень дублирования данных? Каково количество ошибочных данных? Какие данные не нужны для приложений по добыче данных?"
Эксперты настоятельно советуют администраторам локальных сетей провести моделирование данных прежде, чем бросаться на добычу данных очертя голову. Моделирование данных надо начинать с изучения малой представительной порции данных. Данные должны пройти обработку с помощью выбранных очистительных и объединительных методик.
Администратор сети применяет затем соответствующие инструменты по добыче данных и анализирует результаты. Если итог моделирования оказывается неудовлетворительным, то процесс должен быть усовершенствован. Для некоторых организаций это означает переоценку предназначенных для добычи данных.
Некоторые администраторы обнаруживают, что данные содержат больше ошибок или повторений, чем ожидалось, быстро осознают, что они недооценили общий объем данных для оперативного доступа.
Сейлор из MicroStrategy рассказал одну печальную историю о клиенте, который решил, что массив данных в 20 Гбайт вполне удовлетворит потребности его узла в добыче данных. Однако после начала добычи массив данных удваивался каждые шесть недель и вскоре достиг 500 Гбайт.
Если хорошо продумать первоначальный план, то с таким ростом справиться довольно легко. Сейлор советует администраторам локальных сетей не помещать 500 Гбайт данных на склад и надеяться добыть их оттуда, а нанять опытного консультанта, способного помочь в создании пилотного проекта размером в одну десятую - одну двенадцатую от ожидаемого объема операций по добыче данных. В случае успеха операции могут быть спокойно расширены.
Используя мощь и результаты добычи данных, компания получает широкие возможности для роста и расширения. Предлагаемые фирмами, от мелких поставщиков до отраслевых гигантов, истинные инструменты добычи данных и иже с ними, скорее всего, будут продолжать плодиться с той же феноменальной скоростью.
"Уже использующие эту технологию узлы станут, вероятно, расширять свои проекты по добыче данных по мере специализации пользователей в конкретных предметных областях", - говорит Эшбрук из Prism Solutions. Добыча данных несомненно получит и многочисленных новых приверженцев вместе с продвижением технологий от компаний из верха списка Fortune 1000 к менее крупным.
Возможно, важнейший аспект добычи данных как природного явления - способность расширяться по мере того, как компании оценивают достоинства технологии. В конце концов, если добыча одного крупного самородка может компенсировать стоимость всей системы, то компания даже при умеренном рвении добьется потрясающих результатов. "Чтобы победить в добыче данных, достаточно выиграть один раз из десяти, - объясняет Парсайе. - Если вы находите образец с первой попытки, то вы тут же становитесь героем".
"Компании, - подводит итог Парсайе, - вскоре обнаружат, что отдача растет пропорционально усилиям".
Шерил Д. Кривда - технический журналист, специализирующийся по информационным системам. С ней можно связаться через Internet по адресу: 5309513@mcimail.com.