В отличие от других методик, в APRP размер индекса не превышает 10% от размера исходного документа. При текстовом поиске сначала используются алгоритмы нечеткой логики (что позволяет искать по запросам, введенным с ошибками), потом семантический анализ по технологии компании ConQwest (недавно вошедшей в состав Excalibur), с помощью которого отфильтровываются случайные находки. В результате пользователь получает ранжированный по степени совпадения список документов. Это чрезвычайно важно, когда приходится иметь дело с огромными информационными ресурсами, такими как глобальные сети или сети intranet.
Основными продуктами компании Excalibur являются Excalibur EFS, Visual RetrievalWare и инструментарий Excalibur RetrievalWare SDK.
Недавно Visual RetrievalWare был интегрирован в известную поисковую систему Internet Yahoo!. Задачей сервера Visual RetrievalWare будет реализация интеллектуального поиска по изображениям - теперь каждый желающий, обратившись по адресу http://www.yahoo.com, сможет найти в Сети не только текстовой фрагмент или ссылку на документ, но и использовать изображения в качестве поискового образа.
В России работает уже около сотни пользователей Excalibur, в том числе Конституционный суд и ГУИР ФАПСИ, и никаких нареканий по устанавливаемым конфигурациям от них не поступало.
Корреспонденты "Computerworld Россия" Дмитрий Волков и Игорь Левшин взяли интервью у Камрана Кана, исполнительного директора европейского представительства Excalibur Technologies.
И. Л. : Internet обрушивает на нас огромное количество информации, а ваши системы помогают профильтровывать потоки информации. В таком, "прирученном", виде она уже не опасна, а наоборот, полезна и необходима. Как ваши системы поиска могут быть интегрированы в системы поиска для Internet? Могут ли они быть интегрированы, скажем, в AltaVista?
К. К. : Здесь две стороны. Если говорить о текстовом поиске, то поисковые машины Internet - в каком-то смысле наши конкуренты. На наш взгляд, для intranet поисковые механизмы вроде Yahoo! или Lycos плохо подходят, потому что не дают достаточно хорошего соответствия запросу, а это очень важно для корпоративной среды. Internet очень нужна для получения произвольной информации, но если требуется превратить информацию в знания, нужна точность. Наша технология, объединяющая распознавание образов и семантический анализ, прекрасно подходит именно для intranet. Обычно вам нужно только несколько десятков документов, а AltaVista доставляет вам сотни и тысячи. Поиск изображений - другое дело. Поисковые машины Internet очень заинтересованы в нашей технологии для решения этих задач. Недавно ее лицензировала Yahoo!.
И. Л. : Но мы можем использовать их совместно, скажем, искать с помощью AltaVista, а потом фильтровать и классифицировать вашими средствами.
К. К. : Можно, только зачем? Я бы пользовался поисковыми машинами Internet для поиска в Internet и нашим RetrievalWare в intranet.
И. Л. Вы с самого начала работали в этом направлении?
К. К. : За 15 лет очень много поменялось в нашей работе. Мы начинали небольшой группой, во главе с известным биологом Джимом Дау. Он создал первые коммерческие приложения и пытался их продать. Однако тогда покупали их мало. Первой крупной компанией, которая поняла перспективность наших разработок, была Digital Equipment. В 1990 г. она подписала с нами соглашение о дистрибуции Excalibur в США. Но проблема была в том, что руководители этой компании не видели рынка для ПО, работающего с изображениями. Они сказали, что работа с изображениями - это очень интересно, престижно, но вот на текстовом поиске мы действительно сможем сделать большие деньги. После этого наши продажи резко пошли в гору. Потом мы перенесли наше ПО и на другие платформы. Сейчас выпустили RetrievalWare, и партнеры и системные интеграторы идут к нам косяком, они говорят, что у них большие проекты, у кого коммерческие, у кого военные, а у кого - связанные с разведкой. Они хотят использовать наши технологии поиска информации, как раньше хотели использовать технологии Oracle.
Д. В. : Ощущаете ли вы давление со стороны производителей СУБД?
К. К. : По-разному. Со стороны Oracle - да, и очень сильное, потому что Oracle занимается текстовым поиском, у них есть текст-серверы. В этом отношении мы их конкуренты. Но Oracle, прежде всего, - производитель СУБД и поэтому мы достаточно много сотрудничаем с этой компанией. Компания Informix занимается исключительно базами данных, и поэтому она заинтересована в наших поисковых системах. Мы делаем для нее встроенные модули Data Blade. Используя наш подход, работать с традиционной базой данных намного удобней. У нас есть модули Data Blade не только для текста, но и для изображений, поэтому пользователь или системный интегратор может купить имидж-сервер в качестве Data Blade, чтобы создавать приложения на базе обоих продуктов.
И. Л. : При поиске вы используете свои средства для генерации более полных запросов, которые потом передаете базе данных, или сразу ищете прямо внутри файлов данных? У вас имеются собственные инструменты для работы с разными форматами файлов данных?
К. К. : Мы просто работаем с компаниями-производителями СУБД, например Oracle, Informix, Sybase, чтобы иметь возможность извлекать данные. Таблицы Oracle отличаются от таблиц Informix, но после извлечения информация индексируется одинаковым образом. Скажем, какая-то компания имеет большую базу данных и хочет получить к ней более удобный доступ. Мы можем проиндексировать ее базу. Наша цель - уметь индексировать любой тип информации.
И. Л. : Поможет ли ваша технология развитию объектно-ориентрированных баз данных или, наоборот, может привести к вытеснению их с рынка? Собираетесь ли вы разрабатывать объектно-ориентированные базы данных? Или это совсем другое поле деятельности?
К. К. : Совсем другое. Наша цель - обеспечить эффективный доступ к информации в базах данных. Мы не собираемся переделывать базы данных, мы только даем более мощные дополнительные возможности, чем SQL. Я думаю, что потребность в структурированной информации будет всегда, разве что она чуть уменьшится, поэтому реляционные базы данных останутся. Мы же даем неструктурированный доступ к структурированным данным. Но мы работаем и с базами Jasmine. У нас хорошие отношения с CA, но самые лучшие - с Informix, с которой мы работаем уже около двух лет.
И. Л. : Informix купила очень перспективную компанию Illustra. Не ждет ли вас подобная участь?
К. К. : Очень может быть. Нами и нашей технологией очень сильно интересуются, всем ясно, что у нее большое будущее, но наше руководство все-таки надеется, что у нас достаточно сил, чтобы вывести нашу технологию на рынок самостоятельно. Однако все бывает. Такие вещи случаются неожиданно. Я думаю, что и для Illustra это было сюрпризом.
И. Л. : Вкладывают ли крупные компании, вроде Microsoft или Oracle, большие деньги в разработки технологий, схожих с вашей?
К. К. : Насколько я знаю, нет. Microsoft вкладывает деньги в текстовый поиск и проявляет интерес к нам как к партнеру. Делать серьезные приложения для поиска изображений Microsoft вряд ли интересно. Им нужны новые "удобства". Полнотекстовые поиски становятся "удобствами", но пока еще это достаточно "тонкая вещь", требующая аккуратного обращения с технологией. К тому времени, когда Microsoft сделает такой поиск "удобством", мы уже будем заниматься какой-либо новой, главной для нас технологией.
Д. В. : Какие Вы видите перспективы для вашей технологии в России?
К. К. : Мы здесь работаем два года, с тех пор как начали сотрдуничать с компанией "МетаТехнология". На здешнем рынке наши конкуренты себя никак не проявляют. Я считаю, что здесь огромная потребность в наших технологиях. Честно говоря, в первый год это было почти чистое инвестирование, причем существенное и почти без отдачи. Да и сейчас Россия не приносит нам таких уж больших доходов. Но, в отличие от многих моих коллег и конкурентов, я не фокусируюсь на Западной Европе. Я считаю, что Россия скоро станет доминирующим рынком, и мне хотелось бы, чтобы Excalibur занимал достойное место на этом доминирующем рынке. Это моя четвертая презентация в России, и я вижу, что те люди, которые приходят от правительства, от компаний, уже знают о нас, а о наших традиционных конкурентах в западной Европе они даже не слышали. Через год-два, при таком положении, наши доходы могут составить сотни миллионов долларов. Второе, что меня очень воодушевляет в России и что очень важно для Excalibur, - это уровень знаний специалистов. В вопросах распознавания образов и семантических сетей здесь разбираются лучше, чем в других местах, где я работал. В России гораздо легче работать. Кстати, поддержка, которую мы получаем от компании "МетаТехнология", может быть, самая квалифицированная в Европе. Семантическая сеть, очень важный компонент нашего ПО, сильно зависит от специфики страны, от языка, и здесь мы полагаемся на "МетаТехнологию". У России много плюсов.
Д. В. : А минусов? Специфических для России?
К. К : Я не вижу ничего специфического. Везде похожие сложности. Политические и экономические флуктуации есть во многих странах. Если бы местный рынок был предсказуем, то здесь уже находилось бы большинство наших конкурентов. Больше всего, конечно, огорчают проблемы с кредитованием. Многие здесь хотели бы купить наши системы, но попробуй получи деньги из фондов. На западе с этим проще.
И. Л. : Много ли вы работаете с военными организациями?
К. К. : Да, через интеграторов. Многие системные интеграторы во всем мире работает с крупными военными заказчиками, и встраивают нашу технологию в военные приложения. В этой отрасли очень много систем работают с изображениями. Еще больше - в следственных и разведоывательных учреждениях.
И. Л. : А с научными центрами вы работаете?
К. К. : Да. Не знаю, правда, относите ли вы NASA к научным организациям, но она очень интересуется нашими технологиями и использует их в своих собственных исследованиях. У нас очень много связей в научной среде. Наша технология помогает им в исследованиях, но и нам это помогает совершенствовать наши технологии.
И. Л. : Как интегрируется в ваши системы аппаратура оптического архивирования, например, оптические библиотеки (Jukeboxes)?
К. К. : У нас много инсталляций с оптическими библиотеками в качестве устройств хранения информации. Наша роль при этом - поставить ПО для доступа к этой информации, поэтому мы очень тесно работаем и с компаниями, которые производят оптические библиотеки, но мы не разрабатываем драйверы устройств, а ограничиваемся интерфейсами, чтобы система "бесшовно" функционировала, чтобы работа с оптическим устройством и была "прозрачной" для пользователя.
И. Л. : Вы используете такие технологии, как нейронные сети, распознавание образов. Что Вы думаете об аппаратных реализациях этих алгоритмов? Об оптических, например.
К. К. : Мы следим за всем этим, но мы не такая большая компания, чтобы этим заниматься. Мы не беремся за разработку данной аппаратуры не потому, что это бесперспективно, а просто не хотим распыляться. Мы фокусируемся на технологиях поиска информации.
И. Л. : На мой взгляд, Вы можете найти в России не только рынок, но и партнеров, которые смогут предложить интересные технологии в этой области. Существует огромное количество людей из российских НИИ, где занимались этими вещами. Я был на конференции по нейронным сетям, где собралось около 500 человек. В области распознавания образов Россия тоже на очень высоком уровне.
К. К. : Это очень хорошо. Мы не одни занимаемся нейронными сетями и мы делаем это не ради самих сетей. Наша компания - единственная, которая использует их для коммерческих поисковых приложений.
И. Л. : Ваш идеолог Джим Дау - биолог. Вы тоже из биологов?
К. К. : Нет, я был инженером в аэрокосмическом конструкторском бюро, и когда узнал о возможностях Excalibur, я не очень удивился тому, что происхождение этой технологии связано с биологией, потому что я изучал историю авиации и знаю, что для создании вертолетов очень большую роль сыграло изучение полетов насекомых.
Д. В. : Это очень полезно, когда люди приходят из разных областей: самые интересные идеи рождаются на стыке дисциплин.
К. К. : Конечно. Ребята из ConQuest, компании, вошедшей в состав Excalibur, - лингвисты. Это помогло им разработать семантическую сеть. Соединив ее с нашей нейронной сетью распознавания образов, мы создали уникальную технологию.
Д. В. : Что Вы думаете о направлении развития Excalibur в будущем, лет, скажем, через десять?
К. К : Через десять? Вы шутите. Сейчас все меняется настолько быстро, что любые предсказания будут весьма условны. Мы начинали с нейронных сетей - примитивных форм искусственного интеллекта, а чем дальше, тем больше поиск информации будет похож на мышление человека. Основываясь на нашей философии, можно создать огромное количество полезных приложений. Я даже не могу себе представить все возможности. Когда Джим Дау приезжал в прошлом году в Москву, он рассказывал о своих последних лабораторных разработках, которые он называет программным сексом. Две программы, построенные на нейронных сетях соединяются в одну и "рождают" новую программу, которая наследует свойства "родителей". Что из всего этого выйдет - непонятно, но думаю, что-то выйдет. Мы очень любим что-нибудь новенькое и стараемся сразу вставлять в приложения, как мы поступили с поиском изображений.
И. Л. : А говорят, идея искусственного интеллекта умерла.
К. К. : Смотря что понимать под искусственным интеллектом. Если программа различает рисунки, если по одному слову вы можете найти сотню совершенно других, чем это не интеллект? Хоть и искусственный. В широком смысле, большинство современных приложений используют искусственный интеллект.