Как отделить зерна от плевел

на разработке средств распознавания образов, любезно согласился ответить на вопросы редактора InfoWorld Джессики Дэвис (она ведет рубрику "Internet и электронная коммерция"), пояснив, как работает технология и каковы ее перспективы.

Что представляет собой компания Autonomy?

Autonomy в 1996 году выделилась из компании Neurodynamics, занимавшейся производством средств автоматического распознавания образов. Среди достижений Neurodynamics следует особо отметить систему анализа отпечатков пальцев, которая помогла правоохранительным органам раскрыть немало преступлений, а также средства распознавания рукописного текста, применявшиеся для идентификации банковских чеков, считывания при помощи видеокамеры информации с водительских прав и для выполнения ряда других задач.

Однажды от одной из американских правительственных структур был получен заказ на создание системы обработки большого количества входящих документов, поступавших на нескольких иностранных языках. Требовалось рассортировать эти документы и связать их друг с другом по смыслу.

Ранее эта организация применяла традиционные технологии поиска, такие как поиск по темам и ключевым словам. Но этого оказалось недостаточно, необходимо было заставить компьютер обрабатывать информацию новым, более эффективным способом. Именно технология, разработанная специалистами Neurodynamics, обусловила появление Autonomy на свет. Фирма, отделившаяся от Neurodynamics, обладала уставным капиталом в 15 млн. долл. и сразу громко заявила о себе, предложив рынку несколько новых средств.

В настоящее время Autonomy имеет уже 14-15 крупных клиентов, в число которых входит известная медиа-корпорация Murdock News, владеющая самым крупным европейским Web-узлом. Эта корпорация выпускает ряд печатных изданий самой различной направленности, начиная от серьезных научных журналов и заканчивая бульварными газетами. В общем случае системы, построенные на базе передовых технологий распознавания образов, встраиваются в интегрированные среды и решают задачу управления информацией, представленной в неструктурированной форме.

Используют ли новую технологию правоохранительные органы?

Наши разработки лежат в основе автоматизированной системы Holmes II, которая широко применяется английской полицией и помогает ей оперативно раскрывать сложные преступления. Поимка преступников тесно связана с вопросами управления знаниями, поскольку большинство расследований базируется на анализе свидетельских показаний. При поиске, к примеру, маньяка, убивавшего свои жертвы в течение двух лет, пришлось опросить около 100 тыс. человек.

Однако изначально у вас нет информации о том, кто является свидетелем преступления, а следовательно, нет методов воздействия на этих людей. Поэтому захотят ли они прийти к вам и дать показания, полностью зависит от них самих. Кроме того, как и в других областях управления знаниями, очень непросто определить, какие факты имеют отношение к делу, а какие - нет. В некоторых случаях что-то видел случайный прохожий, прогуливавшийся с собакой, в других зацепкой может оказаться след, оставленный на месте преступления. Основная трудность заключается в том, чтобы не только обнаружить ту или иную деталь, но и определить степень ее важности.

То же самое происходит и с корпоративными знаниями, поэтому работы у компании Autonomy - непочатый край. Необходимо отобрать из информационного потока нужные данные, хранящиеся в произвольной форме (это может быть заметка в новостях, документ текстового процессора или сообщение, переданное по электронной почте), прочитать их, определить, о чем идет речь, выделить основную идею и поместить в специальное хранилище, с тем чтобы использовать в дальнейшей работе. Система управления знаниями позволяет сэкономить массу времени и автоматически решает сразу целый комплекс задач, избавляя пользователя от множества рутинных операций.

Широко применяется поиск по запросу на естественном языке. В этом случае даже неподготовленному пользователю не составит труда объяснить системе, что он хочет от нее получить. Чем точнее и подробнее сформулирован вопрос, тем точнее будут результаты поиска. К примеру, если вы хотите узнать, какое влияние на популяцию пингвинов окажет нефть, пролитая из танкера после его столкновения с айсбергом, можно ввести следующий запрос: "Меня интересует авария, в результате которой произошла утечка нефти; воздействие пролитой нефти на популяцию пингвинов а также изменение отношения общества к нашей компании вследствие данного инцидента". При применении традиционной технологии система, конечно, не сможет обработать такой сложный запрос.

Нужно ли указывать системе, где именно следует искать информацию?

При работе в корпоративной среде необходимо перечислить все потенциальные источники искомых данных. Это могут быть внутренние хранилища документов, такие как Lotus Notes или базы данных SQL, содержащие тексты. Возможно, нужные сведения записаны в форматах других офисных пакетов, таких как PowerPoint и Excel. Может быть, они хранятся в документах, созданных посредством текстовых процессоров, или в учетных записях на сервере электронной почты. Кроме того, необходимо организовать поиск во внешней среде, в частности на Web-узлах конкурентов. Пользователи ощущают острую потребность в подобной технологии, однако реальных, удобных средств до сих пор не было создано. Для организации поиска компании предлагают клиентам заполнить анкетную форму, содержащую порой около сотни вопросов.

Вряд ли такой подход обрадует пользователей.

Вы попали в точку. Поэтому мы и развиваем собственную технологию, которая уже используется рядом компаний, в частности корпорацией News.

Наша система анализирует текст автоматически. Она читает страницы одновременно с пользователем и извлекает из них смысловое содержание, которое помещается в специальный конфигурационный файл. При получении запроса на поиск информации система прежде всего просматривает пользовательский конфигурационный файл.

Широко распространен миф о том, что, поместив в базу данных все сведения, касающиеся вашей компании, вы без труда сможете извлечь в нужный момент требуемую информацию. Идея кажется очень хорошей - но попробуйте ее реализовать.

При попытке превратить корпоративные intranet-приложения в приложения управления знаниями необходимо соблюдать одно золотое правило: нужно стремиться выжать из каждой операции максимум полезного.

Люди, чей бизнес связан с информацией (например, сотрудники крупных издательств), стараются переложить на вычислительную технику все, что только можно.

Управление знаниями - это не самоцель, а средство решения каких-то конкретных задач.

Сегодня мы находимся на довольно интересном промежуточном этапе, вслед за которым наступит эра интеллектуальных технологий. Нам предстоит пройти нелегкий путь от решения сложных задач нечеткого поиска вручную (при этом процесс часто заканчивается неудачей из-за огромных объемов анализируемых данных и слишком высокой стоимости выполнения всех необходимых процедур) до получения конечных результатов с помощью технологий автоматической выборки и классификации нужной информации.

Но даже после автоматических поиска и классификации уровень фрагментации необходимых сведений все равно остается очень высоким.

Процесс выборки информации у вас базируется на поиске ключевых слов, не так ли?

Нет, компания Autonomy применяет ассоциативный поиск, при котором ищется все, что относится, скажем, к сельскому хозяйству в Малайзии. Но поскольку часто встречаются очень широкие критерии, из результатов необходимо отсеять все лишнее.

В основе технологии Autonomy лежат методы распознавания образов и обработки сигналов.

Мы высказываем предположение о том, каким должен быть документ. Имея подобные базовые знания, можно идентифицировать любой другой документ. Используемая технология с достаточной степенью точности позволяет подтвердить выдвинутое предположение и представить необходимые доказательства.

Рассмотрим пример. В Англии издается небезызвестная бульварная газета Sun. В Лондоне печатается журнал Times. Нам нужно установить связь между двумя статьями в разных изданиях на одну и ту же тему.

Допустим, обе заметки посвящены всем известной британской говядине. В газете Sun говорится о "сумасшедших коровах", а более респектабельный Times употребляет научный термин "заболевание коровьего бешенства". Понятно, что в обоих случаях имеется в виду одно и то же.

Можно привести сколько угодно других примеров, в которых для описания одного понятия используются совершенно разные слова. Однако система способна понять, о чем идет речь, поскольку она оперирует не словами, а образами, между которыми установлена система связей.

В информационных хранилищах ищутся образы?

Образы, которым соответствуют реальные данные. В этом случае не нужно выполнять никаких дополнительных настроек. Вся информация представляется в виде образов. Но при этом в тех результатах, которые выдаст система, вам придется самостоятельно определять степень соответствия и смысловой близости различных понятий.

Все это напоминает взаимодействие идеальной программы с приложениями специального назначения. Поддерживаете ли вы партнерские отношения с компаниями, выпускающими специальное программное обеспечение?

Мы решили не заниматься прямыми продажами до тех пор, пока пользователи не поймут, каким образом можно использовать наши разработки. Поэтому сотрудничество с другими производителями очень важно для нас. Относительно недавно мы подписали соглашения с компаниями Simba и Unisys, предлагающими клиентам интегрированные решения. Думаю, что в ближайшие несколько месяцев наши технологии найдут применение в ряде систем управления документооборотом и добычи данных.

Эти средства имеют очень хорошие перспективы. Ведь для автоматизации управления большими объемами неструктурированной информации вам в любом случае придется создавать нечто подобное.

Мы не пытаемся разрабатывать специализированные приложения для конкретных предметных областей. Вместо того чтобы тратить массу сил и средств на формирование вертикальных рыночных структур, гораздо проще и быстрее создать средства, с помощью которых пользователи самостоятельно могли бы справиться с этой задачей.

К тому же компания Autonomy не занимается проектами, которые связаны с обработкой структурированной информации.

Сотрудничаете ли вы с кем-либо из производителей средств электронной торговли в Internet?

Да, у нас подписано OEM-соглашение с американской компанией, предлагающей клиентам программные средства электронной торговли. В данном случае (так же, как и в тех, о которых шла речь ранее) каждый из партнеров выполняет свою часть работы в полном соответствии со специализацией. Конечные продукты зависят от конкретного информационного наполнения. Отличительная черта информационного среза - его соответствие сегодняшнему дню.

А что вы можете сказать о компаниях, разрабатывающих средства информационного поиска? Используют ли они ваши технологии?

С одной из таких фирм мы активно сотрудничаем, большинство же являются нашими конкурентами. И победит в этой борьбе тот, кто сумеет создать более быструю и точную поисковую систему.