Один из вариантов ответа на вопрос, вынесенный в заголовок, вполне очевиден — тем, кто занимается разведкой или поиском доказательств преступлений. Попытаемся с помощью открытых информационных источников и «несовершенного» поиска проанализировать функционал поиска «умного», а попутно поговорим о методах финансирования разработок в области информационного поиска на Западе.
Как попасть в разведку
Воспользуемся информацией на сайте венчурной компании In-Q-Tel, финансируемой ЦРУ и в течение длительного времени делающей значительные инвестиции в развитие технологий управления знаниями. Что ею движет? Что она ожидает получить от этих инвестиций? Глава In-Q-Tel Грег Пепус видит миссию своей организации в поиске и инвестировании тех компаний, чьи перспективные технологии могут обеспечить решение задач разведывательного сообщества. Чтобы узнать, какие именно компании поддерживала In-Q-Tel, достаточно воспользоваться услугами www.archive.org — цифровой библиотеки всех сайтов Сети. В ней имеется «машина времени», позволяющая увидеть, какими были Web-сайты несколько лет назад. К примеру, в сентябре 2001 года на сайте In-Q-Tel появилось объявление, призывающее инновационные компании присылать свои бизнес-планы с описанием технологических достижений «в одной из наших приоритетных областей». После трагических событий 11 сентября In-Q-Tel получила беспрецедентное количество предложений, связанных с инновациями в области информационного поиска, что, как указывалось на сайте, «дало In-Q-Tel прекрасную возможность выполнять свою миссию и задачи, поставленные ЦРУ».
С мая 2002 года по декабрь 2005-го число инвестируемых фирм растет, а некоторые из них упоминаются на протяжении нескольких лет, что свидетельствует о долгосрочных вложениях в коммерческие компании из государственных источников, причем многие из компаний-фигурантов предлагают решения в области «совершенного» поиска. Примечательно, что в списке не числятся EMC, IBM, FileNet, Open Text, Stellent и Hummingbird — лидеры в области систем управления контентом предприятия (enterprise content management, ECM), которые сегодня, согласно исследованиям Gartner (Magic Quadrant for Enterprise Content Management, November 2005), определяют погоду в данной области. Однако это вовсе не означает, что их решения не используются разведсообществом США, а сами они не финансируются из государственного бюджета.
Обратившись к источнику, информирующему американских налогоплательщиков о финансировании фундаментального проекта IBM UIMA (Unstructured Information Management Architecture), можно обнаружить, что, корпорация получает средства от Пентагона. В описаниях проектных решений для другого фундаментального проекта корпорации, MARVEL (система мультимедийного анализа и поиска, www.research.ibm.com/marvel/details.html), рассказывается, что исследования начались с распознавания факта запуска ракет. Это косвенно подтверждает участие IBM в создании систем раннего оповещения о вероятном ракетно-ядерном нападении. А компания SRD, которая многократно упоминается на сайте In-Q-Tel, недавно стала подразделением IBM.
Из объяснений налогоплательщикам, почему финансировались именно эти разработки и почему выбор пал именно на эти фирмы, видно, что существует несколько каналов финансирования частных компаний из государственного бюджета. Интересна мотивация, которую приводит Пепус, объясняя причины выбора тех или иных организаций:
Inxight. "Поскольку я был одним из первых, кто пригласил ее к сотрудничеству; я хорошо знаком с этой компанией. Компания Inxight работает в области исследования возможностей поиска и аналитической обработки неструктурированных текстов на протяжении многих лет. Мы были заинтригованы количеством разработок, которыми располагает эта компания. Чего только стоит широко используемое средство извлечение сущностей. Оно поддерживает множество языков и является вполне зрелой реализацией технологии. Оно используется во множестве программ производства других компаний и является надежным средством извлечения существенных сущностей из документов. Мы считаем это очень полезной технологией.Компания Inxight имеет целый ряд таких продуктов, которые она объединила в набор Smart Discovery - аннотирование и категоризация документов, визуализация результатов поиска - что позволило создать целый набор мощных инструментов. Я видел много компаний, которым удавалось создать отдельные инструменты, но Inxight это одна из немногих, кому удалось создать целостный пакет. Inxight основательно выполняет аннотирование и категоризацию информации, извлекает сущности и визуализирует результирующую информацию. Все на основе Web-технологии, Web-сервисы уже работают. Все это выглядит впечатляющим и полезным в самых разных областях".
Attensity. "Вы можете взглянуть на компанию Inxight и спросить: "зачем вкладывать деньги в такую компанию как Attensity, если она конкурирует с ней?" Отвечу, все наши компании имеют уникальные решения. Хотя, если вы формируете портфель компаний, вы можете допустить некоторые элементы конкуренции. У компании Attensity есть свой уникальный подход к обработке естественного языка. Как бы это лучше сказать - она знает грамматику для восьмого класса. И прекрасно выполняет свою работу. Технология, разработанная компанией Attensity, является одной из первых, кому удалось надежно выявлять отношения между сущностями. То есть, она находит отношения между сущностями. Например, вы можете вывалить целую кучу сообщений информационного агентства AP и сказать: "Найди мне все события, связанные с судебным процессом". Будет просмотрен каждый документ и будет установлено, что Департамент юстиции предъявил иск компании Microsoft, или компания HP предъявила иск компании IBM или компания Cisco Systems была привлечена за то-то и то-то - и сделано это будет надежно, в рамках информационного домена, в котором вы находились. Эта технология позволяет извлечь отношения между событиями и поместить их в базу данных. Это достаточно сложно сделать, поскольку при выявлении отношений сущностей вы попадаете в среду различного рода переменных. Как убедиться в том, что на события происшедшие ранее по документу, позднее будут сделаны ссылки - это вещи, с которыми легко справляется человеческий разум, но далеко не так прос ты для машины? Поэтому вы начинаете изучать очень сложные проблемы семантического понимания языка и понимания контекста. И хотя компании Attensity не удалось решить все эти задачи, она значительно продвинулась в понимании того, как это должно происходить при обработке естественного языка. Она располагает совершенным механизмом эвристического описания английского языка и морфологическим анализом предложений, который скажет вам, где существительное, где глагол, где прилагательное и т.д., сопровождая контекст для того, чтобы показать отношения между сущностями".
Stratify. "Когда совершалась эта сделка, я еще не работал в In-Q-Tel, но следил за продуктами этой компанией по публикациям в журнале KMWorld. Тогда это был Purple Yogi, а позднее - Stratify. Прекрасный подход к автоматическому рубрицированию, которым могли управлять пара человек, а не целая армия библиотекарей и ученых, создание текста и параллельно ему - морфологический анализ.Вы можете воспользоваться продуктом Stratify в индивидуальном порядке, в масштабах отдела или всего предприятия. Продукт Stratify наделен полным набором инструментов и средств разработки, которые позволяют вам создавать множество иерархических древовидных рубрикаторов. У него также есть некоторые возможности визуализации для управления процессом рубрицирования, поэтому имеется возможность удалять или добавлять отдельные рубрики, которые плохо определены или не используются. Существует множество возможностей, которые, на наш взгляд, могли бы быть полезными".
Convera. "Мы инвестировали эту компанию, которая специализируется на создании поисковика, наделенного большим количеством средств управления знаниями, особенно она стала привлекательной с приходом доктора Claude Vogel, который ранее возглавлял проект Semio. С его приходом существенно возросли возможности управления иерархическим рубрицированием. Convera создает картриджи доменов, которые, по сути, являются законсервированными рубрикаторами. Это очень хорошая идея. Предположим, я работаю в банковской сфере, значит, мне нужен рубрикатор, относящийся к этой сфере деятельности с которого я могу стартовать. Convera представляет инвестиционный интерес для In-Q-Tel поскольку это большая компания, которая могла бы стать полезной во взаимодействии с другими компаниями нашего портфеля".
Endeca. "Я полагаю, что людям нужны иные решения, нежели простой поиск по ключевым словам. Особенно если вы рассматриваете мир в различных перспективах и срезах. Я могу быть исполнителем среднего уровня, который выполняет очень конкретную работу, и могу быть руководителем производства. Руководителю требуется вид на мир с высоты птичьего полета и необходимы знания понемногу обо всем, в то время как исполнителю требуются углубленные знания о том, что происходит в конкретной ситуации. Что хорошо в компании Endeca, так это ее управляемый поисковик со встроенной аналитикой, который может поставлять действительно очень полезную информацию в ситуациях, в которых обычные поисковики ничего не могут сделать.Даже сегодня, если вы ищите чью-либо фамилию в Google, вы получите массу ответов, не имеющих ничего общего с фамилиями. На этом основании я полагаю нужно сделать еще очень много для поиска. Endeca продемонстрировала большой скачок в этом направлении, и размер ее клиентской базы является доказат ельством успеха".
Mohomine. "Я полагаю, что приобретение Mohomine было правильным шагом, поскольку эта компания специализируется на сканировании и управлении контентом. Полагаю, что главный фокус для Kofax заключается в том, чтобы использовать Mohomine внутри поисковика Ascent, чтобы обеспечить ему возможность многоязычной категоризации. Поскольку Kofax уже располагает многоязычием, Mohomine создает новые возможности категоризации для продукта Ascent. Не в пример Stratify, Mohomine использует уже существующий рубрикатор и не требует большого количества документов для обучения. Реально, при наличии рубрикатора вы можете получить вполне удовлетворительный результат после обучения на трех-четырех достаточно представительных документах. Я думаю, что это один из моментов, привлекших внимание In-Q-Tel".
Tacit. "Продукт компании Tacit ActiveNet вырос уже до Версии 3, а я по-прежнему остаюсь под впечатлением от его возможностей. Прежде всего, то, что делает Tacit намного труднее того, что делают другие программирующие компании, поскольку это требует огромных усилий на этапе внедрения. Маловероятно, что кто-то станет покупать Tacit для небольшого коллектива. Вам потребуется большой коллектив, в котором люди не знают друг друга, чтобы окупить затраты. Но в мире бизнеса этот продукт сохраняет свою привлекательность. Посмотрите, сколько происходит слияний фирм каждый день. Как сотрудники двух фирмы могут разобраться, с кем им нужно иметь дело? Посмотрите, как обстоит дело в правительстве с Департаментом внутренних дел. Посмотрите, что происходит на Уолл-Стрите в процессе массовых финансовых слияний - буквально все перемешивается. Не похоже, что люди и компании делятся своей информацией. То, что действительно движет бизнесом, это знание того человека, который знает, что ты не знаешь упрощает эту ситуацию поскольку вы можете буквально встроить его в существующее приложение. Оно сразу скажет, к кому вам нужно обратиться, доступен ли этот человек для обмена мгновенными сообщениями, доступен ли он по электронной почте или по телефону. И делается все это с соблюдением режима секретности. Tacit автоматически создает профиль осведомленности и возможностей сотрудников. И я могу вам прямо сейчас сказать, где в сегодняшнем мире мы хотим, чтобы люди использовали такие профили, Tacit действительно реализовал один из единственно возможных подходов, обеспечив при этом 100% защиту. Он строит свои профили автоматически с помощью мониторинга того, что вы пишете в своих электронных посланиях и других электронных документах, автоматически определяя -постоянно и скрыто - что вы знаете и что вам неизвестно. Позднее он может помочь вам и другим сотрудникам заполнить пробелы в знаниях. Это прекрасно. Это блестящая идея. В мире происходит сегодня много, связанного с анализом социальных сетей и всякой всячиной. Н о на самом деле, Tacit это единственная компания из тех, что я знаю, которая работает на этом интересном и ориентированном на эффективное использование управления знаниями направлении".
Spotfire. "Одно из направлений, в котором мы работали в этом году, визуализация. Что мне нравится у этой компании, так это ориентированные на пользователя средства визуализации, которые дают вам возможность заботливо и дружелюбно контролировать и анализировать то, что вы визуализируете. Вы можете скрупулезно градуировать каждый элемент информации, который видите на своем экране. Людям нужны более совершенные инструменты соответствующие их специфическим критериям отбора информации и аналитическим требованиям. Именно это и предлагает Spotfire. Он предлагает целый спектр прекрасных и значимых инструментов визуализации, некоторые - для стандартного преставления на манер таблиц Excel, другие - в более изысканном и осмысленном исполнении. Затем вы можете перенести данные в ваши наборы и с одного только взгляда получить массу информации из очень сложного набора данных. Вы можете получить очень подробную информацию обо всем, что визуализируете прямо на экране".
PixLogic. "Вы знаете, что при поиске в Google необходимой вам информации используются различные поисковые алгоритмы, основанные на свойствах текстов, словообразовании и статистических отношениях естественного языка. Но поиск изображений (Google Images) работает только потому, что кто-то заранее ввел метаданные об искомых изображениях. Вот уж что действительно необходимо бизнесу, так это поиск изображений, аналогичный тому, что Google делает с текстами. Это инструмент, которому не нужны предварительные текстовые описания изображений для отыскания конкретного образа в наборе документов. Скажем, у меня есть коллекция логотипов компаний. Я хочу с помощью этих логотипов осуществлять поиск предлагая картинку без предварительного ручного ее описания с помощью метаданных. PixLogic решает эту задачу на уровне пикселей для поиска форм и углов. Это начинающая компания, выбравшая свой путь развития технологии, а нас заинтересовали многообещающие перспективы. С точки зрения управления знаниями мы могли бы запустить поисковик PixLogic по набору изображений и автоматически и быстро получить для них метаданные. Вам даже не потребуется вручную добавлять метаданные. А позднее можно будет использовать поисковый интерфейс PixLogic для работы с этими данными. Если, например, это будет стрелка красного цвета, то PixLogic найдет все изображения стрелок, а не что-то окрашенное в красный цвет. С этой точки зрения мы получили бы очень гибкий инструмент".
В логове разведсообщества
Налогоплательщики могут ознакомиться не только с мотивацией выбора той или иной компании, но и с оценкой качества решений, приобретенных на их средства. Такую оценку можно найти, например, на сайте www.military-information-technology.com. Из его информации следует, что Разведывательное управление Министерства обороны США (РУМО) помимо собственных данных использует сведения, поступающие из ЦРУ, АНБ и других ведомств; для их анализа невозможно обойтись без «умного» поиска. Уникальные требования аналитиков военной разведки заставляют выделять применяемые ими технологии поиска информации из массовой продукции. Они включаются в подгруппу технологий, обеспечивающих развитое управление и динамическую навигацию, полноту и точность поиска. РУМО, один из крупнейших на планете «аккумуляторов» информации, отвечает за сбор и анализ сведений, поступающих из многочисленных источников и представленных на разных языках, и это действительно грандиозная задача. Источники развединформации на местах предоставляют материалы аэрофотосъемки, агентурные сведения, результаты инспектирования и рекогносцировки, получаемые от множества датчиков и надземных платформ, перехваченные информационные сигналы, результаты спутниковой разведки, фото- и видеодокументы. Об объемах информации, собираемой из открытых источников, даже говорить не приходится.
В дополнение ко всему этому РУМО управляет глобальной инфраструктурой информационных систем. Последние способны снабжать оперативной информацией (в том числе совершенно секретной) оперативные подразделения в любой части света, а также аналитической информацией — руководителей. РУМО также должно координировать совместное использование секретной информации множеством других агентств и организаций.
Для анализа данных РУМО использует большой набор технологических инструментов, поставляемых компаниями Endeca Technologies, Basis Technology, Inxight Software, Insightful, Attensity, Convera, NetOwl и Clearforest. Акцент делается на семантическом поиске, который позволяет совершенствовать традиционный поиск в Internet с помощью специальных ссылок и определений, обеспечивающих обнаружение искомой информации. Такой поиск выходит за пределы традиционных гиперссылочных связей и действует совсем в другой области отношений между ресурсами.
Данные инструменты поддерживают работу со многими языками. Они обеспечивают совместное использование интегрированных знаний с помощью извлечения сущностей, сбора и анализа текстовых материалов с применением машинного распознавания семантического значения текстов. Для решения своих специфических задач РУМО задействует и сложные поисковые предписания при поиске в терабайтных массивах данных. Далеко не каждая поисковая машина способна выполнять такие запросы — из-за проблем масштабирования.
РУМО приобрело корпоративную лицензию на RetrievalWare компании Convera — масштабируемую платформу поиска и извлечения знаний из структурированных и неструктурированных данных. RetrievalWare содержит компонент, обеспечивающий категоризацию и динамическую классификацию. Еще один инструмент, ProFind производства Endeca, поддерживает поиск с сопутствующими навигацией, интеграцией, выявлением и анализом данных с помощью встроенных модулей интеллектуального анализа и управления знаниями. Аналитику уже не нужны уточняющие запросы для дальнейшей очистки результатов поиска — механизм Endeca динамически покажет все последующие уточнения. В Endeca встроено серверное приложение Rosette Linguistics Platform, разработанное Basis Technology. Оно используется для обработки и извлечения информации из документов, созданных на разных языках. Например, задействуются такие модули, как определитель языка документа и модуль извлечения сущности (он, собственно, и извлекает информацию из документа).
Работа с множеством языков является существенной частью поисковых процессов разведывательного сообщества. Идентификация языка — первый шаг к определению способа дальнейшей работы с документом. Модули Rosette позволяют аналитикам осуществлять поиск среди иноязычных файлов, расположенных на жестких дисках и съемных носителях, для обнаружения банковских счетов, номеров телефонов, адресов электронной почты, кличек и т.п.
В частности, модули Rosette обеспечивают взаимодействие стандартов транслитерации, принятых разными ведомствами. Для устранения конкуренции между этими стандартами организована рабочая группа Intelligence Community Metadata Working Group, которая отвечает за разработку стандартов маркировки всех данных, используемых в системах РУМО. С помощью продуктов Endeca маркируются унаследованные данные, а на основе полученных метаданных создается вспомогательный навигатор. Собственно, метаданные и являются последовательными навигациями.
Для управления аналитическим поиском и извлечением разведывательной информации из источников неструктурированных данных служит поисковая машина InFact. Она способна определять существительные, глаголы и дополнения в каждом предложении и так организовывать данные, чтобы упрощался анализ отношений между сведениями из разных документов. Это помогает осмысливать неочевидные связи, выявлять деятельность террористических организаций, определять их географическое местонахождение, прослеживать финансовые потоки и получать другие сведения.
Многие обычные поисковые машины, скажем Google, применяют булеву логику при выполнении запросов для сложных и длинных поисковых предписаний, однако при составлении сложных запросов этого недостаточно. Так, с помощью поискового языка InFact Query Language (IQL) можно тремя словами выразить то, что потребовало бы двадцати строк при использовании булевой логики.
В РУМО применяется и сервер SmartDiscovery Analysis Server компании Inxight Software, который «понимает» документы на многих языках, с помощью средств визуализации показывает отношения и тенденции. В SmartDiscovery задействуются технологии анализа текстов и визуализации, разработанные исследовательским центром Xerox. Кстати, поисковая платформа LinguistX этой компании используется в Yahoo. РУМО приобрело пять модулей SmartDiscovery (управления поиском, обобщения, категоризации и рубрицирования, извлечения сущностей и фактов), а также SmartDiscovery ThingFinder и программное обеспечение визуализации Inxight StarTree.
ThingFinder, приложение, которое при анализе текста автоматически выявляет и маркирует более 30 типов сущностей, в состоянии извлекать сущности на 20 языках и визуализировать их. Продукт SmartDiscovery был разработан для массовой параллельной обработки обращений с применением XML-интеграции и пользовательского интерфейса на основе Web-сервисов.
Компания Basis Technology работает во взаимодействии с BrightPlanet, которая интегрировала Rosette в свой продукт Deep Query Manager (DQM). Он представляет собой управляющую платформу и навигационный поисковик, используемые в многоязычном поиске и обработке его результатов. DQM может экспортировать контент на языке XML в иные приложения и интегрировать свою функциональность в другие программы, использующие BrightPlanet API.
В пятой версии DQM появились возможности сбора и обработки документов, хранящихся в недрах «скрытой Сети» (invisible Web); так называют набор Web-страниц, генерируемых самими сайтами и доступных пользователям, но скрытых от традиционных поисковых машин. Программы сканирования Сети традиционных поисковиков просто не могут попасть на большинство страниц динамического сайта, которые генерируются «на лету».
Примечательно, что среди поставщиков технологий «совершенного» поиска нет университетов и государственных исследовательских центров — все основные технологии разработаны частными компаниями.
Оргвыводы
К сожалению, пройти всю цепочку, от производителя до конечного потребителя технологий совершенного поиска, оказалось возможным только для США. Какие технологии внедряют отечественные силовики и как патриотически настроенный российский бизнес может помочь им в борьбе с терроризмом, неизвестно. Зато известно, что «свободный» (дикий) рынок способен породить разве что «попсу», а для поддержки среды разработки высоких технологий требуется участие государства. Наибольшего эффекта, как показывает пример оснащения американских спецслужб, можно достичь только при взаимодействии государства с бизнесом. Конечно, важно и то, как налажен контроль над государственными инвестициями в бизнес. Другими словами, необходимо, чтобы конкретные чиновники отчитывались перед налогоплательщиками — в том числе и теми, кто работает в сфере высоких технологий.
Вадим Ефремов (VEfremov@hetnet.ru) — компания «Гетнет консалтинг» (Москва).