В корпорации IBM разработали пакет для семантического "нечеткого" поиска в сообщениях электронной почты. Он предназначен для пользователей систем Lotus Notes и Microsoft Outlook. С помощью специальных алгоритмов система пытается "понять", что именно хочет найти пользователь. Например, программа может найти номер телефона человека даже если в почтовой базе отсутствуют сами слова "номер" и "телефон". Таким образом также можно находить изображения, людей, даты событий и т.п.
Распространяемый бесплатно пакет называется IBM OmniFind Personal Email Search (IOPES). Поиск в сообщениях можно вести на основе понятий, или "концептов". Такими понятиями могут быть, например, даты или номера телефонов. Пользователи могут определять и свои собственные понятия.
После установки программа индексирует и анализирует базу сообщений электронной почты пользователя. Поиск осуществляется через браузер. Интерфейс лаконичный и напоминает интерфейс поиска Google.
Можно формулировать как простые запросы на основе ключевых слов, так и запросы, содержащие конструкции естественного языка. Например, чтобы найти сообщения от знакомого по имени Mark Smith, можно ввести просто: from Mark Smith.
А чтобы найти только сообщения от того же адресата, отправленные в определенном месяце, можно сформулировать запрос так: Mark from January 2007. Можно найти его телефонный номер по запросу: Smith's phone number.
Результаты будут представлены не в виде списка заголовков сообщений или сообщений целиком. Программа извлекает ту часть текста сообщения, в которой, как она считает, содержится правильный ответ, и подсвечивает слова, которые, по ее мнению, содержат искомую информацию, - например, номер телефона.
Можно также осуществлять поиск среди вложений, при этом в результатах будут показаны прямые ссылки на найденные документы.
Сообщения электронной почты удобны для разработки механизмов семантического поиска. Дело в том, что пользователи часто повторяют в них одни и те же определенные слова и словосочетания и часто обмениваются информацией одного рода.
"Существует довольно много вещей, характерных именно для электронной почты", - полагает технический руководитель проекта Шивакумар Вайтьянатан.
Сотрудники исследовательских лабораторий IBM работали над данным проектом в течение полутора лет, рассказывает Вайтьянатан. На сайте IBM alphaWorks продукт доступен уже пару месяцев, но только сейчас корпорация решила провести шаги по его широкому внедрению.
"Чтобы найти разумный путь решения всех этих проблем, нам нужна обратная связь от пользователей", - считает Вайтьянатан.
Помимо этого, IBM выпустила данное средство и для внутреннего применения в корпорации и, как утверждается, получила от сотрудников в основном положительные отзывы.