SoftInform предлагает инструментарий для поиска данных в корпоративных системах
Если информацию невозможно найти, то она бесполезна. Однако в современных корпоративных системах отыскать нужные данные зачастую непросто, даже при наличии поисковой системы. Отчасти потому, что не удается подобрать ключевое слово, помогающее найти документ. Отчасти из-за размытости информационной базы, в которой могут присутствовать несколько похожих документов. Из нескольких слабо отличающихся копий непросто выбрать именно ту, которая необходима. Для решения такого рода задач компания SoftInform выпустила программный продукт SearchInform.
Суть технологии SearchInform состоит в поиске похожих документов, при котором учитываются не только слова, но и их порядок.
«Мы используем интуитивно понятную метрику ?похожести?: если из документа выкинуть половину текста, то он будет на 50% похож на исходный документ», — объяснил директор компании Лев Матвеев. При этом технология позволяет определить наличие дублирующих друг друга документов. Признаком дублирования является совпадение текста на 90%. Если документы имеют 50-90% одинакового текста, то они относятся к одной теме. Если обнаружено меньше 2% сходства, то система трактует эти документы как абсолютно разные и не показывает в результатах выдачи. Впрочем, поиск по ключевым словам также реализован в SearchInform, но необходим он только для первичного поиска документов.
Продукт отличает то, что для поиска информации он использует достаточно небольшой размер индекса. Он составляет всего 15-30% проиндексированного объема документов. Механизм индексации может работать на высокой скорости, анализируя 6 Гбайт данных в час. При этом система поиска учитывает морфологию слов и синонимы. Кроме текстовых и Web-документов, SearchInform может считывать информацию в форматах .doc, .rtf и .pdf, а также из архивов сообщений электронной почты.
SearchInform может индексировать не только документы, хранящиеся в файловой системе, но и различные источники данных. При подготовке результатов выдачи выполняется контроль доступа, то есть пользователь не получит ссылку на документ, к которому у него нет прав доступа.
SoftInform выпускает два коробочных продукта: SearchInform Desktop Edition для индексирования локальной файловой системы и SearchInform Corporate Edition, в которой возможен поиск по различным источникам данных в корпоративной информационной системе. Кроме этого, компания будет работать с интеграторами для реализации заказных проектов корпоративного поиска, а также заниматься интеграцией своего поискового механизма в приложения других производителей ПО.