SoftInform предлагает инструментарий для поиска данных в корпоративных системах
Если информацию невозможно найти, то она бесполезна. Однако в современных корпоративных системах отыскать нужные данные зачастую непросто, даже при наличии поисковой системы. Отчасти потому, что не удается подобрать ключевое слово, помогающее найти документ. Отчасти из-за размытости информационной базы, в которой могут присутствовать несколько похожих документов. Из нескольких слабо отличающихся копий непросто выбрать именно ту, которая необходима. Для решения такого рода задач компания SoftInform выпустила программный продукт SearchInform.
![](http://www.osp.ru/data/144/659/1234/045_1_1.jpg)
Суть технологии SearchInform состоит в поиске похожих документов, при котором учитываются не только слова, но и их порядок.
«Мы используем интуитивно понятную метрику ?похожести?: если из документа выкинуть половину текста, то он будет на 50% похож на исходный документ», — объяснил директор компании Лев Матвеев. При этом технология позволяет определить наличие дублирующих друг друга документов. Признаком дублирования является совпадение текста на 90%. Если документы имеют 50-90% одинакового текста, то они относятся к одной теме. Если обнаружено меньше 2% сходства, то система трактует эти документы как абсолютно разные и не показывает в результатах выдачи. Впрочем, поиск по ключевым словам также реализован в SearchInform, но необходим он только для первичного поиска документов.
Продукт отличает то, что для поиска информации он использует достаточно небольшой размер индекса. Он составляет всего 15-30% проиндексированного объема документов. Механизм индексации может работать на высокой скорости, анализируя 6 Гбайт данных в час. При этом система поиска учитывает морфологию слов и синонимы. Кроме текстовых и Web-документов, SearchInform может считывать информацию в форматах .doc, .rtf и .pdf, а также из архивов сообщений электронной почты.
SearchInform может индексировать не только документы, хранящиеся в файловой системе, но и различные источники данных. При подготовке результатов выдачи выполняется контроль доступа, то есть пользователь не получит ссылку на документ, к которому у него нет прав доступа.
SoftInform выпускает два коробочных продукта: SearchInform Desktop Edition для индексирования локальной файловой системы и SearchInform Corporate Edition, в которой возможен поиск по различным источникам данных в корпоративной информационной системе. Кроме этого, компания будет работать с интеграторами для реализации заказных проектов корпоративного поиска, а также заниматься интеграцией своего поискового механизма в приложения других производителей ПО.