Новая технология позволяет находить документы не только по ключевым словам, но и по фрагментам текста
Белорусская компания «СофтИнформ» провела в Первопрестольной презентацию нового программного продукта SoftInform Search Technology. Это — вторая официальная презентация, так как впервые данное ПО было представлено в Санкт-Петербурге, где вызвало живой интерес. Напомним, что фирма «СофтИнформ», основанная в 1995 году, специализируется преимущественно на технологиях поиска, хранения и обработки информации. Она выпускает как тиражные продукты, так и индивидуальные решения для интеграции в корпоративные ИТ-системы.
SoftInform Search Technology обеспечивает быстрый и точный поиск похожих по содержанию документов в любых объемах данных. От традиционных поисковых систем ее отличает высокая скорость индексирования информации (до 6 Гбайт в час), умение работать с документами разных форматов (txt, doc, rtf, pdf, html) и с любыми источниками информации (файлы на диске, базы данных с поддержкой SQL, сообщения электронной почты). Уникальная технология поиска основана на математическом анализе структуры запрашиваемого документа и выборе схожих слов, словосочетаний, предложений и текстовых массивов.
Важно отметить, что поиск осуществляется не только среди русскоязычных документов. Результатом обработки запроса является вывод всех документов, максимально похожих на заданный фрагмент, с указанием процента релевантности (совпадений). Безусловно, определение «похожести» основано на субъективном человеческом восприятии, поэтому SoftInform Search Technology предусматривает дополнительные функции задания «важных слов» для конкретизации поиска и использует списки синонимов.
Разработчики уверены, что SoftInform Search Technology станет незаменимым продуктом для аналитической или любой другой службы поддержки пользователей на крупном предприятии. Как заявил директор «СофтИнформ» Лев Матвеев, благодаря своей эффективности предложенная технология позволяет решать такие проблемы работы с информацией, как размытость информационного наполнения, частичное и полное дублирование данных, сложность быстрого поиска документов. Очень часто в базу данных предприятия вносятся документы, сведения которых имеют лишь небольшие различия. С помощью SoftInform Search Technology уже в процессе ввода нового документа можно определить, насколько он отличается от содержащихся в базе. Сравнивать документы, уже хранящиеся в базе, куда сложнее. Однако если в традиционном варианте определение сходства документов в информационной базе, содержащей 1 млн файлов, займет около месяца, то SoftInform Search Technology решит эту задачу всего за пару суток!
Некоторые читатели отнесутся к разработке SoftInform Search Technology скептически: дескать, зачем нам еще один Yandex или Google? Однако все сомнения исчезнут при сопоставлении возможностей этой системы и традиционных «поисковиков». Максим Магляс, PR-менеджер «СофтИнформ», наглядно продемонстрировал преимущества SoftInform Search Technology. В качестве тестируемой базы был использован текстовый массив, который состоял из 200 документов, преимущественно посвященных экономической тематике. Нужно было найти максимальное количество информации о слияниях и поглощениях предприятий за определенный период.
В строку поиска обычного поискового «движка» попеременно вводились различные ключевые слова («слияние», «поглощение» и др.). Система выдавала не менее 100 документов, многие из которых, по сути, не относились к требуемой тематике. Для просмотра результатов поиска и отбора действительно нужной информации понадобилось бы не менее двух часов работы. Здесь-то и пришла на помощь уникальная технология «СофтИнформ». При ее использовании первый «удачный», с точки зрения потребителя, документ становится ориентиром для дальнейшего поиска. В этом документе выделяется нужный текстовый фрагмент и запускается команда «искать похожие». Таким образом, в течение 1 мин был получен нужный массив данных с указанием процента совпадений в обратном порядке.
На основе данной технологии «СофтИнформ» разработала готовые программные системы поиска информации — SearchInform Desktop Edition (программа полнотекстового поиска на персональном компьютере, «коробочная» версия) и SearchInform Corporate Edition (корпоративная система поиска в информационной базе предприятия). Остановимся подробнее на последней версии.
SearchInform Corporate Edition — это сетевая версия продукта, ориентированная на предприятия малого и среднего бизнеса. Она обеспечивает трехуровневое управление доступом пользователей к информации, масштабируемость и гибкость интеграции в существующие информационные системы. В комплект поставки входят серверная часть SearchInform Corporate Edition (SE) и клиентская часть SearchInform Corporate Edition (CE). В данный момент система доступна в трех вариантах: SearchInform Corporate Edition Trial — полнофункциональная версия для бесплатного тестирования в течение 30 дней, SearchInform Corporate Edition Standard — стандартный комплект поставки для поиска и обработки информации, наконец, SearchInform Corporate Edition Professional — полнофункциональная версия с возможностями подключения разных источников данных, работы с индексами и со списками результатов.
Помимо основного предназначения SoftInform Search Technology (быстрый качественный поиск информации в корпоративной среде) могут быть и другие: планируется развивать эту технологию для применения в качестве Internet-сервиса. К примеру, не исключено создание поискового сервера, основное отличие которого от аналогов будет состоять в том, что поиск станет осуществляться не только по ключевым словам, но и по схожим Web-документам.