Механизм уточнения в«Галактике-Зум» помогает найти в Internet интересующую информацию

Всякий сталкивался с трудностями при поиске нужной информации. Основной инструмент — поисковые машины способны решить далеко не все задачи. Да и объем накопленных в Сети сведений увеличивается так стремительно, что простого наращивания мощности существующих поисковых систем уже недостаточно. Нужно качественно изменять механизмы поиска и интерфейсы взаимодействия поисковых систем с пользователем. Среди путей развития поисковых машин есть и такой, который можно было бы назвать «поиском с уточнением».

Рассмотрим пример автоматического определения уточняющих тем. Поиск в примере выполнялся по базе СМИ за октябрь — декабрь 1998 года. Количество документов в базе — 116776. В ответ на запрос «водка» поисковая система нашла 2854 документа, в которых было вы выделено 408 значимых словосочетания. Справа для примера приведены первые десять словосочетаний.

Основная проблема современных средств поиска в Internet — огромное количество ссылок, которые получает пользователь в ответ на простой запрос. Владельцы поисковых систем стремятся, чтобы количество проиндексированных их машиной документов было как можно большим, предполагая, что в этом случае и качество поиска окажется выше. Для того чтобы уменьшить количество найденных документов, пользователь должен уточнить запрос. Это усложняет язык запросов и превращает поиск в искусство, доступное не каждому. Впрочем, современные поисковые машины, как правило, дают возможность уточнять запрос динамически, то есть искать в результатах поиска предыдущего запроса. Фактически это позволяет постепенно увеличивать длину запроса. Это и есть поиск с уточнением.

Увы, часто пользователь не может им эффективно пользоваться. Перед ним стоит нелегкая задача — сформулировать на языке поисковой машины ту тему, которая ему нужна. Именно в правильном подборе ключевых слов для запроса и состоит «искусство поиска». Однако сейчас в Internet приходит огромное количество людей, которые не могут точно сформулировать, что же они хотят найти. Для них было бы лучше, если бы сама поисковая машина подсказывала им, как уточнить запрос. Есть несколько путей решения этой задачи, начиная от сложного графического представления структуры индекса базы до нестрогого поиска похожих документов. Остановимся подробнее на методе, реализованном в продукте «Галактика-Зум» корпорации «Галактика».

Основная идея уточнения в «Галактике-Зум» состоит в том, что для каждого запроса поисковая система определяет наиболее значимые слова и словосочетания, встречающиеся в документах выборки. Пользователи имеют возможность ознакомиться со списком таких слов и словосочетаний и уточнить запрос. Упрощенный пример подобного уточнения можно найти слева. Таким образом, пользователь может не только уточнить свой запрос, но также понять, насколько правильным был его первоначальный вариант.

Для определения значимых слов и словосочетаний можно пользоваться разными методиками отбора. В «Галактике-Зум» использован двухступенчатый отбор. Сперва выбираются слова, частота встречаемости которых в документах выборки превышает определенный предел. Однако среди них могут встречаться слова, для которых достаточно велика вероятность случайно попасть в список значимых. Эти слова отбраковываются на втором этапе. Таким образом, значимость слова зависит от того, насколько часто оно употребляется в документах выборки, но не употребляется во всех оставшихся документах. Естественно, это не единственный способ определения значимости слов, и, возможно, другие разработчики подобных систем будут использовать свои подходы.

Следует отметить, что метод уточнения запроса могут использовать и уже существующие поисковые системы. Дело в том, что во всех поисковиках уже работает так называемый поиск похожих документов, который основан на выделении в документе характерных слов и автоматическом формировании запроса по ним. Для применения метода уточнений достаточно дать пользователю возможность самостоятельно формировать повторный запрос из характерных слов уже найденных документов. Однако разработчики поисковых машин считают, что введение этой операции требует значительных вычислительных ресурсов. Впрочем, «Галактика-Зум» пока недоступна из Internet, но ее возможности позволяют надеяться на развитие этой технологии.