Развитие Internet, увеличение объемов информации, доступной через Сеть, значительное расширение круга пользователей делают все более актуальной задачу эффективного использования ресурсов.
Одна из услуг Сети — поиск информации. Эффективность поисковой системы зависит от методов организации поиска, обнаружения источников и их индексирования. Однако зависит она также и от интерфейсов с пользователем и системными ресурсами. Это особенно заметно для поисковых систем с географически распределенной структурой.
Особенности интерфейса вытекают из «интеллекта» пользовательских рабочих мест. Для «тупых» терминалов все функции взаимодействия пользователя с системой возлагаются на узел, к которому терминал прикреплен, или на другие узлы Сети. Для «умных» рабочих мест интерфейс пользователя реализуется непосредственно на станции. Если синтаксический аспект разработки интерфейса не требует обычно детальной проработки (считается, что синтаксические вопросы в распределенной обработке не порождают принципиально новых задач), то вопрос о семантическом аспекте реализации интерфейса пользователя в поисковой системе гораздо шире и сложнее. Во-первых, объем информационных ресурсов настолько велик, что исключает возможность знакомства или запоминания пользователем каких-либо признаков организации информации, серверов или баз данных. Во-вторых, распределенность и динамичность ресурсов отделяет пользователей от сетевых адресов и форматов обращения к данным. По этим причинам семантический аспект интерфейсов пользователя в поисковой системе считается определяющим фактором. Наконец, интерфейс не является самостоятельным продуктом, а образует часть прикладных программ, следовательно, рекомендации, выработанные для его разработки, одновременно являются и требованиями (или ограничениями) для прикладных программистов.
Поисковые системы могут иметь в своем составе следующие интерфейсные средства:
- интерфейс пользователя с поисковой машиной;
- интерфейс поисковой машины с системными ресурсами;
- интерфейс пользователя с сетевыми ресурсами (браузеры и т.п.).
К этим средствам предъявляются следующие требования: приближенность к естественному языку; максимальная полнота и гибкость; независимость от архитектуры системы и организации сетевых ресурсов; высокая реакция системы и надежность; синтаксическая и семантическая устойчивость.
Для учета этих требований в поисковой системе необходим интеллектуальный интерфейс пользователя, который может иметь двухуровневую структуру. На первом уровне пользователю предоставляется специальный словарь для общения с поисковой машиной, в результате чего выясняются имена ресурсов, по которым должен быть реализован пользовательский запрос. На втором уровне пользователю предоставляются средства общения с сетевыми серверами.
Поисковая машина (по крайней мере, ее интерфейсные программы) располагается во всех серверах обслуживания пользователей; следовательно, между ней и пользователем может отсутствовать географическая разобщенность. Однако сетевые ресурсы, как правило, разбрасываются по узлам Cети. Чем больше расстояние между пользователем и сетевым ресурсом, тем менее эффективным будет взаимодействие из-за низкого коэффициента использования канала связи. Один из способов устранения этого недостатка — вызов программы диалога на узел пользователя для оформления запроса; однако, это дает эффект лишь в том случае, когда пользователь выполняет много запросов.
Пользователь не имеет подробного представления об информационном обеспечении системы — он знает лишь, что ему нужно. Учитывая, что стоимость использования сетевых и системных ресурсов и каналов высока, поисковая система помимо удовлетворения запросов пользователей, должна решать проблему оптимизации.
Если вместо полного описания используется база знаний о запросе, то для представления такого типа знаний можно использовать реляционную модель с нечеткими элементами — отношения нечеткого предпочтения сетевых ресурсов по объектам, свойствам, временным и пространственным характеристикам. На языке нечетких множеств данная задача сводится либо к выбору эффективных альтернатив, либо к многокритериальной оптимизации с нечеткими критериями, которая решается минимаксным методом.
Информационные ресурсы Internet настолько объемны и динамичны, что даже непрерывная адаптация базы запросов в поисковых машинах не обеспечивает единственность выбора направлений поиска. Для осуществления наилучшего выбора направлений поиска определена оценка релевантности, а выбор направления поиска сводится к определению значений направлений по совокупности поисковых признаков.
Вагиф Касумов (vagif@dcacs.ab.az) — сотрудник Информационно-телекоммуникационного научного центра Академии наук Азербайджана.
Полностью статью можно прочитать в электронной версии на сайте www.osp.ru/os/2001/09/e-kus.htm