Жизнь сегодняшнего поколения людей уже трудно представить без Интернета, который, по своей сути, можно рассматривать как огромную информационно–поисковую систему (ИПС), что позволяет проанализировать функционирование Сети исходя из теоретических и практических аспектов построения ИПС.
Как известно, выделяются два класса ИПС: документальные и фактографические, первые никогда не позволят достигнуть 100 процентной полноты и точности поиска, а вторые это обеспечивают, но при условии формализации данных всего поискового пула. Однако для ИПС формализация неформализуемых документов обеспечивается путем реферирования и индексирования, что, безусловно, в масштабах Интернета невозможно. Собственно Интернет, видимый нами через «очки» поисковых машин, представляет собой документальную систему. В ответ на запрос поисковая машина выдает список ему релевантных страниц, причем списки могут быть весьма длинными, что сильно затрудняет выбор нужного документа.
Для решения данной проблемы поисковики ранжируют полученные результаты по некоторым критериям, помещая на первые позиции списков наиболее «значимые» с их точки зрения страницы. Применительно к поисковым машинам «Яндекс» и Google, критериями, по которым производится перемещение страницы на более почетное место, являются ТИЦ (тематический индекс цитирования) и PageRank, характеризующий популярность страницы в Сети по количеству ссылок на нее. Данный подход был оправдан при создании первых ИПС, предназначенных для поиска научной литературы, – на первое место в списке поиска помещался какой-либо фундаментальный для конкретной прикладной области труд или монография. Ясно, что данная страница может вообще не соответствовать запросу, например, если требовалось обнаружить альтернативные материалы, на которые почти никто не ссылается.
Еще хуже дело обстоит с поиском материалов, не имеющих отношения к научной тематике. Например, в области туризма, путешествий, культуры и пр. нет основополагающих монографий, а есть созданные в разное время страницы, которые благодаря деятельности множества «оптимизаторов» поисковых машин попадают на первые места списков. Такая деятельность по «оптимизации» также лишь отчасти способна повысить релевантность, причем владельцам ресурсов приходится теперь думать не столько о контенте, сколько о предпочтениях и алгоритмах работы поисковых машин, размещая тэги и дескрипторы в строго определенных местах. Как следствие, даже если в недрах Интернета лежит нужная пользователю страница, она так и не будет найдена.
Объектно-ориентированный поиск
Вернемся к восприятию Интернета как огромной документальной ИПС. Наши запросы, интерпретируемые поисковыми машинами, приводят к выдаче ссылок на те или иные страницы (документы), которые считаются поисковиком «релевантными».
Окружающий мир и, соответственно, контент Интернета не исчерпывается лишь структурированными документами, а включает в себя метаданные (сведения о различных объектах реального мира: людях, предметах, событиях, организациях) и всевозможные источники в различных форматах (фото, видео и т.п.). Существенно, что между всеми этими объектами имеются различные связи. Однако современные виды поиска и предоставляемые пользователю возможности анализа выданного контента не соответствуют потенциалу, заложенному в информационных ресурсах Сети, заставляя людей тратить много времени на ручную навигацию, причем без гарантии обнаружения нужного документа.
Реализация в поисковых машинах возможности объектно-ориентированного поиска, позволяющего извлекать из информационных ресурсов Интернета сведения об интересующих объектах с учетом их взаимосвязей, поможет повысить эффективность работы с Сетью. Объектно-ориентированный поиск даст возможность искать в информационных ресурсах Интернета не только документы, но и сведения об объектах реального мира.
Идея представления информационного пространства в виде совокупности объектов реального мира, находящихся в определенных отношениях, не нова и была предложена еще в 1974 году Жаном-Раймоном Эбриэлем (Abrial J.R., J. W. Klimbie, K. L. Koffeman (Eds.): Data Base Management, Proceeding of the IFIP Working Conference Data Base Management, Cargese, Corsica, France, 1-5 April, 1974. North-Holland, 1974, ISBN 0-7204-2809-2); его бинарная модель данных получила впоследствии развитие в модели данных семантической сети (рис. 1).
Очевидно, что реализации семантического подхода должно предшествовать умение поисковых машин выделять из документов объекты реального мира и фиксировать их взаимосвязи.
Выделение объектов
Выделение объектов реального мира (персоналий, событий, организаций и пр.) представляет собой достаточно сложную задачу, хотя, анализируя опции расширения различных поисковых машин, можно заметить, что в них уже имеются элементы ее решения (например, выделение фамильно-именных групп, поиск фотографий, видеоматериалов и пр.). Однако основная проблема заключается в разработке эффективных алгоритмов выделения объектов, реализующих ETL-процессы (Extract, Transfer, Load) по извлечению данных из внешних источников, их трансформации и очистке, а также загрузке в хранилище данных. Примером таких разработок является, в частности, сервис Microsoft EntityCube, выполняющий сбор и систематизацию данных о людях, чьи имена упоминаются в Сети. Данный сервис формирует единое досье, анализируя Web-страницы и устанавливая связи между объектами.
Выделение объектов должно осуществляться уже на этапе индексирования данных, а результатом является специальная объектная база поисковой машины, содержащая идентифицирующие признаки каждого выделенного объекта с фиксацией его связей с другими объектами и соответствующими ресурсами Сети. Логическая модель данной базы, семантическая сеть, эффективно реализуется средствами реляционных СУБД с использованием ассоциатора. Примерами такой реализации могут служить конструктор «Бинар-3» и разработки в рамках концепции Semantic Web, направленные на реализацию возможности обработки информации из Сети с целью превращения ее в семантическую сеть. Однако, в отличие от этого подхода, предусматривающего использование для извлечения знаний ETL-процессов и формирование объектной базы данных, семантическая сеть, являющаяся, по сути, надстройкой над Интернетом, предусматривает создание с использованием дополнительной формализации новой сети документов с метаданными о ресурсах Сети, существующей параллельно с ними. Если сами ресурсы предназначены для восприятия человеком, то метаданные используются поисковыми роботами для формирования логических заключений о свойствах этих ресурсов. На сегодняшний день в рамках концепции Semantic Web разработаны или находятся в стадии разработки языковые средства для представления знаний, описания онтологий (описание классов объектов, их свойств и взаимоотношений), описания Web-сервисов и запросов к знаниям, однако пока отсутствуют средства, реализующие в автоматическом режиме процесс формализации документов Сети.
Необходимо отметить, что использование при последующем поиске созданной с применением ETL-процессов базы данных будет эффективным, если информация по конкретному объекту будет храниться в ней лишь один раз, «обрастая» со временем новыми связями с другими объектами. Данная возможность может быть реализована с помощью идентификации объектов при их помещении в базу данных – эта процедура осуществляется с использованием идентифицирующих признаков объектов и правил идентификации для объектов каждого типа, представленных, например, в виде совокупности правил таблиц решений и подобных инструментов из области экспертных систем.
Визуализация
Формирование запроса для поисковой машины напоминает сегодня процесс управления танком – наблюдение за пространством Сети ведется через узкое строчное окошко задания поискового предписания. Выдача же результатов поиска ассоциируется с опушкой густого леса, на которую выехал этот танк, – множество внешне похожих деревьев, а впереди те, которые поисковик счел наиболее релевантными. Далее мы начинаем самостоятельно бродить по этому «лесу», не имея каких-либо ориентиров в поисках нужного дерева.
Альтернативой такого смотрового окошка является визуальная навигация, позволяющая в наглядном виде описывать информационные потребности в виде совокупности объектов и взаимосвязей между ними. Пример запроса с использованием визуальной навигации и графического навигатора – структурированного языка запросов Graphic Structured Query Language (GSQL), позволяющего в структурированном графическом виде задавать запросы с применением объектов, связей между ними, условий на объекты и связи, приведен на рис. 2.
Для задания условий на объекты и на связи между ними (тонкие стрелки на рис. 2) может применяться технология «запрос по примеру» – Query by example, QBE, предложенная IBM еще в 1970 году, предполагающая создание запросов с использованием образцов, преобразуемых
в формальный запрос к базе, что позволяет неспециалисту, например, в SQL строить сложные запросы. Выдача результатов поиска также структурируется в соответствии со структурой запроса и представляется в текстовом (рис. 3) или графическом виде.
Релевантность объектно-ориентированного поиска
Механизм объектно-ориентированного поиска позволяет повысить степень релевантности находимых в Интернете сведений путем учета не только внутренних и внешних факторов, но и наличия искомых объектов, находящихся в определенных отношениях. Сведения о данных объектах могут сдержаться как внутри одного документа, так и в других, даже не имеющих на него непосредственных ссылок. В этом случае релевантность является функцией, зависящей уже не только от содержания документа и внешних ссылок на него, но и от отношений искомых объектов. Данный подход к определению релевантных сведений, помимо повышения полноты и точности поиска, в существенной степени снизит возможности недобросовестной «оптимизации».
Реализация объектно-ориентированного поиска в Сети сделает возможным построение макрообъектов (виртуальные объекты, производные по отношению к исходным объектам), которые станут инструментом обобщения информации, что является важнейшим качеством человеческого мышления, позволяющим манипулировать сложными понятиями, повышая уровень абстракции.
При создании макрообъекта пользователь выбирает некоторое множество реализаций объектов одного или нескольких типов и присваивает ему любое наименование («Мои друзья», «Интересные фотографии» и т.п.). Затем создается новый тип объекта, с одной записью (реализацией), содержащей, как минимум, одно поле с наименованием макрообъекта, с которой автоматически устанавливаются связи со всеми реализациями выбранного множества. После этого созданный макрообъект может участвовать во всех операциях, связанных с поиском, навигацией и выдачей информации. Существенным является то, что макрообъекты могут участвовать в образовании макрообъектов следующего уровня.
***
Механизмы, применяемые сегодня в поисковых машинах, не позволяют в полной мере задействовать потенциал информационных ресурсов Интернета, рассматривая его как большую документальную ИПС. Реализация объектно-ориентированного поиска и визуализации при задании поискового предписания и выдаче результатов позволит повысить полноту и точность поиска. Развитие этой технологии обеспечит, в частности, возможности синтеза и обобщения информации путем автоматизированного выявления косвенных связей между объектами и построения на их основе макрообъектов, соответствующих индивидуальным информационным потребностям пользователей.
Николай Иванов (NIvanovZC@gmail.com) – консультант-координатор проекта Всемирного Банка по модернизации информационной системы таможенных органов РФ (Москва).
Рис. 1. Пример семантической сети
Рис. 2. Пример GSQL-запроса
Рис. 3. Пример выдачи результата по запросу GSQL
Конструктор «Бинар-3»
Конструктор «Бинар-3» был разработан для удовлетворения информационных потребностей ряда ведомств страны и представляет собой коробочный продукт, который пользователь мог настроить в зависимости от специфики прикладной области. В конце 1990-х годов продукт был принят в качестве базового в МВД РФ для использования в РУБОП.
«Бинар-3» – это конструктор, поддерживающий логическую модель данных в виде семантической сети и предоставляющий возможности по накоплению, идентификации и поиску взаимосвязей по объектам учета, включая графическую навигацию с использованием графического структурированного языка запросов GSQL и синтез новой информации путем выявления цепочек косвенных связей. С помощью одного GSQL-запроса пользователи могут получить полный «срез» базы данных из взаимосвязанных объектов в интересующей их плоскости.
Продукт использовался для информационной поддержки деятельности различных ведомств, таких как региональное управление по борьбе с организованной преступностью, Следственный комитет МВД России, компания РОСНО и ряд других. Так, применение «Бинар-3» в СК МВД позволило сократить время на составление обвинительных заключений по наиболее сложным и большим по объему уголовным делам, осуществлять анализ информации о движении товарно-материальных ценностей и документов, необходимый при проведении ревизий, расследовании многочисленных эпизодов получения наркотиков по поддельным рецептам. Кроме того, на базе конструктора осуществляется анализ финансовой информации в привязке к различным объектам, например о поддельных кредитовых авизо из различных регионов России, необходимый для выявления недобросовестных компаний, банков и конкретных лиц.
Релевантность и другие
Документ считается релевантным, если он оказывается полезен, а способность ИПС отыскивать релевантные документы называется полнотой, которая является наиболее важной функцией поисковой машины. Такие машины не раскрывают своих механизмов поиска, но все они базируются на подходе, известном еще с незапамятных времен первых ИПС. Размещенный в Интернете документ индексируется для формирования его поискового образа, состоящего, как минимум, из набора присутствующих в документе ключевых слов. Запрос на поиск состоит также из набора ключевых слов, который сравнивается с накопленными поисковыми образами документов, в результате чего формируется список релевантных документов, содержащих все или часть ключевых слов запроса. При этом уровень полноты субъективно определяется сегодня разработчиками поисковых машин.
Пользователь вправе ожидать, что найденные документы содержат, как минимум, все или почти все ключевые слова, а как максимум – то, что эти документы действительно релевантны запросу. Однако, несмотря на то что большинство поисковиков, обеспечивая полнотекстовый поиск, предоставляют высокий уровень полноты индексирования, они в то же время снижают точность поиска – второго (после полноты) критерия эффективности ИПС. Данный критерий характеризует фильтрующую способность поисковой машины находить действительно нужные потребителю документы. Точность измеряется отношением числа релевантных документов к общему числу выданных в результате поиска документов. Например, если в некоем ресурсе имеется 10 релевантных запросу документов, но система находит только 8, то полнота поиска составляет 80%, а если же при этом помимо 8 релевантных документов в выдачу попадают 92 ненужных, то точность системы составляет 8%. Оба эти критерия в совокупности характеризуют поисковые возможности системы: ее способности задерживать нежелательные документы и пропускать полезные.
Поиск, основанный только на контенте, которым легко могли манипулировать недобросовестные владельцы сайтов, показал свою неэффективность в виде снижения точности и полноты, что и вызвало появление технологий типа PageRank. Сегодня для поисковых машин Сети релевантность является функцией от внутренних (содержание текста документа) и внешних факторов (внешние ссылки). Однако с ростом масштабов Интернета ссылка перестает быть точным признаком рекомендации и соответственно значимости страницы: сегодня ссылка, скорее всего, лишь связанный сайт, лицензионное требование или ответная услуга, чем подтверждение ценности ресурса. Поэтому обеспечению надежности информации, обеспечиваемой ссылками, уделяется все меньше внимания.
О поисковых системах, доменных именах и поисковой оптимизации
Что общего между регистрацией доменного имени и алгоритмом ранжирования результатов поиска? Позиция ссылки в списке результатов поиска определяется не только контентом страницы и в разных системах размещается по-разному.
http://www.osp.ru/os/2005/11/380556
Моделирование и анализ работы информационно-поисковых систем Internet
Информационно-поисковые системы Internet – основной инструмент, позволяющий ориентироваться в огромном информационном пространстве Сети. Как правило в ответ на запросы выдается список ссылок на информационные источники, по мнению системы наилучшим образом отвечающие потребностям пользователя. Как поисковые системы ранжируют ссылки и как вообще ищут документы?
http://www.osp.ru/os/1996/06/179029