Многие популярные Web-узлы так и остались бы неизвестными, если бы не справочно-поисковые системы

Это должно было произойти, и это произошло. Прошедший 1996 год стал годом появления и быстрого распространения поисковых систем, специализирующихся на выявлении, в первую очередь, русскоязычных материалов. Закономерность этого процесса понятна, поскольку к данному моменту российский блок Интернет уже накопил обширный по объему и ценный по содержанию информационный массив, и стал полноправной составной частью всемирных киберресурсов. Образование поисковых систем явилось как бы еще одним доказательством реальной значимости накопленного информационного массива: как только сформировалось то, что нужно искать, появились инструменты, позволяющие это делать.

Русскоязычные поисковые средства возникли не на пустом месте. У их разработчиков было время собраться с мыслями и проанализировать многочисленные зарубежные аналоги (забегая вперед, отметим, что этой возможностью воспользовались далеко не все). Тем более, что принципиально новые решения изобрести было довольно сложно. Российские поисковые системы сохранили традиционное деление на электронные справочники, позволяющие последовательно знакомиться с материалами по определенным отраслям и темам, и поисковые системы в чистом виде, с помощью которых осуществляется поиск источников по узкому профилю.

Среди справочников на роль российского Yahoo! претендуют два программных продукта: "Паук" (http://spider.raser.ru) и "Созвездие Internet" (http://www.stars.ru). "Паук", плетущий свои сети с 1995 года (единственный, обогнавший время) и уже ставший ветераном отечественного сетевого поиска, имеет интерфейс без особых изысков, но зато несколько иерархических уровней. Логичность отраслевой иерархии оставляет желать много лучшего, поэтому для его использования требуется порой нестандартное мышление, иначе трудно определить, в каком разделе могут находиться требуемые данные. Такая запутанность справочника уже сейчас затрудняет работу, а с ростом объемов информации эта проблема будет все более и более усугубляться. Выборочная проверка оперативности обновления разделов "Паука" показала, что система поддерживается в актуальном состоянии довольно слабо. В ней отсутствуют некоторые очень информативные серверы, появившиеся более полугода назад.

В своей нынешней версии "Паук" поддерживает все русские кодировки, а также дает возможность непосредственного поиска, который, как это часто бывает у справочников, ограничен названиями, первым строками текста (комментариями) и электронными адресами Web-страниц. Поисковый блок не позволяет употреблять в запросе даже простые операторы "и" и "или", поэтому розыск может вестись одновременно только по одному понятию, с возможностью усечения окончаний слов с помощью "*".

"Созвездие Internet", нашедшее пристанище на известном сервере "ИнфоАрт", относится к новейшим разработкам, что заметно по его интерфейсу, выполненному на высоком уровне с применением фреймов и качественной графики: функционально и одновременно внешне привлекательно. К сожалению, содержание "Созвездия" пока отстает от его внешнего вида. Справочник не имеет разветвленной иерархической структуры. Основной ряд включает разделы "Компьютеры и технологии", "Экономика и бизнес", "Медицина и здоровье", "СМИ", "Искусство и культура", "Образование и наука", "Техника и транспорт", "Отдых и развлечения" и "Разное". При раскрытии раздела идет непосредственное перечисление серверов данной тематики, число которых пока также невелико. В среднем оно составляет около 40, а памятуя о том, что в России число серверов давно превысило 3000, легко понять, что фрагмент, отраженный в "Созвездии", очень невелик. Один из немногих положительных моментов - то, что помимо названия сервера в справочник включается также краткая характеристика его содержания. Прямой же поиск в "Созвездии Internet" не выходит за пределы названий и аннотаций уже учтенных серверов.

Для ориентации в отечественном киберпространстве также может помочь электронная версия "Желтых страниц Интернет (русские ресурсы)" издательства "Питер", хранящаяся по адресу (http://proxy.menatep.elcom.ru/yp/yp_about.htm).

Русскоязычные поисковые средства в чистом виде (search engines) предоставляют более широкие возможности выбора. К ним относятся Rambler (http://www.rambler.ru), "Новый русский поиск" (http://www.openweb.ru/koi8), "Апорт!" (http://russia.agama.com/aport), "Русская машина поиска" (http://search.interrussia.com) и Russian Internet Search (http://www.search.ru).

Наиболее мощным является Rambler. Эта система, поддерживаемая ТОО "Стек", создана специально для выявления материалов на серверах в пределах бывшего СССР. Она относится к числу самых молодых (время образования - осень 1996), поэтому ее разработчики имели возможность изучить опыт своих предшественников, что, безусловно, сказалось на качестве системы.

Rambler, поддерживающий все кодировки кириллицы, обеспечивает полнотекстовый поиск более чем на 350 тысячах страниц 3900 отечественных узлов, а количество проиндексированных страниц ежедневно увеличивается в среднем на 10 тысяч. Помимо этого, обследуется также недельный архив телеконференций РЕЛКОМ.

Система имеет простой дружественный интерфейс, позволяющий составить поисковое предписание без особого напряжения. Пользователям предлагается составить простой или углубленный запрос (Advanced query). Поиск при этом будет осуществляться в одном и том же информационном массиве, однако при простом запросе (основное меню) результат будет ограничен максимум 30 ссылками, и, кроме того, при углубленном запросе появляется возможность большей детализации.

Механизм поиска предусматривает использование операторов AND и OR, а также позволяет усекать окончания с использованием традиционных "*" или "?". При углубленном запросе, когда число возможных ссылок расширяется до 1000, можно также уточнить поисковое предписание по дате последнего обновления документа и указать термины, появление которых в источнике должно быть исключено (по сути, это дополнительный оператор NOT). Для удобства пользователя все манипуляции с терминами могут осуществляться и через меню формы запроса.

Одним из главных достоинств Rambler является близкий к образцовому вывод результатов поиска, превосходящий, на наш взгляд, все зарубежные аналоги. Даже в нормальной форме (а есть, кроме того, и детальная!) ссылка на найденный объект включает, помимо названия, электронного адреса, кодировки, размера и времени обновления документа, еще и внушительных размеров резюме, из которого можно получить представление о том, в каком контексте употреблены искомые термины (они выделены жирным шрифтом). Блок искусственного интеллекта Rambler производит ранжирование результатов в зависимости от частоты употребления и местоположения искомых терминов (термин, находящийся в title или head, "весит" больше, чем находящийся в body). Поэтому в начале списка представлены ссылки на источники, наиболее полно соответствующие запросу.

Данная система работает чрезвычайно быстро. Однако опытное ее опробование показало, что она не столь же оперативно обновляет свои индексы. При каждом "очередном" визите на сервер программа-робот отрабатывает только одну новую ссылку (индексирует один документ) и уходит на следующий узел. Другие же документы остаются ждать следующего появления робота. Тестирование выявило также, что Rambler не всегда своевременно убирает ссылки на Web-страницы, снятые с серверов по каким-либо причинам. В ответ на некоторые запросы число ссылок, за которыми оказывается сообщение "File not found", составляет до 10%.

В целом же Rambler пока является безусловным лидером среди отечественных поисковых средств и в перспективе вполне может претендовать на роль одного из самых посещаемых узлов российского блока Интернет.

"Новый русский поиск" также является полнотекстовой системой, однако он ограничивает область просмотра шестидесятью наиболее информативными российскими серверами. Им также обследуется содержание всех некоммерческих конференций РЕЛКОМ за последние две недели. При этом система может вести розыск с использованием операторов AND, OR и NOT, допускает усечение окончаний и поиск подряд стоящих терминов, соединяемых знаком "+" (например, "поисковые+средства" будет равно словосочетанию "поисковые средства"). Все инструктивные сведения, необходимые для работы с системой, выведены на ее основной интерфейс.

К сожалению, скорость работы "Нового русского" недостаточно высока, что объясняется его слабой аппаратной базой. Результаты поиска ранжированы в зависимости от степени соответствия запросу. Выявленные ссылки содержат название, электронный адрес, время последнего обновления документа и степень его соответствия запросу. Какое-либо подобие резюме отсутствует, что существенно снижает информативность представленных ссылок.

"Новый русский поиск" обладает также специальной функцией "Документы-образцы", позволяющей конкретизировать полученные результаты. Ее смысл заключается в отборе документов, схожих содержанием с конкретной Web-страницей. Так, например, при поиске сведений о А.И.Лебеде неминуемо обнаружатся ссылки на одноименного представителя семейства пернатых. Для того чтобы отсеять эти записи, надо на одной из ссылок, бесспорно относящихся к Лебедю-политику, указать названную функцию, т. е. щелкнуть мышью на специальную отметку (поставить галочку), а затем нажать на кнопку "Документы-образцы". Повторный поиск выдаст сведения только о нужных страницах.

К числу новейших поисковых средств принадлежит "Апорт", расположенный на сервере "Агама". Главная отличительная черта этой системы - искренняя забота об удобстве потребителя. Пока ею обследуется только 16 российских серверов, однако уровень сервиса и скорость работы заставляет отнести это поисковое средство к числу чрезвычайно перспективных.

"Апорт", понимающий все кириллические кодировки, предоставляет самые широкие возможности составления запроса. Помимо традиционных операторов "и" и "или", усечения окончаний ("*") и поиска по целой фразе (двойные кавычки), система обладает способностью вычленять сочетания терминов только в случае, если они расположены в тексте рядом друг с другом. Насколько "рядом", каждый раз определяется пользователем. Так, запрос "{3, телекоммуникационные технологии}" выявит все документы, в которых указанные слова встречаются в пределах трех соседствующих предложений, а запрос "[4, географические карты]" отыщет только те страницы, где между искомыми словами промежуток составляет не больше двух других слов. Падежи и числа употребляемых лексических единиц в данном случае не имеют значения, система их самостоятельно отсекает. За счет этой возможности потребитель застрахован от значительной доли информационного шума, возникающего при случайном сочетании ключевых слов, например в начале и в конце документа.

Результаты поиска ранжированы в зависимости от частоты употребления на странице искомых терминов (документы с наибольшей частотой - впереди). При этом ключевое слово выводится в окружающем контексте, что позволяет сразу определить, насколько найденная ссылка соответствует запросу. Кроме этого, представлены сведения о времени обновления, размере и кодировке файла, а также электронный адрес.

Все инструкции "Апорт" расположены непосредственно под основным меню, и изложены очень кратко, четко, с необходимыми примерами.

"Русская машина поиска", несмотря на название, является зарубежной разработкой, ориентированной, тем не менее, исключительно на русскоязычные ресурсы по всему Интернету. Как показывают тесты, она бороздит русскоязычное киберпространство весьма выборочно. Вероятно, ориентиром выступает значимость того или иного узла, определяемая создателями "Машины". Пока же в ее арсенале выборочные страницы более чем с 900 русскоязычных узлов. Ее безусловным преимуществом является широкий арсенал средств формирования запроса. Разработчиками учтены многие достижения зарубежных систем, среди которых основные булевые операторы AND и OR, поиск по отдельной фразе и ограничение поиска определенными элементами Web-страниц (название, ключевые слова, автор, и т.д.). Помимо этого, меню запроса "Машины" предлагает пользователю возможность самому устанавливать или отменять чувствительность к написанию заглавных и строчных букв, а также указывать количество возможных ошибок в искомом слове, если нет уверенности в его написании. Последнее качество, кстати, весьма полезно и при многовариантности запроса типа "библиотека или библиотеки или библиотек", поскольку усекать термины "Машина" принципиально не позволяет.

"Русская машина поиска" обладает довольно непривычной формой выдачи результатов, определяемой используемым инструментом - Harvest. Перед пользователем предстают нагромождения из английских и русских слов и символов. После некоторого разбирательства удается понять, что все не так сложно, просто один длинный URL разбит зачем-то на несколько составных частей, привычный title назван "Description", а каждое вхождение искомого термина обозначено отдельной строкой. Единственной положительной стороной такой детализации является возможность сразу увидеть, в какой части Web-страницы содержится искомый термин, а иногда даже и в каком контексте он употреблен. Впрочем, такую пестроту результатов можно и отменить через меню, однако в этом случае информация в ссылке сократится до электронного адреса найденного объекта. К сожалению, система не ранжирует результаты поиска, поэтому зачастую приходится просматривать список до самого конца, ища наиболее ценные ссылки.

Russian Internet Search пока по праву занимает последнее место в перечне отечественных поисковых средств. Его разработка, похоже, превратилась в повинность для его создателей, не удосужившихся даже написать русскоязычный интерфейс. Поэтому с какой бы силой и продолжительностью пользователи ни давили на иконки перекодировок, перед ними будет все то же англоязычное меню и англоязычная "помощь". Из возможных инструментов формирования запроса в наличии лишь установка чувствительности к написанию строчных и прописных букв и способность указывать количество допустимых ошибок. Если к этому добавить не очень высокую скорость работы и вывод результатов в виде, аналогичном сокращенному варианту в "Русской машине поиска", получится и вовсе тоскливое зрелище, отпугивающее случайно забредших на сервер пользователей.

Помимо перечисленных, на некоторых наиболее значительных отечественных серверах представлены системы, осуществляющие поиск в пределах данного узла. Таковы, например, "Поиск по серверу" АОЗТ "Дукс" (http://www.dux.ru), Яndex (http://www.cti.ru/arcadia/solution.html) на сервере CompTek International (обследует также очень информативный сервер NNS), и некоторые другие.

Существует также пока единственная в своем роде региональная поисковая система Samara Info (http://www.ssau.samara.ru/cgi-bin/search/search), осуществляющая выявление материалов на 12 серверах, расположенных в Самарской области. Пока в ее активе сведения о более чем 3500 документах.

Говоря о русскоязычных поисковых средствах, нельзя не упомянуть Яndex, являющийся, по сути, не поисковой системой, а скорее русскоязычной лингвистической оболочкой для поисковых целей. Разработчики Яndex изрядно потрудились над анализом морфологии русского языка, в результате чего создана система, снимающая проблему многовариантности русского языка типа слов "идет - шел", "окно - окон ", а также чисел, родов, спряжений и склонений. Эта оболочка, в частности, применена для поиска русскоязычных материалов в знаменитой Alta Vista, через интерфейс, находящийся по адресу http://www.cti.ru/alta.html.

При работе с поисковыми серверами нелишне иметь в виду то, что некоторые из поисковых систем при запросе, содержащем несколько терминов, порой руководствуются известным принципом "на безрыбье и рак рыба", выдавая вначале сведения о документах, включающих все термины, а затем и ссылки на Web-страницы, содержащие два из трех или даже один из трех искомых терминов. Системы как бы "забывают" об условии сообщать данные только при условии сочетания всех слов, причем пользователи остаются в полном неведении относительно этой особенности. Таковы, например, "Новый русский поиск" и Russian Internet Search.

К общей черте, объединяющей многие русскоязычные поисковые средства, относится непонятная страсть программистов искусственно ограничивать число показываемых ссылок. В меню Rambler, "Нового русского поиска", "Русской машины поиска" и Russian Internet Search присутствует пункт, с помощью которого пользователь самостоятельно должен задать это число. По логике же поиска оно всегда должно быть максимальным, дабы не допустить потери данных.

В целом же потенциал российских поисковых средств пока еще уступает лучшим зарубежным аналогам, что объясняется даже не столько меньшей мощностью используемого аппаратного обеспечения, сколько тем, что их разработка и поддержка зиждятся более на энтузиазме создателей, нежели на серьезной коммерческой основе. Западные системы, и прежде всего американские, существуют главным образом за счет вкрапливаемой в интерфейс рекламы. Чем большими возможностями обладает система, тем большее число пользователей к ней обращаются, и, соответственно, тем в большей степени она привлекает рекламодателей. С развитием в России предпринимательской деятельности посредством Internet, значение поисковых систем как наиболее посещаемых серверов будет неминуемо возрастать, и поэтому мы вправе ожидать дальнейшего повышения их качества. Тем более что западная практика показывает: каждая вновь появившаяся система уже чем-то превосходит предыдущие, так как в ней учитывается и позитивный, и негативный опыт предшественников. Поэтому нет сомнений, что в ближайшем будущем отечественные поисковые средства значительно нарастят как аппаратно-программную мощность, так и свои искусственно-интеллектуальные способности. На наше общее благо.


Степанов Вадим Константинович - доцент Московского Государственного Университета Культуры. С ним можно связаться по электронной почте: stepanov@shpl.ru

Поиск в русской Сети

Настал момент, когда навигация в русской Сети стала невозможна без собственных машин поиска. Главным препятствием на пути вхождения "русскоязычного" раздела Интернет в общемировую систему стала кодировка букв русского алфавита, находящаяся во второй половине таблиц ASCII. Большинство зарубежных поисковых роботов попросту не воспринимают эти знаки, а значит, не индексируют страницы, написанные в "extended ASCII". Подобная проблема, видимо, стояла и перед программистами всех нелатиноязычных стран. Правда, была еще возможность самостоятельного занесения своих страниц в такие тематические каталоги, как Yahoo. Остается лишь гадать, почему эта возможность практически не использовалась российскими Web-мастерами. И на сегодняшний день русская Сеть очень слабо представлена в крупнейшем тематическом каталоге мира: туда заносят свои страницы лишь те, кто так или иначе связан с Западом либо ищет с ним деловых контактов.

Проблему частично решила "всеядная" Alta Vista, однако поиск в ней затруднен из-за случайного "засорения" выхода дальневосточными страницами: японцы, китайцы, корейцы используют для своих шрифтов те же extended ASCII. Еще одна сложность состоит в том, что в русском компьютерном мире существует целых четыре (!) альтернативных кодировки, и русские страницы далеко не всегда продублированы в каждой из них, поэтому результат поиска в Alta Vista может сильно зависеть от того, какая кодировка используется. Кроме того, Alta Vista не поддерживает тематического поиска.

Все эти неприятности сделали навигацию в русском Интернет делом крайне затруднительным: многие страницы оставались в безвестности. Поначалу русский Интернет пошел именно по пути создания каталогов, где царило "самообслуживание": наткнувшемуся на каталог предлагалось внести в список свой URL. Первые каталоги возникли стихийно - так родилась страница Андрея Ражанского "Russian Yellow Pages". Поначалу эта страница была коллекцией русских URL, которые он собрал для себя, но удобный дизайн, возможность внесения своей ссылки и удачное название превратили ее в довольно популярный каталог в среде зарубежных (в том числе и не русскоязычных) пользователей, интересующихся русским отделом Интернет. Приблизительно тем же методом собираются и более серьезные русские каталоги. Знаменитый Yahoo тоже рос за счет своих посетителей.

Компания "Демос" предпочла действовать "макроспособом", может быть, более эффективным. "Наш сервер - коллекция баз данных ведущих информационных агентств России. Мы представляем эту информацию только в Интернет. Новые имена попадают в него после заключения договора с каким-нибудь новым информационным агентством", - пояснил представитель компании "Демос". В настоящее время это один из самых популярных российских каталогов - 3000 дневных обращений (данные "Демоса").

Но ни один из "рукописных" каталогов не в состоянии охватить весь "русский" сектор Интернет. По-видимому, первую русскоязычную поисковую систему "Русская поисковая машина" запустила фирма "РусИнфОйл". Ее система поиска и индексации основана на известном программном продукте Harvest, созданном в университете Колорадо. Однако прежде чем "заговорить по-русски", он претерпел значительные изменения.

Создатели "Русской поисковой машины" индексируют сайты в России и на территории бывшего Советского Союза, а также русскоязычные и русско-ориентированные узлы в мировом Интернет. На сегодняшний день у них в среднем 11 тысяч посетителей в день. Кстати, по словам представителя фирмы, доля иностранцев среди пользователей "Русской Поисковой Машины" достигает 50-60%.

Осенью и зимой 1996 года появились еще три поисковые системы, основанные на автоматическом сборе информации. Такие системы, как "Рамблер", "ТЕЛА", "Русский Поиск", очень быстро завоевывают популярность среди пользователей русскоязычного Интернет. Тот факт, что они сфокусированы на относительно малом количестве серверов (их в России и за ее пределами около 4 тысяч), позволяет им индексировать практически все русские страницы, а также более оперативно обновлять свои базы данных. Кроме того, некоторые из них обеспечивают поиск с учетом морфологии русского языка, находя все формы заданного слова. Немного особняком в этом ряду стоит "Русская Альта Виста" фирмы CompTek, представляющая собой некую языковую надстройку к известной поисковой системе. Эта система находит все грамматические формы заданного слова и передает результат для поиска Alta Vista. Собственной базы данных она не имеет.

Создатели русских поисковых систем работают также и над решением другой проблемы - неоднозначности кодировок текста. Система "Рамблер" нормализует ввод, приводя его к однородной кодировке, что позволяет осуществлять поиск среди страниц, созданных с использованием различных кодировок.

Следующим этапом в развитии русских поисковых систем должна стать систематизация русскоязычных ресурсов по принципу тематических каталогов. Практически все поставщики машин поиска собираются решить эту проблему в ближайшем будущем. Интенсивный рост русскоязычного Интернет сулит хорошие перспективы рекламному бизнесу, и владельцы русских поисковых систем как никто другой заинтересованы в росте популярности своих узлов. Наиболее полный из известных нам списков русских поисковых средств находится на узле "Zhurnal.Ru".


Александр Шерман - http://www.zhurnal.ru

Таблица сравнительных характеристик русскоязычных поисковых систем

Название и адрес системы
Зоны поиска
Глубина поиска внутри документа
Элементы поискового предписания
Вывод результатов поиска, в том числе:
Rambler http://www.rambler.ru
WWW - весь экс-СССР (более 3500 серверов). Некоммерческие конференции Relcom за последнюю неделю.
Все слова в документе.
Операторы AND, OR, NOT. Возможность усечения терминов. Ограничения по дате.
Название документа, резюме, размер: файла, URL, дата последнего обновления, степень соответствия, кодировка.
Новый русский поиск http://www.openweb.ru
WWW - около 60 серверов. Некоммерческие конференции Relcom за последние две недели.
Все слова в документе.
Операторы AND, OR, NOT. Поиск по словосочетанию.
Название документа, размер файла, URL, дата последнего обновления, степень соответствия запросу.
Русская машина поиска http://search.interrussia.com
WWW (более 900 серверов)
Все слова в документе.
Операторы AND и OR. Поиск по фразе. Допуск возможного числа ошибок. Чувствительность к строчным и прописным бумагам.
Название документа, резюме, URL, степень соответствия запросу.
Паук http://spider.raser.ru
WWW
Название первые строки и электронный адрес документа.
Возможность усечения терминов.
Название сервера, URL.
Созвездие Internet http://www.stars.ru/
WWW
Название и краткая характеристика серверов
Возможность усечения терминов.
Название сервера, краткая характеристика содержания, кодировка.
Russian Internet Search http://www.search.ru
WWW
Все слова в документе.
Операторы AND и OR. Чувствительность к строчным и прописным буквам. Допуск возможного числа ошибок.
Название документа, URL.
Апорт! http://russia.agama.com/aport/
WWW - 16 российских серверов.
Все слова в документе.
Операторы AND и OR. Поиск по фразе. Возможность усечения терминов. Чувствительность к строчным и прописным буквам.
Название документа, резюме, размер файла, URL, дата последнего обновления, степень соответствия запросу, кодировка.