Данной публикацией Computerworld Россия представляет свою «Домашнюю лабораторию». В этой рубрике мы планируем рассказывать читателям о нехитрых приемах, пользуясь которыми они самостоятельно могут найти ответы на самые разнообразные вопросы.
Каждый владелец поисковой машины гордится размером своего индекса — числом документов, проанализированных поисковой машиной. Чем больше размер индекса, тем больше документов может найти пользователь этой поисковой системы. Оценить размеры индекса «поисковика» достаточно просто — заставьте его искать какое-либо слово, и он сам вам скажет, сколько документов, содержащих это слово, есть в его индексе. Именно так мы и поступили, чтобы понять, насколько отличаются размеры индексов у различных поисковых систем. Из ленты политических новостей было сформировано десять запросов, в каждом из которых было по пять слов. Таким способом мы пытались смоделировать ситуацию, когда пользователь ищет в Internet дополнительную информацию о только что прочитанной новости. По нашему мнению, такое использование «поисковика» весьма характерно. Эти запросы последовательно передавались трем поисковым машинам (Rambler, Яndex и «Апорт!»). Результаты усредняли по запросам. Полученные данные приведены в таблице.
Кроме названных в опросе поисковых систем есть и еще одна — TELA, поддерживаемая питерским провайдером Dux, но она не выдавала общего количества найденных документов и поэтому не вошла в микроисследование. Мы также планировали использовать метапоисковую систему «Следопыт», но, к сожалению, она не работала вследствие переезда к другому провайдеру.
Из таблицы видно, что больше всего документов просканировал Яndex, на втором месте — «Апорт!», на третьем — Rambler. Не следует, впрочем, забывать, что эти данные характерны только для политического лексикона. Возможно, что при выборе других слов расклад был бы иным. Мы же хотели лишь показать, что каждый пользователь Internet может попробовать самостоятельно определить количество документов в базе поисковика по нужной ему теме.
Направляйте свои вопросы (можно с ответами) по электронной почте: oskar@computerworld.ru.
Результаты тестов | |||||||||||||||||||||||||||||||||||||||||||||||||||
Из ленты политических новостей было сформировано десять запросов, в каждом из которых было по пять слов. Таким способом мы пытались смоделировать ситуацию, когда пользователь ищет в Internet дополнительную информацию о только что прочитанной новости.
|