Юрий Поляк

Каждый день в World Wide Web появляется в среднем 1,5 млн. новых страниц, то есть около двадцати страниц каждую секунду; объем информационного наполнения Сети составляет сегодня около 2 терабайт (данные агентства Alexa, http://www.alexa.com/company/recent_articles.html). Это, с одной стороны, означает пропорциональный рост вероятности, что нужная вам информация находится в Сети. С другой стороны, сложность поиска этих данных растет так же быстро. Именно о средствах поиска информации и пойдет речь. Принято считать, что российский сегмент Интернет составляет около 1% от мирового. Значит, если сократить приведенные показатели на два порядка, можно получить оценки (довольно грубые) для нашей страны.

Поисковые системы и каталоги ресурсов, позволяющие ориентироваться в сети, постоянно нужны каждому пользователю. Не случайно популярнейший в мире каталог Yahoo! (http://www.yahoo.com) ставит рекорды посещаемости (десятки миллионов в день). А начиналось все в апреле 1994 года, когда стенфордские аспиранты Дэвид Фило и Джерри Янг решили сделать для себя удобный инструмент для навигации по Интернету. Несколько позднее, когда создаваемые списки стали слишком громоздкими, возникла необходимость в базе данных, которая получила название Yahoo! (Yet Another Hierarchical Officious Oracle). Сейчас одноименная фирма входит в число ста крупнейших компаний, а ее основатели - в списки влиятельнейших и богатейших предпринимателей.
Полутора годами позже наша лаборатория сетевых информационных ресурсов Центрального экономико-математического института РАН пошла по тому же пути - ничего не зная ни о Фило, ни о Янге, ни об их каталоге. Весной 1996 г. собранная нами информация об интернетовских адресах перекочевала в базу данных, а еще через полгода стала доступной в онлайновом режиме. Элегантную оболочку для этой базы с помощью MS Access разработал Алексей Дыбенко (он возглавляет московскую группу пользователей Access - http://www.arimsoft.ru/msaccess/).
С самого начала нас интересовали только русские (точнее, "из России и о Росии") ресурсы. Отсюда и различие в масштабах: в нашей базе к ноябрю 1998 года зафиксировано немногим более 20 тысяч записей, а пользователей - около 10 тысяч в день. В большинстве каталогов представлены лишь названия ресурсов и их URL. В нашей базе каждая запись дополнительно снабжена аннотацией ресурса, подготовленной кем-то из сотрудников по результатам проверки.
Долгое время основной задачей редакторской группы был поиск интересных узлов и составление описаний к ним. С ростом популярности каталога к этому добавилась проверка адресов, присланных пользователями, и редактирование аннотаций. Как показывает опыт, только тщательное ручное тестирование позволяет объективно описывать информационные ресурсы, в то время как автоматизированные поисковые системы грешат большим процентом неактуальных ссылок и "информационного мусора". Этим же отличаются и каталоги, в которых сведения, введенные пользователем через интерактивную форму, сразу попадают в рабочую базу данных.
Выше говорилось о миллионах сетевых документов. Естественно, все их регистрировать невозможно, да и не нужно: по разным оценкам, не менее 75% ресурсов можно отнести к упомянутому "информационному мусору". Имеются в виду ресурсы, существующие в сети лишь номинально или вовсе не отвечающие на запросы; содержащие скудные либо даже ложные сведения. Сюда же относятся страницы, которые тихо "скончались" из-за отсутствия поддержки, и зарегистрированные адреса, до которых у владельцев пока не дошли руки, и (самый частый вариант) первые "пробы пера" начинающих Web-мастеров, содержание таких творений исчерпывается биографией автора, фотографией любимой кошки или студенческой группы да несколькими ссылками на такие же страницы. Отдельная тема - изобилие орфографических ошибок в помещаемых в сеть текстах. Катастрофически низкий уровень грамотности в российском Интернете стал поводом для организации конкурса "Золотая клякса", проводящегося серверами Новосибирской областной образовательной сети и Сибирской государственной геодезической академии: (http://www.nsk.su/klyaksa/konkurs.html).
Об этом же шла речь в ноябре 1996 года на семинаре РОЦИТ - Регионального (Российского) общественного центра Интернет-технологий - "Что такое хороший Web-сайт" (http://www.rocit.ru/seminars/6-st.htm).

Может возникнуть вопрос, а зачем вообще нужны аннотации, ведь грамотному специалисту достаточно иметь список адресов или просто несколько стартовых точек. Это так, но наряду с опытными пользователями встречаются и начинающие. Вот небольшой пример, который хорошо иллюстрирует пользу и необходимость аннотаций. В рубрике нашей базы "Компьютерная периодика" несколько записей относятся к русскому изданию известного еженедельника PC Week. Проверяя все ссылки, вы потратите немало времени. Между тем даже самая лаконичная аннотация позволяет мгновенно установить, что по адресу http://www.redline.ru/papers/pcweek/ находится лишь один выпуск (за апрель 1995 года), а на сервере "Агама" http://russia.agama.com/pcweek/ - шесть номеров за 1996 год. После этого можно сразу отправляться на основной сайт http://www.pcweek.ru, где можно познакомиться с любым материалом, опубликованным за два последних года.
Вернемся на три года назад, к самому началу начала нашей работы. Не лишним будет напомнить: в то время массовая "интернетизация" страны еще не наступила. Весь "Русский Интернет" был вполне обозрим: действовало несколько сот узлов - как правило, пионерами здесь были крупнейшие вузы и научные центры. Некоторые из них имели доступ к глобальным сетям еще с 80-х годов за счет двусторонних научных связей с западными партнерами. В этой связи можно вспомнить ИАЭ (Институт ядерной энергии) им. Курчатова, ОИЯИ (Объединенный институт ядерных исследований, Дубна), Институт космических исследований. Услышав красивое слово Дези, физики-ядерщики уже тогда вспоминали не гриновских персонажей, а Национальный немецкий научный центр по физике высоких энергий Deutsches Elektronen-Synchrotron - DESY (http://www.desy.de) в Гамбурге, связанный с НИИ ядерной физики МГУ спутниковым каналом. А те специалисты, которые не имели отношения к исследованиям космоса или ядра, могли работать на базе ВНИИПАС (ныне - ИАС), так называемого Национального центра автоматизированного обмена.
Неудивительно, что именно названные организации обросли впоследствии большим количеством дочерних фирм, из которых в дальнейшем появились нынешние ведущие провайдеры.
В 1991-1992 годы были созданы первые в стране узлы академической исследовательской сети BITNet ("Because It's Time Network") - в ИОХ (Институт органической химии) им. Зелинского и ЦЭМИ (Центральный экономико-математический инстиптут). Примерно к этому же времени относится разработка (но не широкое распространение) WWW-технологии, начало которой положили работы Тима Бернерса-Ли из ЦЕРНа (Международный центр ядерных исследований). Сейчас ею пользуются сотни миллионов людей, а тогда это было возможно лишь в исследовательских лабораториях.

Схожую ситуацию мы наблюдали в начале 80-х годов в связи с бумом персональных компьютеров. До этого компьютеров выпускалось в тысячи раз меньше, они занимали огромные площади вычислительных центров, а работали на них подготовленные профессионалы. Когда же "персоналки" из предметов экзотики и роскоши превратились в атрибут повседневного быта миллионов семей (этот же путь несколькими десятилетиями раньше прошли телевизоры), снизился возрастной и образовательный уровень их пользователей и открылись новые, разнообразнейшие сферы их применения. Вот и сейчас, по мере роста доступности Интернета широким массам (а среди лидеров здесь скандинавские страны, Англия, Германия, Северная Америка), статистика отмечает уменьшение доли пользователей с высшим образованием, относительный (а не только абсолютный) рост числа женщин и подростков.
Сейчас уже с трудом верится, что еще три года назад не только не существовало печатных справочников электронных адресов, но вообще практически не было литературы по глобальным сетям на русском языке.
Если говорить о книгах по Интернету, то среди издателей-пионеров необходимо назвать СП "Эко-Трендз", чья многотомная инженерная энциклопедия "Технологии электронных коммуникаций", содержащая техническую, программную и экономическую информацию по всем аспектам создания и применения телекоммуникационных систем и электронного информационного рынка, стала в начале 90-х годов настольным справочным изданием для тысяч российских специалистов. Именно в этой серии увидели свет первые отечественные книги по Интернету: "Международная компьютерная сеть Интернет" (Ю. М. Горностаев, том 43, 1993) и "Мировая сеть Интернет: применение в науке и бизнесе" (под редакцией Ю. М. Горностаева и Ю. Е. Поляка, том 59, 1994). Позднее к ним присоединился справочник "Информационные ресурсы Интернет" (Т. О. Вовченко и др., том 68, 1996), ставший первым печатным каталогом такого рода. Среди других томов серии - "Электронная почта в сети Relcom", "Обеспечение информационной безопасности", "Телекоммуникационные компьютерные сети России", "Мировой рынок электронной информации для предпринимателей", "Модемы и факс-модемы для телефонных каналов", справочник "Связные программы для модемов" и др.
В 1995 году был напечатан (сначала как своеобразный "роман с продолжением" на страницах газеты, а потом в издательстве "Наука - Wiley") пухлый, но уже тогда несколько устаревший "Навигатор Интернет" П. Гилстера (из 800 страниц книги Web-технологии упоминались едва ли на 50). Стоит, правда, отметить работу Е. Пескина в качестве переводчика и автора приложения. А со следующего года началось "триумфальное шествие" по всем направлениям.

В сети к тому времени можно было обнаружить несколько неплохих списков российских ресурсов. Выделим среди них список и карту на сервере Российской академии наук (http://www.ras.ru/map_list.html), список серверов бывшего СССР, ведущийся в Геленджике (http://www.sea.ru/), а также сайт С. Наумова из университета Северной Каролины (http://sunsite.oit.unc.edu/sergei/grandsons.html) "Даждьбоговы внуки" (т. е. славяне - см. "Слово о полку Игореве") и "Маленькая Россия в Сан-Антонио" (http://mars.uthscsa.edu/Russia/) - к сожалению, они остались почти в том же виде, что и в 1995-1996 годах. Нас это уже тогда не могло в полной мере устроить по причине неполноты и отсутствия аннотаций.
На роль "русского Yahoo!" ни один из них, очевидно, претендовать не мог. И мы решили сделать собственный список.
Этой работой тогда занимались три сотрудника лаборатории (сейчас - 14, половина из них - студенты 1-4 курсов МГУ). Дело существенно облегчалось благодаря опыту, полученному в ходе работы с зарубежными базами данных через ВНИИПАС и создания институтского узла BITNet. Важную роль сыграло подключение института к ЮМОС (южной московской опорной сети) по оптоволоконной линии связи. Отметим также поддержку РФФИ (Российский фонд фундаментальных исследований) и Комиссии РАН по телекоммуникациям, постоянное внимание руководителя отделения экономической информатики, академика МАИ М. Д. Ильменского. И, конечно, необходимо назвать РОЦИТ и его руководителя А. Ю. Зотова, поддержавшего идею публикации базы в Интернете и обеспечившего привлечение техники и специалистов. Этапы этой работы один из ее участников описал на сервере РОЦИТ http://www.rocit.ru/public/auhistory.htm в материале "Как мы делали "АУ!"". В результате с помощью сервера http://www.au.ru/ информация из базы стала доступной сотням тысяч пользователей. С нашей работой смогли познакомиться участники конференций "Телематика-97" и "Телематика-98" (С-Петербург), "НТИ-97", "Ломоносовские чтения"; посетители выставок "WindowsExpo", "Информатика-97", "Online Information '97" в Лондоне.
Как уже отмечалось, база содержит около 20 тысяч записей (а раздел Russia неоднократно упоминавшегося каталога Yahoo! - примерно 1600). Более половины из них отражены на сервере. При этом наряду с поиском и вводом новой информации ведется мониторинг имеющихся в базе адресов и их актуализация. Каталог ежедневно дополняется десятками адресов, присылаемых пользователями. Во многих публикациях и отзывах он неизменно отмечается среди наиболее полных и удобных средств поиска информации. В частности, Денис Коновальчик в газете "Магнитогорские вести" вспоминает, что Au - это еще и обозначение золота, и делает свой вывод о качестве пробы.

Далее Денис пишет: "Устроена система поиска очень удобно: вначале вы выбираете столбовую дорогу (так можно себе представить большую тему, например, "Семья, дом, досуг"), затем сворачиваете на просеку (подраздел большой темы, из списка предложенных семейных тем выбираю, к примеру, "Хобби") и ищете свою тропку (ссылку) среди имеющихся" (полностью его статью можно прочесть на сервере РОЦИТ).
Денис здесь отметил важное свойство каталога: его иерархическую структуру. Дюжина тематических рубрик содержит почти три сотни подразделов. Структура рубрикатора - постоянный предмет наших дискуссий, и это понятно: здесь необходимы точность формулировок и чувство меры, ведь обилие названий в оглавлении затрудняет ориентировку едва ли не больше, чем их скудность, а списки из сотен аннотаций по одной теме труднообозримы.
Причины нашего недовольства собственным рубрикатором уходят в историю. База начиналась с трех сотен адресов, для которых не требовалось обширного списка тем. Среди их названий можно было встретить такие, как, например, "Наука и образование". В дальнейшем само информационное содержание каталога начинало определять его структуру, шел "ремонт на ходу", появлялись новые разделы и подразделы. Конечно, если бы сейчас можно было заняться перепланировкой, многое выглядело бы иначе, но мы воздерживаемся от кардинальной реконструкции: ведь многие пользователи (и, конечно, авторы!) за прошедшие годы привыкли к действующим обозначениям. В этом смысле наша база больше напоминает хаотичную географию Москвы с ее кривоколенными переулками (насколько типичное название!), чем центральную часть Петербурга. И еще одно замечание. При проектировании каталогов сетевых ресурсов вряд ли подойдет стандартная библиотечная классификация с детально проработанными названиями разделов. Некоторые из них, например, "Объемное деформирование. Прокатка, прессование, выдавливание, волочение и другие виды обработки давлением" (УДК 621.77) или "Детали машин. Механизмы. Передачи (механические). Подъемно-транспортное оборудование. Крепежные средства. Смазка" (УДК 621.8) рискуют остаться пустыми. В то же время ни в одном УДК или ББК вы не найдете понятия "сервис-провайдер" или "Web-дизайн", но именно под этими заголовками прячутся сотни записей. Поэтому одно из главных "теоретических" положений, применимых к этой ситуации, могло бы звучать так: как только раздел распух и стал слишком долго загружаться, его нужно дробить.
Помимо онлайнового каталога "АУ!", информация из базы использовалась и в других целях. Одна из них - подготовка печатных изданий. Первой в этом ряду стала книга "Информационные ресурсы Интернет" ("Эко-Трендз", 1996), опубликованная на полгода раньше знаменитого справочника А. Сигалова "Желтые страницы Internet. Русские ресурсы". Она содержит около 800 адресов, причем среди них очень велик удельный вес научных организаций и вузов (это, как отмечалось выше, было характерной чертой того времени), а также Интернет-провайдеров и электронных средств массовой информации. При подготовке третьего издания "Желтых страниц" по предложению А. Сигалова и издательства "Питер" туда вошли и наши материалы (правда, большинство аннотаций пришлось переписать для сохранения единства стиля этой книги). В дополнение к основному изданию был выпущен карманный вариант, а также электронная версия справочника на компакт-диске. Среди наших постоянных партнеров - периодических изданий назовем еженедельник PC Week и журнал "Информационные ресурсы России", где напечатаны циклы тематических обзоров русского Интернета, подготовленные нашими сотрудниками.
Чем большую известность приобретает каталог, тем больше становится объем переписки с пользователями. Это совершенно нормально, а для многих других систем такая корреспонденция вообще является единственным источником пополнения. Как правило, в этих сообщениях содержится информация о новых ресурсах, не отраженных в справочнике (здесь) преобладают персональные страницы, за ними следуют корпоративные сайты, или об изменениях адресов. Они служат для нас большим подспорьем и позволяют уточнить данные каталога (а авторам обеспечивают бесплатную "раскрутку" их сайтов). Другая группа писем от Web-мастеров напоминает нам о необходимости регулярно возвращаться к уже описанным адресам и следить за изменениями (а это делать все труднее и труднее). Встречаются в почте полемические высказывания по поводу текстов наших аннотаций (чаще всего их авторами являются представители религиозных сект). Не так давно одна из вновь созданных академий в результате переписки с нами по поводу текста аннотации убрала со своего сайта прейскуранты, где в деталях расписывались тарифы на покупку званий профессора и академика, а также надбавки за срочность. Встретилось как-то и такое послание: "Уважаемый Web-мастер, прошу убрать из вашего каталога аннотацию нашего сайта. В городе нашу фирму и так все знают. А неприятностей из-за нелицензионных компакт-дисков мы не хотим". Мы благодарны всем без исключения авторам писем - и комплиментарных, и даже в большей степени критических: ведь это cвидетельствует об интересе к каталогу и объективно способствует его совершенствованию.
Хочется надеяться, что благодаря данной публикации число друзей нашего каталога увеличится. Будем рады, если и вам он окажется полезным. А замечания и новые адреса можно направлять автору по адресу: yuri.polak@usa.net.