Новое звучание получают процессы перевода традиционных источников информации в форму ресурсов Сети и придания интегрированным информационным массивам, хотя бы частично, той степени организации учета и классификации, которая присуща традиционным библиотекам. Проект «Электронная библиотека для обучения и исследований», реализуемый в Центре новых информационных технологий Новосибирского госуниверситета - одна из таких попыток.

Основываясь на открытых библиотечных стандартах, рекомендациях группы Dublin Core [1] и существующих классификационных схемах, создан механизм интеграции разнородных информационных ресурсов в единый конгломерат с унифицированными процедурами обработки и доступа.

Предоставление локальных информационных ресурсов в единое общедоступное информационное пространство - составной элемент формирования информационного общества, способный изменить многие традиционные области человеческой деятельности. При соответствующей организации этот процесс может в существенной степени повлиять на интенсивность и качество образования и научных исследований. Этого можно достичь за счет:

  • глобализации ресурсов, доступности всех работ, ведущихся в каком-либо направлении;
  • доступности часто используемой информации учебно-методического характера, т.е. формирования информационной ресурсной базы для процессов дистанционного образования;
  • удаленного доступа к информационным ресурсам, традиционный доступ к которым затруднен в силу особых условий хранения, доступа и др.).

Сегодня усилия многих крупнейших исследовательских организаций и фондов сосредоточены именно на проектах представления, поддержки и использования информации в Internet. Подтверждением этого могут быть исследования International Institute for Electronic Libraries Researches [2], проекты eLib [3], DeLIver[4], деятельность библиотеки конгресса США [5], крупнейших российских и зарубежных фондов: Фонд Сороса (программы «Интернет», «Автоматизация библиотек»), РФФИ, International Science Foundation (программа Digital Library Initiative [6]).

Для России этот процесс особенно важен в силу целого ряда причин. Ведущие научно-образовательные центры разделяют огромные по западным меркам расстояния, а возможности командировок, стажировок, научных обменов, обучения по программам нескольких вузов и т.д. сегодня крайне невелики. Сложившаяся сеть высших учебных заведений характеризуется большим числом относительно мелких и узкоспециализированных «академий» и «университетов». Характерная для многих случаев оторванность университетов от исследовательских работ мирового уровня, ведущихся во многих НИИ, исключает для студентов возможность использовать оперативную информацию и принимать участие в совместных работах.

Подсистемы электронной библиотеки

Электронный библиографический каталог - центральная часть любой автоматизированной библиотечной системы. Его основное назначение - ввод, модификация и поиск «библиографических описаний» - типовой (единой для библиотеки или сети библиотек) номенклатуры информации обо всех единицах хранения (каталог библиотеки конгресса США http://catalog.loc.gov, каталог OCLC http://newfirstsearch.oclc.org). Практически все такие подсистемы обеспечивают формирование «карточки» - элемента стандартного карточного каталога. Многие из них обладают возможностью представления библиографических описаний в одном из стандартов обмена библиографическими данными в машиночитаемой форме xMARC. OPAC - это электронный библиографический каталог с обеспечением открытого поиска. Сводный каталог поддерживает библиографические описания, общие для нескольких библиотек. Электронный библиографический каталог электронной библиотеки обеспечивает ввод, хранение, поиск библиографических описаний семантики xMARC с авторитетными записями и открытым набором классификаторов. Обеспечено формирование карточек в соответствии с ГОСТ.

Электронная библиотека. Подсистема электронных образов изданий электронной библиотеки позволяет вводить и описывать (в семантике Dublin Core) как сами издания, так и любые мультимедиа-материалы (звуковые и видеофрагменты, графические изображения). Обеспечивается возможность ассоциирования хранимых материалов с описаниями электронного библиографического каталога.

Примерами могут служить «The WWW Virtual Library» (http://vlib.org/), базы данных EBSCO (http://serach.epnet.com), проект Lib.Ru, библиотека Максима Мошкова (http://www.lib.ru/).

Тематический каталог ресурсов Internet. Использование поисковых систем влечет необходимость фильтрации результатов поиска по тематическому принципу. Это требование реализуется соотнесением любого ресурса (URL) с одной или несколькими «тематическими рубриками». Подобное соотнесение, как правило, выполняется вручную специалистами предметных областей, однако в последнее время ведутся разработки по созданию автоматизированных экспертных систем. Тематический классификатор может иметь произвольную (выработанную авторами поисковой системы) структуру и форму или быть стандартизованным. Наиболее распространены такие классификационные схемы как DDC, UDC, ББК, ГРНТИ, ВАК, УДК.

Подсистема каталогов ссылок. Предоставляет пользователям возможность самостоятельно создавать тематические каталоги ссылок, классифицируя их с помощью полного набора «универсальных атрибутов». В системе отсутствует возможность автоматической индексации сайтов - обеспечивается поиск только по уже созданным описаниям.

Серверы Web-конференций. Наряду с технологиями новостей (News), интенсивное развитие получает их аналог - Web-конференции, отличительными особенностями которых является:

  • хранение всего массива сообщений за всю историю существования конференции;
  • поиск по всему массиву;
  • локальность - концентрация сообщений на одном логическом сервере без возможности тиражирования;
  • поддержка редко изменяемой информации, ассоциированной со всей группой;
  • развитые механизмы управления доступом, регистрируемый круг участников.

Подсистема Web-конференций электронной библиотеки обеспечивает все перечисленные возможности (http://www.nsu.ru/elib/webconf).

Организация информации

Рис. 1. Структура классов и связей

Каждый из поддерживаемых информационных источников характеризуется индивидуальным набором атрибутов, определяемых в соответствии с существующими стандартами и рекомендациями, а также сложившейся практикой. Вместе с этим определен репозиторий всех объектов электронной библиотеки, в котором регистрируются все добавляемые ресурсы и обеспечивается унифицированная идентификация всех ресурсов электронной библиотеки как для обеспечения работоспособности информационных систем, так и для введения процедур внешнего именования ресурсов.

Разрабатываемая система обеспечивает ввод, описание, хранение и доступ к информационным источникам, каждый из которых (рис. 1), помимо своих специфических атрибутов, описывается единым набором классифицирующих признаков (универсальных атрибутов):

  • записи «Авторы» (семантика российской версии UNIMARC/Authorities) и классификатор отношений;
  • стандартные тематические классификаторы (в настоящее время реализована поддержка ГРНТИ, ББК, DDC);
  • ключевые слова.

Вынесение универсальных атрибутов позволило осуществлять быстрый поиск по всему информационному массиву.

При выработке состава и структуры универсальных атрибутов были учтены следующие требования.

1) Наряду с минимальной содержательной поддержкой на уровне объектов электронной библиотеки (наименование и описание), состав информации по поддерживаемому информационному источнику должен удовлетворять рекомендациям Dublin Core версий 1.0 и 1.1.

2) Семантика библиографических описаний совместно с универсальными атрибутами должна быть эквивалентна семантике RUSMARC и допускать двустороннюю конвертацию. При этом в состав универсальных атрибутов вводится вся информация, входящая в область авторитетных записей. Должно обеспечиваться формирование стандартных «Карточек» по ГОСТ 7.1-84.

Совокупность признаков, входящих в состав универсальных атрибутов может быть использована для классификации и описания новых видов информационных источников, не входящих пока в состав поддерживаемых электронных библиотек, а также может использоваться другими системами для классификации своих ресурсов.

Следует заметить, что с учетом ограничений реляционных СУБД, наиболее сложной задачей при разработке структуры данных для универсальных атрибутов стало обеспечение второго требования. Действительно, конструкция, эквивалентная по мощности описаний сетевому по своей природе языку RUSMARC в реляционной СУБД получилась бы слишком громоздкой и неэффективной. В связи с этим, было принято решение анализа вероятных состояний (описаний на языке RUSMARC) и обеспечение эффективной поддержки их на уровне СУБД. Связано это с тем, что, по сути, мощность языка RUSMARC превышает мощность возможных библиографических описаний. В качестве анализируемых образцов были выбраны разнообразные описания, подготовленные библиотекой НГУ, примеры авторитетных записей стандарта RUSMARC, и тестовые примеры, подготовленные РНБ [9].

Ресурсная база

В качестве ресурсной базы электронной библиотеки используются следующие информационные массивы:

  • электронный библиографический каталог библиотеки НГУ, включающий более 50 тысяч библиографических описаний, взятых из более старой системы «Библиотека» разработки МГУ.
  • электронные образы изданий учебно-методической литературы, выходящей в НГУ.
  • тематические каталоги ресурсов и Web-конференции, поддерживаемые преподавателями и сотрудниками университета.
  • аудио-, видео- и графические материалы в электронной форме, подготовленные Web-лабораторией Internet-центра НГУ и телевидением НГУ.

Для каждого из этих массивов была реализована собственная методика включения в состав Электронной Библиотеки.

Библиографические описания. Актуальность информации о библиографических описаниях обеспечивается тем, что электронная библиотека сама обеспечивает функции ведения электронного каталога. Информация, накопленная до ее организации в системе «Библиотека», была конвертирована в информационное хранилище Электронной Библиотеки. Этот процесс включал в себя следующие стадии:

  • предварительная подготовка информации в старой системе - формализация представления ряда полей (поскольку структура данных в Электронной библиотеке с целью удовлетворения стандарту RUSMARC является более «строгой»);
  • выгрузка информации из старой системы в виде набора отчетов;
  • загрузка информации в исходном виде в хранилище средствами Oracle SQL*Loader;
  • разбор загруженной информации специальным набором процедур с использованием «родных» примитивов Электронной Библиотеки для регистрации объектов, авторства, универсальных атрибутов;
  • последующая корректировка введенных данных (сведение авторитетных записей, уточнение языковой информации, устранение грамматических ошибок и т.д.)

Электронные образы изданий. Включение в состав ресурсов Электронной Библиотеки осуществляется путем организации соответствующего АРМ в редакционно-издательском отделе НГУ - точке, через которую проходит вся издаваемая литература. Основная трудность работы с этими ресурсами - разные форматы (Word, LaTeX, PDF и т.п). С целью формирования замкнутого набора решений для пользователей, в состав Электронной Библиотеки входит библиотека программных модулей, организованная в рамках файлового архива НГУ (ftp://ftp.nsu.ru), включающая отдельные программы и модули расширения для браузеров всех видов хранимых документов.

Тематические каталоги ресурсов и Web-конференции. Специфика университетской среды заключается в том, что наряду с интенсивным использованием информационных ресурсов, идет и их создание. Зачастую, содержательная информация представляется в виде ответов на часто возникающие вопросы или подборки ресурсов Сети по заданной тематике. Для поддержки информации такого рода, в состав электронной библиотеки были включены каталоги ссылок и Web-конференции. Это позволило существенно расширить аудиторию потребителей и поставщиков подобной информации, включая вузы, научные институты, другие заинтересованные организации.

Мультимедиа-материалы. В процессе своей деятельности в любой организации, происходит постоянное накопление самой разнообразной информации - фотографий, схем, слайдов, планов, аудиозаписей, видеофрагментов и т.п. В НГУ, точками концентрации такой информации выступают музей НГУ, университетское телевидение, Web-лаборатория Internet-центра. При необходимости перевод этой информации в электронную форму и включение в состав ресурсов Электронной Библиотеки осуществляется пока Web-лабораторией Internet-центра НГУ. В будущем планируется оснастить необходимым оборудованием и подготовить персонал во всех точках концентрации информации.

Технологии и организация доступа

В данный момент к услугам Электронной библиотеки обращаются:

  • отдел обработки библиотеки НГУ, ответственный за ведение массива библиографических описаний;
  • редакционно-издательский отдел, формирующий массив электронных образов документов учебно-методической литературы, выходящей в НГУ;
  • Web-лаборатория Internet-центра НГУ, подготавливающая и вводящая графические, видео- и аудиоматериалы;
  • преподаватели и сотрудники НГУ, использующие каталоги ссылок и Web-конференции;
  • все другие заинтересованные лица.
Рис. 2. Серверные решения

Основа создаваемой информационной системы - информационное хранилище на базе СУБД Oracle 8 и приложения на Oracle Application Server (рис. 2). Такой выбор платформы, помимо качественных характеристик, объясняется еще и тем, что ряд российских высших учебных заведений смогли получить комплекты данного программного обеспечения в рамках «Университетской программы Oracle» и проекта организации 33 университетских центров - «Институт Открытое Общество». Основной объем кода реализован в виде пакетов на языке PL/SQL.

Теоретически система не зависит от аппаратной платформы - важно, чтобы для нее была доступна связка Oracle 8 Server Enterprise Edition и Oracle Web/Application Server начиная с версии 3.0 или WebDB начиная с версии 2.0. Ведется адаптация системы к более дешевой разновидности серверов Oracle - Oracle 8 Server Standard Edition.

Базовые пользовательские интерфейсы для доступа и пополнения электронной библиотеки основываются на HTML, HTTP и JavaScript (рис. 3). Это позволило организовать на основе обычного браузера даже такие функционально сложные интерфейсы, как АРМ библиографа-систематизатора. Побудительными мотивами для такого варианта решения стали относительно большое время жизни подобных информационных систем (4-8 лет) и связанное с этим требование смены двух-трех поколений платформ рабочих мест, а также отсутствие высококвалифицированной поддержки рабочих мест в российских библиотеках.

Рис. 3. Организация доступа

Создание основных подсистем Электронной Библиотеки велось методом итеративной разработки. Часть решений была опробована на системах «Новые поступления в библиотеку НГУ» [10] и «Каталог библиотеки НГУ» [11]. На этапе анализа и проектирования системы была зафиксирована основная диаграмма классов, номенклатура и функциональность рабочих мест, механизмы межсистемного взаимодействия вплоть до уровня спецификации пакетов.

При разработке структуры данных возникло желание воспользоваться объектно-реляционными возможностями, появившимися в Oracle 8 Enterprise Edition. Однако анализ производительности на тестовых примерах показал существенные преимущества «чистого» реляционного подхода. Этот вариант и стал рабочим.

В процессе организации обработки Электронных образов изданий и мультимедиа материалов было принято решение не приводить их к единому формату, что позволило упростить технологию работы. Для гарантированной визуализации объектов в этих форматах был введен еще один компонент - Библиотека программных модулей визуализации, который, фактически, представляет файловый архив, размещаемый на файловом сервере и содержащий модули расширений вместе с программами для визуализации всех форматов хранения объектов ЭБ.

Необходимость взаимодействия Электронной Библиотеки с другими системами и участие разработчиков в ряде корпоративных проектов привело к тому, что для обмена с другими системами автоматизации библиотечных процессов реализуются механизмы доступа по протоколу Z 39.50 (используется внешняя разработка Z-сервера) и загрузки/выгрузки данных в формате RUSMARC. Данные модули создаются на языке Cи и набора стандартных библиотек. Взаимодействие с сервером баз данных Oracle осуществляется через вызовы Oracle Call Interface. Перенос модулей на другие аппаратно-программные платформы требует перекомпиляции кода.

Сегодня ряд подсистем Электронной Библиотеки находится в эксплуатации (http://www.nsu.ru/elib/webconf, http://www.nsu.ru/reference?lang=ru). Ведется проработка организационных вопросов по интеграции компонентов Электронной Библиотеки в регламент деятельности подразделений университета. «Алиса» заинтересовала ряд российских вузов и в настоящее время рассматривается вопрос о ее тиражировании.

Автор выражает признательность за поддержку руководству программ «Интернет» и «Автоматизация библиотек» Институту «Открытое общество» (Фонд Сороса), а также техническому директору Internet-центра НГУ Ю.М. Зыбареву.

Об авторе

Евгений Фаддеенков — заведующий отделом открытых систем ЦНИТ Новосибирского государственного университета. С ним можно связаться по электронной почте по адресу fancy@nsu.ru

Литература

[1] Dublin Core MetaData Initiative, http://purl.org/dc

[2] International Institute for Electronic Library Research: The current projects, http://www.iielr.dmu.ac.uk/ Projects/ projsum.html

[3] eLib: Electronic Libraries Programme, http://www.ukoln.ac.uk/services/elib

[4] Cole, T., Digital Library Projects, LITA Newsletter, 16(2): 25-27, Spring 1995

[5] Day One Scenario (Phased Implementation of the Library of Congress ILS), http://lcweb.loc.gov/ ils/ day1.html

[6] Publications from DLI1 projects, http://www.dli2.nsf.gov/publications.html

[7] Фаддеенков Е.Н., Нужин С.А., Родионов М.А., Зыбарев Е.Ю., Федосеева А.С. Использование технологий WWW для доступа к базам данных, Научно-технический отчет по программе «Информатизация высшего образования» Госкомвуза РФ, 1996

[8] Digital Object Identifier (DOI), http://www.doi.org

[9] Российский коммуникативный формат, http://www.rba.ru:8101/rusmarc

[10] Фаддеенков Е.Н. Система «Новые поступления в библиотеку НГУ» как шаг к комплексной автоматизации библиотечной деятельности, Материалы Международной научно-методической конференции «Новые информационные технологии в университетском образовании». Новосибирск, НИИ МИОО НГУ, 1997

[11] Яхин Ш.Р. Разработка технологических решений для перевода библиотечной системы на технологии СУБД Oracle и WWW, Материалы Международной научно-методической конференции «Новые информационные технологии в университетском образовании». Новосибирск ИДМИ, 1999


Представление, поддержка и использование информации в Internet

Сегодня работы и исследования по представлению, поддержке и использованию информации в Internet ведутся по следующим направлениям.

1. Создание ресурсов:

1.1. Преобразование накопленных информационных ресурсов в электронную (доступную из Сети) форму (формализация и автоматизация такого перевода)

1.2. Организация изначально электронных информационных источников (электронные издания)

1.3. Вовлечение в оборот научной и учебной информации «нетрадиционных» источников - списков рассылки, каталогов ссылок, Web-конференций, и т.п.

2. Доступ к ресурсам

2.1. Способы единообразной идентификации электронных ресурсов

2.2. Организация поиска в разнородных и распределенных информационных источниках (автоматизированные реферирующие системы (search engine), тематические каталоги ресурсов)

2.3. Доставка требуемого информационного источника пользователю и его представление на доступном оборудовании

2.4. Механизмы сопровождения данных о лицензионных соглашениях и авторских правах

3. Поддержка ресурсов

3.1. Организация хранения больших объемов информации

3.2. Отслеживание актуальности ресурсов

В большинстве работ по представлению, поддержке и использованию информации в Internet базовым выступает понятие электронной (цифровой) библиотеки как систематизированной коллекции информационных источников разных типов (текст, аудио-, видео-, графика), в электронной (цифровой) форме с унифицированным доступом.

Проект «Электронная библиотека для обучения и исследований»

Проект, реализуемый Центром новых информационных технологий при Новосибирском государственном университете, направлен на достижение двух основных целей. Во-первых, организовать информационную среду для обучения и научных исследований, максимально используемую во всех базовых процессах университета. Среду, призванную систематизировать и представить во внешний мир создаваемые и используемые при этом информационные ресурсы разного рода. Среду, способную к интеграции в региональные и общероссийские проекты разной направленности. Во вторых, создать макет для отработки решений по организации библиотеки нового поколения, аккумулирующей ресурсы разной природы. При этом речь идет именно о комплексном подходе к проблеме - от решения множества конкретных задач к формированию среды таких решений.

В рамках проекта сделана попытка обеспечить полный цикл поддержки всех наиболее используемых информационных источников, опираясь при этом на существующие открытые стандарты и тенденции развития технологий организации электронных библиотек.

Созданная в рамках проекта информационная система, получившая предварительное название «Алиса», базируется на объектно-ориентированном подходе и построена по модульному принципу. Она обеспечивает поддержку (ввод, хранение, представление) следующих видов информационных источников:

  • библиографические описания единиц хранения библиотек;
  • электронные образы изданий;
  • мультимедиа-материалы;
  • URL, каталоги ресурсов Сети;
  • Web-конференции.

Архитектура системы позволяет расширять этот список.

Созданную информационную систему можно отнести к системам следующих типов:

  • электронные библиографические каталоги с публичным доступом (OPAC — OnLine Public Access Catalog) и элементами сводного каталога (обеспечивается ведение традиционного электронного каталога с доступом из Сети);
  • электронные библиотеки (поддерживается ввод, описание, хранение и представление электронных образов изданий);
  • тематические каталоги ресурсов Internet (пользователям предоставляется возможность описания и классификации ресурсов Сети);
  • серверы Web-конференций (организован обмен сообщениями по заданной тематике).