Новое звучание получают процессы перевода традиционных источников информации в форму ресурсов Сети и придания интегрированным информационным массивам, хотя бы частично, той степени организации учета и классификации, которая присуща традиционным библиотекам. Проект «Электронная библиотека для обучения и исследований», реализуемый в Центре новых информационных технологий Новосибирского госуниверситета - одна из таких попыток.
Основываясь на открытых библиотечных стандартах, рекомендациях группы Dublin Core [1] и существующих классификационных схемах, создан механизм интеграции разнородных информационных ресурсов в единый конгломерат с унифицированными процедурами обработки и доступа.
Предоставление локальных информационных ресурсов в единое общедоступное информационное пространство - составной элемент формирования информационного общества, способный изменить многие традиционные области человеческой деятельности. При соответствующей организации этот процесс может в существенной степени повлиять на интенсивность и качество образования и научных исследований. Этого можно достичь за счет:
- глобализации ресурсов, доступности всех работ, ведущихся в каком-либо направлении;
- доступности часто используемой информации учебно-методического характера, т.е. формирования информационной ресурсной базы для процессов дистанционного образования;
- удаленного доступа к информационным ресурсам, традиционный доступ к которым затруднен в силу особых условий хранения, доступа и др.).
Сегодня усилия многих крупнейших исследовательских организаций и фондов сосредоточены именно на проектах представления, поддержки и использования информации в Internet. Подтверждением этого могут быть исследования International Institute for Electronic Libraries Researches [2], проекты eLib [3], DeLIver[4], деятельность библиотеки конгресса США [5], крупнейших российских и зарубежных фондов: Фонд Сороса (программы «Интернет», «Автоматизация библиотек»), РФФИ, International Science Foundation (программа Digital Library Initiative [6]).
Для России этот процесс особенно важен в силу целого ряда причин. Ведущие научно-образовательные центры разделяют огромные по западным меркам расстояния, а возможности командировок, стажировок, научных обменов, обучения по программам нескольких вузов и т.д. сегодня крайне невелики. Сложившаяся сеть высших учебных заведений характеризуется большим числом относительно мелких и узкоспециализированных «академий» и «университетов». Характерная для многих случаев оторванность университетов от исследовательских работ мирового уровня, ведущихся во многих НИИ, исключает для студентов возможность использовать оперативную информацию и принимать участие в совместных работах.
Подсистемы электронной библиотеки
Электронный библиографический каталог - центральная часть любой автоматизированной библиотечной системы. Его основное назначение - ввод, модификация и поиск «библиографических описаний» - типовой (единой для библиотеки или сети библиотек) номенклатуры информации обо всех единицах хранения (каталог библиотеки конгресса США http://catalog.loc.gov, каталог OCLC http://newfirstsearch.oclc.org). Практически все такие подсистемы обеспечивают формирование «карточки» - элемента стандартного карточного каталога. Многие из них обладают возможностью представления библиографических описаний в одном из стандартов обмена библиографическими данными в машиночитаемой форме xMARC. OPAC - это электронный библиографический каталог с обеспечением открытого поиска. Сводный каталог поддерживает библиографические описания, общие для нескольких библиотек. Электронный библиографический каталог электронной библиотеки обеспечивает ввод, хранение, поиск библиографических описаний семантики xMARC с авторитетными записями и открытым набором классификаторов. Обеспечено формирование карточек в соответствии с ГОСТ.
Электронная библиотека. Подсистема электронных образов изданий электронной библиотеки позволяет вводить и описывать (в семантике Dublin Core) как сами издания, так и любые мультимедиа-материалы (звуковые и видеофрагменты, графические изображения). Обеспечивается возможность ассоциирования хранимых материалов с описаниями электронного библиографического каталога.
Примерами могут служить «The WWW Virtual Library» (http://vlib.org/), базы данных EBSCO (http://serach.epnet.com), проект Lib.Ru, библиотека Максима Мошкова (http://www.lib.ru/).
Тематический каталог ресурсов Internet. Использование поисковых систем влечет необходимость фильтрации результатов поиска по тематическому принципу. Это требование реализуется соотнесением любого ресурса (URL) с одной или несколькими «тематическими рубриками». Подобное соотнесение, как правило, выполняется вручную специалистами предметных областей, однако в последнее время ведутся разработки по созданию автоматизированных экспертных систем. Тематический классификатор может иметь произвольную (выработанную авторами поисковой системы) структуру и форму или быть стандартизованным. Наиболее распространены такие классификационные схемы как DDC, UDC, ББК, ГРНТИ, ВАК, УДК.
Подсистема каталогов ссылок. Предоставляет пользователям возможность самостоятельно создавать тематические каталоги ссылок, классифицируя их с помощью полного набора «универсальных атрибутов». В системе отсутствует возможность автоматической индексации сайтов - обеспечивается поиск только по уже созданным описаниям.
Серверы Web-конференций. Наряду с технологиями новостей (News), интенсивное развитие получает их аналог - Web-конференции, отличительными особенностями которых является:
- хранение всего массива сообщений за всю историю существования конференции;
- поиск по всему массиву;
- локальность - концентрация сообщений на одном логическом сервере без возможности тиражирования;
- поддержка редко изменяемой информации, ассоциированной со всей группой;
- развитые механизмы управления доступом, регистрируемый круг участников.
Подсистема Web-конференций электронной библиотеки обеспечивает все перечисленные возможности (http://www.nsu.ru/elib/webconf).
Организация информации
Рис. 1. Структура классов и связей |
Каждый из поддерживаемых информационных источников характеризуется индивидуальным набором атрибутов, определяемых в соответствии с существующими стандартами и рекомендациями, а также сложившейся практикой. Вместе с этим определен репозиторий всех объектов электронной библиотеки, в котором регистрируются все добавляемые ресурсы и обеспечивается унифицированная идентификация всех ресурсов электронной библиотеки как для обеспечения работоспособности информационных систем, так и для введения процедур внешнего именования ресурсов.
Разрабатываемая система обеспечивает ввод, описание, хранение и доступ к информационным источникам, каждый из которых (рис. 1), помимо своих специфических атрибутов, описывается единым набором классифицирующих признаков (универсальных атрибутов):
- записи «Авторы» (семантика российской версии UNIMARC/Authorities) и классификатор отношений;
- стандартные тематические классификаторы (в настоящее время реализована поддержка ГРНТИ, ББК, DDC);
- ключевые слова.
Вынесение универсальных атрибутов позволило осуществлять быстрый поиск по всему информационному массиву.
При выработке состава и структуры универсальных атрибутов были учтены следующие требования.
1) Наряду с минимальной содержательной поддержкой на уровне объектов электронной библиотеки (наименование и описание), состав информации по поддерживаемому информационному источнику должен удовлетворять рекомендациям Dublin Core версий 1.0 и 1.1.
2) Семантика библиографических описаний совместно с универсальными атрибутами должна быть эквивалентна семантике RUSMARC и допускать двустороннюю конвертацию. При этом в состав универсальных атрибутов вводится вся информация, входящая в область авторитетных записей. Должно обеспечиваться формирование стандартных «Карточек» по ГОСТ 7.1-84.
Совокупность признаков, входящих в состав универсальных атрибутов может быть использована для классификации и описания новых видов информационных источников, не входящих пока в состав поддерживаемых электронных библиотек, а также может использоваться другими системами для классификации своих ресурсов.
Следует заметить, что с учетом ограничений реляционных СУБД, наиболее сложной задачей при разработке структуры данных для универсальных атрибутов стало обеспечение второго требования. Действительно, конструкция, эквивалентная по мощности описаний сетевому по своей природе языку RUSMARC в реляционной СУБД получилась бы слишком громоздкой и неэффективной. В связи с этим, было принято решение анализа вероятных состояний (описаний на языке RUSMARC) и обеспечение эффективной поддержки их на уровне СУБД. Связано это с тем, что, по сути, мощность языка RUSMARC превышает мощность возможных библиографических описаний. В качестве анализируемых образцов были выбраны разнообразные описания, подготовленные библиотекой НГУ, примеры авторитетных записей стандарта RUSMARC, и тестовые примеры, подготовленные РНБ [9].
Ресурсная база
В качестве ресурсной базы электронной библиотеки используются следующие информационные массивы:
- электронный библиографический каталог библиотеки НГУ, включающий более 50 тысяч библиографических описаний, взятых из более старой системы «Библиотека» разработки МГУ.
- электронные образы изданий учебно-методической литературы, выходящей в НГУ.
- тематические каталоги ресурсов и Web-конференции, поддерживаемые преподавателями и сотрудниками университета.
- аудио-, видео- и графические материалы в электронной форме, подготовленные Web-лабораторией Internet-центра НГУ и телевидением НГУ.
Для каждого из этих массивов была реализована собственная методика включения в состав Электронной Библиотеки.
Библиографические описания. Актуальность информации о библиографических описаниях обеспечивается тем, что электронная библиотека сама обеспечивает функции ведения электронного каталога. Информация, накопленная до ее организации в системе «Библиотека», была конвертирована в информационное хранилище Электронной Библиотеки. Этот процесс включал в себя следующие стадии:
- предварительная подготовка информации в старой системе - формализация представления ряда полей (поскольку структура данных в Электронной библиотеке с целью удовлетворения стандарту RUSMARC является более «строгой»);
- выгрузка информации из старой системы в виде набора отчетов;
- загрузка информации в исходном виде в хранилище средствами Oracle SQL*Loader;
- разбор загруженной информации специальным набором процедур с использованием «родных» примитивов Электронной Библиотеки для регистрации объектов, авторства, универсальных атрибутов;
- последующая корректировка введенных данных (сведение авторитетных записей, уточнение языковой информации, устранение грамматических ошибок и т.д.)
Электронные образы изданий. Включение в состав ресурсов Электронной Библиотеки осуществляется путем организации соответствующего АРМ в редакционно-издательском отделе НГУ - точке, через которую проходит вся издаваемая литература. Основная трудность работы с этими ресурсами - разные форматы (Word, LaTeX, PDF и т.п). С целью формирования замкнутого набора решений для пользователей, в состав Электронной Библиотеки входит библиотека программных модулей, организованная в рамках файлового архива НГУ (ftp://ftp.nsu.ru), включающая отдельные программы и модули расширения для браузеров всех видов хранимых документов.
Тематические каталоги ресурсов и Web-конференции. Специфика университетской среды заключается в том, что наряду с интенсивным использованием информационных ресурсов, идет и их создание. Зачастую, содержательная информация представляется в виде ответов на часто возникающие вопросы или подборки ресурсов Сети по заданной тематике. Для поддержки информации такого рода, в состав электронной библиотеки были включены каталоги ссылок и Web-конференции. Это позволило существенно расширить аудиторию потребителей и поставщиков подобной информации, включая вузы, научные институты, другие заинтересованные организации.
Мультимедиа-материалы. В процессе своей деятельности в любой организации, происходит постоянное накопление самой разнообразной информации - фотографий, схем, слайдов, планов, аудиозаписей, видеофрагментов и т.п. В НГУ, точками концентрации такой информации выступают музей НГУ, университетское телевидение, Web-лаборатория Internet-центра. При необходимости перевод этой информации в электронную форму и включение в состав ресурсов Электронной Библиотеки осуществляется пока Web-лабораторией Internet-центра НГУ. В будущем планируется оснастить необходимым оборудованием и подготовить персонал во всех точках концентрации информации.
Технологии и организация доступа
В данный момент к услугам Электронной библиотеки обращаются:
- отдел обработки библиотеки НГУ, ответственный за ведение массива библиографических описаний;
- редакционно-издательский отдел, формирующий массив электронных образов документов учебно-методической литературы, выходящей в НГУ;
- Web-лаборатория Internet-центра НГУ, подготавливающая и вводящая графические, видео- и аудиоматериалы;
- преподаватели и сотрудники НГУ, использующие каталоги ссылок и Web-конференции;
- все другие заинтересованные лица.
Рис. 2. Серверные решения |
Основа создаваемой информационной системы - информационное хранилище на базе СУБД Oracle 8 и приложения на Oracle Application Server (рис. 2). Такой выбор платформы, помимо качественных характеристик, объясняется еще и тем, что ряд российских высших учебных заведений смогли получить комплекты данного программного обеспечения в рамках «Университетской программы Oracle» и проекта организации 33 университетских центров - «Институт Открытое Общество». Основной объем кода реализован в виде пакетов на языке PL/SQL.
Теоретически система не зависит от аппаратной платформы - важно, чтобы для нее была доступна связка Oracle 8 Server Enterprise Edition и Oracle Web/Application Server начиная с версии 3.0 или WebDB начиная с версии 2.0. Ведется адаптация системы к более дешевой разновидности серверов Oracle - Oracle 8 Server Standard Edition.
Базовые пользовательские интерфейсы для доступа и пополнения электронной библиотеки основываются на HTML, HTTP и JavaScript (рис. 3). Это позволило организовать на основе обычного браузера даже такие функционально сложные интерфейсы, как АРМ библиографа-систематизатора. Побудительными мотивами для такого варианта решения стали относительно большое время жизни подобных информационных систем (4-8 лет) и связанное с этим требование смены двух-трех поколений платформ рабочих мест, а также отсутствие высококвалифицированной поддержки рабочих мест в российских библиотеках.
Рис. 3. Организация доступа |
Создание основных подсистем Электронной Библиотеки велось методом итеративной разработки. Часть решений была опробована на системах «Новые поступления в библиотеку НГУ» [10] и «Каталог библиотеки НГУ» [11]. На этапе анализа и проектирования системы была зафиксирована основная диаграмма классов, номенклатура и функциональность рабочих мест, механизмы межсистемного взаимодействия вплоть до уровня спецификации пакетов.
При разработке структуры данных возникло желание воспользоваться объектно-реляционными возможностями, появившимися в Oracle 8 Enterprise Edition. Однако анализ производительности на тестовых примерах показал существенные преимущества «чистого» реляционного подхода. Этот вариант и стал рабочим.
В процессе организации обработки Электронных образов изданий и мультимедиа материалов было принято решение не приводить их к единому формату, что позволило упростить технологию работы. Для гарантированной визуализации объектов в этих форматах был введен еще один компонент - Библиотека программных модулей визуализации, который, фактически, представляет файловый архив, размещаемый на файловом сервере и содержащий модули расширений вместе с программами для визуализации всех форматов хранения объектов ЭБ.
Необходимость взаимодействия Электронной Библиотеки с другими системами и участие разработчиков в ряде корпоративных проектов привело к тому, что для обмена с другими системами автоматизации библиотечных процессов реализуются механизмы доступа по протоколу Z 39.50 (используется внешняя разработка Z-сервера) и загрузки/выгрузки данных в формате RUSMARC. Данные модули создаются на языке Cи и набора стандартных библиотек. Взаимодействие с сервером баз данных Oracle осуществляется через вызовы Oracle Call Interface. Перенос модулей на другие аппаратно-программные платформы требует перекомпиляции кода.
Сегодня ряд подсистем Электронной Библиотеки находится в эксплуатации (http://www.nsu.ru/elib/webconf, http://www.nsu.ru/reference?lang=ru). Ведется проработка организационных вопросов по интеграции компонентов Электронной Библиотеки в регламент деятельности подразделений университета. «Алиса» заинтересовала ряд российских вузов и в настоящее время рассматривается вопрос о ее тиражировании.
Автор выражает признательность за поддержку руководству программ «Интернет» и «Автоматизация библиотек» Институту «Открытое общество» (Фонд Сороса), а также техническому директору Internet-центра НГУ Ю.М. Зыбареву.
Об авторе
Евгений Фаддеенков — заведующий отделом открытых систем ЦНИТ Новосибирского государственного университета. С ним можно связаться по электронной почте по адресу fancy@nsu.ru
Литература
[1] Dublin Core MetaData Initiative, http://purl.org/dc
[2] International Institute for Electronic Library Research: The current projects, http://www.iielr.dmu.ac.uk/ Projects/ projsum.html
[3] eLib: Electronic Libraries Programme, http://www.ukoln.ac.uk/services/elib
[4] Cole, T., Digital Library Projects, LITA Newsletter, 16(2): 25-27, Spring 1995
[5] Day One Scenario (Phased Implementation of the Library of Congress ILS), http://lcweb.loc.gov/ ils/ day1.html
[6] Publications from DLI1 projects, http://www.dli2.nsf.gov/publications.html
[7] Фаддеенков Е.Н., Нужин С.А., Родионов М.А., Зыбарев Е.Ю., Федосеева А.С. Использование технологий WWW для доступа к базам данных, Научно-технический отчет по программе «Информатизация высшего образования» Госкомвуза РФ, 1996
[8] Digital Object Identifier (DOI), http://www.doi.org
[9] Российский коммуникативный формат, http://www.rba.ru:8101/rusmarc
[10] Фаддеенков Е.Н. Система «Новые поступления в библиотеку НГУ» как шаг к комплексной автоматизации библиотечной деятельности, Материалы Международной научно-методической конференции «Новые информационные технологии в университетском образовании». Новосибирск, НИИ МИОО НГУ, 1997
[11] Яхин Ш.Р. Разработка технологических решений для перевода библиотечной системы на технологии СУБД Oracle и WWW, Материалы Международной научно-методической конференции «Новые информационные технологии в университетском образовании». Новосибирск ИДМИ, 1999
Представление, поддержка и использование информации в Internet
Сегодня работы и исследования по представлению, поддержке и использованию информации в Internet ведутся по следующим направлениям.
1. Создание ресурсов:
1.1. Преобразование накопленных информационных ресурсов в электронную (доступную из Сети) форму (формализация и автоматизация такого перевода)
1.2. Организация изначально электронных информационных источников (электронные издания)
1.3. Вовлечение в оборот научной и учебной информации «нетрадиционных» источников - списков рассылки, каталогов ссылок, Web-конференций, и т.п.
2. Доступ к ресурсам
2.1. Способы единообразной идентификации электронных ресурсов
2.2. Организация поиска в разнородных и распределенных информационных источниках (автоматизированные реферирующие системы (search engine), тематические каталоги ресурсов)
2.3. Доставка требуемого информационного источника пользователю и его представление на доступном оборудовании
2.4. Механизмы сопровождения данных о лицензионных соглашениях и авторских правах
3. Поддержка ресурсов
3.1. Организация хранения больших объемов информации
3.2. Отслеживание актуальности ресурсов
В большинстве работ по представлению, поддержке и использованию информации в Internet базовым выступает понятие электронной (цифровой) библиотеки как систематизированной коллекции информационных источников разных типов (текст, аудио-, видео-, графика), в электронной (цифровой) форме с унифицированным доступом.
Проект «Электронная библиотека для обучения и исследований»
Проект, реализуемый Центром новых информационных технологий при Новосибирском государственном университете, направлен на достижение двух основных целей. Во-первых, организовать информационную среду для обучения и научных исследований, максимально используемую во всех базовых процессах университета. Среду, призванную систематизировать и представить во внешний мир создаваемые и используемые при этом информационные ресурсы разного рода. Среду, способную к интеграции в региональные и общероссийские проекты разной направленности. Во вторых, создать макет для отработки решений по организации библиотеки нового поколения, аккумулирующей ресурсы разной природы. При этом речь идет именно о комплексном подходе к проблеме - от решения множества конкретных задач к формированию среды таких решений.
В рамках проекта сделана попытка обеспечить полный цикл поддержки всех наиболее используемых информационных источников, опираясь при этом на существующие открытые стандарты и тенденции развития технологий организации электронных библиотек.
Созданная в рамках проекта информационная система, получившая предварительное название «Алиса», базируется на объектно-ориентированном подходе и построена по модульному принципу. Она обеспечивает поддержку (ввод, хранение, представление) следующих видов информационных источников:
- библиографические описания единиц хранения библиотек;
- электронные образы изданий;
- мультимедиа-материалы;
- URL, каталоги ресурсов Сети;
- Web-конференции.
Архитектура системы позволяет расширять этот список.
Созданную информационную систему можно отнести к системам следующих типов:
- электронные библиографические каталоги с публичным доступом (OPAC — OnLine Public Access Catalog) и элементами сводного каталога (обеспечивается ведение традиционного электронного каталога с доступом из Сети);
- электронные библиотеки (поддерживается ввод, описание, хранение и представление электронных образов изданий);
- тематические каталоги ресурсов Internet (пользователям предоставляется возможность описания и классификации ресурсов Сети);
- серверы Web-конференций (организован обмен сообщениями по заданной тематике).