Распространение информации, генерируемой научным сообществом на конференциях, симпозиумах и семинарах, происходит сейчас либо традиционным способом (издание материалов на бумажном носителе), либо путем размещения материалов и метаданных на различных информационных ресурсах. Некоторые из таких ресурсов поддерживают автоматизированный обмен метаданными по научным публикациям, а другие предполагают обработку вручную, что влияет на оперативность и качество распространяемой информации, тормозя такие инициативы, как «открытая наука» [1, 2].
Для оперативного распространения результатов научных исследований и обеспечения доступа к ним применяются репозитории, которые, как правило, заполняются самими авторами либо сотрудниками научных организаций. Кроме этого, имеются агрегаторы, аккумулирующие метаданные о публикациях из разрозненных репозиториев, что позволяет повысить эффективность поиска. Для сбора информации агрегаторы и репозитории используют, например, протокол обмена метаданными OAI-PMH и формат представления метаданных Dublin Core. Однако многие ресурсы не поддерживают обмен метаданными, особенно важный для научных конференций, основным формальным результатом работы которых является сборник трудов, вместе с метаданными размещаемый на сайтах конференций и в открытых репозиториях организаций. Зачастую сборники размещаются в виде одного файла без приведения метаданных к каждой статье, что затрудняет передачу информации на внешние ресурсы. Кроме того, размещение отдельных статей в открытых репозиториях организаций ограничивается аффиляцией авторов с этой организацией, что ведет к фрагментации сведений.
Необходимо сформировать комплексное информационное пространство поддержки открытых публикаций авторов и участников научных сообществ. В основе такого пространства лежат три основных принципа:
- автоматизация процесса подачи материалов участниками конференции;
- аккумулирование полнотекстовых документов в репозитории и размещение метаинформации в агрегаторах;
- создание технологических возможностей для расширения средств размещения метаинформации по публикациям в новых открытых ресурсах.
Для большинства российских конференций интеграция в информационные ресурсы выполняется вручную с привлечением инструментов, предлагаемых разработчиками этих ресурсов. Например, в Научной электронной библиотеке (НЭБ) для подготовки к размещению метаданных сборников и статей используется система «Артикулус», предполагающая полностью ручной ввод при минимальной автоматизации. Организаторы многих конференций используют в процессе подготовки мероприятия различные информационные системы: agora.guru.ru, www.easychair.org и др., которые, однако, не предполагают интеграции с другими информационными ресурсами. Отдельно необходимо отметить открытую платформу Open Conference Systems, позволяющую публиковать материалы конференций, выполняя функции репозитория, однако она имеет ряд проблем с русификацией и функционированием отдельных компонентов, например механизма рассылок по электронной почте.
В 2015 году в Университете ИТМО была создана система поддержки организации конференций, интегрированная с открытым репозиторием университета (openbooks.ifmo.ru), содержащим публикации всех сотрудников. Однако в репозитории доступны не все метаданные статей и отсутствуют механизмы интеграции с внешними открытыми информационными ресурсами. Поэтому для проведения конференции «Интернет и современное общество» (Internet and Modern Society, IMS) была создана информационная система ims.ifmo.ru, в которой реализован механизм подачи заявок на участие в конференции и загрузки материалов. Интеграция с информационной системой управления Университета ИТМО позволяет сотрудникам университета использовать внутреннюю идентификацию и отображать свои публикации в корпоративных профилях, что учитывается при оценке деятельности ученых.
Информационное ядро системы — это открытый репозиторий (ojs.ifmo.ru/index.php/IMS), построенный на базе открытой платформы Open Journal Systems (OJS), которая позволяет представлять каждый отдельный сборник в виде контейнера с полными текстами статей, метаданными или ссылками на внешние файлы. В платформе реализован протокол обмена метаданными OAI-PMH для автоматического обмена с внешними информационными системами; поддерживается формат Dublin Core — стандарт представления метаданных; имеются модули экспорта метаданных в форматах агрегаторов, не поддерживающих автоматизированный обмен, например, таких как CrossRef, DOAJ и DataCite.
На сегодня OJS позволила разместить материалы сборников конференций с 2011 по 2017 год, а с помощью протокола OAI-PMH интегрировать метаданные статей и тезисов в агрегаторы OAIster и «Соционет». Кроме того, материалы, размещенные на этой платформе, стали индексироваться в поисковой системе Академии Google.
Информационные системы Web of Science и Scopus не рассматривались — размещение в них сборников материалов конференций на русском языке представляет собой долгий процесс, связанный со значительными финансовыми затратами. Работа с Web of Science и Scopus осуществляется только при подготовке англоязычных публикаций международных компонентов, входящих в конференции IMS.
В круг рассмотрения организаторов конференции не вошли также информационные системы, опирающиеся на профили авторов (ORCID, Academia.edu, ResearchGate) и позволяющие самим авторам размещать информацию о публикациях, поскольку это потребовало бы согласованных усилий всех авторов по размещению вручную в своих профилях соответствующих публикаций и повлияло бы на целостность представления самих сборников материалов.
В 2015 году материалы конференции IMS впервые были опубликованы в открытом репозитории Университета ИТМО. Для этого метаданные статей в формате xls загружались в базу данных, и одновременно средствами инструмента XML-разметки «Артикулус» метаданные научных публикаций были внесены в базу РИНЦ, функционирующую на платформе НЭБ. Кроме того, вручную метаданные сборников и статей были размещены в электронном архиве самой конференции. Опыт загрузки данных в три информационные системы позволил выявить проблемы, возникающие при размещении данных конференций на открытых ресурсах, и определить способы оптимизации автоматизации этого процесса.
С подобными проблемами многократного ввода метаданных материалов конференций при их передаче в различные информационные ресурсы и системы сталкиваются сегодня многие организаторы научных конференций — сначала потенциальными участниками подаются тексты тезисов докладов, сопровождаемые минимально необходимым набором метаданных на русском и английском языках (имена авторов, названия организаций, с которыми они аффилированы, и пр.), а затем для размещения метаданных и текстов материалов сборников во внешних информационных системах запрашивается дополнительная информация: коды классификации научной информации по принятым в России стандартам, SPIN-коды авторов в системе РИНЦ, УДК и пр. Либо в каждом конкретном случае разрабатываются программы обработки подготовленных для печати сборников, извлекающие из них метаданные статей [3].
Изменение порядка подачи материалов на конференцию IMS и разработка специального инструментария позволили решить перечисленные проблемы. Теперь метаданные получаются только один раз и впоследствии используются для публикации сборников конференции и для их размещения во внешних информационных ресурсах и системах, поддерживающих или нет автоматизированный обмен метаданными.
Авторы, подающие заявку на участие в конференции, представляют статью с метаданными в соответствии с предлагаемым им шаблоном, который включает сводную таблицу, содержащую данные как для внесения информации о докладе, так и для ее подготовки к печати и передачи на внешние ресурсы (рис. 1).
Рис. 1. Подготовка метаданных и их передача во внешние информационные ресурсы |
Информация из таблицы сохраняется в виде HTML-файла, который был выбран вместо XML, порождающего при обработке много лишних тегов сложной структуры. После итогового рецензирования и принятия решения о допуске автора к участию в конференции из шаблона выделяется текст рукописи статьи, проходит его редактура и корректура, а затем он передается на макетирование в сборник материалов конференции и окончательно оформляется в виде файла pdf. На этом этапе формируются также файлы XML для импорта метаданных сборников и статей в электронный архив материалов конференции и для импорта в elibrary.ru. Однако этого еще недостаточно для экспорта в другие информационные ресурсы и системы (например, в НЭБ), и в перспективе будет реализована возможность внесения этой дополнительной информации уже после публикации сборников конференции.
Однако, как показал опыт пилотного проекта, нередко авторы при заполнении предложенного шаблона либо «ломают» его структуру, либо вносят изменения в коды полей, либо вовсе сохраняют документ без кодов, поэтому был создан новый шаблон, защищенный от изменений.
Для дальнейшей обработки метаданных из шаблона статьи имеется парсер импорта во внешние информационные системы, не поддерживающие автоматизированные процессы обмена метаданными.
Таким образом, сегодня есть возможность оперативной подготовки и размещения метаданных сборников и статей из них как в архиве материалов конференции IMS, так и в НЭБ. При этом сами статьи в формате pdf автоматически размещаются в репозитории Университета ИТМО, что позволяет иметь единственный официальный экземпляр оригинала статьи в электронном виде. Тем самым, в частности, решается задача популяризации открытых информационных ресурсов Университета ИТМО.
Дальнейшая интеграция метаданных в открытые информационные ресурсы научной информации осуществляется автоматически с помощью стандартного протокола обмена метаданными OAI-PMH (рис. 2).
Рис. 2. Организация информационного взаимодействия с внешними открытыми ресурсами |
Развитие системы будет проходить по следующим направлениям:
ведение кабинета зарегистрированного участника, содержащего все метаданные подаваемых материалов с их автоматической передачей в базу данных, генерацией шаблонов статей и формированием XML-файлов для дальнейшего размещения метаданных во внешних информационных ресурсах (OJS, НЭБ);
разработка модуля для системы OJS по экспорту метаданных сборников трудов конференции в НЭБ, что упростит организаторам конференций и редакциям научных журналов размещение электронных версий своих материалов в рамках реализации идей «открытой науки» [4];
расширение профилей авторов публикаций для обеспечения информационного взаимодействия с системами типа ORCID, Academia.edu, ResearchGate и т. п. будет стимулировать регистрацию публикаций IMS в профилях авторов и расширит связанность публикаций и авторов, работающих по близким темам;
обеспечение двуязычия в информационном пространстве IMS, необходимое для включения в состав объединенной конференции компонентов, реализующих международные стандарты де-факто (английский язык, двойное слепое рецензирование статей, публикация в зарубежном издательстве, индексируемом в базе Scopus и/или Web of Science).
***
Предложенный подход к наполнению информационного пространства поддержки научных исследований с автоматизацией процессов подготовки данных по публикациям позволяет оптимизировать процессы сбора, обработки и размещения метаданных в разнородных информационных системах, поддерживающих различные режимы обработки, что в конечном счете должно способствовать более полному информационному обеспечению научного сообщества.
Литература
- Burgelman, J.C., Luber, S., Von Schomberg, R., Lusoli, W. Open Science: Public consultation on «Science 2.0: Science in transition». Key results, insights and possible follow up. 2015. URL: http://www.science20-conference.eu/wp-content/uploads/2015/04/01_Jean-Claude_Burgelman_-_Open_Science__outcome_of_the_public_consultation_on__Science-20_science_in_transition.pdf (дата обращения: 10.02.2018).
- Parsons, J. Welcome to Science 2.0 | Open Access in Action // Library Journal. — 2016, March 15. URL: http://lj.libraryjournal.com/2016/03/oa/welcome-to-science-2-0-open-access-in-action/ (дата обращения: 10.02.2017).
- Герасимов А., Елизаров А., Липачев Е., Хайдаров Ш. Методы автоматизированного извлечения метаданных научных публикаций для библиографических и реферативных баз цитирования // Информационное общество: образование, наука, культура и технологии будущего: сборник научных статей. Труды XIX Международной объединенной научной конференции «Интернет и современное общество» (IMS-2016), Санкт-Петербург, 22–24 июня 2016 г. — СПб.: Университет ИТМО, 2016. — С. 41–48.
- Сергей Паринов. На пути к открытой науке // Открытые системы. СУБД.— 2016. — № 1. — С. 44–45. URL: https://www.osp.ru/os/2016/01/13048658/ (дата обращения: 10.02.2018).
Ирина Мбого (irina.mbogo@gmail.com) — старший преподаватель, Дмитрий Прокудин (hogben.young@gmail.com) — доцент, Андрей Чугунов (chugunov@egov-center.ru) — директор центра технологий электронного правительства, Университет ИТМО, СПбГУ (Санкт-Петербург).