Ландшафт современных исследовательских проектов весьма разнообразен; наряду с NICA, LHC, FAIR и другими мегапроектами реализуются тысячи проектов для молодых ученых, отдельных научных групп и лабораторий. Выполнение проектов поддерживается грантообразующими международными и национальными научными фондами, целевыми программами, фондами университетов, министерствами. В проектах участвуют от нескольких человек до тысяч специалистов, получающих финансирование в размере от тысяч до миллиардов рублей. Сейчас в России действуют более 50 грантообразующих фондов (funds.riep.ru), не считая организаций, предоставляющих внутренние гранты. Статистика их деятельности позволяет оценить количество поддержанных проектов и объемы генерируемой в процессе их выполнения информации. Например, в 2017 году Российский научный фонд (РНФ) поддержал 2,9 тыс. заявок, выполняемых в 541 организации с привлечением 28,9 тыс. ученых, а результаты исследований были отражены в 23,7 тыс. публикаций (rscf.ru/fondfiles/documents/otchet-RSF-2017.pdf). Российский фонд фундаментальных исследований (РФФИ) за 2018 год финансировал 10,3 тыс. проектов с участием 97 тыс. ученых (www.rfbr.ru/rffi/ru/rffi_contest_results/o_2081432). Выполнение каждого проекта сопровождается пакетом документов, в число которых входят: объявление о конкурсе и условия участия в нем, заявка, заключения экспертов, договоры и соглашения, отчеты о ходе работ, публикации. Таким образом, ежегодно генерируются десятки тысяч документов, содержащих сотни тысяч страниц текста и служебных данных, что делает поиск информации, выделение тенденций, а также анализ состояния области как целого достаточно сложной задачей.

Жизненный цикл научного проекта состоит из нескольких этапов, начиная от заявки на участие в конкурсе, ее экспертизы и до представления научных результатов в виде отчетов, докладов, диссертаций и статей. Большое количество и разноплановость проектов приводят к тому, что о них генерируется неоднородная и, как правило, сильно разобщенная информация. Как следствие, восстановление всего пути проекта, от идеи до ее воплощения, вызывает немалые сложности, что не дает возможности корректной оценки как полученных результатов, так и предпосылок для инициации новых проектов по близкой тематике. Неоднородность проектов предполагает различную степень значимости научных результатов, что только частично может быть отражено и оценено по научным публикациям и ссылкам на них.

Для решения проблемы неоднородности и разобщенности данных о научных проектах требуется Биржа научной информации, предоставляющая доступ к консолидированной информации с помощью единой системы навигации и поиска. В эпоху цифровизации термин «биржа» предполагает наличие специальных сервисов и программ, позволяющих проводить операции с информацией в электронном виде. Применительно к научной информации это означает необходимость создания новых, автоматизированных методов и сервисов информационного обеспечения, позволяющих различным категориям пользователей (от исследователей до финансирующих организаций и организаций, проводящих аудит) получать всю информацию по конкретным тематикам исследований и проводить их сравнительный анализ.

Особенности научной информации

В контексте Биржи научной информации интерес представляют не только результаты научных исследований — научное знание, обычно понимаемое под термином «научная информация», — но и вспомогательная (служебная) информация о проектах, в том числе описывающая их жизненный цикл. Эти две составляющие обладают своей спецификой и, как правило, существуют независимо друг от друга, однако только их совместный анализ позволит получить полную и непротиворечивую картину проводимых исследований.

Для хранения и обмена научными результатами и идеями между людьми традиционно используются текстовые документы, которые систематизируются и каталогизируются, чтобы каждый мог найти нужную для конкретной задачи информацию. Для этого применяется метаинформация, дающая минимальное представление о содержании документа: название, дата публикации, список авторов и т. д. В современном мире практически все документы оцифровываются, что позволяет использовать автоматические системы каталогизации и индексации (ArXiv, Scopus, Elsevier, eLibrary, Google Scholar), а также дает возможность расширить спектр метаданных для более гибкого и сложного поиска. Поскольку для академических текстов характерно использование таких объектов, как списки и таблицы, которые хорошо поддаются распознаванию с применением автоматизированных средств, то часть информации может быть извлечена и приведена к структурированному виду (для использования в качестве метаинформации) без привлечения человека.

Научные знания, зафиксированные в документах, не появляются сами по себе. Интерес может представлять информация о самом проекте, в ходе которого был создан соответствующий документ. Эта вспомогательная информация (сведения об участниках проектов, научных группах и центрах, о ходе исследования и данных, на которых оно базируется) необходима как для воспроизведения и верификации результатов исследования, так и для выполнения экспертной оценки при создании новых проектов. Иными словами — для эффективного функционирования всего научного сообщества в целом. Однако большая часть этой информации распределена по различным информационным системам, созданным в рамках отдельных сообществ, фондов и институтов, поэтому для получения полного представления о состоянии исследований в той или иной области необходимо запросить и проанализировать информацию из всех доступных источников. А поскольку речь идет о независимых системах, то и интерфейс поиска, и формат представления информации (веб-страницы, текстовые или табличные электронные документы) могут существенно отличаться друг от друга, что делает автоматизацию сбора информации чрезвычайно сложной задачей.

В рамках биржи предлагается связать между собой публикации, вспомогательные данные о проектах и их внутренние документы (заявки, отчеты и пр.), расширив и усовершенствовав таким образом возможности поиска и анализа научной информации. Например, Биржа научных знаний позволит создать профиль конкретного исследователя, содержащий информацию о тематике проводимых им исследований, заявках на гранты, участии в выполненных и выполняемых проектах, публикациях. Другим примером может быть поиск научных публикаций по определенной тематике и наборов данных, на которых были получены соответствующие научные результаты [1]. Это необходимо тем, кто собирается провести аналогичные исследования или верифицировать результаты прошлых исследований. Сегодня сбор и анализ такой информации часто приходится выполнять вручную, а биржа призвана автоматизировать этот процесс.

Попытки решения задачи автоматизированного сбора, анализа и интеграции научной информации и построения платформы для доступа к ней предпринимались и ранее: например, системы ИСТИНА [2] и CDS (ЦЕРН) позволяют создавать агрегаторы статей с возможностью поиска по метаданным или систематизации сведений о научной и педагогической деятельности сотрудников. Однако масштабируемость таких систем ограниченна, и единой системы хранения всей информации со средствами поиска по слабоструктурированным данным пока нет. Ряд коммерческих компаний предлагали «черный ящик» для хранения и поиска информации в научных статьях с расширением для хранения страниц Twiki. Это удовлетворяет потребности небольших компаний или узкоспециализированных проектов, но не может быть предложено как общее решение для таких крупных научных центров, как ЦЕРН или ОИЯИ. Развитие ИТ в целом и технологий нереляционных баз данных существенно расширило возможности по реализации таких платформ, в частности, появились средства работы с информацией в реальном времени. По сравнению с перечисленными подходами, Биржа научной информации рассчитана на более широкую сферу применения — на автоматизацию как административных, так и научно-поисковых задач в рамках всего российского научного сообщества, что подразумевает наличие системы хранения данных, способной адаптироваться под требования пользователей, то есть предоставлять данные и об отдельном сотруднике, а также осуществлять сквозной полнотекстовый поиск по всем организациям, проектам и отчетам.

Итак, Биржа научной информации автоматически интегрирует сведения из разнородных источников научной информации, структурирует и устанавливает связи между ними, а также предоставляет сервисы поиска и навигации по всей доступной информации.

От Базы научных знаний к Бирже научной информации

Одним из первых шагов на пути к Бирже научных знаний можно считать Базу научных знаний [3] — исследовательский проект с участием НИЦ «Курчатовский институт», Томского политехнического университета и коллаборации ATLAS (38 стран, 80 исследовательских организаций и более 5 тыс. сотрудников). Идея Базы научных знаний возникла в 2016 году в ЦЕРН, и тогда же была сформулирована проблема слабой связности между научными публикациями и данными, которые были использованы при получении научных результатов. Проблема не нова и упоминается еще в работе [4], опубликованной 10 лет назад: «По мере того, как эксперименты становились все более сложными, тонко организованными и технически оснащенными, а также по мере роста объемов данных и утраты возможности их полного воспроизведения в рамках научных публикаций, связи между фактическими и письменными материалами становились все более неоднозначными и неясными». Сегодня связность между публикациями и данными в проекте ATLAS решена лишь частично — исследователи могут вручную указать наборы данных, которые лежат в основе опубликованной работы, что требует от авторов дополнительных ресурсов и в полной мере не решает проблему связности данных и публикаций.

В процессе разработки базы научных знаний были изучены взаимосвязи между источниками данных — например, как и какая информация из текстов научных статей может быть связана со сведениями о работе систем управления, обработки и анализа данных (в том числе информация о версиях программного обеспечения и калибровочных данных). В ходе изучения этих взаимосвязей была спроектирована интегральная модель данных научного исследования для эксперимента ATLAS, связывающая логически и семантически статьи со служебными данными.

Разработанные в ходе проекта методики и архитектура системы позволяют решать достаточно широкий спектр задач, связанных с интегрированием информации из различных (структурированных и неструктурированных) источников, и могут быть использованы при создании Биржи научной информации.

Архитектура Биржи научной информации

На рис. 1 приведен прототип архитектуры биржи.

Рис.1. Прототип архитектуры Биржи научной информации

Определяющим элементом Биржи научной информации является интегральная модель данных. Одна из возможных моделей может быть построена вокруг объекта «Исследователь» и его взаимодействия с остальными структурными элементами научного сообщества. Основные объекты этой модели, а также наиболее значимые связи между ними представлены на рис. 2.

Рис. 2. Информационная модель научного сообщества

В соответствии с этой моделью устанавливаются связи между данными из различных источников информации и реализуются схемы баз данных внутренней системы хранения Биржи научной информации.

Информация о представленных на рис. 2 объектах, необходимая для организации единого информационного пространства российского научного сообщества, может быть получена непосредственно от участников самого сообщества (научных фондов, организаций и исследователей) или извлечена из открытых источников. Например, с сайтов научных фондов могут быть получены списки поддержанных заявок на получение грантов; опубликованные статьи могут служить источником информации об авторах и тематике их работы, а также о том, при поддержке какого гранта была выполнена та или иная часть работы и т. д.

Для извлечения из неструктурированных источников специфической информации по конкретной области научного знания необходима ее детальная модель, созданная с привлечением экспертов, обладающих знаниями о том, какие данные наиболее значимы для этой области, как они связаны между собой и как могут быть получены из документов. Разработанный в рамках Базы научных знаний для физики высоких энергий инструментарий, позволяющий автоматически анализировать документы с целью извлечения значимой информации, может быть адаптирован в соответствии с рекомендациями экспертов для использования и в других областях.

Внутренняя система хранения данных может состоять из одного или нескольких специализированных интегральных хранилищ, отвечающих конкретным требованиям к организации доступа и особенностям хранимой информации. В частности, для быстрого и гибкого поиска по параметрам может использоваться система полнотекстового поиска (например, Elasticsearch), а для активной работы со связями между объектами лучшим решением может быть графовая база данных (например, Neo4j). Использование специализированных хранилищ вместо одного универсального позволит реализовывать разнородные запросы к данным максимально эффективно, а интерфейс между конечным пользователем и системой хранения сделает работу с различными СУБД прозрачной для пользователя.

За заполнение хранилищ и регулярную актуализацию хранимой информации отвечают процессы ETL (извлечение, преобразование, загрузка), организованные в единую ETL-подсистему, аналогичную используемой в Базе научных знаний. Отдельный ETL-процесс состоит из цепочки независимых модулей работы с данными, каждый из которых может быть в любой момент добавлен, перемещен или исключен из цепочки. Разбиение на модули соответствует разбиению процесса на отдельные логические шаги, что делает модули полностью независимыми и позволяет их повторно использовать в различных процессах.

***

Актуальность создания российской Биржи научной информации обусловлена стремительным ростом количества выполняемых научных проектов, их разнообразием и неоднородностью информационной структуры научного сообщества. Биржа позволит эффективно использовать информацию, хранящуюся в электронном виде, за счет структурирования и интеграции метаданных, предоставляя возможность быстрого и гибкого поиска релевантной и согласованной информации. Предложенные архитектурные решения опробованы в проекте по созданию Базы научных знаний эксперимента ATLAS, где была продемонстрирована их применимость к широкому спектру задач, связанных с интегрированием научной информации.

Литература

  1. Мария Григорьева, Василий Аулов, Алексей Климентов, Максим Губин. База знаний научного эксперимента // Открытые системы.СУБД. — 2016. — № 4. — С. 42–44. URL: www.osp.ru/os/2016/04/13050998 (дата обращения: 08.03.2019).
  2. Валерий Васенин, Сергей Афонин, Александр Козицын. ИСТИНА в науке и образовании // Открытые системы.СУБД. — 2016. — № 3. — С. 44–45. URL: www.osp.ru/os/2016/03/13050261 (дата обращения: 18.03.2019).
  3. V.A. Aulov, M.V. Golosova, M.A. Grigorieva, A. A. Klimentov, S. Padolski, T. Wenaus. Data Knowledge Base for HENP Scientific Collaborations // Journal of Physics: Conference Series 1085. — 2018. — 032013. doi: 10.1088/1742-6596/1085/3/032013.
  4. Tony Hey, Stewart Tansley, Kristin Tolle. The Fourth Paradigm: Data-Intensive Scientific Discovery. Published by Microsoft Research | October 2009, ISBN: 978–0–9825442–0–4.

Марина Голосова (golosova_mv@nrcki.ru), Мария Григорьева (maria.grigorieva@cern.ch) — НИЦ «Курчатовский институт», Алексей Климентов (alexei.klimentov@cern.ch) — Брукхейвенская национальная лаборатория, Национальный исследовательский ядерный университет «МИФИ» (Москва). Работа выполняется при поддержке РФФИ (№ 18-37-20003 мол_а_вед) и РНФ (№ 18-71-10003).