Отличительная черта современной науки — неизбежность обработки больших объемов данных, получаемых от экспериментальных установок: ускорителей (RHIC, LHC), лазеров на свободных электронах (XFEL), источников синхротронного излучения (NSLS) и т. п. Однако данные и сопутствующая им метаинформация должны храниться десятилетиями (время жизни современного научного эксперимента составляет 15–25 лет по сравнению с 5–7 годами в конце XX века), поэтому научные сообщества (ATLAS, BelleII, ALICE и др.) вынуждены решать задачи организации доступа и управления данными — причем не только научными, но и огромными объемами вспомогательных сведений о всех этапах жизненного цикла научных исследований. Без решения проблемы связности между метаданными, описывающими различные циклы обработки экспериментальных данных, нарушается воспроизводимость научных результатов — важнейший критерий истинности научного знания.
Проблема воспроизводимости научных результатов существовала всегда, но сегодня ее масштабы значительно возросли. Более 70% ученых сталкивались с невозможностью воспроизведения чужих результатов, и более половины из них испытывают затруднения при воспроизведении своих собственных результатов [1]. Даже в международном научном сообществе ATLAS [2,3], несмотря на подробную документацию, описывающую научную и программно-аппаратную сторону исследований, сложно проследить все детали процесса получения научного результата. Для этого нужно определить наборы данных, на базе которых было проведено исследование, воспроизвести состояние аппаратных и программных компонентов (например, меню системы фильтрации данных). При этом необходимая информация хранится в различных репозиториях и базах данных, собрать ее воедино затруднительно и не всегда возможно в полном объеме — до сих пор нет формализованного способа описания получения физического результата.
Воспроизводимость результатов даже в ручном режиме, не говоря уже об автоматизированном, усложняется еще и тем, что требуется написание специальных программ для работы с базами данных, и часто единственными, кто действительно может воспроизвести результаты, оказываются сами члены исследовательской группы, в которой эти результаты были получены. Это затрудняет долгосрочное хранение данных, особенно если авторы уже сменили поле своей деятельности [2].
Для решения описанных проблем разрабатывается база научных знаний (Data Knowledge Base, DKB), представляющая собой платформу, которая позволяет интегрировать метаданные из различных источников и имеет удобную инфраструктуру для хранения и доступа к метаданным научного исследования, полученным на всех стадиях его жизненного цикла.
В качестве тестового полигона для DKB сейчас используются метаданные сообщества ATLAS, которые условно можно разделить на две группы: метаданные процесса обработки и анализа данных; метаданные о процессе представления и публикации научных результатов. С первой группой данных работают следующие инструменты: система управления и передачи данных Rucio, обеспечивающая формирование наборов данных и управление передачей информации в распределенной компьютерной среде; система управления загрузкой (ProdSys2/PanDA), распределяющая задания обработки и анализа в гетерогенной среде; СУБД управления задачами — DEFT (Database Engine for Tasks) и заданиями — JEDI (Job Execution and Definition Interface); сервис JIRA хранения информации об ошибках при управлении данными и загрузкой. Исходные коды анализа и обработки данных хранятся в репозиториях системы контроля версий (github). Исследовательские группы хранят списки наборов экспериментальных и моделированных данных в Google Docs и в Twiki. Программные и аппаратные конфигурации хранятся в образах виртуальных машин ATLAS.
Вторая группа в основном формируется из документальных источников, таких как препринты, статьи, труды конференций и пр., хранящихся в системе документооборота ЦЕРН (CERN Document Server), InSpire, на страницах Twiki и JIRA, а также в системе Indico.
Несмотря на то что каждый источник метаданных хранит информацию об определенной фазе эксперимента и в целом все они взаимосвязаны, перечисленные системы физически существуют независимо друг от друга и информация между ними не синхронизирована. Частичную связность между ними обеспечивают системы AMI (ATLAS Metadata Interface) и GLANCE, агрегирующие информацию из различных источников. Однако и они не позволяют представить весь жизненный цикл научного исследования от физической гипотезы до анализа результатов и научной публикации [3].
Немалое количество научных публикаций не имеют, к сожалению, четкой связи с научными данными, что затрудняет сотрудничество и использование работ коллег, поэтому нельзя рассматривать научную статью как самостоятельную научную единицу. С другой стороны, на данный момент только статья, со всеми ее явными и косвенными «связями», признана в научном сообществе в качестве источника данных для воспроизведения результатов эксперимента.
Обработка разнообразных документов по исследованию обычно сводится к библиографическому описанию, классификации, аннотированию, реферированию и составлению обзоров, однако из имеющихся документов можно извлечь и техническую метаинформацию об экспериментах. Например, в препринтах ATLAS описывается весь процесс анализа данных в рамках определенного исследования. В большинстве случаев информация в подобных документах хорошо структурирована: авторы используют профессиональную терминологию для описания того, как результаты были получены, на каком оборудовании, с какими исходными характеристиками, на каких данных, как затем эти данные были обработаны и приведены к формату, пригодному для последующего анализа. Такая структурированность позволяет применять алгоритмы обработки текстов на естественных языках для автоматизированного извлечения необходимой информации: сведений об энергии ускорителя в системе центра масс; данных о времени набора и номере экспозиции; типе столкновений; версии программного обеспечения и пр. Намного сложнее извлечь описания физического анализа, так как в большинстве случаев источники представлены в виде списка групп строковых данных или в виде параметрических таблиц.
При создании DKB необходимо решить задачу хранения и обработки сильно связанных данных со сложной структурой, а такие данные трудно обрабатывать реляционными СУБД. Все попытки решения таких задач на реляционной модели приводят к непредсказуемому количеству соединений в запросах, поэтому для решения графовых задач сегодня наибольшее распространение получили RDF-хранилища или онтологические базы данных. Формально онтология рассматривается как триплет О = {T, R, F}, где T — множество концептов предметной области; R — множество отношений между концептами; F — функции интерпретации, заданные на сущностях и/или отношениях онтологии. Онтологический подход, благодаря целостному описанию предметной области, позволяет расширить понимание взаимосвязей между различными этапами, вспомогательными подсистемами и документами научного эксперимента, помогая найти скрытые связи. Сегодня существуют онтологии для различных областей знаний — например, онтология научного эксперимента и формализованная модель конечного состояния детектора DFS (Detector Final State), модель описания метаинформации о научных исследованиях и научных данных для «структурных наук» CSMD (Core Scientific Metadata Model).
Для DKB разрабатывается собственная онтологическая модель, учитывающая особенности построения перечисленных моделей и дополненная специфичными для ATLAS метаданными и семантическими связями между ними. На текущий момент разработан фрагмент онтологии эксперимента ATLAS (рис. 1), реализующий поиск научных данных по публикации, определение связи между публикациями, наборами данных и физическими экспериментами по наборам общих атрибутов.
Рис.1. Фрагмент онтологии эксперимента ATLAS |
Document — класс, описывающий любой документ в ATLAS. Документы могут быть различных типов: SupportingDocument (внутренняя документация), Paper (публикация), SpreadSheet (электронная таблица), ConfNote (тезисы конференций) и т. п. Data Sample — класс, который описывает наборы данных, используемые в научном исследовании. ATLAS Member — класс для описания автора статьи. PhysicsExperiment — класс описания конкретного физического эксперимента, характеризуемый набором атрибутов: проект, физическая группа, энергия ускорителя, ключевые слова, годы получения данных и др.
Формализованное описание жизненного цикла научного исследования в формате OWL (Web Ontology Language) является ядром архитектуры DKB (рис. 2). Для разработки прототипа DKB было выбрано RDF-хранилище Virtuoso [4], которое позволяет обеспечить масштабируемость, необходимую для хранения всей метаинформации коллаборации, эффективно работая при размерах базы до 15 млрд триплетов. Например, система Jena, представляющая собой открытый фреймворк на Java для построения приложений Semantic Web, способна работать с базами объемом не более 1 млрд триплетов.
Рис. 2. Архитектура базы научных знаний |
Извлечение данных из структурированных (фактографических) источников, а также их предварительная обработка и интеграция реализуются с помощью API, имеющегося у каждой из подсистем (GLANCE, pyAMI, Invenio, Indico, JIRA и др.), однако в ATLAS есть большое количество документальных источников данных (статьи, препринты, внутренняя документация), которые доступны только в виде текстов в формате PDF. Для них реализован сервис конвертации и анализа PDFAnalyzer, преобразующий документы в формат TXT (для поиска данных по регулярным выражениям) и в формат XML (с позиционированием всех элементов макета страницы и каждого символа для поиска и извлечения данных из таблиц). Полученная метаинформация сохраняется в формате JSON и экспортируется для дальнейшего использования другими компонентами базы знаний.
Для первичного наполнения RDF-хранилища метаданными служит рабочий поток экспорта, преобразования и импорта данных в Virtuoso (рис. 3), который объединяет метаданные о статьях и внутренних документах ATLAS, полученные из поисковых систем GLANCE и CERN Document Server, и импортирует эти данные в онтологическую базу Virtuoso. Заложенные в онтологии правила семантических связей между различными типами документов позволяют прослеживать этапы создания научной публикации и осуществлять поиск корреляций между статьями и типами проводимых в ATLAS экспериментов.
Рис. 3. Фрагмент базы научных знаний, реализующий наполнение онтологического хранилища метаданными о статьях, препринтах и наборах данных |
Однако для воспроизведения эксперимента исследователям необходимо получить список первичных научных данных для повторных вычислений, и для автоматизации этого процесса в рабочий поток включен анализ текстов публикаций ATLAS. Конечно, далеко не каждый текстовый документ содержит сведения об исходных данных в виде, пригодном для машинного анализа, однако около 70% текстов позволяют извлечь достаточно информации. Далее рабочий поток переходит к поиску подробной метаинформации о научных данных в реляционной базе (ProdSys2/Oracle) и импортирует результат в Virtuoso.
В архитектуре DKB текст рассматривается как одна из форм представления данных, и его можно использовать как любой другой объект вычислений. Разработанный инструментарий обеспечивает автоматизированное извлечение и обработку знаний из структурированных источников и семантически обработанных текстов. Таким образом, в онтологическом хранилище в унифицированной форме связно представлены метаданные, полученные из текстов, баз данных, различных поисковых систем и других сопутствующих материалов.
***
Целостность информационного пространства, включающего все этапы жизненного цикла научного исследования, необходима сегодня всему научному сообществу и критически важна для деятельности любых научных коллабораций. В условиях стремительного роста объемов метаданных, регистрируемых в ходе эксперимента, необходимо иметь единое онтологическое хранилище, в котором метаданные объединены в семантически связную структуру. Предлагаемая база научных знаний позволит сформировать единое информационное поле любого научного эксперимента, а ее архитектура может быть адаптирована ко множеству предметных областей.
Литература
- Baker M., Penny D. Is there a reproducibility crisis? // Nature. — 2016. Vol 533, 26 may. P. 452–454.
- K. Cranmer, L. Heinrich, R. Jones, D.South. Analysis Preservation in ATLAS // Journal of Physics: Conf.series. — 2015. — Vol. 664. — № 3. — P. 032013. URL: http://iopscience.iop.org/issue/1742-6596/664/3 (дата обращения: 18.11.2016).
- Мария Григорьева, Марина Голосова, Евгений Рябинкин, Алексей Климентов. Экзабайтное хранилище научных данных // Открытые системы. СУБД. — 2015. — № 4. — С.14–17. URL: http://www.osp.ru/os/2015/04/13047963 (дата обращения: 18.11.2016).
- Дмитрий Левшин. Базы данных в Семантической паутине // Открытые системы. СУБД. — 2009. — № 7. — С.50–53. URL: http://www.osp.ru/os/2009/07/10464695 (дата обращения: 19.11.2016).
Мария Григорьева (maria.grigorieva@cern.ch) — научный сотрудник, Василий Аулов (vasiliyaulov@gmail.com) — аспирант НИЦ «Курчатовский институт» (Москва); Максим Губин (maksim.gubin@cern.ch) — младший научный сотрудник, Томский политехнический университет; Алексей Климентов (alexei.klimentov@cern.ch) — сотрудник Брукхейвенской национальной лаборатории (Лонг-Айленд, Нью-Йорк). Статья подготовлена при поддержке РФФИ (16-37-00246 «мол_а»). Статья подготовлена на основе материалов доклада, представленного авторами на конференции «Интеллектуальные системы хранения и обработки информации» (грант РФФИ 16-07-20891-г).