Цифровые технологии все шире проникают в разные отрасли, обостряя проблему управления большими данными, требуя оптимизации методов и подходов к обработке данных, а также эффективных способов сбора данных и их обмена с учетом, в частности, наблюдаемых сегодня социальных, экономических и политических изменений в обществе. Несмотря на то что термин «большие данные» чаще связывают с социальными сетями, финансовой индустрией и ретейлом, изначально большие данные генерировались в рамках широкомасштабных научных проектов — в частности, проекта Большого адронного коллайдера, потребовавшего создания принципиально новых средств и методов обработки экстремально больших объемов сведений, получаемых в ходе экспериментов. В России в рамках проекта БАК [1] разрабатываются модели обработки и хранения данных, например федерация вычислительных ресурсов [2]. Предложенные в этих и других подобных проектах методы работы с данными влияют и на отношение общества к большим данным — в частности, обобщение опыта обработки научных данных способствовало появлению концепции open science, трансформировавшейся в популярный в Евросоюзе подход citizen access («доступ для рядовых граждан»).

Именно в науке пришлось впервые разбираться с хранением и передачей больших массивов данных, вопросами соблюдения прав их владельцев, создания безопасной информационной и правовой среды для пользователей научного оборудования, учета социальных последствий внедрения новых технологий и пр. В других областях, например в силовых ведомствах, при работе с большими данными акцентировались на эффективности использования конкретных методов и их максимальной универсальности, а не на обеспечении открытости и доступности имеющихся данных. В частности, технологии smart grid в контексте задачи предотвращения террористических актов на основании анализа больших данных были призваны повысить качество принимаемых решений в условиях недостатка информации.

Сегодня подходы к управлению большими данными, предложенные научным сообществом, внедряются повсеместно, и именно способностью организовать эффективный доступ к информации о различных группах пользователей объясняется успех Amazon, Alphabet и Facebook. Проблема управления данными актуальна и для обеспечения национальной безопасности, в частности систем искусственного интеллекта и комплексов кибербезопасности. Например агентство DARPA, традиционно занимающееся проблемами «стыковки» фундаментальных научных работ с прикладными решениями, поддерживает десятки программ по искусственному интеллекту и около сотни проектов, связанных с кибербезопасностью. Один из них — Automating Scientific Knowledge Extraction — направлен на автоматизацию процессов извлечения научных знаний с определением местонахождения новых информационных ресурсов, а также их анализа с целью получения новых знаний и генерации новых моделей.

В рамочной программе ЕС по развитию научных исследований и технологий «Горизонт Европы — 2020» была продемонстрирована необходимость в создании новых методов и подходов к обработке данных: персонализация-деперсонализация; мгновенный сбор данных (например, для получения кредита); экология (создание ЦОДов, выделяющих большой объем тепловой энергии) и другие вопросы, решение которых невозможно без эффективной организации управления потоками данных.

Для преодоления разнородности баз данных, для унификации и объединения научной инфраструктуры в 2016 году был создан портал EOSC (European Open Science Cloud), представляющий собой виртуальную среду со свободным доступом для хранения, управления, анализа и передачи данных из всех областей знаний во все страны ЕС. Научная цифровая инфраструктура ЕС содержит множество регламентированных, открытых, но специализированных баз данных и репозиториев: BioMA, Global Marine Information System (GMIS), Central Core DNA Sequence Information System (CCSIS) и пр. Подобные ресурсы постоянно актуализируются, имеют четкие регламенты представления данных научных исследований, предоставляют инструменты и механизмы для управления контентом, однако тематика данных ограничена, а правила представления метаданных не согласованы (разнородные). Попытки создания универсальных хранилищ данных, независимых от тематик исследований, приводят к разбалансировке системы хранения — такие репозитории не имеют ограничений по формату представления данных и дескрипторам метаданных, в результате чего информационная система усложняется, теряет гибкость и не обеспечивает эффективного поиска данных и их повторного использования.

На решение подобных проблем нацелена инициатива Go FAIR (Findable, Accessible, Interoperable, Reusable), содержащая базовые принципы улучшения возможностей поиска, обеспечения доступа к данным, их совместимости и, что особенно важно, повторного использования. В 2016 году был представлен «Руководящий принцип FAIR управления научными данными» [3].

Согласно FAIR, функции поиска, извлечения и представления данных реализуют не пользователи, а информационная система. При этом речь идет не только о самих данных и метаданных, но и об алгоритмах и инструментах управления ими. Кроме того, к разработке подходов к управлению научными данными привлекаются все заинтересованные стороны: научно-исследовательские организации и отдельные ученые; операторы баз данных и издания, публикующие научные статьи и результаты экспериментов; финансирующие организации; производители программного обеспечения и инструментов обработки данных; компании, предоставляющие услуги по анализу и интерпретации данных. Важно, что в круг заинтересованных сторон также включаются сами вычислительные системы (алгоритмы обработки данных) как самостоятельный объект — в зависимости от их рейтинга принимается решение о включении численного метода в конфигурацию. На рисунке приведен перечень руководящих принципов FAIR [4].

Руководящий принцип FAIR

Для поддержки поисковых функций информационному блоку (данным и метаданным) присваивается уникальный постоянный глобальный идентификатор, а сами данные описываются расширенным множеством метаданных, которые однозначно и явно включают идентификатор описываемых данных. Данные (метаданные) регистрируются или индексируются в доступном для поиска ресурсе.

Для оптимизации доступа к данным предлагается руководствоваться следующими принципами: данные (метаданные) могут быть получены по их идентификатору по стандартизированным протоколам связи; протокол доступа к данным открыт и допускает использование унифицированного протокола доступа — при необходимости для доступа к данным возможна процедура аутентификации и авторизации, а метаданные могут быть доступны даже при отсутствии доступа к самим данным.

Должна быть обеспечена совместимость данных не только с другими данными, но и с приложениями и инструментами их анализа, хранения и обработки: данные (метаданные) используют формальный, доступный и широко применяемый язык описания данных; данные (метаданные) используют словари, реализованные в соответствии с руководящими принципами FAIR; данные (метаданные) включают в себя полные ссылки на другие данные (метаданные).

Конечная цель FAIR — оптимизация повторного использования данных для их копирования и объединения в разных задачах: данные (метаданные) подробно описывают с применением множества точных (однозначных) и соответствующих атрибутов; данные (метаданные) снабжают четкой и доступной лицензией на их использование; данные (метаданные) сопровождают детальной историей их происхождения; данные (метаданные) представляют в соответствии со стандартами тематического научного сообщества.

Представленные элементы (данных и метаданных) взаимосвязаны, но при этом независимы и отделимы. Каждый из них определяет совокупность метрик (характеристик), предъявляемых к ресурсам, инструментам, словарям обработки данных в целях обеспечения возможности их повторного использования третьими сторонами, в том числе не имеющими прямого отношения к науке. При этом существует возможность управлять уровнем вхождения в озера данных FAIR тех или иных пользователей за счет градации при определении характеристик предоставляемых ресурсов. Варьируя и комбинируя метрики описания объектов, можно добиваться высокой степени адаптивности представления данных и метаданных в информационной системе. Например, можно однозначно описывать критические процессы проведения научных исследований без привязки к какому-либо конкретному объекту исследования, обеспечивая, в свою очередь, прозрачность проводимого эксперимента и воспроизводимость результатов [5]. Например, в случае публикации идентифицирующих личность сведений достаточно публикации большого набора метаданных и регламентации доступа к ним исследователя или группы ученых без публикации конкретных персональных данных.

Руководящие принципы FAIR

Руководящие принципы FAIR не предполагают какой-либо стандартизации или конкретной технологии их поддержки. Принципы выступают в качестве руководства для «издателей» данных по оценке их технологий реализации озер данных (хранилищ данных), по степени функциональности поисковых возможностей, доступности, совместимости и повторного использования данных.

В целом FAIR подобен open data, но имеется ключевое отличие. Открытые данные доступны каждому без каких-либо лицензионных ограничений, соглашений, авторских прав или патентов, а FAIR предполагает возможность доступа к данным (метаданным) в определенное время и на определенных условиях. Иначе говоря, FAIR-данные могут быть как открытыми, так и частными, если они доступны лишь определенной группе пользователей. Такой подход является более гибким и позволяет характеризовать данные на каждом этапе их жизненного цикла. Например, в процессе физического эксперимента данные доступны только группе экспериментаторов, затем — научному сообществу в целях их интерпретации, а после обработки выложены в общий доступ (open data) как результат эксперимента. На практике научные данные неоднократно переходят через такие стадии «открытости». В подавляющем большинстве случаев персональные и коммерческие данные не могут быть общедоступными, что противоречит идеям open data, но допустимо в FAIR.

Сегодня множество европейских исследовательских инфраструктур (DTU Library, International Neuroinformatics Coordinating Facility, TU Dublin, Biobanking and Biomolecular Resources Research Infrastructure of Czech Republic, Radboud University и др.) используют концепцию FAIR при предоставлении доступа к своим научным данным. Созданы и развиваются методические рекомендации и инструкции по представлению данных в соответствии с FAIR. Было установлено, что использование подхода FAIR к управлению данными позволяет ЕС сэкономить более 10 млрд евро в год.

В рамках программы «Горизонт-2020» был инициирован проект PaNOSC, объединяющий шесть крупных европейских исследовательских инфраструктур (ESRF, European XFEL, CERIC-ERIC, ELI Delivery Consortium, ESS, ILL) для развития Европейского облака открытой науки (European Open Science Cloud) — универсального междисциплинарного репозитория научных данных с открытым доступом для исследователей во всех областях. В рамках PaNOSC ученым из таких областей, как химия, биология, материаловедение и пр., предоставляются сервисы и инструменты для хранения, поиска и анализа данных, полученных на нейтронных и фотонных исследовательских инфраструктурах. За счет использования постоянных уникальных идентификаторов реализуется возможность передачи метаданных между сервисами, что позволяет на порядок увеличить возможность повторного использования результатов научного исследования в масштабах не связанных напрямую тематических областей научных исследований. В перспективе речь идет об обеспечении для всего мирового научного сообщества, независимо от тематической области исследований, доступа через EOSC к экспериментальным данным от 15 нейтронных и фотонных европейских исследовательских инфраструктур.

Фактически сегодня речь идет не столько об объекте цифровой научной инфраструктуры (база данных, озеро данных), сколько об услуге управления большими данными: реализуется механизм управления множеством данных, доступных широкому спектру пользователей — от научного сообщества до государственных структур (грантодателей, спонсоров).

Следует отметить, что в России также ведутся работы по обеспечению физических основ доступа к информации и обработке данных в научной сфере, разрабатываются соответствующие регуляторные механизмы. Проект CREMLINplus (Connecting Russian and European Measures for Large-scale Research Infrastructures — plus) направлен на расширение связей в сфере научно-технического сотрудничества России и ЕС. В его основе лежит продвижение конкретных инфраструктурных проектов, предоставление механизмов доступа к российским исследовательским инфраструктурам для международного использования, а также обмен знаниями (протокол TASK 86-8). Предлагаемые в рамках FAIR подходы к управлению большими данными реализуются в CREMLINplus в части доступа европейских научных групп к российским научным инфраструктурам.

ЕС — это единственный сегодня равный партнер России в сфере научного сотрудничества (масштабы взаимодействия с США незначительны, а страны БРИКС по большинству фундаментальных научных направлений отстают от России). В сфере правового регулирования и организации механизмов взаимодействия участников инновационного процесса Евросоюз продвинулся далеко вперед, поэтому для России европейский опыт может стать ориентиром при формировании собственных правил и регуляторных механизмов. Принципы FAIR могут быть использованы для лучшей интеграции российских исследовательских инфраструктур с европейскими, а также в качестве основы для разработки аналогичных правил управления данными.

***

Большие объемы генерируемых в ходе научных исследований данных делают актуальной задачу повышения качества управления ими — ключевой сегодня становится не проблема сбора, публикации и хранения информации, а обеспечение эффективного поиска, анализа и повторного использования данных, в том числе и на других инфраструктурах. На данный момент отсутствует единая форма представления научных данных, полученных на различных тематических научно-исследовательских инфраструктурах, что не позволяет в полной мере извлекать выгоды от инвестиций — отсутствует трансфер научных результатов в формате, понятном инвесторам, чиновникам и обществу. В этой связи принципы FAIR в управлении данными можно рассматривать как один из шагов по формированию цифровой инфраструктуры, позволяющей контролировать рост объемов информации, исключая создание больших данных из больших данных. Унификация представления данных в FAIR расширяет доступ бизнеса, общества и государственных структур к научным результатам. Принципы и подходы FAIR целесообразно учитывать при разработке российских правил организации управления большими данными в любой сфере, что может существенно расширить круг компаний и организаций, заинтересованных в повышении исследовательского и инновационного потенциала России.

Литература

1. Мария Григорьева, Марина Голосова, Евгений Рябинкин, Алексей Климентов. Экзабайтное хранилище научных данных // Открытые системы. СУБД. — 2015. — № 4. — С. 14–17. URL: https://www.osp.ru/os/2015/04/13047963 (дата обращения: 05.09.2020).

2. Алексей Климентов, Андрей Кирьянов, Андрей Зароченцев. Российское озеро научных данных // Открытые системы. СУБД. — 2018. — № 04. — С. 30–32. URL: https://www.osp.ru/os/2018/04/13054563 (дата обращения: 05.08.2020).

3. The FAIR Guiding Principles for scientific data management and stewardship. URL: https://www.nature.com/articles/sdata201618 (дата обращения: 29.07.2020).

4. The FAIR data principles. URL: https://www.force11.org/group/fairgroup/fairprinciples (дата обращения: 29.08.2020).

5. Мария Григорьева, Василий Аулов, Алексей Климентов, Максим Губин. База знаний научного эксперимента // Открытые системы. СУБД. — 2016. — № 04. — С. 42–44. URL: www.osp.ru/os/2016/04/13050998 (дата обращения: 08.09.2020).

Артем Балякин ( Balyakin_AA@nrcki.ru )  —  начальник отдела многостороннего научно-технического сотрудничества, Андрей Малышев ( Malyshev_AS@nrcki.ru )  —  ведущий научный сотрудник, НИЦ «Курчатовский институт» (Москва). Работа выполнена при поддержке РФФИ (грант № 18-29-16130 МК).

DOI: 10.26295/OS.2020.75.66.001