Традиционно наука подразделялась на две ветви — теоретическую и экспериментальную. Однако сегодня появилась третья ветвь, основанная на компьютерном моделировании, все чаще применяемом в качестве одного из методов получения новых экспериментальных научных результатов. Основная причина успеха электронной науки — быстрое развитие новых технологий, приводящих к созданию сложных и мощных распределенных grid-систем, обеспечивающих поддержку высокопроизводительных вычислений, быстрый доступ к огромным наборам данных и эффективные коммуникации. Составными частями этой вычислительной инфраструктуры могут являться уникальные научные инструменты — сверхмощные электронные микроскопы, ускорители элементарных частиц, сложное медицинское оборудование и т.д.
Термин e-science, введенный в 1999 году Джоном Тейлором, тогдашним директором научных советов Великобритании, объединяет революционные методы проведения коллективных экспериментальных научных исследований. В 2000 году в Великобритании объявлена программа исследований в области электронной науки, оказывающая существенную поддержку этой научной революции. Электронная наука создает возможности для получения исследовательских результатов на новом уровне, что демонстрируется различными инициативами по всему миру, включая программу киберинфраструктуры в США (www.nsf.gov/od/oci/reports/atkins.pdf), проект Европейской исследовательской инфраструктуры (ftp.cordis.europa.eu/pub/ist/docs/grids/ngg3-report_en.pdf), японский проект (www.nii.ac.jp/pi/n3/3_67.pdf) и т.д.
Первую статью тематической подборки, «Научные шлюзы к TeraGrid и их влияние на науку» (TeraGrid Science Gateways and Their Impact on Science), представили Нэнси Вилкинс-Дайхр, Дэннис Гэнон, Герхард Климек, Скотт Остер и Суднахар Памидигантам.
В рамках проекта TeraGrid (www.teragrid.org), финансируемого Национальным научным фондом США, создается одна из крупнейших в мире распределенных киберинфраструктур для выполнения открытых научных исследований. Проект, начатый в 2001 году, имел тогда название Distributed Terascale Facility. На основе выделенной оптической сети с пропускной способностью 40 Гбит/с связывались компьютеры, системы визуализации и управления данными, расположенные в четырех узлах. Сегодня в состав TeraGrid входит 25 платформ на 11 площадках обеспечивается доступ к суммарной вычислительной мощности более чем в 1 PFLOPS и средствам хранения данных объемом в петабайты.
При создании TeraGrid преследуются три основные цели, и самой важной является поддержка научных направлений, прогресс в которых невозможен без использования средств TeraGrid. Вторая цель — расширение числа пользователей из научного сообщества, применяющих в своих исследованиях методы электронной науки. Третья цель состоит в достижении совместимости между отдельными grid-инфраструктурами и информационными сервисами для обеспечения возможности разработки интерфейсов программирования к TeraGrid.
Часть инициативы TeraGrid — программа TeraGrid Science Gateways. Для пояснения задач этой программы и иллюстрирования сервисов TeraGrid, авторы статьи рассматривают четыре наиболее популярных научных шлюза: для химиков (Computational Chemistry Grid, GridChem), метеорологов (Linked Environments for Atmospheric Discovery, LEAD), нанотехнологов (nanoHUB.org) и биоинформатиков (Cancer Biomedical Informatics Grid, caBIG).
Статья Сатоши Мацуока, Кацушиге Сага и Муцуми Аояги называется «Поддержка связанного моделирования для электронной науки в grid NAREGI» (Coupled-Simulation e-Science Support in the NAREGI Grid).
В начатом в 2003 году японском проекте NAREGI (National Research Grid Initiative) основной целью является разработка программного обеспечения промежуточного слоя для национальной инфраструктуры grid. Также осуществляется разработка нескольких приложений электронной науки и поддерживающего их инструментария промежуточного слоя для определения ключевых научных областей, в которых использование grid может принести максимальную пользу.
Эта часть проекта концентрируется на программных компонентах промежуточного слоя, ориентированных на конкретные прикладные области. Такие компоненты должны позволить использовать возможности grid в крупномасштабных приложениях нанотехнологии и химии, включая случаи, когда требуется связывать несколько приложений. Поддержка таких приложений в среде grid распространена не очень широко, и опыт NAREGI показывает принципиальную пригодность инфраструктуры grid для обеспечения среды, в которой их можно выполнять.
Крейг Ли и Джордж Персиваль представили статью «Вычислительные возможности, основанные на стандартах, для распределенных геопространственных приложений» (Standards-Based Computing Capabilities for Distributed Geospatial Applications).
Говорят, что от 80 до 90% всей информации имеет геопространственное происхождение. К числу примеров такой информации относятся разведка нефти и газа, метеорология, авиация, наземные системы слежения за космическими аппаратами, планирование охраны окружающей среды, управление чрезвычайными ситуациями, госуправление, градостроительство и все разновидности электронной науки. Для всех этих видов деятельности требуется сбор существенных объемов данных, которые необходимо хранить, обеспечивать к ним доступ и администрировать.
По мере увеличения «инфомассы» исследователям приходится иметь дело с постоянно расширяющимися репозиториями, архивами и библиотеками геопространственных данных, которые по своей природе распределяются между разными организациями и странами. Даже внутри одной организации такие коллекции данных могут храниться в разных местах, в разных форматах и с разными схемами. Кроме того, данные непрерывно поступают из постоянно возрастающего числа сенсоров.
Во многих геопространственных приложениях требуются не только данные из нескольких разнородных источников, но также и специальные обрабатывающие ресурсы, доступные в удаленных местах, например, высокопроизводительные компьютеры. В grid-системах в распределенной среде удовлетворяется потребность в доступе к разнородным данным, цепочкам обрабатывающих ресурсов и высокопроизводительным вычислениям, а также и другие требования, такие как безопасность и управление цифровыми правами.
Громадное значение имеет возможность доступа к геопространственным данным в распределенной компьютерной среде, их анализа, интеграции и представления. Возрастающая связность нашего мира (на основе инструментов сбора данных, центров данных, суперкомпьютеров, ведомственных систем и персональных устройств) позволяет ожидать доступности разнообразной информации в любом месте. Имеются веские политические и бизнес-причины поддержки таких геопространственных приложений.
Для достижения необходимой простоты доступа и интероперабельности потребуются передовые методы, закрепленные в широко распространенных стандартах. В контексте электронной науки Совет по киберинфраструктуре Национального научного фонда США признает, что использование стандартов позволяет экономить при разработке и внедрении общих ресурсов, инструментальных средств, программного обеспечения и сервисов, способствующих совместному использованию киберинфраструктуры различными. Этот подход позволяет достичь максимальной интероперабельности и способствует распространению передового опыта. В действительности, подобные аспекты не уникальны для электронной науки и применимы во многих других областях.
Открытый геопространственный консорциум OGC (www.opengeospatial.org) и Открытый grid-форум OGF (www.ogf.org) сотрудничают в разработке открытых стандартов, направленных на поддержку потребностей распределенных вычислений геопространственных приложений. В них также принимается во внимание неизбежность наличия разных форматов, схем и алгоритмов обработки. В международном консорциуме OGC на основе процесса достижения консенсуса разрабатываются общедоступные стандарты интерфейсов доступа к геопространственной информации и сервисам. OGF — аналогичная организация, специализирующаяся на разработке стандартов управления распределенными компьютерными ресурсами, такими как серверы, сети и системы хранения данных.
Интеграция стандартов от OGC и OGF обеспечит необходимую инфраструктуру для разработки инструментальных средств, программного обеспечения и сервисов, которые будут работать совместно и которыми смогут воспользоваться несколько сообществ. Эти стандарты будут поддерживать интероперабельность и способствовать использованию передового опыта. Стандарты основываются на базовых стандартах Internet (HTTP, HTML, XML), что обеспечит доступность новых мощных возможностей существующим клиентам и серверам.
У статьи «Электронная наука, caGrid и трансляционные биохимические исследования» (e-Science, caGrid, and Translational Biomedical Research) 22 автора из пяти университетов и медицинских институтов. Первым в списке авторов числится Джоэл Сальц.
Исследователи используют достижения во многих областях биомедицинской технологии для того, чтобы лучше понимать причины заболеваний и лечить непосредственно их. В статье исследуется роль электронной науки в поддержке трансляционных биомедицинских исследований — процессах разработки и применения базисных научных знаний и методов для обеспечения новых способов диагностики, лечения и предотвращения заболеваний.
Трансляционные исследовательские проекты неодинаковы по своей природе. В них изучаются различные болезни, проверяется большое число разных гипотез и применяется множество экспериментальных методологий. Разнородные данные, сложные среды выполнения, повышенные требования к безопасности и надежности сильно затрудняют выполнение таких проектов — требуется применение новых технологий электронной науки.
Авторы используют «шаблоны образцов» (pattern template) для выработки требований к платформам электронной науки со стороны различных групп трансляционных исследовательских проектов. В данном контексте шаблоны образцов позволяют абстрагировать общие компоненты и характеристики различных категорий исследований. Хотя по своим деталям подход, применяемый в конкретном проекте, может отличаться от подходов других проектов, основные принципы и процессы можно сгруппировать в несколько общих типов образцов. Шаблоны образцов используются для классификации и описания этих общих образцов, а также для фиксации проектных требований, передового опыта и ограничений в широких наборах приложений.
Шаблоны образцов, в которых отражаются общие требования, фиксируется передовой опыт и предлагаются стратегии, позволяют установить архитектурные характеристики платформ электронной науки, способствующие реализации сложных трансляционных исследовательских проектов, внедрению их результатов.
Анализ различных трансляционных проектов позволил авторам выявить несколько шаблонов образцов и на их основе разработать инструментальные средства, облегчающие реализацию таких проектов и внедрение их результатов. Разные компоненты одного трансляционного исследовательского проекта могут моделироваться несколькими шаблонами образцов. Авторы показывают, как для поддержки этих шаблонов можно использовать два инструментальных средства электронной науки — caGrid и caIntegrator. Сервисная модельно-управляемая программная среда caGrid, неотъемлемый компонент программы Biomedical Informatics Grid (caBIG), обеспечивает основную инфраструктуру для федеративных данных и аналитических ресурсов и приложений, размещенных в разных организациях внутри среды caBIG. Трансляционная информационная платформа caIntegrator обеспечивает исследователям и биохимикам доступ к клиническим и экспериментальным данным, их анализ и интеграцию при выполнении различных клинических экспериментов и исследований.
Авторами статьи «Инфраструктура электронной науки для трансляции цифрового мультимедиа» (e-Science Infrastructure for Digital Media Broadcasting) являются Рон Перро, Терри Хармер и Рис Льюис.
Инициатива электронной науки способствует полному изменению характера исследовательской работы за счет создания сетевой исследовательской инфраструктуры. Эта инфраструктура позволяет ученым совместно, координированным образом использовать технические ресурсы, которые обычно распределены, поддерживаются разными организациями и относятся к разным научным дисциплинам. Такая инфраструктура упрощает использование и доступ к основным инструментам исследований, таким как вычислительные ресурсы и архивы данных.
В области широковещания приходится сталкиваться со многими проблемами, на решение которых направлены средства электронной науки. Кроме того, требования к качеству обслуживания (quality-of-service, QoS) и безопасности в широковещании намного выше, чем в области исследований.
Для решения этих проблем вместе с BBC выполняется проект по созданию прототипов инфраструктуры широковещания и приложений цифрового мультимедиа с использованием технологии электронной науки. В этой работе исследуются новые модели управления мультимедийным контентом и его доставки потребителям. Цель проекта — оценка уровня зрелости технологий электронной науки и ее пригодности для удовлетворения жестких требований широковещания.
Вне тематической подборки опубликована статья «Парадокс безопасности в виртуальных средах» (The Paradox of Security in Virtual Environments). Ее написал Михаил Прайс.
В виртуальной среде монитор виртуальных машин (virtual machine monitor, VMM) управляет несколькими виртуальными машинами (VM) на основе программной абстракции базовой аппаратуры. Эта архитектура с точки зрения безопасности обеспечивает определенные преимущества, но, в то же время, порождает уникальные проблемы. Как ни странно, такие факторы, как повышение вычислительной мощности компьютеров, их доступность и вездесущность, которые изначально привели к отказу от виртуализации, теперь способствуют ее возрождению.
Виртуализация появилась в конце 60-х годов, когда приложения мультиплексировались на дорогостоящих мэйнфреймах для разделения малочисленных и дорогих вычислительных ресурсов между несколькими процессами. Создание VM позволило нескольким приложениям сосуществовать на одной машине. Тридцать лет спустя проблемы, которые вызвали появление VM, разрешались за счет наличия современных операционных систем, возрастающей скорости процессоров и снижающейся стоимости аппаратных средств. Стало возможно просто и дешево инсталлировать новые приложения на выделенном сервере с собственным процессором, основной и внешней памятью. Однако в дальнейшем эта тенденция привела к возникновению новых проблем. Появление недорогих аппаратных средств повлекло за собой распространение недоиспользуемых машин, занимающих значительное место и требующих управления. В устрашающую задачу превратилось отслеживание версий приложений, пачей и операционных систем, используемых на каждом сервере. Обеспечение безопасности этих машин стало тяжелой обязанностью организаций, поскольку им приходилось определять ответственность каждого сервера и навязывать политику безопасности во множестве исполняемых сред. Перенос этих приложений на VM, закрепление этих VM на небольшом числе физических машин и эффективное управление ими на основе VMM стало одним из способов решения этой проблемы.
В современных системах VMM может исполняться бок о бок с основной операционной системой компьютера, обеспечивая абстракцию VM, которая схожа с базовой аппаратурой. Каждая такая абстракция — это «клиент» (guest), инкапсулирующий все состояние операционной системы, выполняемой внутри этой виртуальной машины. Клиентская операционная система взаимодействует с абстракцией виртуальной аппаратуры, управляемой VMM, как если бы это была реальная аппаратура. Обычно VMM выполняется на наиболее привилегированном уровне, в то время как клиентские ОС работают в режиме пользователя.
В статье обсуждаются разновидности сред виртуальных машин, основные характеристики VMM. Отмечаются преимущества подхода VM, анализируются его недостатки, в том числе по отношению к безопасности. Рассматриваются исследовательские работы и прототипные реализации, направленные на преодоление этих недостатков.
До следующей встречи, Сергей Кузнецов (kuzloc@ispras.ru).
Схема. Web-сервисы OSG поддержки геопространственных приложений. Многоуровневая интеграция обеспечивает доступ и совместное использование ресурсов сетей сообществ электронной науки