Служба новостей IDG, Париж
Большой адронный коллайдер в CERN создается для того, чтобы мы стали свидетелями потрясающих чудес в области физики элементарных частиц. Чтобы это действительно состоялось, потребуется сотворить небольшое чудо и в области grid-вычислений
Не смущаясь отсутствием подходящих инструментальных средств коммерческих производителей, инженеры CERN упорно трудятся над созданием гигант?ской grid-инфраструктуры, предназначенной для хранения и обработки больших объемов экспериментальных данных, получаемых в ходе работы коллайдера, ввод которого в эксплуатацию запланирован на середину 2007 года. В середине марта представители CERN заявили, что вычислительная сеть, теперь охватывающая свыше 100 узлов в 31 стране мира, образовывает крупнейшую в мире международную научную grid-структуру.
Внутри коллайдера пучки протонов, движущиеся в противоположных направлениях, будут разгоняться до скорости, близкой к скорости света, и сталкиваться. Ученые надеются, что анализ данных, полученных при столкновении встречных пучков, позволит им обнаружить новые элементарные частицы, разрешить некоторые проблемы, например связанные с массой элементарных частиц, и ближе подойти к разгадке тайны существования Вселенной.
Предполагается, что при работе коллайдера ежегодно будет генерироваться примерно 15 Тбайт данных. Задача grid — связать обширную сеть вычислительных систем и средств хранения, а также предоставить ученым доступ к данным и ресурсам для обработки, когда им это необходимо.
Узлы grid — это в основном вычислительные системы университетов и исследовательских лабораторий, расположенные по всему земному шару, от Японии до Канады. В совокупности они предоставляют вычислительные ресурсы свыше 10 тыс. процессоров.
Как заметил руководитель проекта Лес Робертсон, при всем том, что крупные ИТ-производители любят рассуждать о grid, пока не существует подходящих коммерческих инструментов для создания соответствующей инфраструктуры.
В CERN большая часть информации будет храниться в базах данных Oracle, а в некоторых узлах grid будут использоваться коммерческие системы хранения. Однако самая сложная часть — создание программного обеспечения промежуточного уровня для работы grid — ляжет на плечи Робертсона и его коллег.
«Меня несколько удивляет отсутствие подходящих коммерческих инструментальных средств. В том, что мы создаем, нет ничего специализированного. Мы просто формируем виртуальную кластерную систему, но очень большого масштаба и с очень большими объемами информации», — пояснил он.
В результате вместо того, чтобы воспользоваться готовой системой, CERN строит свою grid-сеть на основе Globus Toolkit, добавляя к этому инструментарию программное обеспечение планирования, разработанное в Университете штата Висконсин в рамках проекта Condor, а также инструментарий, созданный в Италии в рамках проекта DataGrid под эгидой Европейского союза.
«Наше решение будет иметь много составляющих, полученных из разных мест. В этом проекте как никогда ярко проявляется компонентный подход», — заметил Робертсон.
Одна из причин того, что для CERN оказались полезны лишь очень немногие инструментальные средства, возможно, заключается в том, что решения, предлагаемые крупными производителями в качестве grid-вычислений, на самом деле таковыми вообще не являются. По крайней мере, в том смысле, как их определяют специалисты CERN.
«С нашей точки зрения, grid-вычисления — это способ взаимосвязи вычислительных ресурсов между различными узлами, который позволяет каждому получать доступ к ресурсам тогда, когда они ему нужны. При этом вам не нужно переносить обработку туда, где находятся данные, есть возможность переносить данные с одного узла на другой», — пояснил Робертсон.
Коммерческие предложения пока больше затрагивают проблемы создание grid внутри предприятий. По мнению Робертсона, подобные структуры было бы правильнее называть кластерами.
В то же время работа над коллайдером продолжается. Буквально месяц назад был установлен первый гигантский магнит, который будет разгонять пучки протонов. Каждый магнит имеет длину 15 м и весит 35 тонн. Таких магнитов будет установлено свыше 1200 штук, не считая множества магнитов меньшего размера.
Большую часть работы по созданию grid еще предстоит сделать, тем не менее Робертсон, проработавший в центре около трех десятилетий, по-видимому, абсолютно уверен в том, что все будет закончено в срок.
CERN — крупнейший в мире научный центр, занимающийся проблемами в области физики частиц. Его основная задача — помочь ученым представить, из чего «состоит» материя и что ее «связывает». Первоначально сокращение CERN расшифровывалось как Conseil Europeen pour la Recherche Nucleaire (Европейский совет по ядерным исследованиям). С того времени центр был переименован в Organisation Europeenne pour la Recherche Nucleaire (Европейская организация по ядерным исследованиям), но сокращение осталось, и его используют по-прежнему.
Информационные технологии без границ
Стартовавший год назад проект Enabling Grids for E-Science in Europe (EGEE), финансируемый Европейской комиссией, призван, невзирая на границы, содействовать распространению grid-технологий в регионе путем создания постоянно действующей глобальной инфраструктуры для научно-исследовательской деятельности.
В основу проекта был положен опыт Европейского сообщества по выполнению проектов DataGrid, Crossgrid и DataTAG, а также нескольких национальных инициатив UK e-Science, INFN Grid, Nordugrid и US Trillium. Сегодня EGEE охватывает уже 70 институтов-участников из 27 стран; название проекта трансформировалось в Enabling Grids for E-sciencE, подразумевая, что строящаяся инфраструктура распространяется далеко за границы Европейского континента.
Основные направления проекта EGEE таковы: создание целостной, стабильной и защищенной сети; совершенствование и поддержка промежуточного программного обеспечения для доступа к надежным сервисам; привлечение для работы в среде grid новых пользователей из разных областей.
Планируется построить крупнейшую в мире grid-инфраструктуру с суммарной вычислительной мощностью 20 тыс. процессоров, предоставляющую научно-исследовательскому сообществу общий рынок услуг доступа к вычислительным ресурсам, независимо от месторасположения потребителей.
Участие России в проекте EGEE началось с создания первого российского grid-сегмента, развертывания Российского сертификационного центра и прототипа операционного центра, в состав которого входят службы брокера заданий и мониторинга.
Российские научные организации образовали региональный консорциум Russian Data Intensive Grid (RDIG), одной из ближайших задач которого является интеграция в общую инфраструктуру EGEE/LCG. Работы по проекту финансируются Евросоюзом,
Федеральным агентством по атомной энергии (Росатом) и Федеральным агентством по науке и инновациям. RDIG опирается на ресурсные центры организаций-участников, а также на два распределенных управляющих центра — Центр базовых grid-сервисов и Региональный операционный центр.
Ресурсные центры RDIG строятся на базе таких организаций, как Институт математических проблем биологии (Пущино), Институт прикладной математики им. М. В. Келдыша (Москва), Институт теоретической и экспериментальной физики им. А. И. Алиханова (Москва), Институт физики высоких энергий (Протвино), Объединенный институт ядерных исследований (Дубна), Петербургский институт ядерной физики им. В. П. Константинова (Гатчина), Российский научный центр «Курчатовский институт» (Москва), Научно-исследовательский институт ядерной физики МГУ им. М. В. Ломоносова (Москва). Ожидается подключение еще пяти-шести центров.
Сегодня в рамках RDIG решаются задачи поддержки бесперебойной работы ресурсных центров и совершенствования управления функционированием grid-инфраструктуры (регистрация пользователей, мониторинг, поддержка виртуальных организаций и т. п.). Так, в ИПМ РАН была разработана служба диспетчеризации заданий «Грид-диспетчер», в которой использовались оригинальные методы и алгоритмы планирования выполнения grid-заданий.
«Сам по себе проект RDIG инфраструктурный, в котором трудно переоценить вклад каждого участника. Однако для нас крайне важно, чтобы в его рамках российские специалисты вели разработку собственных grid-компонентов», — отметил Дмитрий Корягин, заместитель директора ИПМ РАН.
Кроме того, в проекте проводятся работы по адаптации, тестированию и поддержке новых версий системного программного обеспечения EGEE.
Наращиваются вычислительные мощности центров, сетевая инфраструктура RDIG развивается и включается в европейские сети EGEE GEANT и NRENs.
На сегодняшний день RDIG включает более 400 процессоров, 5,7 Тбайт памяти, на которых выполняются приложения для исследований в таких областях, как физика земли, биоинженерия, вычислительная химия и др.
Дмитрий Волков, «Открытые системы»