Распределенные информационно-вычислительные grid-инфраструктуры могут предоставить необходимые вычислительные мощности — соответствующие решения имеются сегодня в коммерческом исполнении.
Лидерство в области производства суперкомпьютеров сегодня принадлежит Японии и США — затраты на воспроизводство аналогичных технологий столь велики, что даже западноевропейские страны не могут себе их позволить. Поэтому неудивительно, что сегодня так выросла популярность технологий grid, изначально предназначенных для поддержки сложных вычислительных задач научно-технического характера. На сегодняшний день имеется ряд протоколов (созданных, например, в рамках проекта Globus), которых уже достаточно для запуска заданий, управления ими, генерации исполнительной среды, доставки входных и результирующих файлов.
Первые сообщения о новой компьютерной технологии воспринимались как реклама, однако вскоре выяснилось, что бизнес готов платить за возможность решения своих задач в среде grid. Сильным толчком для дальнейшего развития средств grid стало то обстоятельство, что проблемы организации распределенных вычислений не только присущи научно-технической сфере, а актуальны они и для бизнеса, заинтересованного в развитии внутренней информационной инфраструктуры и средств взаимодействия предприятий. Сегодня переход на коллективные вычислительные сети происходит все более активно, особенно это заметно в области страхового и финансового бизнеса, а grid-технологии позволяют использовать уже имеющиеся ресурсы вместо приобретения все новых аппаратных мощностей. Ну и, конечно, технологиями grid интересуются оборонные ведомства, например сеть МО США Global Information grid (GIG). Не остаются в стороне и ведущие игроки ИТ-рынка — компании IBM, Sun, HP, Microsoft и др. подхватили идеи grid, первоначально развиваемые в рамках сообщества OpenSource.
Общим свойством grid-технологии, вне зависимости от конкретной предметной области, является пакетный подход — состав программных инструментов подбирается, компилируется и поставляется под конкретную компьютерную платформу и возможности заказчика. Пакет может включать в себя как универсальные инструменты, так и инструменты, специфические для проекта. Однако ахиллесовой пятой пакетного подхода является то, что разные производители не придерживаются при создании своих продуктов единой архитектуры, и это может проявляться при компиляции программной платформы из средств разных разработчиков. Независимые системы опираются на собственную базу с пересекающейся функциональностью, а такая избыточность порождает дополнительные накладные расходы на их освоение и эксплуатацию. На преодоление указанного недостатка направлены усилия по стандартизации и созданию специальных управляющих программных сред, включающих «брокеры сервисов», которые вызывают выполнение подключенных инструментов по их специфическим протоколам. Среди пионеров в этой области можно назвать компанию Platform Computing.
Наука и коммерция
Сравнивая варианты научно-прикладного и коммерческого применения grid-технологий, необходимо отметить разницу в постановке задачи и проблемах, возникающих при реализации программно-аппаратных средств. Изначальной прикладной задачей применения grid было создание среды коллективного доступа к данным пользователей, добровольно предоставляющих свой ресурс. Например, в проекте Anthrax (сибирская язва) требовалось произвести на выделенном белке скрининг 3,57 млрд потенциальных ингибиторов токсина, и для моделирования этого процесса было привлечено почти два миллиона серверов, что позволило выполнить полный скрининг за 24 дня. Если бы эта работа делалась традиционными методами, она бы длилась несколько лет. Решение задачи стало возможно за счет применения специального варианта платформы grid MP компании United Devices, в которой реализован механизм распределения ресурсов между пользователями в условиях динамического изменения их состава.
Для бизнеса актуальным является вопрос аренды вычислительного ресурса, которая позволяет избавиться от необходимости закупать дорогостоящее оборудование и программное обеспечение для решения задач, возникающих не очень часто, но требующих обработки большого объема данных. Очевидно, что при задействовании ресурсов пользователей в таких случаях встают дополнительные проблемы создания надежной среды для решения данной задачи в условиях динамического изменения состава участников, а также обеспечения возможности ограничения предоставляемого ресурса самими пользователями. Одним из удачных примеров решения данной задачи является применение технологии виртуальных машин.
Дальнейшее развитие технологий grid для корпоративных систем управления ресурсами выявило задачу распределения прав доступа пользователей. Для этого используется подход к распределению ресурса на основе соглашений между потребителями. И один из вариантов такого «справедливого» распределения предлагается, например, в решении Sun grid Engine Enterprise Edition (SGEEE), среди достоинств которого возможности автоматического определения политики прав доступа и учета реального потребления ресурсов.
grid от ИТ-тяжеловесов
Предлагаемый корпорацией IBM программный комплекс grid and Grow for Actuarial Analysis позволяет проводить оперативное моделирование сложных сценариев страхования с помощью систем IBM BladeCenter. Решение представляет собой интегрированный набор оборудования и grid-ПО.
Программный продукт IBM Batch-on-grid обеспечивает поддержку непрерывного функционирования конфигурации при системных отказах, а также процесса обновления приложений. ПО автоматически реагирует на подъемы и спады вычислительной нагрузки, распределяя серверные ресурсы «на лету». Определение ресурсов в соответствии с потребностями позволяет автоматически выделять вычислительный ресурс по приоритетным задачам.
Решение gridWorld дает возможность ситуационного управления рабочей нагрузкой вычислительных сетей. Пакет Tivoli Dynamic Workload Broker автоматизирует рабочие нагрузки корпоративных клиентов путем автоматической кластеризации, диспетчеризации и координации рабочих нагрузок сети. Построенный на платформе J2EE, пакет применяется для параллельно работающих приложений в рамках кластерных и гетерогенных grid-сред.
Программный продукт IBM Tivoli Storage Manager (TSM) — это решение для защиты данных, обеспечивающее защиту от сбоев, безопасность хранения и быстрое восстановление критически важной информации. TSM генерирует, шифрует, хранит и управляет криптографическими ключами клиентов. Обеспечивается поддержка модулей защиты приложений, интегрированных в ленточные устройства хранения, восстановление данных из нескольких дисковых массивов одновременно, а также переключение операций экспорта/импорта данных между серверами.
Аппаратное обеспечение grid основано на серверах IBM eServer, образованных из систем System i, System p, System x, System z, BladeCenter, кластеров и суперкомпьютерных систем серии Deep Blue. Например, архитектура серверов zSeries 990 допускает установку на одном сервере операционных систем OS/390, z/VM, VM/ESA, TPF, Linux для zSeries, S/390, а также z/OS, которая позволяет наращивать вычислительные ресурсы сервера. Функции виртуализации ОС z/VM дают возможность реализовать механизмы виртуальных машин, что помогает уменьшить расходы на новое оборудование. Сочетание Linux и z/VM позволяет одновременно поддерживать сотни виртуальных серверов, обеспечивая «горизонтальное масштабирование», а благодаря функции grid Computing можно реализовать на серверах zSeries с ОС Linux и z/VM grid-узлы с динамически изменяемыми ресурсами. В конструкции серверов pSeries 670 предусмотрена возможность построения решений на основе grid-технологии, таких как средства загрузки простаивающих процессорных мощностей; функции самоуправления, позволяющие снизить эксплуатационные затраты и упрощающие администрирование; механизм разделения сервера на 16 независимых «логических» серверов каждый со своей памятью, средствами ввода/вывода и ОС AIX 5L либо Linux.
Решение IBM grid and Grow создано на платформе eServer BladeCenter и ОС Linux. Входящие в состав решения программные средства IBM Tivoli обеспечивают динамическое распределение серверных ресурсов, отслеживание лицензий на программное обеспечение и управление подсистемой хранения.
В контексте grid из всего спектра решений от Sun Microsystems необходимо отметить кластерную файловую систему Lustre, позволяющую организовать компьютерную конфигурацию требуемой мощности. Замысел создания Lustre для кластеров на базе ОС Solaris и Linux состоял в том, чтобы предоставить файловую систему из десятков тысяч узлов размером порядка нескольких петабайт. Сформированная таким образом масштабируемая система включает в себя три базовых компонента:
-
сервер метаданных с активным или пассивным резервированием, отвечающий за структуру каталогов, атрибуты и имена файлов;
-
сервер хранения с несколькими «целями хранения» объемом до 8 Тбайт каждая;
-
клиент, который с помощью сервера метаданных находит необходимый ему файл, а затем блокирует определенный диапазон смещений внутри файла и обращается к серверам хранения, которые модифицируют данные.
Технология N1 grid Engine 6 предназначена для организации распределенных вычислений на платформе ОС Solaris и Linux и допускает интеграцию 10 тыс. систем. В этом решении реализован новый отраслевой стандарт DRMAA (Distributed Resource Management Application), позволяющий совершенствовать систему с использованием интерфейсов API. N1 grid Console — средства управления контейнерами через централизованную консоль, позволяющие снизить расходы за счет консолидации. В решении поддерживаются функции упреждающего самовосстановления.
Решение N1 grid for SAP Solutions призвано снизить сложность обработки данных и расходы за счет оптимизации grid-инфраструктуры для сред, созданных на базе решений SAP. Архитектура решения базируется на серверах Sun Fire, дисковых массивах Sun StorEdge, Sun Java Enterprise System.
Решение grid Computing представляет собой совокупность объединенных вычислительных ресурсов, имеющих масштабируемую архитектуру. Программную основу составляют пакеты ONE grid Engine Enterprise Edition и Control Station. После установки и настройки управление системой осуществляет через Web-интерфейс. Пользователи получают доступ к Computer grid как к единому вычислительному ресурсу. Продукт является приемлемым при необходимости запуска нескольких больших фоновых заданий или организации решения интенсивных вычислительных задач, требующих высокой производительности. Его ключевой элемент — механизм постановки распределенных ресурсов в очередь и управления ими (Distributed Resource Management, DRM). В системе grid Computing обеспечивается доступ каждого вычислительного узла к общей файловой системе на основе технологий NAS, NFS и SAN. Решением «под ключ» является вычислительный кластер на базе серверов Sun Fire V60x на платформе x86 с возможностью выбора компонентов. Для организации grid-систем в Sun предлагают серию серверов-лезвий, семейство мультиплатформных станций типа Sun Ultra 20, ряд серверов серии Sun Fire и систем grid Rack System.
Отраслевые grid-решения
Компания HP позиционирует свои возможности в области grid-технологий в свете сервисных услуг по виртуализации, которые могут быть альтернативой приобретению дорогостоящей продукции с длительным циклом закупки. Ярким примером реализации grid-технологий компании в научной сфере является участие в сети grid для Большого адронного коллайдера ЦЕРН и ряде других успешных проектов, в том числе SHARCNET и Teragrid.
Для инструментальной системы Globus Toolkit компания HP протестировала применимость указанного программного обеспечения для серверов Integrity Systems, работающих под ОС HP-UX, Tru64 UNIX и Linux.
Комплексная система архивирования и поиска данных HP StorageWorks Reference Information Storage System (RISS), предназначенная для хранения, индексирования, оперативного поиска и получения справочной информации, представляет собой решение, призванное упростить работу с данными и обеспечить соответствие требованиям сохранности информации. Система предусматривает реализацию дискретных функций хранения, индексирования, поиска и получения информации отдельными независимыми группами узлов вычислительной сети. Ее задача — предоставление информационных услуг и адаптация к изменяющимся условиям. В отличие от систем архивирования, осуществляющих поиск контента по внешней базе данных, система RISS хранит документы непосредственно на своих дисках. Это позволяет искать информацию в течение считанных секунд вне зависимости от общего объема данных, хранимых в архиве, или от типа программы, с помощью которой были созданы искомые данные.
В своих grid-решениях HP стремится учесть интересы крупных, малых и средних организаций. Ряд решений, реализованных в рамках научно-практической деятельности, позволяет адаптировать их для создания масштабируемых систем широкого спектра.
В СУБД Oracle 10g для ускорения работы системы и развития СУБД как платформы для grid-вычислений реализован ряд новых технологических решений.
Модуль Oracle Transportable Tablespaces обеспечивает пользователей сети распределенных вычислений механизмом для оперативного перемещения подмножества данных из одной базы в другую. Модуль может одновременно составлять таблицы «только для чтения» из двух или более баз данных. Модуль Oracle Streams предназначен для работы с данными, распространение которых требуется лишь в момент их создания или изменения. Модуль позволяет импортировать данные в базы данных, узлы и фермы серверов сети распределенных вычислений. Также он позволяет синхронизировать более двух копий базы по мере их обновления и автоматически регистрировать изменения, распространять эти изменения в узлы, подписанные на получение модификаций, реализовать их, обнаруживать и устранять конфликты данных.
К числу ключевых аппаратных решений компании Cisco относятся коммутаторы, позволяющие соединять серверы в единую сеть для grid-вычислений, а также управлять загруженностью процессора. Особенностью коммутаторов является спецификация InfiniBand, на которой организовываются передовые системы распределенных вычислений.
Серверное и коммутационное программное обеспечение Cisco DAL обеспечивает работу автоматических торговых приложений с малым временем передачи сообщений между серверами, что позволяет быстрее оценивать состояние рынка и создает большие конкурентные преимущества. Платформа Cisco VFrame Data Center позволяет организовывать управление виртуализацией в центрах обработки данных за счет координирования использования вычислительных, хранилищных и сетевых ресурсов. Предусмотрена поддержка политик, позволяющих в автоматическом режиме оперативно перераспределять ресурсы в случае сбоев и осуществлять мониторинг. Обеспечивается совместимость VFrame DC с Web-средствами Apache и IIS, пакетами приложений Oracle 11i, SAP R3, BEA Weblogic, IBM Websphere, Oracle 10G RAC.
Для Cisco характерна глубокая проработка предлагаемых решений — от форм-факторов до специализированных операционных систем. Такой подход обеспечивает заказчику преемственность с ранее приобретенными решениями, а также интеграцию изделий компании с продуктами от Dell, EMC, Hitachi Data Systems, HP, IBM, NetApp, Sun Microsystems и Xiotech.
Платформа grid MP Alliance компании United Devices позволяет объединить несколько участников-поставщиков ресурсов, предоставляя потребителям требуемые вычислительные мощности. Кроме того, United Devices поддерживает открытую сетевую публичную инфраструктуру grid MP Global, насчитывающую сегодня 2 млн компьютеров.
Компания Entropia получила известность благодаря платформе Dcgrid, предназначенной для повышения эффективности парка серверов — неиспользуемые вычислительные мощности консолидируются для централизованно управляемой обработки заданий.
Компания DataSynapse специализируется на решениях в области финансовых приложений, хотя ее платформу LiveCluster можно считать универсальной — она позволяет объединять в grid любые ресурсы от мэйнфреймов и кластеров до серверов и настольных компьютеров. В LiveCluster применяется метод «адаптивной» диспетчеризации, позволяющий заданию стартовать даже на одном процессоре, а затем по мере освобождения занимать дополнительные.
Заключение
Создание grid-системы в каждом конкретном случае представляет собой задачу нетривиальную и требует анализа исходных условий и возможных вариантов применения программно-аппаратных средств от различных производителей. Опыт наше компании свидетельствует о том, что сегодня и в России наблюдается всплеск интереса к коммерческим grid-системам. Одним из примеров является проект построения для ФГУП НИИР вычислительного кластера и создание на его базе первого в Восточной Европе Центра компетенции Sun Microsystems по высокопроизводительным вычислениям.
Ярослав Тарасов (ytarasov@jet.msk.su) — главный конструктор компании «Инфосистемы Джет» (Москва).
Вычислительная инфраструктура будущего http://www.osp.ru/os/1999/11-12/177891
Платформа для современного бизнеса http://www.osp.ru/os/2003/01/182402
Проблемы grid-администрирования http://www.osp.ru/os/2005/02/185333
Этот Grid — неспроста... http://www.osp.ru/os/2003/01/182405