«Открытые системы»

Symantec «разменивает» полосу пропускания на процессорную мощность

В случаях, когда предприятия располагают филиальной сетью или распределенными системами, им бывает желательно распространить культуру работы с данными, принятую в центрах обработки данных, за их физические границы. Материализация такого пожелания осложнена тем, что в «конечных пунктах», как правило, нет ИТ-специалистов должной квалификации. Возможный способ разрешения этой проблемы стал предметом беседы с ведущим инженером Symantec Паром Боутсом, который за два десятилетия работы в ИТ-отрасти прошел вместе с ней путь от жестких дисков, подключаемых к мэйнфреймам или мини-ЭВМ, до современных систем хранения данных. Боутс принял участие в недавней конференции Symantec Vision в Москве.

Почему в своем выступлении из всего спектра технологий, которые теперь поставляются Symantec, но специалистам более известны под брэндом Veritas, вы выделили именно NetBackup PureDisk?

Резервное копирование данных в филиалах остается одной из острейших проблем распределенных систем; статистика показывает, что виной 80% потерь данных остается человеческий фактор. В филиалах эта опасность усиливается, а противостоять этому можно только посредством резервного копирования. В распределенных системах эта проблема относится к числу наиважнейших. Технологии удаленного резервирования занимают заметное место в нашей производственной программе.

Пар Боутс: «Технология NetBackup PureDisk способна изменить фундаментальные подходы к дистанционному резервированию»

Еще в Veritas был накоплен достаточный багаж опыта и знаний. Мало кто знает, что предшественником Veritas Software была компания Tolerant Systems, основанная в 1983 году выходцами из Intel Эли Алоном и Дэйлом Шипли. У них возникла новая для того времени идея собирать высоконадежные системы из отдельных надежных модулей и средств коммутации между ними. Но системы такого рода остались нишевыми; постепенно обычные системы по надежности почти сравнялась с «высоконадежными». Со временем область интересов Tolerant сместилась в сторону RAID, а позже было принято решение о создании журналируемых файловых систем для Windows NT и Unix. Эти файловые системы оказались настолько эффективным средством, обеспечивающим сохранность данных, что в 1989 году была образована специализированная программная компания Veritas. Такие разработки, как VxFS, VxVM, VCS, Backup Exec и NetBackup, плюс удачные приобретения позволили ей войти в пятерку ведущих производителей программного обеспечения.

С такой предысторией Symantec подошла к решению задачи удаленного резервного копирования. На первый взгляд, она не представляет особой сложности; кажется, что достаточно включить в локальное программное обеспечение какой-то агент, который будет автоматически сбрасывать данные, и этого достаточно. В действительности все сложнее: дело в том, что объемы локальных данных выросли настолько, что грубо перекачивать их по сети становится экономически неоправданным, стоимость каналов остается высокой, а пропускная способность — низкой. Потребовались методы инкрементального резервирования, чтобы не гонять по сети ненужные данные. Выполненные исследования позволили найти способ резервировать данные без дублирования, который относится к категории Single Image Storage (сегодня ее еще называют контентно-адресуемыми системами хранения). Эти исследования проводились в Европе.

В Европе? А где именно, не в Бельгии ли?

Да, именно там. Бельгия стала родиной контентно-ориентированных систем хранения, а Поля Карпентера, нынешнего технического директора компании Caringo, называют отцом подобных систем. Мы, как и компания EMC, купили алгоритмы в Бельгии; отличие в том, что в EMC применили их для создания дискового накопителя Centera, а мы — для решения задач дистанционного резервного копирования. Переход на контентно-адресуемые системы (я, впрочем, предпочитаю термин SIS, поскольку он точнее применим к нашим решениям) позволяет многократно сократить трафик между удаленными узлами центра обработки данных, сохранив качество обслуживания. Такой эффект достигается за счет того, что перемещаются только изменения и при этом сохраняется единственный образ данных; в этом суть NetBackup PureDisk. Решение было принято с энтузиазмом прежде всего потому, что оно работает на платформе Windows и рассчитано на простые серверы и множество периферийных компьютеров. Без PureDisk резервирование потребовало бы перекачки бесчисленного множества служебных файлов. В дальнейшем мы разовьем те же принципы и на архивирование, и на другие сервисы.

Подобная инкрементальная система хранения напоминает еще один класс систем, Continuous Data Protection, где тоже есть единый образ данных, но он складывается на основе непрерывного накопления изменений. Иногда эту технологию еще называют Time Addressable Storage, то есть системой хранения данных, адресуемой по времени. Есть ли между ними принципиальные различия?

Названные вами методы действительно обеспечивают единство образа одной системы, эффективны при восстановлении, но они могут быть использованы внутри центра обработки данных, а наши методы позволяют распространить инкрементальное хранение на множество машин. Несмотря на алгоритмическое различие, конечный результат примерно один и тот же, но область действия различная.

Как вы оцениваете значение технологии NetBackup PureDisk?

В американском английском есть выражение ground-braking, то есть «изменяющее фундамент». Технология NetBackup PureDisk способна изменить фундаментальные подходы к дистанционному резервированию. Нам удалось найти оптимальное решение для современных условий, когда вычисления дешевеют, а каналы остаются дорогими, «разменять» полосу пропускания на процессорную мощность: мы меньше пересылаем за счет более эффективной обработки данных. Те же самые принципы могут быть использованы и внутри самих центров обработки данных, что позволит отказаться от хранения дублирующих копий и снизить его стоимость.


NetBackup PureDisk изнутри

В 2005 году компания Symantec приобрела DataCenter Technology, создателя DC-Protect eXtended Architecture для резервирования данных удаленных офисов. Сейчас эти программные продукты именуют NetBackup PureDisk Remote Office. Название отражает то обстоятельство, что копирование осуществляется только на диски. В условиях снижения стоимости дисков и эффективного использования дискового пространства такой выбор вполне оправдан. Архитектуре PureDisk свойственны модульность и масштабируемость.

Масштабируемость поддерживают два компонента — сервер метаданных MetaBase Server, хранящий и обрабатывающий описания хранимых данных, и маршрутизатор Content Router, оперирующий распределением контента по дисковой системе. Совместно они образуют систему Metabase Engine, способную хранить до 50 млн. файлов. В процессе работы PureDisk контролирует содержимое дисков в центрах обработки данных и удаленных дисков. Используя накопленные метаданные, система анализирует содержимое удаленных дисков с целью обнаружения повторений. Content Router пересылает только информацию об изменениях, что обеспечивает процесс инкрементального накопления изменений данных и метаданных. Данные могут храниться с использованием любого из трех основных типов организации систем хранения (DAS, NAS или SAN). Пока поддерживаются клиенты, работающие под управлением Windows и Linux, в последующих версиях добавится поддержка Sun Solaris, HP-UX и IBM AIX; кроме того, будет обеспечено резервное копирование самого хранилища, в том числе и на ленты.

В настоящее время клиенты получают NetBackup PureDisk в виде аппаратной приставки, на которой установлено все необходимое программное обеспечение. Подключение нового устройства сводится к простому включению его в сеть. В компании подчеркивают, что это первое поколение устройств, в течение года появятся следующие версии.