По сравнению с ленточными системами применение жестких дисков позволяет значительно увеличить производительность системы резервного копирования и восстановления данных и, кроме того, обеспечить высокий уровень отказоустойчивости. Тем не менее, резервное копирование на традиционные массивы RAID сложно и рискованно. Дисковые системы разрабатывались как первичные накопители, и их непросто сконфигурировать для резервного копирования и управлять ими. Если речь идет о быстром восстановлении данных, с экономической точки зрения на дисковых системах имеет смысл хранить резервные копии данных лишь за несколько последних дней. Определенные недостатки проявляются и с точки зрения защиты от катастроф: локальное резервное копирование на жесткие диски не защищает данные от пожара, протечки или вирусных атак. Если пользователь попытается переписать их на ленту в другое место для дальнейшего хранения, то столкнется с проблемой дороговизны пропускной способности и слишком длительной передачи данных.
ТЕХНОЛОГИЯ BLOCKLET УНИЧТОЖАЕТ ЛИШНИЕ ДАННЫЕ
В результате приходится выбирать между быстрым восстановлением или сохранением данных в другом месте. Многие аналитики предлагают обратить внимание на сравнительно новую тенденцию в области хранения дан-ных — их дедупликацию. Они рассматривают ее как одну из наиболее важных технологий хранения — по крайней мере за последние десять лет. При дедупликации данные, хранящиеся в двух и более вариантах, выявляются при помощи технологии Blocklet на файловом уровне, после чего лишние копии удаляются. Наличие пересечений не зависит от типа файла, объема данных и места хранения. При обнаружении повторяющегося блока (или блоклета) устанавливается соответствующий указатель. «Отмеченные» данные можно найти снова безотносительно их формата, а также вне зависимости от связанных с ними элементов (см. Рисунок 1).
Резервное копирование, как правило, затрагивает крупные массивы данных. Их передача по сети нецелесообразна. Как изменяют ситуацию блоклеты, демонстрирует следующий пример: для того чтобы передать один терабайт данных по стандартному каналу Т3 с пропускной способностью около 5 Мбайт/с, потребуется приблизительно 50 ч. Если же пользователь передает дедуплицированные данные, он экономит примерно две трети этого времени — при среднем выигрыше 3:1. Преимущество становится гораздо более заметным при последующей передаче. Если предположить, что изменились лишь 10% данных и именно они дедуплицируются, передача может занять меньше часа. Таким образом, в вычислительном центре появляется полноценная резервная копия данных и, следовательно, при необходимости данные можно переписать на ленточные накопители для восстановления после катастроф и долгосрочного хранения. Эффект становится тем заметнее, чем больше избыточных данных приходится сохранять (см. Рисунок 2).
Реальный выигрыш зависит от типа данных, вероятности их изменения и частоты резервного копирования. С каждым новым процессом копирования положительный эффект от дедупликации увеличивается. В первую очередь это касается полных резервных копий, когда не проводится различия между измененными или новыми данными, в результате чего со временем скапливается большой объем избыточных данных. Однако и при инкрементальном или — в еще большей степени — дифференциальном резервном копировании технология дедупликации предлагает определенные преимущества. К примеру, для таких данных, как презентации PowerPoint или таблицы Excel, имеется множество возможностей для экономии. Если в файл PowerРoint последовательно вносится десять изменений, сохранять можно только измененные блоки — потенциал для экономии огромен.
ПРЕИМУЩЕСТВА ДЕДУПЛИКАЦИИ
Дедупликацией имеет смысл пользоваться прежде всего при резервном копировании. Чем чаще выполняется резервирование, тем заметнее эффект экономии. Это утверждение справедливо в случае не только полных, но и инкрементальных копий. Вследствие более медленного роста объемов данных можно хранить больше резервных копий на диске и при необходимости восстановления быстро извлекать их оттуда.
Уменьшение количества дисковых хранилищ означает сокращение не только финасовых затрат, но и занимаемой площади, потребляемой энергии, а также ресурсов, необходимых для охлаждения оборудования. Преимущества заключаются в более высокой надежности и производительности дисков, а также в упрощенном управлении носителями, поскольку ленты зачастую используются еще и для долгосрочного архивирования. В таком случае стандартных временных «окон», выделяемых для резервного копирования, будет достаточно, поскольку данные можно перемещать на другие вторичные носители, в вычислительные центры или ленточные архивы и в другое время суток.
Еще одно преимущество дедупликации заключается в возможности тиражирования данных по сети со сравнительно умеренной скоростью и за гораздо меньшее время. В результате передачи по глобальной сети меньшего количества данных снижаются инвестиции и затраты на арендуемую пропускную способность для тиражирования данных по глобальной сети.
ОПТИМИЗАЦИЯ ПРИ ПОМОЩИ ВИРТУАЛЬНЫХ ЛЕНТОЧНЫХ БИБЛИОТЕК
Решающую роль для упрощения резервного копирования играют виртуальные ленточные библиотеки (Virtual Tape Libraries, VTL). Они являются своего рода связующим звеном между лентой и диском и дают возможность более эффективно распределять нагрузку на накопители и ресурсы при лучшей производительности. Хотя вопрос о том, смогут ли технологии резервного копирования с диска на диск вытеснить копирование на ленту, остается по-прежнему без ответа, теперь можно избежать выбора «либо-либо». Большинство современных предприятий используют как дисковые, так и ленточные физические компоненты инфраструктуры резервного копирования. VTL заполняет брешь между этими средами. Речь идет о дисковых системах, воспринимаемых программным обеспечением резервного копирования в качестве реальных ленточных библиотек, при этом они предлагают все преимущества дисковых систем. Коротко говоря, пользователи выполняют резервное копирование на жесткий диск, но не вносят в свои процессы резервного копирования и архивирования радикальных изменений.
ИНТЕГРАЦИЯ VTL В ЦЕПОЧКУ РЕЗЕРВНОГО КОПИРОВАНИЯ
Виртуальные ленточные библиотеки успешно интегрируются в цепочку резервного копирования данных в виде дополнительного уровня. Так, в рамках резервного копирования в одном непрерывном потоке данных информацию можно быстро переписать с первичной системы в виртуальную библиотеку. При необходимости восстановления ее можно без задержки извлечь из VTL. Виртуальные ленточные накопители и соответствующие носители обеспечивают дополнительную гибкость и безопасность. Для долгосрочного архивирования и восстановления после катастроф VTL записывает данные — независимо от длительности окна резервного копирования — на ленту.
Причина популярности виртуальных ленточных библиотек заключается не только в таких преимуществах, как производительность и надежность. Благодаря улучшению масштабируемости и функциям восстановления производители и пользователи вправе рассчитывать на дополнительную выгоду от применения VTL в случае их использования вместе с другими технологиями, в частности, такими, как дедупликация — тогда виртуальная ленточная библиотека сможет хранить гораздо больше данных.
То, что подобный подход обеспечивает сохранение на дисках большего количества резервных копий и позволяет перемещать их на ленту только для долгосрочного копирования, многим предприятиям представляется очень выгодным решением. В таком случае восстановление проходит гораздо быстрее и упорядоченнее, а временные рамки «окна» для резервного копирования уже не имеют никакого значения.
Если дополнительно проводится регулярное резервное копирование на ленту, то в результате обеспечиваются и более надежная защита в случае катастроф, и соблюдение законодательных предписаний в отношении долгосрочного архивирования. При использовании виртуальных ленточных библиотек в отдельных подразделениях не только увеличивается безопасность данных: передача сокращенных объемов данных с локального устройства резервного копирования в центр обработки данных не налагает больше неподъемных требований к пропускной способности и может осуществляться за приемлемое время.
ДЕДУПЛИКАЦИЯ КАК ТЕХНОЛОГИЯ С БОЛЬШИМ ПОТЕНЦИАЛОМ
Дедупликация данных появилась совсем недавно, но вызывает растущий интерес со стороны представителей отрасли, производителей и аналитиков. К примеру, компания Enterprise Storage Group пришла к выводу, что эффективно эксплуатировать сети хранения можно лишь при помощи подобных решений, иначе они либо будут обходиться слишком дорого, либо станут причиной затора при передаче данных. Те, кто вовремя инвестирует во внедрение этой технологии, смогут избежать последующих финансовых затрат. Данные останутся под контролем, а вычислительные центры не будут «разбухать» из-за постоянного добавления аппаратного обеспечения. Таким образом, выгода от применения дедупликации не ограничивается коротким периодом времени, поскольку технология обладает большим потенциалом.
Томас Файль — директор компании Quantum по продажам партнерам и членам альянса в Центральной Европе.
© AWi Verlag