Сначала были магнитные ленты, иного способа для создания резервных копий не существовало, потом появились недорогие, но емкие жесткие диски. Несколько лет назад к ним добавились дисковые системы, дополненные механизмами дедупликации данных, то есть способные исключить повторное сохранение совпадающих фрагментов; они заняли промежуточное место между лентами и дисками. У каждой из этих технологий есть свои преимущества и свои недостатки, к счастью, недостатки одних можно компенсировать достоинствами других, если собрать все вместе в иерархическую систему D2D2T (disk-to-disk-to-tape — «c диска на диск, затем на ленту») все с той же дедупликацией.
Существует множество интуитивно понятных подходов, которыми можно обеспечить дедупликацию. Она может выполняться в произвольных сочетаниях на файловом или блочном уровне, в режиме реального времени или в процессе последующей обработки сохраненных данных. Независимо от конкретного выбора, суть почти не меняется: прежде, чем сохранить новый фрагмент данных, с него «снимаются отпечатки пальцев», для чего используется несколько алгоритмов. А далее если встречается фрагмент с известным отпечатком, то сохраняется не он сам, а всего лишь путь к его двойнику. Надежность процесса, это тоже очевидно, определяется тем, насколько уникален отпечаток, а это зависит от выбранного алгоритма. Если сравнивать различные подходы по эффективности, то обычная компрессия известными алгоритмами архивации в среднем уменьшает объем вдвое, дедупликация на файловом уровне, применяемая в контентно-адресуемых системах хранения (Content Addressed Storage, CAS) позволяет сократить объем в три-четыре раза, а переход на блоки или еще более мелкие порции (их называют chunk — «ломоть») увеличивает этот показатель до 20. Блочные технологии дедупликации в основном поставляют компании, специализирующиеся на виртуальных ленточных библиотеках, это Avamar (недавно куплена корпорацией EMC), Symantec Puredisk, Asigra, Data Domain, Diligent Technologies, Falconstor, Sepaton и Quantum. Недавно свои решения предложила и Network Appliance. А технологии файловой дедупликации имеют EMC в продуктовой линейке Centera, Hitachi Data Systems благодаря покупке Archivas и Caringo.
С решениями от Quantum можно было ознакомиться 11 марта на организованной компанией CA конференции «Построение резервных центров обработки данных 2009». Здесь было анонсировано несколько представителей семейства устройств DXi-Series, построенных на общей технологической базе.
Младшие модели, DXi3500 и Dxi5500, выпускаются в четырех вариантах с «грубой» емкостью 2-6 Тбайт и 6-18 Тбайт соответственно; старшая модель DXi7500 Enterprise, предназначенная для ЦОД, масштабируется до 240 Тбайт (эти цифры отражают физическую емкость дисков, используемая емкость, естественно, меньше — часть ее уходит на организацию RAID-массивов).
Младшие модели допускают дедупликацию только в онлайновом режиме; Dxi7500, наряду с этим допускает дедупликацию в автономном режиме.
Она отличается еще целым рядом дополнительных функций, в том числе, возможностью работать в режиме D2F2T в сочетании с ленточными библиотеками.
В России интересы Quantum представляет партнер CA — компания «Интерпроком ЛАН». Конференция была рассчитана на клиентов, а потому обсуждаемые темы ограничивались обзором продуктов для организации управления репликацией, кластеризацией и аварийным восстановлением информационных ресурсов. По заверениям устроителей, более широко проблемы построения резервных ЦОД предполагается рассмотреть на специальном мероприятии, запланированном на недалекое будущее.