В случае резервного копирования речь идет о кратко- или среднесрочном дополнительном хранении данных, которые еще могут понадобиться пользователям в их работе. Если, к примеру, в результате повреждения жесткого диска или по иным причинам текущие данные теряются, их удастся быстро восстановить. Так можно эффективно защитить данные от разного рода случайностей. Время хранения резервных копий массива данных устанавливается не слишком продолжительное — несколько недель или месяцев.

Архивированию, напротив, подвергаются данные, которые из категории активно используемых перешли в «статичное» состояние, поэтому к ним обращаются сравнительно редко. Их можно уже извлечь из резервной копии и сохранить в архиве. Оба подхода различаются и уровнем затрат на приобретение необходимых технических средств: для архивирования большого объема данных применяются, как правило, недорогие носители с высокой емкостью хранения, к примеру, магнитные ленты и оптические носители. Около 60-80% всего массива данных, как показывает опыт, хранится в статичном виде и не изменяется.

В отношении электронного архивирования для большинства предприятий (отчасти в зависимости от отрасли) действуют определенные законодательные или внутренние корпоративные предписания. В качестве примеров национальных и международных законов можно привести закон Сарбейнса-Оксли (Sarbanes-Oxley Act, SOX) и Свод федеральных нормативных актов CFR 17 в США, Закон о доступе к данным и проверке цифровых документов в Германии, Basel II в Европе. В этих правовых актах содержатся точные указания относительно типов и форматов хранения определенных данных, а также сроков хранения. Соблюдение их предполагает необходимую надежность и достаточную прозрачность. Длительность хранения варьируется от нескольких лет до нескольких десятилетий. Еще одним примером отраслевого закона может служить Федеральный регистр CFR, часть 11. Это признанный во всем мире свод правил со стандартизированными производственными методами в области фармакологии и продуктов питания. Для выполнения всех законодательных требований нужны адекватные технические решения и грамотно спланированный архив. Таким образом, система архивирования призвана обеспечить доступность данных для пользователей в течение длительного периода времени.

Разъяснить сотрудникам предприятия разницу между резервным копированием и архивированием обязаны администраторы ИТ, отвечающие за организацию этих процессов. Для правильного выбора стратегии и технологии в первую очередь необходимо ответить на вопросы о том, какие данные подлежат резервному копированию и архивированию, а также какие из них регулярно используются и сохраняются. Необходимо понять, как увеличить их готовность, если принимаются меры по упрощению обновления информации. Кроме того, важно установить, начиная с какого момента времени данные не должны больше находиться в свободном доступе и могут быть переведены в долгосрочный архив. Необходимо позаботиться об их долгосрочном хранении и безопасности. Проведение четкого различия между резервным копированием и архивированием помогает предприятию получить определенные ответы на перечисленные вопросы для каждого отдельного случая.

Рисунок 1. Система архивирования баз данных позволяет разгрузить производственную систему и со временем сократить затраты.Архивированию подлежат не только печатные или электронные документы, но и данные, которые находятся в системах управления реляционными базами данных в структурированном виде. Они должны храниться долго, на случай последующего использования. Системы управления базами данных рассматривают архивирование как резервное копирование данных и отказываются от контроля за этими «архивированными» данными. Последние должны сохраняться так, чтобы ими можно было воспользоваться на протяжении десяти, а иногда и более лет. Обычно, если данные архивируются и потребность в них исчезает, они удаляются из базы данных. Таким образом, объем информации сокращается, а скорость доступа к базе данных увеличивается. Одновременно снижаются затраты, необходимые для выделения места хранения и осуществления администрирования (см. Рисунок 1). 

Важной особенностью архивирования базы данных является соблюдение реляционных зависимостей и поддержка измененных структур. Она обеспечивает согласование сохраненных в архиве данных с текущей схемой базы данных. Поскольку базы данных используются на протяжении достаточно длительного срока, модификации, к примеру, в структуре или семантике, практически неизбежны. Структура баз данных на большинстве предприятий меняется довольно часто в течение нескольких лет. К структурным изменениям относятся переименованные таблицы или новые, недавно добавленные столбцы. Нельзя исключить и того, что имеющиеся столбцы будут удалены. В случае семантических изменений речь идет о переименовании городов, отделов или заводов. Такие специальные изменения требуют вмешательства администратора. Однако при архивировании баз данных синтаксические и семантические отличия можно идентифицировать и запротоколировать в архиве.

Если система архивирования поддерживает выполнение таких требований, то при восстановлении база данных может быть загружена в выбранную пользователем схему и таким образом становится удобной для использования, быстрого поиска и импорта в текущее приложение. Для этого архивируемые данные необходимо извлечь из оригинальной структуры используемой реляционной базы данных и сохранить в открытом текстовом формате. Открытый формат можно сжать при помощи стандартных алгоритмов, чтобы сэкономить место на дисках. В таком случае для управления, обработки и обращения к данным система управления базами данных становится не нужна.

В результате подобных действий реализуется единообразный доступ к архивированным данным, даже если база данных на протяжении нескольких лет или десятилетий постоянно изменялась или будет изменяться. Благодаря применению открытого формата пользователь остается независимым от конкретного производителя программного обеспечения. Данные предоставляются ему для обработки без ограничений и на длительный срок. Если же система архивирования базы данных, напротив, использует нестандартный формат, то существует опасность, что рано или поздно ее производители уйдут с рынка и программное обеспечение уже не будет обслуживаться. Вполне вероятно, что через некоторое время доступ к такого рода архивированным базам данных будет невозможен.

Для архивных данных подходит, как уже упоминалось, — текстовый формат. Для метаданных рекомендован XML, поскольку в этом случае объемы данных не столь велики, и XML легко воспринимается пользователями благодаря описанию им самого себя. К метаданным архивированных данных относится информация о таблицах и столбцах, об ограничениях, грантах и индексах, которые данным образом полностью архивируются повторно. Если метаданные архива используются для описания изменений в структуре данных, то с данными можно будет работать и после нескольких последовательных изменений базы данных. В противном случае нельзя одновременно использовать разные схемы.

Рисунок 2. Соблюдение законодательных норм, предписывающих длительные сроки хранения информации, ведет к значительному росту объемов данных.Сохраненные метаданные предоставляют возможность проверки текущей схемы базы данных. При выявлении несоответствий программное обеспечение автоматически предложит варианты импортирования архивных данных в новую схему. В случае долгосрочного архивирования наиболее важными критериями являются архитектура системы архивирования базы данных и применение технических стандартов. В процессе архивирования и восстановления должны поддерживаться целостность данных и восстановление информации непосредственно из производственной системы для обеспечения комфортной работы пользователей.

Возможность непрерывного и инкрементального архивирования — несомненное преимущество. В таком случае в процессе архивирования достаточно сохранять только те данные, которые были добавлены с момента последней операции. Благодаря инкрементальному архивированию можно, с одной стороны, экономить место на дисках, а с другой — быстро выбирать и гибко восстанавливать необходимые данные.

Соблюдение Закона о доступе к данным и проверке цифровых документов, а также таких нормативных актов, как GoBS, Basel II и FDA, ведет к тому, что объем информации, хранящейся в реляционных базах данных, постоянно растет (см. Рисунок 2). Наряду с налогово-правовыми документами следует сохранять сведения об обеспечении качества, производственных процессах и характеристиках продукции, а также об управлении третьими системами, к примеру, индексными данными из системы управления контентом. В результате объем баз данных растет с большой скоростью. Если пользователь применяет стандартные механизмы резервного копирования и устанавливает индексы для быстрого доступа к данным, то на многих предприятиях потребность в месте хранения оказывается в три раза больше полезного объема. Эти данные можно сохранить в системе архивирования и удалить из производственной системы, поскольку они больше не изменяются.

Марио Тойбер — генеральный директор компании CSP.


© AWi Verlag