Сохранение работоспособности в аварийных условиях

В понедельник в два часа ночи вам звонят и сообщают о том, что в результате разрыва водопроводной трубы прямо над вашим офисом серверы и маршрутизаторы, а также большинство рабочих станций стоят в воде. Офис открывается в 8 часов утра. Что делать?

В подобных ситуациях становится очевидным отличие ИТ-отделов, предусматривающих планирование действий в чрезвычайных ситуациях, от ИТ-отделов, в которых аварийные мероприятия не планируются. Для второй группы описанная выше ситуация - не просто авария, а настоящая катастрофа. Возможность полной потери данных при отсутствии программы послеаварийного восстановления ставит под угрозу деятельность организаций, особенно представителей малого и среднего бизнеса, часто не располагающих средствами для восстановления работоспособности после катастрофических событий. Во многих компаниях планирование чрезвычайных мероприятий фокусируется уже в первую очередь на ИТ. Программа сохранения непрерывности бизнес-операций и послеаварийного восстановления может стать одним из наиболее ценных вкладов отдела ИТ в успешную деятельность организации.

Шесть этапов планирования

В терминологии планирования действий в аварийных ситуациях фигурируют два общих понятия: планирование сохранения непрерывности бизнеса (Business Continuity Planning, BCP) и планирование послеаварийного восстановления (Disaster Recovery Planning, DRP). Эти понятия, часто используемые как равноценные, представляют различные концепции. ВСР традиционно предусматривает планирование мероприятий, обеспечивающих сохранение деловой активности организации в чрезвычайных ситуациях. Сфера ответственности DRP, по сути, представляет подмножество ВСР и касается восстановления информации и работоспособности систем в случае аварии. Например, выход из строя жесткого диска на сервере базы данных потенциально угрожает целостности бизнеса, но не является результатом катастрофических событий. Разрыв же водопроводной трубы с затоплением серверного помещения и погружением сервера базы данных в воду представляет угрозу целостности бизнеса, рассматриваемую в рамках плана послеаварийного восстановления (DRP).

Планирование мероприятий ВСР и DRP - дело непростое, и в крупных организациях этим часто занимаются специальные группы. Однако даже без детального анализа степеней риска и решения прочих сложных вопросов в рамках ВСР и DRP в крупных компаниях можно создать программу сохранения целостности бизнеса и послеаварийного восстановления, если двигаться по шести перечисленным ниже этапам.

Этап 1. Определение критически важных деловых операций

Первый шаг планирования в рамках ВСР и DRP - определение критически важных деловых операций, т.е. действий, которые должны выполняться в повседневном режиме для сохранения работоспособности организации. Например, центр приема заявок клиентов на выполнение технического обслуживания должен сохранять способность принимать и фиксировать заявки. Юридическая фирма должна иметь доступ к информации о клиентах, отправлять и принимать электронную почту, пользоваться интерактивными справочниками по праву, а также отвечать на телефонные звонки. На данном этапе планирования необходимо сотрудничать с главными ответственными лицами организации в определении видов деятельности, важных для сохранения ее работоспособности. В центре планирования мероприятий в рамках ВСР находится сохранение деловой активности организации за счет восстановления этих видов деятельности.

Этап 2. Составление схемы инфраструктуры информационных систем, обеспечивающих выполнение критически важных деловых операций

От определения критически важных деловых операций переходим к определению информационных систем, обеспечивающих их выполнение. В частности, в центре приема заявок клиентов на проведение технического обслуживания возможность просмотра зарегистрированных и фиксации новых заявок зависит от работоспособности серверов базы данных, где хранятся эти записи, и приложений, обеспечивающих доступ к этим серверам. Кроме того, должна также функционировать определенная часть центральной сетевой инфраструктуры, чтобы эти критически важные деловые операции могли выполняться. Перечисленные выше информационные системы необходимо поддерживать в работоспособном состоянии за счет оперативного послеаварийного восстановления.

Этап 3. Модели угроз в виде предсказуемых и вероятных событий

Практически все катастрофы и аварии, угрожающие целостности бизнеса, являются предсказуемыми с определенной степенью вероятности. Катастрофические события могут быть природными (землетрясение, наводнение) либо механическими (неисправность жесткого диска, разрыв водопроводной трубы и т. д.). Например, если служба приема заявок клиентов на техническое обслуживание расположена в Ваките (шт. Оклахома), весьма вероятно, что информационные системы центра рано или поздно окажутся на пути торнадо. Точно так же, в любой компании, использующей результаты технического прогресса, всегда вероятен отказ аппаратных средств.

Определив критически важные системы, можно приступать к моделированию угроз со стороны предсказуемых и вероятных событий. Моделирование позволяет реализовать структурный подход к определению потенциальных угроз, несущих в себе максимальную опасность для целостности бизнеса, и ослаблению их негативных последствий. Составьте список возможных сценариев нарушения работоспособности критически важных информационных систем, а также событий, предшествующих реализации каждой из угроз. Например, работоспособность центра приема заявок клиентов может быть нарушена из-за недоступности базы регистрируемых заявок. Предшествующим событием может стать отказ аппаратных средств, перебой в питании либо нечто более серьезное, например разрушение информационного центра из-за торнадо.

Этап 4. Разработка планов и процедур сохранения целостности бизнеса

После составления списка критически важных деловых операций, перечисления информационных систем, обеспечивающих их выполнение, и определения возможных и вероятных событий, способных нарушить работоспособность указанных информационных систем, можно приступить к выработке превентивных мер, имеющих целью сохранение целостности бизнеса, с использованием моделей угроз. В рамках ВСР существуют четыре категории превентивных мер: отказоустойчивость и восстановление после сбоя, резервное копирование, «холодное» запасное оборудование и помещения и «горячее» запасное оборудование и помещения.

Отказоустойчивость и восстановление после сбоя. Эта категория превентивных мер предполагает использование резервируемых аппаратных средств, сохраняющих работоспособность при отказе отдельных элементов. В ИТ для обеспечения отказоустойчивости наиболее широко используются массивы жестких дисков, технологии кластеризации, аккумуляторные и генераторные источники питания.

Резервное копирование. Резервное копирование с использованием внутрисистемных и внесистемных средств занимает центральное место среди превентивных мер в рамках DRP. В случае утраты данных резервное копирование обеспечивает возможность восстановления и реконструкции информации по последним данным, соответствующим работоспособному состоянию систем.

«Холодное» запасное оборудование и помещения. «Холодное» запасное оборудование — это автономные устройства, которые можно быстро подготовить к выполнению рабочих функций. Например, можно держать набор серверов без подключения к сети, на которых установлены операционные системы с настройками, принятыми в компании. В случае аварии можно завершить настройку конфигурации и восстановить либо скопировать данные, необходимые для возобновления работы. «Холодное» помещение вмещает автономное оборудование, которое можно использовать для возобновления работы в случае аварии на главном оборудовании. Часто «холодное» помещение представляет собой просто зал, способный вместить рабочие столы и стулья. Для большинства организаций малого и среднего бизнеса (SMB) содержание «холодных» помещений не является экономически выгодным.

«Горячее» запасное оборудование и помещения. «Горячее» запасное оборудование - это устройства, готовые к немедленной работе в чрезвычайной ситуации. Например, можно непрерывно дублировать критически важную информацию с занесением в удаленную базу данных и обеспечить возможность перенаправления клиентских приложений к этим копиям данных в случае необходимости. «Горячее» оборудование позволяет очень быстро возобновлять выполнение операций. Скорость приведения «горячего» оборудования в работоспособное состояние обычно определяется временем, необходимым сотрудникам для прибытия к месту хранения запасного оборудования. «Горячее» оборудование располагает точными копиями данных в реальном времени (или почти в реальном времени) и всегда работоспособно. Содержание «горячего» запасного оборудования и помещений обходится дорого, так что этот вариант используется только в организациях, которые должны сохранять работоспособность в чрезвычайных ситуациях, например в ведомствах государственной безопасности.

Этап 5. Разработка планов и процедур послеаварийного восстановления

Не все события являются предсказуемыми и вероятными. Трудно найти более удачный пример непредсказуемой катастрофы, чем атака на всемирный торговый центр 11 сентября 2001 г. Для чрезвычайных обстоятельств такого рода, а также для других серьезных катастроф, в которых возможна полная потеря данных и работоспособности главных систем, необходима разработка планов и процедур восстановления. Поскольку послеаварийное восстановление относится к стрессовым ситуациям, очень важно иметь под рукой хорошо документированные, проверенные и испытанные на практике процедуры. Убедиться в работоспособности данных, хранящихся на резервных носителях, можно в режиме имитации работы процедур восстановления. Необходимо позаботиться о средствах внесистемного хранения копий процедур, выполняемых в рамках DRP, вместе с проверенными работоспособными резервными копиями. Для большинства организаций наиболее эффективным, доступным и безопасным вариантом внесистемного хранения проверенных резервных копий и планов DRP являются депозитарные ячейки и банковские сейфы.

Этап 6. Проверка работоспособности планов сохранения целостности бизнеса и испытание на практике средств послеаварийного восстановления

Сам характер обстоятельств, вынуждающих составлять планы ВСР и DRP, предполагает необходимость гарантии работоспособности планов, процедур и технологий, используемых для сохранения целостности бизнеса. Проведите планируемые и спонтанные учения для проверки состоятельности стратегий ВСР и DRP. Можно раз в месяц имитировать отказ кластерных узлов, периодически выполнять восстановление «холодных» запасных серверов либо проводить полномасштабные имитации катастрофических ситуаций с проверкой работоспособности «холодных» и «горячих» средств восстановления. Как минимум, следует выполнить восстановление критически важных данных по резервным копиям с хранящихся вне офиса носителей. Хранящиеся вне офиса носители резервных копий - последняя линия защиты от полной утраты данных.

Шесть этапов защиты от катастрофы

Выполняя перечисленные этапы, можно помочь предприятию создать программу BCP и DRP, которая обеспечит защиту от последствий природных, механических и обусловленных человеческим фактором катастроф. Когда сотовый телефон звонит в два часа ночи, меньше всего хочется лихорадочно изобретать пути восстановления данных, находящихся на сервере и лентах и пробывших под водой в течение 30 часов, или, что еще хуже, после физического разрушения информационного центра в результате катастрофы.

Бен Смит - Специалист по безопасности в компании Microsoft. bensmi@microsoft.com