Виртуализация отказоустойчивости

Когда Сет Коупленд занял должность ИТ-директора компании Tanner & Haley Resorts в Канзас-сити (шт. Миссури), ему пришлось заняться подготовкой плана восстановления после катастрофического отказа для 160 пользователей компании. «Когда я вступил в должность в октябре 2005 г., плана фактически не существовало; мы просто использовали копии на магнитной ленте», – вспоминает Коупленд. Реализация плана осложнилась, так как в июле 2006 г., когда план восстановления уже был готов, компания Tanner & Haley объявила о банкротстве в соответствии со статьей 11 (впоследствии она была приобретена компанией Ultimate Resort). В целях экономии финансовых средств и производственных площадей Коупленд применил виртуализованное решение. Он использовал виртуализацию, чтобы сформировать экономичный двухуровневый подход к восстановлению и обеспечению высокой отказоустойчивости. С Коуплендом беседует помощник редактора Windows IT Pro Б. К. Уинстед.

Что послужило импульсом к разработке плана восстановления компании после катастрофического отказа?

Для меня таким импульсом стал ураган, пронесшийся недалеко от нашего офиса. Большинство катастроф в Канзас-сити – локальные ураганы. Возможно, где-то поблизости есть разлом в земной коре, но в точности мне об этом ничего не известно. Может разлиться река Миссури, но мы находимся на значительном расстоянии от нее. Кто-то может взорвать в городе атомную бомбу, тогда сбой гарантирован, но я стараюсь не задумываться над этой перспективой.

Расскажите о существующем решении восстановления. Предусмотрены ли в плане различные процедуры в зависимости от масштаба катастрофы?

Нашим планом предусмотрено использование продуктов VMware и Double-Take for Virtual Systems компании Double-Take Software. В центре обработки данных находится сервер с VMware GSX Server, на который локально реплицируются все остальные серверы. GSX Server используется в качестве локального сервера высокой отказоустойчивости, если выйдет из строя один компьютер. В случае отказа почтового сервера или сервера базы данных его функции перекладываются на локальный сервер высокой отказоустойчивости. Кроме того, все виртуальные серверы на локальном компьютере высокой отказоустойчивости реплицируются на компьютеры, расположенные в Оверленд-парке (шт. Канзас), с помощью программы Double-Take. На каждом из четырех компьютеров в Оверленд-парке используется VMware GSX Server и размещаются четыре или пять серверов. Виртуализованный сервер в главном центре обработки данных устраняет последствия отказа одного сервера. Сайт в Оверленд-парке предназначен для восстановления после аварий, затронувших весь сайт.

Два основных вопроса: сколько времени потребуется, чтобы восстановить работоспособность, и сможет ли виртуальный сайт обслужить все обращения пользователей? Выдержит ли он нагрузку?

Как выяснилось, выдержал. Целевое время восстановления составляет около двух часов, при этом теряются данные не более чем за последние 10 минут. Такая планка была установлена исходя из нужд компании.

Потеря одного диска, почтовой системы, системы резервирования – еще не катастрофа. В таких случаях планом предусмотрена передача функций отказавших систем локальному серверу.

В плане также описаны меры на тот случай, если будет уничтожено здание компании, так что сотрудники не смогут попасть на рабочие места, и им придется работать дома. В этом случае необходимо как можно быстрее восстановить работу центра обработки вызовов, поэтому сотрудники берут офисные телефоны домой, чтобы перенаправить телефонные линии в корпоративную штаб-квартиру в Коннектикуте, подключиться к телефонной VoIP-системе Mitel Networks и обслуживать вызовы из дома.

Почему в основу решения положена виртуализация?

Главной целью было снижение затрат. После того как было объявлено о банкротстве, пришлось считать каждый доллар. Программы виртуализации стали достаточно зрелыми, а аппаратные средства – мощными, поэтому у меня не возникало сомнений относительно размещения серверов восстановления в виртуальных машинах. Если бы пришлось строить центр обработки данных сначала, я бы наверняка более широко применял виртуализацию. Поэтому истинной причиной, побудившей нас заняться виртуализацией, было стремление сократить затраты на покупку оборудования и сэкономить пространство в стойках на сайте восстановления.

Каковы другие компоненты плана обеспечения непрерывной работы компании, помимо восстановления центра обработки вызовов?

Я раздал менеджерам телефонные планы (каким образом мы будем поддерживать связь, если системы выйдут из строя), поскольку пройдет некоторое время, прежде чем заработают устройства BlackBerry и электронная почта.

Кроме того, я попросил менеджеров расставить приоритеты: какие сотрудники наиболее важны, чьи службы требуется восстановить, в каком порядке и какие системы им необходимы. Если в первый день после катастрофы я смогу установить связь с 10 сотрудниками, то кто эти 10 самых важных людей?

В каком состоянии находится решение в настоящее время? Приходилось ли применять его на практике?

У нас не было никаких проблем с разработанным решением. Через каждые несколько месяцев проводится тестирование. В ходе испытаний нам предстояло выяснить два вопроса: сколько времени потребуется, чтобы ввести резерв в действие, и сможет ли сайт в Оверленд-парке выдержать нагрузку при переключении на него всех пользователей. В обоих случаях результаты тестирования были успешными. Пока нам не приходилось применять наше решение на практике, и, надеюсь, такой необходимости не возникнет никогда.

Б.К. Уинстед (bwinstead@windowsitpro.com) — помощник редактора в Windows IT Pro и SQL Server Magazine