На ошибках учимся

В российских и зарубежных СМИ постоянно присутствуют сообщения о разнообразных бедствиях природного и техногенного характера. Часто оказывается, что организации не готовы к ликвидации последствий катастроф, несмотря на кажущийся проработанным план непрерывности бизнеса. Разберемся, в чем причины такой ситуации и каковы типичные ошибки компании, реализующей систему мероприятий по обеспечению непрерывности бизнеса.

Поскольку ущерб, приносимый различными катастрофами, нельзя предотвратить, компаниям нужно тщательно продумать план мероприятий по обеспечению непрерывности бизнеса. Все большее число критичных бизнес-процессов переносится на вычислительные системы с распределенной архитектурой (например, клиент-сервер). При переносе приложений из вычислительного центра, где существует жесткий контроль безопасности и воздействий внешней среды, на рабочие места в оперативных подразделениях вероятность прерывания деятельности существенно возрастает. Проблема восстановления бизнес-процессов усугубляется также сложностью распределенных вычислительных сред, разнородностью технических средств, программного обеспечения и протоколов связи. Что касается проблем, которые испытывали российские организации со сферой ИТ, то представить картину поможет исследование «Консалтинг и аудит в сфере ИТ. Портрет потребителя», проведенное CNews в прошлом году.

Существуют также сугубо российские проблемы, такие как взаимодействие бизнеса и государства. Реальным примером может послужить изъятие следственными органами МВД РФ сервера, компьютеров и документов, содержащих базы данных и информацию по системам ведения реестров различных эмитентов, из офиса Центрального московского депозитария, который был вынужден приостановить операции в реестрах эмитентов, были сорваны намеченные контракты. В сегодняшнем законодательстве не отмечено, кто отвечает за потерю информации из-за ее искажения вследствие проведения мероприятий правоохранительных органов.

Цена катастрофы

Подсчет, во что обходятся катастрофы, прежде всего ведут такие организации, где действительно «время — деньги», это банки и различные финансовые компании. Американские инвестиционные банки оценивают потери от одной минуты простоя своей информационной системы в 80 млн. долл. В российских банках этот показатель подсчитать чрезвычайно трудно из-за отсутствия финансовой прозрачности. Однако ущерб, понесенный средним банком из-за нарушения штатного функционирования телекоммуникационной инфраструктуры и потери информационных сервисов, в среднем можно оценить в 200 тыс. долл. в день. При этом совокупные затраты коммерческого банка на обслуживание и поддержку своей сети телекоммуникаций составляют около 20 тыс. долл. в месяц. Специалисты компании «Московская сотовая связь» еще в 1998 году подсчитали, что одна минута простоя ИТ-системы обходится компании в 7 тыс. долл. Это побудило руководство МСС начать разработку комплексной программы по обеспечению бесперебойной работы компании.

Итак, различного рода катастрофы влекут за собой следующие потери:

затраты на восстановление информации;
затраты на восстановление работоспособности системы;
убытки, связанные с простоем системы;
ущерб, нанесенный имиджу компании;
убытки от невосполнимых потерь информации.

Резервируем правильно

Практика показывает, что тема непрерывности бизнеса пока популярна лишь в прессе, а отнюдь не в среде российских бизнесменов.

Типичные ошибки, которые допускают компании при организации резервирования информационных систем, можно разделить на несколько групп.

«Авось пронесет»

Итак, первая совокупность ошибок — это стратегические и тактические ошибки планирования и организации работ:

план аварийного восстановления (Disaster Recovery Plan, DRP) не существует;
DRP формируется и ведется силами одной ИТ-службы;
план ориентирован на уже произошедшие инциденты и не учитывает актуальных рисков;
финансирование средств резервирования ведется по остаточному принципу (экономия на резервных ресурсах).

Пока непрерывность бизнеса воспринимается как экзотика. Если что-то случается у конкурентов и или соседей, это вызывает либо бурную радость, либо сдержанную скорбь («вот не повезло...»). Лейтмотив дальнейших размышлений — «авось пронесет». Однако в русском фольклоре есть достаточное количество пословиц, протестующих против такого образа мышления. Компании должны предусмотреть меры по восстановлению тех сфер деятельности, которые имеют критичное для бизнеса значение. При этом должна восстанавливаться не только информационная система. Необходимо предусмотреть замену оборудования локальных телефонных станций, восстановление справочной службы и дистанционного обслуживания, обеспечение мест для работы сотрудников, спасение имущества, пригодного для дальнейшего использования, и т. д. Если подобные составляющие не могут быть восстановлены своевременно, управление организацией становится практически невозможным.

Можно привести интересный пример, характеризующий, насколько важны самые малые детали такого плана. На Западе тема непрерывности бизнеса развивается достаточно давно, поэтому во время событий 11 сентября 2001 года в Нью-Йорке многие компании были в состоянии продолжить свою деятельность — были подготовлены резервные информационные системы, инфраструктура, запасные офисы и др. Однако наличие всего этого не обеспечило ни одной из компаний своевременного продолжения деятельности. Дело в том, что во время террористической атаки в городе началась паника, все дороги были забиты машинами, и сотрудникам компании пришлось ехать до запасного офиса на метро. Многие не смогли вовремя добраться, так как не знали, какая станция метро находится ближе всего к резервному офису (большинство сотрудников компании ездили на собственных автомобилях и не пользовались метро).

Таким образом, DRP должен учитывать все критические аспекты деятельности компании и быть приоритетом руководства. Проблемы, связанные с восстановлением функционирования информационной системы, должны быть заботой всей компании, а не только руководства подразделения, отвечающего за ИТ-инфраструктуру, что зачастую случается. Руководители всех подразделений, деятельность которых зависит от услуг, предоставляемых ИТ-службой, должны разработать процедуры действий в чрезвычайных обстоятельствах, касающиеся собственных функциональных обязанностей, а также участвовать в разработке плана восстановления деятельности. Аудит рисков и их влияния на бизнес-процессы (impact analysis) должен проводиться при участии топ-менеджмента компании, так как планирование непрерывности бизнеса — задача стратегическая.

Кроме того, DRP должен быть актуальным. Зачастую планы по обеспечению непрерывности бизнеса являются экстраполяцией предыдущего опыта компаний. DRP должен отвечать текущим угрозам и рискам со стороны «окружающей среды», иначе план станет формальной отпиской, а компания может обнаружить, что совершенно не готова к отражению «атаки действительности». Признаком формального подхода к DRP является также финансирование резервных ресурсов по остаточному принципу. В самом деле, стоит вспомнить статистику, отражающую цену катастроф для банков, где недофинансирование резервирования прямой дорогой ведет к прекращению деятельности организации.

Расположение резервного центра

Вторая совокупность ошибок — ошибки, связанные с местом расположения центра для хранения резервных информационных систем:

резервный центр находится в том же здании, что и основные информационные системы;
помещение резервного центра не соответствует нормам пожаробезопасности, водоустойчивости, бесперебойного электропитания, внешней и внутренней охраны.

Компания Marsh & McLennan, крупнейший мировой страховой и перестраховочный брокер, лишилась сервера, который был уничтожен на 104-м этаже одной из башен World Trade Center 11 сентября 2001 года еще до ее обрушения (самолет врезался в здание как раз в этом месте). Один из резервных серверов компании находился в подвале здания и также впоследствии не уцелел. Однако благодаря хорошо продуманной и территориально разнесенной системе резервирования информации, компания смогла за один день восстановить 98% данных из уничтоженных серверов. Через неделю было восстановлено 100% информации. Желательно, чтобы резервный центр был удален от основного на несколько километров, это обеспечит выживаемость информационных систем при подобных террористических актах, пожарах и техногенных катастрофах, приводящих к разрушению зданий.

Предположение о подконтрольности пожаров, прорывов водопровода и канализации, отключения телефонной связи и электрического питания вычислительного центра не соответствует действительности. Состояние российского коммунального хозяйства позволяет сделать неутешительный прогноз о том, что подобные проблемы будут продолжаться еще долгое время. Например, некоторое время назад «Мосэнерго» решило провести работы в той части города, где расположен промышленный дата-центр Центра аутсорсинга DATA FORT, в результате чего целый район оказался отключен от электричества. Благодаря системе резервирования электропитания, которая включает в себя два независимых подвода от различных подстанций, блоки бесперебойного питания и дизель-генератор, информационные системы клиентов, размещенные на технологической площадке, остались в работоспособном состоянии.

Создание промышленного дата-центра, обладающего всеми необходимыми характеристиками по защите оборудования и систем, требует серьезных инвестиций, времени и под силу только крупным компаниям или ИТ-компаниям, ориентированным на предоставление соответствующих услуг. Альтернативой собственному строительству является передача оборудования и информационных систем на аутсорсинг специализированным сервис-провайдерам.

Технический дизайн

Третья совокупность ошибок — это ошибки, связанные с неправильным техническим дизайном резервных систем:

неверно рассчитана мощность (sizing) резервных систем;
несвоевременно проведена модернизация резервных систем.

Важно не только обеспечить требуемые параметры резервирования и времени восстановления, но и учесть факторы роста объемов информации и усложнения информационных систем. Иначе говоря, нужно обеспечить масштабируемую архитектуру резервного решения и ее необходимую модернизацию посредством периодических тестовых испытаний. Правильный технический дизайн могут обеспечить только сертифицированные специалисты, имеющие опыт реализации по крайней мере нескольких проектов по созданию резервных систем. Такие специалисты обычно редки и обходятся очень дорого для использования в разовых проектах, однако их опытом и знаниями можно воспользоваться, передав работы по проектированию на аутсорсинг в специализированную компанию.

Доступ к резервным системам

Четвертая совокупность ошибок — ошибки, связанные с организацией доступа к резервным системам:

не протестирован доступ по VPN при размещении резервной системы на удаленной площадке;
персонал не имеет инструкции по доступу к резервным системам.

При расположении резервных систем на удаленной технической площадке часто возникают проблемы доступа. В частности, может быть не протестирован доступ по VPN, персонал не знает, что делать в случае наступления аварийного события, отсутствует ясная документация по данному вопросу, нет ответственных лиц по определенным работам. Все эти проблемы должны быть решены, иначе неизбежен хаос при наступлении аварии. При этом необходимо четко определить, протестировать и закрепить документально действия каждого сотрудника.

Организация резервного офиса

Пятая совокупность ошибок — ошибки, связанные с организацией резервного офиса и доступом к нему:

резервный офис находится не в «боевом» состоянии, развертывание занимает слишком много времени;
не хватает электричества для подключения резервных систем;
в нужное время недоступны план здания, ключи, пропуска, пароли, справочник телефонов и т. д.

Эти проблемы могут возникать, если компания использует концепцию резервного офиса, подразумевающую перенос рабочих мест ключевой группы сотрудников в территориально удаленный от основного резервный офис. Основной мерой эффективности использования данной концепции является время развертывания. Кроме того, для обеспечения необходимой функциональности офис должен обладать сетевой инфраструктурой, мощности электрической сети должно хватать для подключения всего необходимого оборудования, должны быть обеспечены условия для жизнедеятельности сотрудников — кондиционирование воздуха, вода, запас еды. Достижение заданных временных параметров развертывания достигается за счет четкой организации процесса перемещения в резервный офис, наличия ответственных лиц и прописанных в документации ролей отдельных сотрудников и их инструктирования. И конечно, слаженность работ по развертыванию достигается регулярными тренировками персонала.

Непрерывность бизнеса и стоимость компании

Вероятность различного рода катастроф сегодня достаточно высока. Повышается число угроз деятельности компании как в экономической, так и в технической и информационной сферах. Поэтому правильное выстраивание системы непрерывности бизнеса, учитывающей все особенности бизнеса компании, так же как и ее географическое положение и «окружающую среду», становится жизненно необходимым. Несмотря на то что обеспечение непрерывности работы требует дополнительных вложений, нужно помнить, что компания приобретает ряд неоспоримых достоинств: быстрое восстановление бизнеса в аварийных ситуациях, минимизация финансовых потерь при катастрофах, обеспечение непрерывности оказания услуг клиентам и многое другое, что в конечном итоге влияет на стоимость компании, положение на рынке, а также имидж и лояльность акционеров и государственных органов.

Константин Белкин — системный архитектор Центра аутсорсинга DATA FORT компании IBS, kbelkin@datafort.ru