Отказ энергосети 4 ноября 2006 г., затронувший Германию, Францию, Австрию, Бельгию, Италию и Испанию, оказался для многих предприятий неожиданным и весьма болезненным напоминанием об их зависимости от электропитания. По данным последних исследований Союза операторов распределительных сетей, в2005 г. время простоя на одного клиента из-за прерывания питания составило в среднем 30 мин, если учитывать только форс-мажорные случаи. Однако непрерывное энергоснабжение остается лишь одним из многочисленных аспектов создания надежного вычислительного центра.
АНАЛИЗ ИСТОЧНИКОВ УГРОЗ
Тот, кто заботится о защите информационных технологий от отказов, должен существенно минимизировать риски от неправильной организации работы или форс-мажорных обстоятельств. Заранее следует позаботиться о том, как избежать возможного дефицита персонала из-за болезни сотрудников, неудовлетворительного обслуживания, неполного тестирования или недостаточного контроля действий, направленных на обеспечение безопасности ИТ и приемлемого уровня производительности. Кроме того, следует продумать меры предосторожности от некорректного поведения людей, к примеру поломки устройств, краж или актов саботажа, и от технических отказов системы энергоснабжения или сетевых компонентов. Поскольку для разных предприятий составляется свой список угроз, для каждого придется разработать свои нормы защиты. В первую очередь рекомендуется провести анализ возможных угроз и одновременно установить, насколько длительным может быть время отказа.
Очень важно выяснить, каков допустимый уровень потерь данных, сколько времени займет их восстановление, как быстро должны стать доступными сетевые приложения и какова максимально приемлемая продолжительность работы предприятия в ограниченных условиях. Ответы на эти и другие вопросы содержатся в рекомендациях инфраструктурной библиотеки ИТ (IT Infrastructure Library, ITIL), в которых аспекты обеспечения эксплуатационной безопасности ИТ играют значительную роль. ITIL обобщает практический опыт, фокусируя функционал информационных технологий на процессах, услугах и нуждах клиентов. ITIL демонстрирует эффект синергии и указывает на зависимости между отдельными областями ИТ, тем самым позволяя добиться эффективного управления обеспечением безопасности.
После оценки длительности потенциального отказа ее можно соотнести с возможным финансовым ущербом, для чего необходимо учесть все факторы затрат, связанные с отказом. И наконец, на основе полученных результатов можно определить адекватные технические меры.
РАЗМЕЩЕНИЕ КОМПОНЕНТОВ ИТ
Для надежного размещения компонентов ИТ необходимо учитывать множество факторов. Существуют три основных альтернативных варианта: офисные помещения полностью оснащаются необходимыми компонентами ИТ, предприятие эксплуатирует собственный вычислительный центр или обращается к внешнему профессиональному поставщику услуг, располагающему необходимыми мощностями для размещения ВЦ. Какой вариант окажется наилучшим для предприятия, зависит, во-первых, от издержек и, во-вторых, от предъявляемых к ВЦ требований. Чем более важны информационные технологии для предприятия, тем выше требования к энергоснабжению и уровню оснащенности вычислительного центра. Однако перестройка офисного здания в соответствии с потребностями ИТ, строительство или покупка специального помещения обходятся очень дорого.
80 ВТ НА КВАДРАТНЫЙ МЕТР
Сегодня большинство предприятий среднего размера размещают компоненты ИТ в собственных помещениях. Однако проблема в том, что офисное здание располагает мощностью подключения около 80 Вт на 1 м2, в то время как для шкафа, полностью укомплектованного мо-дульными серверами, потребуется
10 кВт и более. К этому следует добавить потребность в электроэнергии для охлаждения оборудования. Следовательно, чтобы обеспечить такое энергопотребление стойки, предприятие должно обладать площадью около 125 м2. Если принять за основу, что средняя стоимость аренды равняется 18 евро за 1 м2, оплата соответствующей площади составит 2250 евро в месяц без учета эксплуатационных расходов (энергоснабжение, обслуживание и т. д.) и затрат на перестройку офиса для размещения необходимых компонентов ИТ.
ПРИМЕРЫ ОСНАЩЕНИЯ: ЧЕТЫРЕ УРОВНЯ
Компания Uptime Institute различает четыре уровня оснащения вычислительных центров в зависимости от допустимого времени простоя (см. Таблицу 1). Если предприятие определяет допустимый период простоя в 72 ч, центр относится к первой категории (см. Рисунок 1) и оснащается стандартной системой ввода и распределения электроэнергии, а также источниками бесперебойного питания (ИБП), время автономной работы которых зависит от количества и размера устройств. Если речь идет о серверном шкафе с потребляемой мощностью установленного оборудования до 24 кВт, ИБП должен поддерживать его функционирование по меньшей мере в течение 10 мин.
В случае серверной комнаты автономное время работы увеличивается как минимум до 1 ч. Опционально вычислительный центр данной категории оснащается системой аварийного питания. Что касается охлаждения, спектр предлагаемых решений весьма широк: на рынке представлены прецизионные системы охлаждения, высокопроизводительные и жидкостные. Для защиты от пожара потребуются огнеупорные двери, жаропрочные стены, полы и потолки, а также система мониторинга с функцией распознавания возгораний.Если предприятие не может позволить себе простоев, вычислительный центр попадает в четвертую категорию (см. Рисунок 2). В этом случае энергоснабжение осуществляется через избыточные распределительные устройства, а питание на них подается от разных трансформаторных подстанций. Необходимо зарезервировать и ИБП, который обязан поддерживать автономную работу в промежутке от 10 до 30 мин. Не позже чем через 15 мин после нарушения энергоснабжения должна включаться подсоединенная система аварийного питания, располагающая достаточным запасом горючего для подачи электроэнергии в течение 72 ч. Прецизионные, высокопроизводительные или жидкостные системы охлаждения для этой категории также реализуются избыточно. Для защиты от пожара следует позаботиться о системе мониторинга с функцией раннего распознавания возгорания, а также о дополнительной газовой системе тушения или устройстве для уменьшения содержания кислорода в помещении.
При этом стены, полы, потолки и двери должны отвечать стандарту EN 1047-2 и быть способны противостоять пожару в течение 90 мин, необходимых, чтобы локализовать возгорание и потушить огонь.К тому же качественно оснащенный вычислительный центр предлагает возможность обслуживания работающих серверов без ограничений (см. Таблицу 2). Для максимального снижения времени простоя должны быть зарезервированы все критически важные компоненты, в особенности блоки питания отдельных устройств. Важно, чтобы для последних обеспечивалось энергоснабжение от разных электрических цепей: иными словами, надо подключить их к двум отдельным распределительным щитам. Дополнительного повышения готовности можно добиться путем подключения электрических цепей к двум не зависящим друг от друга ИБП и их энергоснабжения от разных трансформаторов и генераторов.
ОТКАЗОУСТОЙЧИВОСТЬ ИНФРАСТРУКТУРЫ ЗАЧАСТУЮ НЕДООЦЕНИВАЕТСЯ
На многих предприятиях к проблеме размещения компонентов информационных технологий и их отказоустойчивой компоновке подходят недостаточно ответственно. С одной стороны, причина заключается в том, что нередко данная тема лежит за пределами технической компетенции экспертов в области ИТ (см. Рисунок 3). С другой стороны, задача оказывается слишком сложной, поскольку охватывает не только энергоснабжение и охлаждение, но и, к примеру, безопасность здания или мониторинг отказов.
Что касается энергоснабжения, то в конечном счете защитой компонентов ИТ от рисков обязаны заниматься члены правления, руководство компании и лица, ответственные за ИТ. Чтобы занять правильную позицию, они должны разобраться в следующих вопросах. Является ли энергоснабжение достаточным? Стойке, полностью укомплектованной современными модульными серверами, требуется от 10 до 20 кВт потребляемой мощности, к этой величине стоит добавить расход электроэнергии для охлаждения и энергоснабжения прочей инфраструктуры (свет, телефон, система наблюдения). Однако большая часть офисных зданий обеспечивается мощностью лишь в 80-90Вт на 1 м2, что ограничивает суммарную доступную мощность подключаемых устройств.Как выглядит система аварийного питания? Хотя многие предприятия и предпринимают меры предосторожности на случай аварийной ситуации, однако зачастую не тестируют приобретенные ими устройства или неправильно их конфигурируют. При сбое мало пригодны неправильно рассчитанные или плохо обслуживаемые ИБП, бесполезны и устройства с избыточными блоками питания, которые не были соответствующим образом подключены или сконфигурированы.
Насколько надежно работает ИБП? Надежность ИБП не стоит переоценивать, необходимо регулярно проводить работы по его обслуживанию и тестированию. Если устройство не в состоянии отреагировать на сбой в течение 9 мс, блоки питания отказывают и сервер отключается. В случае более длительной потери энергоснабжения температура внутри серверного шкафа каждые 3 мин поднимается на 120C. Поэтому статический ИБП с рекомендуемым периодом автономной работы в 20 мин при полной нагрузке может быстро привести к появлению проблем.
Функционирует ли система аварийного питания? В момент реальной опасности все системы должны быть своевременно переключены. Владельцы динамических ИБП, оснащенных системой аварийного питания, должны быть уверены, что дизельный агрегат запустится в течение 15-20 с, чтобы предотвратить отказ энергоснабжения. Операторы, предоставляющие услуги вычислительных центров, обязаны ежемесячно тестировать свои ИБП и системы аварийного питания в течение 1 ч с половинной нагрузкой.
Однако при обсуждении вопросов, связанных с отказоустойчивой работой вычислительных центров, речь может идти не только о технических аспектах. На высокую значимость надежного размещения компонентов ИТ указывает и директива Европейского Союза Basel II, содержащая критерии для оценки кредитоспособности предприятия. Краткий вывод таков: в любом случае организации должны регулярно проверять качество работы своих вычислительных центров.
Ульрих Бекер — директор по продажам компании Global Switch, предоставляющей услуги вычислительных центров.
© AWi Verlag
Источники
Германская ассоциация ин-формационных технологий, телекоммуникаций и медиа-технологий (Bundesverband Informationswirtschaft, Telekommunikation und neue Medien e.V., BITKOM):
«Руководство по проектированию, сооружению и эксплуатации вычислительных центров» (Leitfaden zu Planung, Aufbau und Betrieb von Rechenzentren; Web: http://www.bitkom.org/files/documents/BITKOM-Leitfaden_FA_Betriebssicheres_9-11-2006.pdf);
«Пособие в таблицах по планированию надежных в эксплуатации вычислительных центров» (Matrix «Planungshilfe betriebssicheres Rechenzentrum»; Web: http://www.bitkom.org/files/documents/BITKOM_Matrix_Ausfallzeit_RZ_V2.0_final.pdf).