Cемь факторов, которые помогут предотвратить сбои системы Exchange Server.
Наблюдая некоторое время за объектом, можно предсказать ошибки, которые могут привести к сбою. Это относится и к работе Microsoft Exchange Server. Понятно, что сбой сам по себе не так страшен, как потеря данных, которая может последовать за ним. После нескольких лет работы с системой Exchange Server мне удалось выявить факторы, которые приводят к сбоям, и ошибки в процедурах восстановления, способные сделать эти сбои катастрофическими. Вдохновленный бестселлером Стефана Р. Ковея «The 7 Habits of Highly Effective People» (Simon & Schuster, 1999), я выделил семь факторов, которые помогут предотвратить сбои системы Exchange Server и повысить отказоустойчивость.
Причины простоя
Проблемы с Exchange Server бывают двух видов: запланированный простой системы и незапланированный. В первом случае (например, при установке пакета исправлений или обновлений аппаратного обеспечения) достаточно запланировать отключение системы на нерабочее время.
Для систем Exchange Server с высокими требованиями к отказоустойчивости важно оценить вероятность незапланированных простоев. При этом нужно составить список возможных причин простоя, которые можно перечислить в порядке, соответствующем вероятности возникновения событий. Основное внимание следует обратить на наиболее вероятные или особо опасные события (например, программный компонент A неблагоприятно воздействует на программный компонент B), опустив наименее вероятные события (например, попадание метеорита в вычислительный центр).
По моему опыту, наиболее распространенная причина незапланированного простоя — плохое качество программного обеспечения. Однако то, как администратор отреагирует на простой, сильно повлияет на его продолжительность. Цикл незапланированного простоя имеет несколько этапов, от идентификации проблемы до восстановления работоспособности. Чем тщательнее подготовиться к бою, тем быстрее удастся справиться с его последствиями.
Первым этапом является сигнал о неполадках. Система автоматического предупреждения, встроенная или дополнительная, поможет выявить аппаратные проблемы до вынужденной остановки. Программы мониторинга самой операционной системы или специальное программное обеспечение, такое, как NetIQ AppManager Suite и BMC Software PATROL for Microsoft Exchange 2000 Servers, облегчают поиск проблемы. Не обнаруженная вовремя проблема может вызвать каскад сбоев, не имеющих отношения к исходной причине. Например, очередь сообщений почтового коннектора заполнила жесткий диск на сервере A. Если предупреждение об этом не поступит, коннектор на сервере B даст сбой при доставке сообщения на сервер А. Таким образом, сервер B выглядит как источник проблемы, в то время как настоящий виновник — сервер A.
Вторым этапом является анализ. Анализ поможет разработать способы устранения неисправности. Исправлять неполадки нужно быстро, но ошибки могут дорого стоить. Необходимо помнить, что, прежде всего, для предотвращения последствий проблему следует изолировать. Затем нужно собрать информацию о ней, используя журналы прохождения сообщений, системные журналы событий Windows или записи в журналах операторов системы об изменениях.
Реализация и тестирование принятого решения о восстановлении являются третьим этапом. Но не следует думать, что цикл простоя завершен после четвертого этапа — анализа результатов. Многие незапланированные простои дают полезную информацию, которая поможет в дальнейшем предупредить возникновение проблем.
Оценка оборудования
Аппаратное обеспечение является основой отказоустойчивости. Стабильность программного обеспечения ничего не значит, если оно работает на плохом оборудовании. Отказоустойчивое оборудование позволяет устранять неполадки, останавливая систему. Избыточность компонентов дает возможность сохранить работоспособность в случае сбоя. Компоненты с возможностью «горячей» замены позволяют вообще ликвидировать вынужденный простой.
Дисковая система RAID защищает серверы Exchange от сбоя дисков. Лучше всего разместить журнальные файлы Exchange Server на томе уровня RAID 1 и базы данных на томах RAID 5 или даже уровня RAID 0+1. Более подробная информация о такой конфигурации RAID приведена во врезке «Сравнение RAID 5 и RAID 0+1».
Планирование хранилища — важный этап работы. Администраторы одной из организаций, использующей Ex-change Server, сообщили, что переход к использованию разделов большего размера для хранилищ и более емких дисков позволил им сократить число сбоев (корпоративные правила запрещали накладывать ограничения на размер почтовых ящиков). Таким организациям должны подойти устройства на базе Storage Area Network (SAN). SAN предоставляет высокопроизводительный набор жестких дисков, которые могут размещаться на разных серверах, упрощает процессы расширения хранилища, переконфигурации, резервирования и восстановления. Однако хранилище, основанное на технологии SAN, может увеличить время вынужденного простоя.
Кластер в окружении Windows
Кластеризация повышает надежность и позволяет снизить вероятность сбоев системы. Но главное достоинство кластера в том, что ненадежные приложения становятся более устойчивыми с точки зрения пользователей. Например, на узле A в двухузловом кластере Exchange Server 5.5 произошел сбой, и система перешла на узел B. Судя по записи в системном журнале, сбой продолжался около двух часов. Тот человек, который устанавливал кластер, совершил ошибку, воспользовавшись пробной версией Windows NT Server. По истечении 120-дневного срока операционная система начала каждые два часа отключаться. Кластер сохранил систему Exchange Server работоспособной для пользователей до момента исправления ситуации.
Кластеризация также помогает управлять плановыми простоями. В кластерном окружении можно перевести работающие службы с узла A на узел B, а затем установить пакет обновлений или просто модернизировать узел A.
Exchange Server 5.5 поддерживает только двухузловой кластер в режиме активный/пассивный. Только активный узел обеспечивает работоспособность Exchange Server. Пассивный узел не выполняет никаких задач до момента сбоя активного узла. Это ограничение понижает функциональность такого кластера. При этом двухузловой кластер, работающий в режиме активный/пассивный, требует двойных финансовых затрат на аппаратное обеспечение без существенного увеличения производительности.
Кластер Exchange 2000, работающий в режиме активный/пассивный, мало отличается от кластера Exchange Server 5.5: на одном узле работает Exchange Virtual Server (EVS), а другие узлы Exchange 2000 бездействуют в ожидании сбоя. Exchange 2000 с пакетом обновлений SP1 позволяет создавать двухузловой кластер в режиме активный/активный на Windows 2000 Advanced Server. Однако чтобы в случае сбоя работа продолжалась, необходимо заранее просчитать распределение активных пользовательских соединений и учесть допустимую нагрузку на процессор. С Windows 2000 Datacenter можно использовать четырехузловой кластер (т. е. кластер 3+1). Хотя лучшая отдача от вложенных инвестиций в аппаратное обеспечение получается при использовании кластера Exchange 2000 и Windows 2000, в этом случае приходится приобретать специальное оборудование для поддержки двумя или более узлами общего жесткого диска. Для кластера 3+1 оптический канал к SAN необходим.
Резервное копирование и восстановление
Серьезный сбой может разрушить хранилище Information Store (IS), тогда процесс восстановления будет весьма продолжительным. Проверка целостности базы данных может длиться несколько часов. Eseutil, основной программе проверки и восстановления Exchange Server, требуется около часа для проверки и восстановления базы размером в 15 Гбайт, даже при использовании самых быстрых дисков.
При больших объемах IS используемая технология резервирования определяет и продолжительность процесса восстановления. Если заранее спланировать мероприятия по восстановлению системы, после сбоя можно быстро вернуться к нормальной ситуации. Для Exchange Server 5.5 процесс восстановления единого IS более длительный, так как приходится реанимировать все IS. Если используется Exchange 2000 Enterprise Server, то можно вернуть IS в нормальное состояние по частям.
Обычный метод резервирования базы IS — это ночное полное копирование на ленту с циклической заменой лент. Восстановление баз данных (.edb) с ленточных устройств выполняется со скоростью от 15 до 30 Гбайт/ч для технологии DLT и несколько медленнее для других ленточных технологий или при передаче данных через сеть.
Утилита Windows 2000, Ntbackup, позволяет выполнять оперативное резервирование Exchange 2000 и Exchange Server 5.5 на диск. Затем можно сохранить результирующий файл .bkf на ленте. Достоинство такого метода в том, что при возникновении проблемы с хранилищем IS можно напрямую задействовать копию с диска, вместо того чтобы загружать ленту. Восстановление с диска обычно идет быстрее, чем с ленты.
Если средства позволяют, лучше использовать передовые технологии резервирования — клонирование, кадрирование и репликацию данных. В этом случае восстановление будет выполняться гораздо быстрее (например, если должны соблюдаться требования соглашения об уровне обслуживания - Service level agreement, SLA). Клонирование — это функция зеркальной системы хранения уровня RAID 0+1. Клоном в этом случае является третий зеркальный комплект данных. Извлечение клона требует остановки служб Exchange Server, поскольку нужно согласовать состояние баз данных. Такая технология влияет на время восстановления, и в SLA обычно предусмотрены кратковременные отключения, продолжительностью менее часа.
Для запуска программ проверки целостности необходимо подсоединить к клону другой компьютер в SAN. После этого можно провести автономное резервирование на ленту. Для восстановления полностью разрушенной базы данных нужно сделать клон основным диском зеркального набора и перевести Exchange Server в интерактивный режим. Если база данных большая, то перевод в оперативный режим может продолжаться от нескольких минут до нескольких часов. Контроллер RAID должен перестроить зеркальный набор в фоновом режиме, а это приводит к значительному снижению производительности.
Кадр — это копия состояния диска в определенный момент времени. Программное обеспечение кадрирования, работающее на уровне операционной системы или контроллера RAID, создает карту диска. Изменения на исходном диске отображаются в кадре.
Некоторые программы кадрирования позволяют передавать данные в другие системы. Такая возможность бывает полезна, когда нужно протестировать приложение, не подвергая риску рабочую базу данных. Целесообразно использовать также кадр, когда требуется восстановить отдельный элемент или почтовый ящик. Восстановление с кадра похоже на восстановление с ленты. Традиционный метод восстановления отдельных элементов и почтовых ящиков предполагает восстановление всей базы IS на резервном сервере. Технология кадра позволяет избежать длительного восстановления с ленты. Вместо этого можно подключить необходимый кадр на резервном сервере и моментально извлечь нужную информацию.
Чтобы обеспечить целостность базы данных при создании кадра требуется перевести все хранилища в автономный режим. Это позволит получить полный доступ к дисковому тому (в Exchange 2000 необходимо отключать каждое хранилище почтовых ящиков и общих папок, тогда как в Exchange Server 5.5 достаточно отключить только службу IS). Некоторые производители совмещают технологию кадра с оперативным резервированием. В этом случае целостность базы данных гарантируется.
Репликация данных помогает избежать серьезных сбоев, таких, как нарушение работоспособности вычислительного центра. Репликация базы данных IS может выполняться в удаленный филиал в режиме реального времени. База технологии (т. е. оптические каналы, ATM) определяет, на какую дистанцию могут быть переданы данные. Средства репликации данных обычно включают специализированное высококлассное аппаратное обеспечение (например, Ma-rathon Exchange Servers от фирмы Marathon Technologies или Compaq SANworks Data Replication Manager) или специализированное программное обеспечение (например, VERITAS Software Storage Replicator). В любом случае такое решение обойдется недешево.
Мониторинг
Наблюдение и профилактическое обслуживание системы помогают предотвратить вынужденный простой. Встроенные в Exchange Server мониторы серверов и соединений имеют ограниченную функциональность, но совместимы с приложениями независимых разработчиков, такими, как AppManager Suite и PATROL. Наблюдать за серверами можно на нескольких уровнях: сетевом, аппаратном, операционной системы и приложений. Не так важно, какой именно продукт для этого используется, чтобы он применялся регулярно. Это позволит вовремя отреагировать на предупреждения и избежать серьезных проблем.
Дополнительная защита сетей
Администраторы систем Exchange Server с высокой отказоустойчивостью уделяют особое внимание защите от вирусов и сетевых атак. Без хорошей защиты работоспособность системы подвергается большому риску. Я видел разрушенные почтовыми вирусами системы Exchange Server, которые ранее считались отказоустойчивыми. Восстановление после такого сбоя продолжается часами.
Вопреки распространенному мнению, антивирусное программное обеспечение не способно решить проблему полностью. Антивирусные сканеры защищают систему от старых известных вирусов, но не могут защитить от новых. Информацию об антивирусном программном обеспечении можно найти в статье Тони Редмонда «Великий антивирусный поход» (http://www.osp.ru/win2000/worknt/ 2001/04/437.htm).
К тому же необходимо научить пользователей правильно обращаться с подозрительными файлами, присоединенными к сообщениям. Администраторы должны настроить систему так, чтобы ограничить возможные разрушения от вирусных атак. Для Microsoft Outlook выпущены исправления к системе безопасности, а Outlook 2002 имеет в настройках безопасности дополнительные пункты, которые обеспечивают защиту от вирусов.
Приобрести антивирусное программное обеспечение для защиты системы недостаточно. Необходимо быть в курсе последних событий, изучать периодические издания и устанавливать последние исправления. Если используется Exchange 2000, то можно прибегнуть к возможностям Windows 2000 Server. О взаимодействии и интеграции Exchange 2000 и Windows 2000 рассказано в статье Жана де Клерка «Системы безопасности Exchange 2000 и Windows 2000» (http://www.osp.ru/win2000/worknt/ 2001/04/416.htm).
Организации, которые используют системы Exchange Server с высокой степенью отказоустойчивости, имеют собственный богатый опыт эксплуатации. Этот опыт очень важен, даже если технологии меняются каждые пять лет. И если собственные сотрудники не могут что-то сделать, привлекаются специалисты из других организаций.
Для отказоустойчивых систем вынужденный простой не должен превышать 52 мин в год, не считая случаев отключения питания в рабочих помещениях и плановых перерывов. Но чем подсчитывать минуты простоя, лучше попытайтесь применить на практике приведенные здесь советы, и, может быть, в один прекрасный день вы окажетесь как раз тем экспертом по Exchange Server, которого кто-то срочно разыскивает.
Эван Моррис - консультант по системам сообщений в подразделении Knowledge Management and Messaging компании Compaq. Имеет сертификаты MCSE, MCT, и Master ASE. С ним можно связаться по адресу: evan.morris@compaq.com.
Сравнение RAID 5 и RAID 0+1
Если планируется организовать хранилище для системы Microsoft Exchange Server, придется пожертвовать несколькими носителями для создания отказоустойчивого массива RAID. Для томов RAID уровней 1 и 0+1 более 50% дискового объема будет потеряно ради отказоустойчивости. Для томов RAID уровня 5 принесенное в жертву дисковое пространство в процентном соотношении эквивалентно единице, поделенной на n, где n — общее количество жестких дисков (или шпинделей) в массиве. Например, в наборе из пяти жестких дисков по 18 Гбайт один жесткий диск будет отдан под хранилище размером в 72 Гбайт.
Существует два типа RAID уровня 0+1. Для первого типа данные сначала разделяются на блоки, а затем записываются на зеркальные диски. Второй тип более устойчив к сбоям, так как допускает повреждение нескольких жестких дисков, являющихся зеркальными в одном чередующемся наборе блоков данных. На Рисунке А показан том уровня RAID 5 и два типа томов уровня RAID 0+1.
Несмотря на то что массив RAID уровня 5 требует меньше инвестиций в жесткие диски, его производительность в случае высокой нагрузки снижается. Недостаток RAID 5 заключается в том, что для поддержания отказоустойчивости обновление любого диска в составе набора требует обновления информации о четности. Для обновления информации о четности программное обеспечение RAID должно прочитать все устройства набора, что, естественно, требует времени. Так как массив RAID уровней 1 и 0+1 поддерживает отказоустойчивость благодаря использованию зеркальных дисков, он не связан с обновлением информации, необходимой для контроля четности.
Удивительно, но в больших системах Exchange Server высокопроизводительные тома RAID 0+1 могут использовать меньше жестких дисков, чем тома RAID 5. При высокой нагрузке от операций чтения для больших почтовых ящиков (например, более 50 Мбайт на пользователя) RAID 0+1 превосходит RAID 5 по операциям ввода/вывода. Для подсчета количества жестких дисков, необходимого для баз данных Exchange 2000 Server на томах RAID 0+1, можно использовать программу Compaq Solution Sizers Exchange 2000 Storage Planning Calculator (по адресу: http://www.compaq.com/activeanswers).