Архитектура систем высокой отказоустойчивости

Статей, посвященных идеям и стратегиям создания систем высокой отказоустойчивости, более чем достаточно, также нет недостатка и в статьях, описывающих устройство компонентов таких систем. В этой статье рассказывается о том, как внедрить подобные компоненты в информационную инфраструктуру предприятия. Здесь собраны ценные заметки по настройке файлового сервера Windows 2000, Web-сервера и DNS-сервера высокой отказоустойчивости.

Фазы управления высокой отказоустойчивостью

Отказоустойчивость приложения обратно пропорциональна общему простою приложения на протяжении данного периода времени (обычно месяца), а общий простой - это просто суммарная длительность всех остановок. Для того чтобы повысить отказоустойчивость системы, необходимо уменьшить длительность остановок, уменьшить частоту сбоев или и то, и другое. Прежде чем обсуждать полезные технологии, обратимся к фазам восстановления после сбоя.

В случае серьезной аварии, возможно, придется создавать новый сервер с нуля и восстанавливать все данные и службы за ограниченный промежуток времени. Предположим, что необходим уровень отказоустойчивости (SLA) в 99,5 %, и сбои происходят только раз в месяц. О том, как рассчитывать отказоустойчивость в процентах, рассказано во врезке "Измерение уровня отказоустойчивости". В течение 3 часов 43 минут с момента аварии работа будет состоять из следующих пяти стадий:

1. Фаза диагностики. Диагностируйте проблему и определите подходящий способ ее решения.

2. Фаза поставки оборудования. Идентифицируйте неисправное оборудование, программное обеспечение и средства резервного копирования, найдите им замену, привезите и выполните физическую сборку.

3. Фаза подготовки к восстановлению. Выполните настройку системного оборудования и установите базовую операционную систему.

4. Фаза восстановления. Восстановите систему со средств резервного копирования в полном объеме, включая системные файлы и пользовательские данные.

5. Фаза тестирования. Проверьте функциональность всей системы и целостность пользовательских данных.

Независимо требований по поводу качества обслуживания, необходимо знать, как долго длится та или иная фаза. Каждая фаза может преподнести сюрприз в виде неожиданной задержки. Например, ничем не ограниченная фаза диагностики может съесть львиную долю имеющегося в распоряжении времени. Для того чтобы ограничить время, которое инженеры службы технической поддержки затрачивают на диагностику проблем, установите правило принятия решений, чтобы инженеры переходили к следующей фазе – фазе поставки оборудования – если в течение 15 минут они не могут выяснить, в чем дело. Фаза поставки оборудования тоже может затянуться, если средства резервного копирования хранятся на рабочем месте, и приходится ждать их доставки. В конце концов, во время этой доставки может произойти все, что угодно. Не думайте, что 3 часа 43 минуты - короткий промежуток времени для восстановления службы, на самом деле в вашем распоряжении может оказаться только два часа на выполнение собственно фазы восстановления.

Проект файлового сервера высокой отказоустойчивости

Файловому серверу не требуется большой скорости процессора или большого объема памяти. Для поддержки 500 пользователей и 200 Гбайт данных можно использовать один небольшой сервер, такой как Compaq ProLiant DL380 с двумя процессорами Pentium III и 512 Мбайт памяти. С минимальным набором аксессуаров такая конструкция будет стоить в розницу примерно 9700 долларов. Если использовать устройство DLT со средней скоростью передачи 5 Мбайт/сек, то процесс восстановления 200 Гбайт данных займет 666 минут или 11 часов 6 минут. Добавьте час на диагностику, доставку, подготовку и проверку, получите 726 минут на восстановление после сбоя. Если предположительно происходит одна авария за 31 день (44 640 минут), то за 9700 долларов покупается файловый сервер с уровнем SLA в 98,37 %.

Увеличивая отказоустойчивость файловых серверов, можно идти обычным путем: сокращать время, необходимое для восстановления общих каталогов и данных при сбое, и уменьшать частоту сбоев. Многие технологии сконцентрированы на этих стратегиях для файловых серверов. Для начала рассмотрим основные достижения, в которых используются следующие возможности: декомпозиция данных, технологии моментального снимка для резервного копирования/восстановления и отказоустойчивые системы.

Декомпозиция данных. В конфигурации на Рисунке 1 FileServer2 содержит производственные данные, FileServer3 – изображения и т.д. Для того чтобы сделать это разбиение на разделы прозрачным для пользователя, можно воспользоваться такой технологией как Microsoft Dfs, которая позволяет создать виртуальную файловую систему из разных физических узлов сети. Пользователь, открывающий каталог \fileserver1\share, увидит структуру каталога и данные, как если бы они находились на FileServer1, в то время как некоторые данные могут физически находиться на FileServer2.

В Таблице 1 показана отказоустойчивость, которой можно добиться с помощью декомпозиции данных. Эта таблица использует типичную формулу SLA, и при ее создании предполагалось, что после сбоя восстанавливается только один сервер. Относительная стоимость затрат уменьшается по мере того, как добавляются серверы, и по мере того, как уменьшается число и объемы дисков на серверах. Конечно, декомпозиция - дорогая функция по сравнению со стоимостью серверного оборудования, поэтому нужно решить, можно ли обойтись незапланированными простоями продолжительностью в среднем 12 часов 6 минут (726 минут) в месяц. Возможно, имеет смысл потратить лишние 23 800 долларов (33 500 минус 9700) и сократить это время до 3 часов 13 минут (193 минут). Декомпозиция данных особенно дорога, если имеется огромное количество данных и нужны десятки серверов или больше.

Мгновенное резервное копирование и восстановление. Альтернатива декомпозиции данных – применение более быстрых технологий. Высокоскоростные ленточные накопители не обязательно обеспечивают резкий скачок в работе системы, поэтому нужно будет использовать технологии мгновенного резервного копирования и восстановления, которые обычно поставляются независимыми поставщиками систем хранения данных для предприятий (EMC, Compaq). Будущие продукты мгновенного копирования могут сильно изменить ситуацию, но пока приходится обращаться к продавцам систем хранения данных для предприятий.

На Рисунке 2 показана среда Storage Area Network (SAN). Оборудование SAN подключается к серверу по волоконно-оптическому каналу (желательно также наличие резервного), что открывает доступ к файловой системе SAN как к локальной. Для выполнения быстрого резервного копирования (обычно измеряемого секундами) можно воспользоваться утилитой мгновенного копирования на стороне SAN, затем почти также быстро можно восстановить данные с носителя резервной копии. До тех пор, пока мгновенные копии создаются относительно часто, можно восстанавливать данные в соответствии с самыми жесткими условиями SLA. Средства мгновенного копирования могут оказаться и ненужными – в моей компании во второй половине 2001 года оборудование SAN от компании EMC продемонстрировало стопроцентную работоспособность, а переключатели Brocade - отказоустойчивость на 99.9999861 %, и мы никогда не сталкивались с проблемами дисков, при которых могло бы потребоваться восстановление с использованием мгновенных снимков. Если есть вероятность, что SAN может выйти из строя, установите дополнительные системы SAN с технологией дублирования серверов в случае отказа.

К сожалению, оборудование мгновенного копирования и технологии SAN стоит слишком дорого, если только SAN не заменяет сотни маленьких файловых серверов. Даже маленькая инфраструктура SAN от компаний EMC или Brocade объемом 400 Гбайт может стоить 300 000 долларов. Сравните эту цену с ценой двух серверов локального хранения объемом 200 Гбайт каждый – 19 400 – и вы узнаете настоящую цену высокой отказоустойчивости. Стоящие поставщики, продающие по разумным ценам SAN и подключаемые к сети системы хранения, существуют, поэтому прежде чем сделать окончательные выводы о стоимости SLA, постарайтесь рассмотреть все предложения рынка.

Отказоустойчивые системы. Две предыдущие стратегии повышения уровня отказоустойчивости основаны на сокращении времени, необходимого для восстановления сервера и данных. Третья стратегия состоит в применении дополнительных систем, которые продолжают непрерывно обслуживать клиента при сбое на одной из систем. Можно подключать резервные компоненты разных видов – серверы, диски, сетевые контроллеры, системы бесперебойного питания, переключатели и т.д. Многие из этих компонентов легко подключать и они относительно недороги. Например, если добавить дополнительные сетевые контроллеры, источники питания и контроллеры дисков к вышеупомянутой системе ProLiant DL380, то ее цена возрастет с 9700 долларов примерно до 11 600. Но стоит ли тратить эти деньги? Моя компания сталкивается менее чем с 0,025 процентами сбоев в этих компонентах. Не исключено, что самый важный – и, несомненно, самый дешевый – элемент, который нужен это UPS. Если в компании нет UPS, то отложите статью и установите хотя бы один, прежде чем читать дальше.

Рассмотрим три технологии, использующие дублирование данных и дополнительные серверы: Dfs, RAID и кластеры серверов. Компьютер на Рисунке 1 распределяет пользовательские данные по нескольким физическим устройствам и применяет Dfs для простого и логичного представления данных. Если есть точная копия какого-либо каталога, например каталога \products, то можно содержать и оригинал, и реплицированный каталог под одним именем Dfs. Когда пользователи перемещаются по дереву каталогов в Windows Explorer и доходят до каталога \products, они могут видеть как оригинальные, так и реплицированные данные. Dfs не требует, чтобы данные, находящиеся в разных ресурсах, были идентичными, но можно настроить Dfs на репликацию данных по расписанию. Если сбой происходит на сервере, содержащем реплицированные данные, пользователи могут открывать файлы там, где они были расположены изначально – своего рода отказоустойчивый сценарий. Если настроить множественные реплики, то работы будет еще меньше. Если вы хотите, чтобы наряду с реплицированными копиями данных дублировались каталоги высокого уровня, нужно создать отказоустойчивый корневой каталог Dfs. Более подробную информацию можно найти в документации по Dfs. Любые данные, не записанные на диск, конечно, будут утеряны, равно как и данные, не подвергнутые репликации. Процесс репликации Dfs плохо приспособлен для быстро меняющихся данных, поэтому нужно тщательно оценить эту технологию и решить, соответствует ли она конкретному SLA.

В Dfs можно настроить репликацию данных между серверами. RAID помогает в распределении и репликации данных между дисками одного сервера. Теоретически диски компьютеров обладают необыкновенно высокой надежностью – например, специалисты Seagate Technology утверждают, что разработанный их компанией диск Cheetah 36GB Ultra 160 SCSI имеет промежуток работы без сбоев (MTBF - mean time between failures) продолжительностью 1 200 000 часов, что означает не более одного сбоя каждые 137 лет. Но это значение MTBF неоправданно высокое. Сбои в работе жестких дисков весьма распространены, и они зачастую имеют чисто внешние причины. В нашей компании жесткие диски - это оборудование, которое требует наиболее пристального внимания. Мы ремонтируем или заменяем в среднем по 66 дисков в год в одном центре хранения и обработки данных, содержащем приблизительно 8000 дисков различного возраста. Специалисты компании Executive Software провели исследование, результаты которого опубликованы на сайте http://www.execsoft.com/diskalert/reviews/hard-drive-survey.asp под названием "Survey.com Hard Drive Issues Survey". Оказалось, что 62 % IT-администраторов центров хранения и обработки данных расценивают сбои в работе жестких дисков как самую серьезную проблему с дисками и считают, что средняя продолжительность жизни любого диска SCSI составляет от 3 до 4 лет. Однако если применить отказоустойчивую технологию RAID, сбои в работе дисков не будут приводить к простоям. Технология RAID уровня 1 создает образы дисков в реальном времени: если на одном из дисков происходит сбой, другой диск продолжает функционировать как обычно, и производительность компьютера не ухудшается, хотя в этот момент он работает без резерва. Изображенная на Рисунке 3 система использует RAID 1 для создания образов операционной системы и файлов подкачки. Если на каком-либо диске происходит сбой, его можно удалить и заменить исправным диском, не выключая компьютера. Контроллер RAID 1 SCSI создает копию операционной системы или файла подкачки на новом диске и восстанавливает отказоустойчивость. Сбои дисков не вызывают простоев или каких-то других негативных последствий, разве что увеличивают затраты из-за удвоения числа дисков в системе. (Дальнейшую информацию о технологии RAID можно найти на сайте Advanced Computer & Network, http://www.acnc.com/index.html)

Технология RAID уровня 5 предоставляет дополнительную отказоустойчивость, которая обеспечивается благодаря расположению порций содержимого каждого диска в виде массива для проверки четности данных. При такой конфигурации в реальном времени выполняется реконструкция поврежденных данных в случае сбоя на одном из дисков массива. Проверка четности данных уменьшает объем используемого пространства в массиве на размер одного диска. Так же, как и в RAID 1, вынимать и заменять испорченный диск можно, не выключая компьютера, но при этом придется столкнуться с небольшим снижением производительности во время сбоя. В массиве RAID 5, с точки зрения клиента, один диск из всего массива не используется, поэтому RAID 5 значительно дешевле RAID 1. Конфигурация на Рисунке 3 применяет RAID уровня 5 для хранения файлов данных. В случае сбоя одного из дисков клиент, возможно, не заметит ухудшения производительности всего массива дисков. В нашем примере, если задействованы 4 диска объемом по 72 Гбайт, получится хранилище, используемый объем которого равен 3 дискам по 72 Гбайт или 216 Гбайт для данных.

Конфигурация, изображенная на Рисунке 3, типична для систем в центрах хранения и обработки данных. В прошлом году наша компания использовала такую схему для большинства систем, и у нас не было на этих системах простоев, вызванных сбоями дисков физического характера, за исключением 66 дисков, которые пришлось заменить.

В Таблице 2 собраны оценки стоимости дублированной системы ProLiant DL380 с пользовательскими данными объемом 200 Гбайт и дисками по 72 Гбайт. Стоимость систем, оснащенных RAID, особенно высока, потому что ProLiant DL380 не может поддерживать работу 8 –10 дисков без внешнего блока, что значительно увеличивает цену. Дублирование дисков не защищает от порчи данных, вызванной проблемами с программным обеспечением, и, возможно, по ряду причин нельзя будет отказаться от резервного копирования на магнитные ленты. Дублирование данных, напротив, делает ненужным восстановление с магнитных лент при сбое дисков. Необходимо оценить свое соглашение SLA и на предмет оправданности затрат.

В зависимости от среды и оборудования следующим слабым звеном может быть либо сетевое устройство, либо серверы. Для создания избыточной серверной среды можно организовать кластер серверов на базе Windows 2000 Advanced Server.

На Рисунке 4 показан кластер, который использует технологию RAID для дисков. Конфигурацию серверного кластера можно выполнить разными способами, но основная идея одна и та же, она состоит в том, что если один сервер ломается, другой берет на себя функции вышедшего из строя сервера. В случае файлового сервера при сбое на одной из систем пользователи могут продолжить работу над документом, сохраненным в общем дисковом массиве, возможно, заметив только небольшую задержку при перемещении приложений на кластере. Между тем, администратор может отключить аварийный сервер и починить его, не мешая работе пользователей и не нарушая соглашение SLA. Закончив ремонт сервера, его снова можно подключить к кластеру и образовать резерв. Некоторые приложения в кластерной среде не поддерживаются, поэтому, прежде чем взяться за реализацию кластерного решения, нужно тщательно изучить документацию по кластерам.

В Таблице 3 собраны сведения о стоимости избыточной серверной среды из двух серверов ProLiant DL380 с одинаковой конфигурацией и 200 Гбайт данных, находящихся в общем внешнем дисковом массиве. Таблица содержит приблизительные цифры. В рекомендуемом компанией Compaq решении общий канал SCSI заменяется волоконно-оптическим каналом, но я сохранил SCSI для того, чтобы не росла цена. Кроме того, поддержка кластера может включать дополнительные затраты на программное обеспечение и операционную систему – например, для установки одного файлового сервера достаточно Windows 2000 Server, тогда как для установки кластера требуется Windows 2000 AS.

Использование избыточной серверной среды не позволяет сократить время, необходимое для восстановления данных (в отличие от декомпозиции), и не создает резервных копий данных (в отличие от RAID). Эта конфигурация лишь повышает отказоустойчивость сервера, который выступает для пользователя в роли хранилища данных. Если слабое звено - не сервер, то, может быть, серверный кластер и не нужен. Например, в нашем центре хранения и обработки данных меньше одного процента клиентов сообщили, что стоимость кластерного файлового сервера оправдывает обеспечиваемую им дополнительную надежность.

Проект Web-сервера высокой отказоустойчивости

В средствах массовой информации можно найти много статистических данных об отказоустойчивости Web-серверов. В частности, можно вспомнить журнал Keynote Systems, в котором публикуются индексы Keynote Government 40 Index и Keynote Business 40 Index. 29 октября 2001 года индексы отказоустойчивости Web-сайтов ФБР, Библиотеки Конгресса и Верховного Суда составили соответственно 99,24 %, 99,96 % и 99,62 %. Точно так же во время рождественских каникул средний уровень отказоустойчивости Web-сайтов десяти крупнейших супермаркетов (Nordstrom, Neiman Marcus, Saks Fifth Avenue) составил 98,5 %. Как им удается добиться такого уровня отказоустойчивости Web-серверов?

Пространство для маневра в области высокой отказоустойчивости Web-сервера Microsoft IIS и файлового сервера практически одно и то же. За счет правильной конфигурации системы можно сократить время, необходимое для восстановления служб и данных после сбоев и уменьшить частоту сбоев. Но, помимо приемов, используемых для файловых серверов, в распоряжении пользователей есть еще две функции Windows 2000 AS и IIS: виртуальные каталоги для декомпозиции данных и распределение нагрузки в сети (Network Load Balancing - NLB) для зеркальных серверов.

Декомпозиция данных в среде Web-серверов подобна декомпозиции файловой системы. Основное отличие состоит в том, что для обеспечения единого пространства имен в IIS используется технология виртуальных каталогов вместо Dfs. Например, предположим, что есть несколько серверов (FileServer1, FileServer2 и так далее), один из которых будет Web-сервером (FileServer1). Настройка файловых серверов выполняется так же, как ранее, а затем производится назначение FileServer1 в качестве Web-сервера. С помощью инструмента Internet Services Manager (ISM) из корневого каталога Web-сервера формируется ряд виртуальных каталогов. Для этого в ISM нужно щелкнуть правой кнопкой по корневому каталогу Web-сайта в FileServer1 и выбрать New, Virtual Directory. Дайте каталогу имя (например, \products) и укажите полный путь как \fileserver2\products. Когда пользователи заходят в корневой каталог Web-сайта, они получают доступ к странице Products, как если бы она была на корневом Web-сервере, но на самом деле данные находятся на сервере FileServer2. Созданная таким образом Web-ферма при этом кажется пользователю одним Web-сайтом.

В случае простого файлового сервера для уменьшения частоты предполагаемых сбоев можно использовать резервный сервер (кластер на Рисунке 4). В случае Web-сервера имеется дополнительная возможность, похожая на реплики Dfs в отказоустойчивом файловом сервере. Поскольку первоначально чтение индивидуальных страниц документа происходит по протоколу, не использующему информацию о состоянии, наличие последующих обращений к одному или другому серверу несущественно. Поэтому можно обеспечить практически незаметное для пользователя переключение между серверами в фоновом режиме. Для настройки таких переключений можно воспользоваться службой NLB в составе Windows 2000 AS.

На Рисунке 5 изображен пример Web-фермы, состоящей из четырех одинаковых серверов. В этом примере наилучшей стратегией будет построение резервных серверов, каждый из которых содержит 200 Гбайт данных. Для того чтобы гарантировать идентичность данных на каждом сервере, информацию можно дублировать с помощью такой службы как Dfs и File Replication Service (FRS) в Windows 2000, или воспользоваться решениями независимых разработчиков, осуществляющими такой тип репликации. В среде, состоящей только из компонентов Microsoft, можно использовать службы Site Server 3.0 Content Deployment Service или Application Center 2000 Synchronization Service. Затем на всех серверах устанавливается и выполняется настройка службы NLB так, что все серверы имеют один общий виртуальный IP-адрес (VIP-адрес).

Когда пользователь подключается к Web-сайту на базе кластера, служба NLB определяет, какой сервер отвечает пользователю. Эта операция зависит от конфигурации NLB. Например, в случае URL-адреса http://www.usi.net может ответить сервер /www1.usi.net. При отказе одного из серверов служба NLB просто выполняет очередной пользовательский запрос через один из оставшихся серверов. Чем больше серверов создано, тем меньше сбой одного сервера повлияет на выполнение условий соглашения SLA. Если имеется два сервера, на каждый из которых приходится по 50 % пользовательского трафика, то сбой одного сервера увеличивает загрузку другого до 100 %. Если 5 серверов, то сбой одного из них увеличивает загрузку остальных с 20 до 25 %. Пока есть достаточный резерв для поддержания на время отключения аварийного сервера приемлемого для пользователя качества работы, соглашение SLA будет выполняться за счет сокращения числа сбоев, которые влияют на работу пользователей, или даже за счет полного избавления от них.

Интересно сравнить стоимость резерва, обеспечивающего высокую отказоустойчивость Web-сервера, со стоимостью декомпозиции данных файлового сервера. В сценарии на Рисунке 1 серверы все вместе имеют 200 Гбайт доступного дискового пространства для пользовательских данных, в то время как в сценарии на Рисунке 5 требуется, чтобы каждый Web-сервер содержал 200 Гбайт дискового пространства. Далее, файловые серверы на Рисунке 1 могут быть маломощными, независимо от того, пять серверов используется или один. С другой стороны Web-серверы более требовательны к процессору и памяти. Если есть только один процессор, нужна более мощная машина, например, ProLiant DL580 с четырьмя процессорами и памятью объемом 2 Гбайт. Если требуется поддержка нескольких Web-серверов, то, вероятно, можно обойтись компьютером ProLiant DL380 из примера, изображенного на Рисунке 1.

В Таблице 4 показаны относительные цены. Стоимость одного большого сервера больше, чем стоимость нескольких маленьких. Одна из причин более высокой стоимости состоит в том, что компьютеру ProLiant DL580 нужен внешний массив дисков. Иногда несколько резервных серверов, вместе со службой балансировки нагрузки, с теоретическим уровнем SLA в 100 %, бывают дешевле, чем один сервер, не имеющий никакого резерва.

На больших общедоступных Web-сайтах для достижения высокой отказоустойчивости применяют сочетание различных технологий. На Рисунке 6 показан один метод комбинирования стратегий в среде, насчитывающей большое количество компонентов высокой отказоустойчивости. Этот сценарий использует резервные первичные Web-серверы, оснащенные механизмом балансировки нагрузки, поэтому у пользователя всегда будет возможность подключиться к сайту. Наличие серверных кластеров гарантирует, что любой сервер всегда доступен для выполнения запросов на уровне системных файлов. Наконец, для того чтобы обеспечить отказоустойчивость данных, система предприятия для доступа к SAN использует резервную линию волоконно-оптической связи. Только число серверов в начальных и конечных кластерах и любые коммуникационные компоненты между клиентом и сервером ограничивают уровень устойчивости к сбоям этой архитектуры. Более подробную информацию об этом типе комбинированной архитектуры можно найти в статье Microsoft "Web Server Load Balancing and Redundancy".

Проект отказоустойчивого сервера DNS

Способ построения отказоустойчивого сервера DNS во многом похож на способ создания файлового сервера. Отличие состоит в том, что количество данных в последнем случае обычно значительно меньше. Беспокойство, как правило, вызывает не время, необходимое для восстановления данных, а уровень отказоустойчивости сервера DNS. Поэтому, видимо, не стоит заботиться о решениях, сокращающих время восстановления сервера DNS. Архитектура должна гарантировать, что клиент, пославший запрос на разрешение имен, всегда может найти тот сервер DNS, который содержит данные для конкретного домена. Самое сложное решение по достижению высокой отказоустойчивости сервера DNS потребует всего лишь двух или трех серверов, содержащих полные копии всех главных записей, доступ к которым необходимо обеспечить.

Когда Internet-клиенту нужно найти IP-адрес какого-либо сервера в домене, он посылает запрос на разрешение имен в DNS, который вызывает ряд событий, заканчивающихся отправкой запроса серверу DNS от имени клиента. Например, записи на корневых серверах о моей компании содержат сведения, что у нас имеется 4 сервера DNS. Если клиент вводит в окне браузера адрес http://www.usi.net, то DNS-запрос в конце концов приходит на один из четырех серверов DNS, который отвечает адресом нашего Web-сервера. При наличии нескольких адресов серверов DNS, клиенты DNS могут направлять запросы к любым DNS-серверам, и если один из DNS-серверов недоступен, клиенты могут запрашивать другие серверы. В результате клиент обслуживается непрерывно, даже если на одном из серверов DNS происходит сбой. Для сравнения, на момент написания статьи Cisco Systems зарегистрировала два сервера DNS, IBM зарегистрировала четыре, а Microsoft - шесть.

Для создания резервных DNS-серверов следует установить службу DNS как минимум на два сервера. На одном из этих серверов с помощью DNS Manager добавляется главная информация о домене. На всех остальных серверах DNS Manager используется для указания статуса сервера как вторичного сервера DNS в домене, и что он должен копировать главные данные с первичного сервера DNS. Служба DNS берет на себя заботу о начальной репликации данных с первичного сервера на вторичные серверы, а также о любой последующей репликации обновлений, если данные на первичном сервере меняются. В среде Windows 2000 можно выполнить настройку, при которой данные DNS будут содержаться в Active Directory (AD), в этом случае о пересылке DNS позаботится служба репликаций AD, и нет необходимости разделять серверы на первичный и вторичные. Помимо увеличения числа вторичных DNS-серверов, для повышения отказоустойчивости можно создать промежуточные серверы DNS, которые будут просто хранить в памяти ответы DNS-серверов, и не будут содержать базу данных DNS. Эти серверы кэширования снижают нагрузку на первичный и вторичные серверы DNS, за счет уменьшения числа запросов, направленных на серверы DNS. Записи DNS могут храниться в памяти любого числа других серверов DNS в Internet, повышая скорость разрешения имен без каких-либо затрат.

Что нам стоит дом построить

Необходимо решить, какой вам требуется уровень отказоустойчивости, и какие компоненты следует применять для достижения выбранного уровня. В данной статье мы остановились на проектах построения простых систем высокой отказоустойчивости на базе Windows 2000. Несмотря на то, что более сложные приложения – такие, как Microsoft Exchange 2000 Server и Microsoft SQL Server 2000 – требуют иного подхода к конфигурации, вы можете использовать многие конструктивные элементы, описанные в этой статье.

Спирос Сакелларидис - редактор Windows 2000 Magazine, вице-президент и директор по технологиям подразделения Enterprise Applications Business Unit компании USInternetworking в Вашингтоне. Автор книги «The Microsoft Exchange Server Internet Mail Connector» (Duke Press). С ним можно связаться по адресу: spyros.sakellariadis@usi.net.

Рисунок 1. Образец сценария декомпозиции данных.

Рисунок 2. Среда SAN.

(1) Главные шинные адаптеры HBA1 и HBA2.

(2) Волоконно-оптическое соединение.

(3) Волоконно-оптический коммутатор.

(4) Волоконно-оптические адаптеры FA1 и FA2.

Рисунок 3. Схема применения отказоустойчивой технологии RAID.

(1) Блок образов дисков RAID 1, дисковод C: загрузочный модуль, операционная система.

(2) Блок образов дисков RAID 1, дисковод D: файл подкачки.

(3) Блок RAID 5 с чередованием контроля четности, дисковод E: данные

Рисунок 4. Серверный кластер, усиленный технологией RAID.

(1) Общая сеть с IP-адресами.

(2) Кластерное взаимодействие.

(3) Частная сеть с IP-адресами.

(4) Кластерные внутренние серверы (RAID 1 для операционной системы и файлов подкачки).

(5) SCSI или волоконно-оптическое соединение.

(6) Хранилище SCSI с разделенным доступом в виде массива дисков (RAID 5 для файлов с данными).

Рисунок 5. Образец Web-фермы.

Рисунок 6. Архитектура Web-узла высокой отказоустойчивости.

(1) Внешние серверы, оснащенные балансировкой нагрузки.

(2) Внутренние кластерные серверы.

(3) Волоконно-оптический коммутатор.

(4) SAN предприятия.