Концепции объединения компьютеров и мониторинг

Применение универсальных систем передачи и обработки сообщений (Unified Messaging) уже стало обыденной практикой, поскольку подобное решение формирует единую коммуникационную платформу для обмена электронной почтой, факсами, сообщениями SMS и голосовой почтой. Поэтому для коммуникации внутри предприятия готовность всей системы является важным фактором, что предполагает обеспечение высокого уровня отказоустойчивости.

РАЗЛИЧНЫЕ СТРАТЕГИИ

Повышенной готовности такой составной системы, как внутрикорпоративные коммуникации, вместе со всеми задействованными в ней аппаратными и программными компонентами можно добиться двумя способами:

во-первых, объединенная система реализуется избыточным образом — при отключении (вследствие ошибки или отказа в обслуживании) какой-либо ее составляющей остальные берут на себя поддержку необходимых процессов;
во-вторых, каждый компонент, взятый в отдельности, может сам по себе отличаться высоким качеством, благодаря чему его отказ становится маловероятным. При этом следует использовать только компоненты, которые успешно прошли проверку на длительность работы или производятся компаниями, получившими широкое признание на рынке.

Обычно для достижения высокой готовности объединенной системы применяется концепция, предусматривающая оба варианта: избыточность и максимально возможную надежность отдельных компонентов. Считается, что система обладает достаточной готовностью, если она в состоянии выполнять задачи, для решения которых и создавалась. Готовность системы вычисляется как процентное соотношение времени работы и времени простоя за год:

готовность = (время работы)/(время работы + время простоя).

ПОВЫШЕННАЯ ГОТОВНОСТЬ: ОПРЕДЕЛЕНИЕ

В то время как для одних готовность системы в 99% — 3,6 суток простоя в год — уже является высокой, другие специалисты в области информационных технологий устанавливают для нее максимальное значение в 99,99%, т. е. 52 мин простоя. При этом учитывается не только средний период времени между профилактическими работами (Mean Time Between Maintenance, MTBM), т. е. запланированные простои, необходимые, к примеру, для проведения работ по техническому обслуживанию, но и большое значение придается среднему времени безотказной работы (Mean Time Between Failure, MTBF) и среднему времени восстановления работоспособности (Mean Time To Repair, MTTR). Под MTBF понимают среднее время между двумя последовательными отказами. Параметр MTTR обозначает среднее время, необходимое для восстановления работоспособности системы после отказа. Ниже будут представлены различные концепции, применение которых положительно сказывается на обоих указанных параметрах в случае реализации универсальных систем передачи и обработки сообщений.

ПОВЫШЕНИЕ MTBF

При реализации универсальной системы передачи и обработки сообщений, обладающей повышенной готовностью, необходима комплексная точка зрения на все используемые компоненты — как на аппаратные средства, так и на программное обеспечение. Общая готовность системы складывается из готовности отдельных компонентов, поэтому каждый из них должен отвечать требованиям, предъявляемым к его готовности. И если отдельные аппаратные компоненты, в частности вентиляторы, жесткие диски или сетевые карты, могут быть реализованы в отдельном сервере избыточным образом, то для программного обеспечения, состоящего из операционных систем и служб, на каком-либо персональном компьютере такого добиться невозможно.

Для достижения необходимой избыточности и обеспечения тем самым высоких значений MTBF применяются компьютерные кластеры — эта концепция уже успешно проявила себя и стала довольно популярной. Решение Unified Messaging устанавливается на несколько компьютеров, объединенных между собой в сеть, с сохранением его конструктивной идентичности, т. е. с одинаковой производительностью каналов и услуг. Извне объединенные в сеть компьютеры выглядят как одна система. При отказе сервера Unified Messaging другие серверы смогут взять на себя задачи обработки сообщений.

В зависимости от архитектуры различают решения с резервными и параллельно работающими компонентами. В системе с резервированием, когда применяется активно-пассивная кластеризация, в процессе нормальной работы лишь один сервер берет на себя обработку всего трафика сообщений, тогда как другой остается пассивным и предназначается для подмены основного при отказе. Службы Unified Messaging остаются недоступными лишь на время переключения.

В системах с параллельно работающими компонентами время переключения может быть исключено полностью. Кроме того, имеющиеся ресурсы оптимально используются и в процессе нормальной работы: при такой активно-активной кластеризации все инсталлированные системы Unified Messaging обрабатывают трафик сообщений параллельно. Распределение задач происходит по принципу балансировки нагрузки. При отказе одной из систем остальные берут на себя обработку «оставшихся без присмотра» текущих заданий.

В рамках концепции повышенной готовности важную роль в системах Unified Messaging играют как хранение сообщений, так и их передача. Решения Unified Messaging, в которых используются собственные системы хранения сообщений, должны быть защищены отдельно и не зависеть от средств безопасности сервера обмена сообщениями. Напротив, в случае решения с действительно единой системой хранения, когда сообщения Unified Messaging хранятся, к примеру, на сервере Microsoft Exchange, механизмы обеспечения повышенной готовности для электронной почты автоматически применяются и к сообщениям Unified Messaging.

Однако вне зависимости от места хранения в случае отказа сообщения должны стать снова доступными как можно быстрее, причем как входящие, так и исходящие. В проблемной ситуации нестандартные решения, скажем транспорт сообщений при помощи интерфейса прикладного программирования для электронной почты (Messaging Application Programming Interface, MAPI), предлагают лишь ограниченные возможности доступа, и зачастую не все стоящие в очередях сообщения подвергаются обработке. При транспорте сообщений в соответствии с простым протоколом пересылки электронной почты (Simple Mail Transfer Protocol, SMTP), т. е. с применением распространенной технологии Internet, можно реализовать уже проявившие себя методы, например циклическое обслуживание (Round-Robin) при помощи созданных в службе имен доменов (Domain Name Service, DNS) записей обмена почтой (Mail eXchange, MX) с одинаковым приоритетом. При отказе системы Unified Messaging сервер обмена сообщениями автоматически передает текущие задания продолжающим работать серверам (см. Рисунок 1). Другими популярными и подтвердившими свою пригодность методами являются предоставление нескольких адресных записей (Address Records, А-Records) в DNS или использование систем балансировки нагрузки.

Рисунок 1. При отказе сервера Unified Messaging система обмена сообщениями автоматически переводит текущие задания на прочие работающие серверы.

Именно в связи с решениями Unified Messaging важно, чтобы всегда, за счет избыточности, был доступен не только исходящий, но и входящий трафик. На помощь приходят так называемые «пучки» — группы каналов, составляемые, к примеру, при помощи нескольких подключений ISDN S2M или ISDN S0. В зависимости от реализации распределение входящего трафика по разным каналам пучка может происходить линейно или циклически.

MTTR — ЧЕМ МЕНЬШЕ, ТЕМ ЛУЧШЕ

Рисунок 2. Инструменты для постоянного мониторинга позволяют следить за выполнением функций Unified Messaging, к тому же система способна автоматически оповещать администратора, например по электронной почте, о возникновении чрезвычайной ситуации. Наряду с увеличением MTBF значение параметра MTTR должно быть как можно меньшим. И здесь необходимо помнить о различиях между аппаратными и программными компонентами системы Unified Messaging. Так, в аппаратной области используются особые компоненты, в частности системы RAID, жесткие диски которых могут подключаться и отключаться в режиме «горячей» замены.

Небольшое значение MTTR для программных компонентов достигается путем применения систем мониторинга. Поэтому производители систем унифицированного обмена сообщениями предлагают специальные инструменты для этой цели, позволяющие следить за процессами, службами и очередями решения Unified Messaging, быстро распознать возникающие проблемы и понизить значение MTTR. Мониторинг может производиться локально на каждом компьютере или удаленно с центрального пункта. При появлении каких-либо проблем соответствующий инструмент должен прежде всего немедленно оповестить администратора по электронной почте, посредством сообщения по сети или с помощью SMS (см. Рисунок 2) — и тогда в идеальном случае к устранению проблемы приступят еще до того, как на «горячую линию» поступят первые звонки пользователей. Далее необходимо провести ряд стандартных, заранее определенных мероприятий, например перезагрузку всех служб, — в данной ситуации восстановление после ошибок может производиться автоматически, без вмешательства администратора.

ЗАКЛЮЧЕНИЕ

Высокая готовность предполагает не только поддержание в рабочем состоянии базовых производственных процессов на предприятии. Вследствие того что универсальные системы передачи и обработки сообщений приобрели большую значимость для современных предприятий, защита от отказов при обмене сообщениями стала важной темой. Поскольку каждое предприятие предъявляет свои требования к готовности собственных систем, решения Unified Messaging должны полностью вписываться в выбранную им стратегию. Предпочтение следует отдавать тем решениям Unified Messaging, которые благодаря высокой интеграции в центральную систему обмена сообщениями и ориентации на такие стандарты, как SMTP, без проблем включаются в общую архитектуру информационных технологий, а также в концепцию обеспечения высокой готовности. Весьма эффективны параллельные динамичные системы, а правильно функционирующий мониторинг, отличающийся последовательным контролем за работой системы и возможностью быстрого вмешательства, завершает реализацию принятой стратегии.

Ирис Вальтер — менеджер по связям с общественностью компании serVonic Telekommunikationsloesungen.