Критерии выбора хороших инструментов

В настоящем исследовании мы рассмотрим три наиболее существенных недостатка систем управления сетью, ведущих к негативным последствиям, и особое внимание уделим шести важным характеристикам, которые специалистам следует принимать во внимание при внедрении инструментов и процессов для управления сетью. Только так можно устранить недостатки и предотвратить связанные с ними риски.

Сетевым инженерам приходится реагировать на множество инцидентов и конфликтов. Регулярно случаются перегрузки в сети, проблемы с производительностью приложений, пропускной способностью, с настройкой сети и ее использованием. Каждый день требуется вмешательство в десятки ситуаций. Количество пользователей, устройств и приложений растет, а сотрудников, на которых возлагается возникающая нагрузка, становится все меньше.

Если бы у сетевых инженеров было достаточное количество времени и имелись инструменты, позволяющие эффективно поддерживать повседневную работу, то они смогли бы управлять изменениями, обеспечивать оптимальную производительность сетей и приложений и решали бы проблемы сразу после их возникновения. Однако в действительности специалисты по ИТ, как правило, способны только реагировать на возникающие проблемы, не имея возможности осуществлять превентивное администрирование сети.

Многие специалисты по ИТ в значительной степени полагаются на системы администрирования сетей (Network Management System, NMS), перекладывая на них принятие превентивных мер. Такая система должна контролировать доступность и производительность устройств, информировать сотрудников в случае возникновения проблем и предоставлять данные, на основании которых можно найти правильное решение.

Теоретически такой подход вполне реализуем. Практически же системы NMS хорошо справляются с контролем доступности и записью некоторых параметров производительности, однако из-за применяемых архитектур и технологий их возможности существенно ограничены. Вследствие таких ограничений реальная производительность сети и приложений измеряется недостаточно точно, а отсутствие должного уровня прозрачности не позволяет выявлять и анализировать проблемы с производительностью в сетях и приложениях.

РАСПРОСТРАНЕННЫЕ НЕДОСТАТКИ РЕШЕНИЙ NMS

Системы управления сетью оптимально подходят для осуществления контроля ошибок и настроек, инвентаризации и мониторинга специфических показателей, на основании которых можно судить об общем состоянии сети. Решения NMS представлены в различных вариантах: от простых инструментов Ping с ограниченными возможностями до сложных коммерческих систем, отличающихся повышенной прозрачностью, для управления которыми необходимо привлечение опытных специалистов. Вне зависимости от размера или сложности системы NMS, для управления производительностью и решения проблем необходимо принимать во внимание три важных аспекта:

Отсутствие взгляда со стороны конечных пользователей. Как правило, системы управления сетью базируются на централизованном контроле, однако ИТ-специалист видит не то же самое, что конечные пользователи. Производительность сети следует анализировать с более широкой точки зрения: из нескольких точек в сети, к которым относятся удаленные площадки и пользовательские рабочие места. К примеру, если сотрудник сообщает об ухудшении производительности какого-либо приложения Web, то сетевой инженер может использовать NMS для классификации проблемы. Для этого он тестирует соединение между NMS и пользователем, а также NMS и сервером, но важного отрезка соединения — от пользователя или из удаленной площадки до сервера — он не видит. Причина этого заключается в централизованном подходе к мониторингу. Производительность необходимо замерять в том месте, где находится пользователь, иначе сетевые администраторы получают неполное представление о состоянии сети.

Ложное ощущение безопасности, когда система контролирует только доступность, но не производительность. Диагностика с помощью ping или тестирование портов дают информацию об активности устройства, но ничего не сообщают о его производительности. «Красные и зеленые сигналы светофора» создают неверное представление о характеристиках сети. Системы NMS зачастую не способны определить и проанализировать реальную производительность сети и приложений, поскольку полагаются на измерение подпротоколов (к примеру, тестирование ping), которые служат заменой трафика приложений. Однако при помощи только таких индикаторов нельзя определить уровень производительности приложений с точки зрения пользователей распределенной сети.

Неэффективный поиск ошибок и нехватка подробных отчетов в реальном времени. NMS не предоставляют сетевым инженерам достаточной прозрачности для решения проблем с производительностью. Администраторы видят не реальный сетевой трафик, а лишь статистические данные и симптомы. Для выявления причин не хватает прозрачности и детализации, так как отображается не фактический трафик данных, который необходим для оценки реакции (или ее отсутствия) и поведенческих моделей приложений. Без такой прозрачности в реальном времени прямо в сетевой среде (в том числе в беспроводных сетях WLAN) специалисты никогда не смогут увидеть настоящее поведение приложений и будут реагировать, лишь когда пользователи сообщат о проблеме, вместо того чтобы заранее выявить ошибки.

РИСКИ, КОТОРЫЕ ТАЯТ СИСТЕМЫ АДМИНИСТРИРОВАНИЯ СЕТЕЙ

Из-за столь существенных недостатков системы NMS отражают лишь часть общей картины производительности системы. Поэтому предприятие подвергается рискам, которые могут повлечь за собой большие расходы.

Если проблемы невозможно сразу распознать и устранить, то это сказывается на производительности. Когда сети или приложения работают медленно или недоступны, сотрудникам остается только ждать. И это вынужденное бездействие отражается на деловых процессах. Размер убытков, вызванных подобными простоями, может варьироваться, но потери неизбежны в любом случае.

При невозможности осуществлять организованный поиск ошибок устранение проблем в сети занимает гораздо больше времени. Задача сетевых инженеров усложняется, если им не удается быстро определить и изолировать проблемный участок, будь то сервер или клиент, приложение или сеть. Это отрицательно сказывается на деятельности предприятия. Кроме того, сетевые инженеры должны уметь определять степень тяжести каждой проблемы и ее влияние на пользователей и ресурсы, чтобы установить приоритетность работ и в первую очередь заняться наиболее важными задачами.

Кроме того, неполная информация о реальном состоянии сети может привести к тому, что будут приняты ошибочные решения о неотложных капиталовложениях. Руководители предприятий часто выделяют деньги на ненужное улучшение инфраструктуры, поскольку полагают, что причины проблем в сети заключаются в ее недостаточной пропускной способности, а на самом деле сотрудники отдела ИТ просто не могут разобраться с работой сети и ее требованиями.

При оценке инструментов и процессов для контроля производительности сетей и приложений следует обращать внимание на шесть важных характеристик: в системах NMS акцент делается на доступности и снижении числа отказов в ущерб эффективности и производительности. Для реализации долгосрочных превентивных мер сетевые инженеры должны иметь возможность осуществлять ежедневный подробный мониторинг производительности и анализировать состояние важнейших сетевых устройств, соединений и приложений во всей сети. Из-за свойственных им рисков средства NMS могут стать обузой для тех предприятий, которые слишком на них полагаются, если не удастся осуществить переход от тактического (реактивного) подхода к стратегическому (превентивному).

Итак, перечислим эти шесть важных характеристик, которые необходимо принимать во внимание при рассмотрении вопроса о том, предоставляют ли инструменты и процессы системы NMS полную картину сети.

1. Полная прозрачность сети. Сетевым администраторам требуется абсолютно прозрачная сеть, то есть в любой момент времени должны быть доступны данные с соответствующей степенью детализации для каждого аспекта работы сети, особенно в том, что связано с ее реальной производительностью. Решения должны предоставлять такую прозрачность для множества точек в сети, в том числе для удаленных площадок и рабочих мест конечных пользователей. Для этого важен анализ в реальном времени непосредственно в сетевой среде (в том числе и беспроводной), который будет отражать фактический трафик данных в кабельных и беспроводных сетях.

2. Долгосрочный контроль результатов реальных измерений для раннего предупреждения. Для перехода от реактивной к превентивной стратегии необходим постоянный и долгосрочный мониторинг, позволяющий своевременно выявлять ошибки или сбои и отслеживать действительную производительность сети. Прежде всего это касается уровней служб и приложений. Одного контроля вспомогательных протоколов недостаточно. Непрерывное наблюдение за важными сетевыми маршрутами и реальными транзакциями приложений позволит получить ценные сведения о «нормальном» поведении этих компонентов. Благодаря долгосрочному сравнительному анализу тенденций сетевые инженеры смогут отличать настоящие проблемы от простых нетипичных событий.

3. Интеллектуальность и автоматизация. Иногда эффективность можно улучшить за счет использования инструментов с интегрированными базами знаний. Эти инструменты часто включают в себя так называемые экспертные функции, которые на основании исследования выборки данных указывают на возможные причины неполадок и рекомендуют подходящие меры. К примеру, специалисты по анализу пакетов могут при просмотре сетевых пакетов (Traces) применять системы правил для обнаружения потенциальных ошибок протоколов и приложений.

4. Средства и методы простого взаимодействия. Данные особенно ценны, если их можно использовать совместно. Такая возможность предоставляется, когда инструменты позволяют создавать отчеты посредством специальных функций на базе Web и реализовывать взаимодействие между несколькими группами в пределах одного предприятия. Портал на базе Web делает сеть прозрачной для пользователей и облегчает совметстную деятельность специалистов ИТ по поиску ошибок.

5. Простота внедрения, быстрая амортизация и минимальное обслуживание. Настройка одних систем длится дни и недели, в то время как другие полностью готовы к работе через час или даже через несколько минут. При выборе решения NMS важное значение имеют сроки внедрения и обслуживания. Чем больше времени специалисты тратят на настройки и обслуживание, тем меньше его остается на контроль сети, устранение ошибок, обеспечение бесперебойной работы приложений и гарантированной производительности для пользователей. Если выбранная система NMS требует больших затрат времени на установку, настройку и обучение пользователей, а для последующего обслуживания нужны соответствующие специалисты, возврат инвестиций (ROI) может затянуться.

6. Упрощение в результате консолидации. Если администраторам приходится работать с различными инструментами управления, то их лицензирование, обслуживание, обучение сотрудников и (недостаточное) взаимодействие могут существенно сократить ресурсы и снизить эффективность. По возможности инструменты должны быть многофункциональными.

ЗАКЛЮЧЕНИЕ

Если предприятие полагается на единственную и к тому же устаревшую систему управления сетью, получить полное представление о сетевом окружении не удастся — не важно, какое количество сотрудников и ресурсов выделяется для задач сетевого администрирования. Верная картина создается, только когда ИТ-отдел избавляется от ложного ощущения защищенности и обзаводится достаточным функционалом для устранения ошибок и подробного анализа. Администраторам надо предоставить такое решение, с помощью которого они смогут контролировать сеть и приложения и обеспечивать оптимальную производительность, основываясь на правильных представлениях и показателях. Только в этом случае сетевые инженеры и администраторы получат возможность принимать превентивные меры и действовать стратегически.

К примеру, решение Optiview Management Suite (OMS) компании Fluke Networks обеспечивает достаточную прозрачность и подробный анализ, необходимые для исчерпывающей оценки производительности сетей и приложений. Производитель выделяет следующие функции: измерение общего состояния сети, представление с точки зрения конечных пользователей и анализ пакетов в реальном времени. Сюда входит двунаправленное измерение производительности в разных точках: между сетью и пользователями, в критически важных соединениях, в виртуальных средах и для удаленных площадок.

Барри Линдслей — сотрудник компании Fluke Networks.