В поисках истинных причин сетевых проблем

Системы искусственного интеллекта взрослеют. Как это отразится на индустрии сетевого управления и на вашем выборе программного обеспечения?

Основные схемы сетевого управления — так много обещавшие — не оправдали ожиданий. Оказалось, что их трудно реализовать и использовать, они дороги и не соответствуют решениям в сфере информационных технологий в век Internet.

Однако ситуация меняется. Даже появившиеся в середине 1990-х гг. интегрированные платформы как универсальное средство управления начали перестраиваться. Основные новшества связаны с программными системами с элементами искусственного интеллекта для всестороннего анализа информации из различных источников. Эти решения были призваны обеспечить адаптивность, гибкость и автоматизацию процессов управления.

В данной статье рассматриваются рыночные и технические аспекты элементов искусственного интеллекта при управлении. Кроме того, в ней исследуются методы анализа истинных причин (root-cause analysis) сетевых проблем и продукты, реализующие эти методы; процессы и продукты сетевого анализа и корреляции событий; важность сотрудничества в получении эффективных решений анализа истинных причин и, наконец, влияние рынка на будущее сетевого управления.

ДЕРЕВЬЯ ЗНАНИЙ

Чтобы понять, в каком направлении развивается рынок сетевого управления, полезно представлять основные этапы его формирования. В 80-е гг. особую популярность приобрели мэйнфреймы, поддерживавшие сетевую архитектуру SNA. Соединения были гарантированными, при этом обеспечивался их автоматический учет. С тех пор программное обеспечение и сервисы сетевого управления пытаются в некотором смысле воссоздать этот «райский сад», только в более распределенной и разнородной сетевой среде.

Управлению элементами сети всегда придавалось важное значение, и до сих пор во многих организациях основное внимание уделяется общему состоянию сетевых устройств. При таком упрощенном подходе, когда проблемы решаются не в совокупности, а по частям, сеть не может служить основой для предоставления услуг бизнес-класса.

К середине 1990-х гг. рынок сетевого управления уже вполне сформировался. Объединив отдельные решения, заслуживающие внимания, платформы изменили характер работы средств сетевого управления, обеспечив общую среду для запуска многочисленных приложений управления. Однако взаимосвязи и глубокая интеграция приложений с платформой отсутствовали.

К 1996 г. ситуация изменилась: отрасль сделала поворот от систем управления сетью к созданию интегрированной среды управления системами (systems-management framework) как основы для управления всей информационной инфраструктурой предприятия. Но данный подход вел к снижению роли сети до уровня вспомогательного транспортного средства.

Сегодня термин «интегрированная среда» вызывает у большинства сетевых специалистов только раздражение. Такие средства управления обладают теми же недостатками, что и традиционные платформы управления сетью, но только многократно усиленными. Интегрированные средыы оказались более сложными и трудными для реализации, они не могли дать практичные, самонастраивающиеся решения, хотя и позволяли глубоко вникнуть в суть процесса управления. Любое изменение в сетевом окружении требовало или обновления программного обеспечения, или ручного вмешательства в процесс сетевого управления.

В условиях, когда за считанные секунды требуется сформировать, активизировать и тарифицировать новые услуги, принцип традиционных и интегрированных платформ «создай собственную философию управления» совершенно неприемлем. Сегодня такие платформы еще существуют, но они эволюционируют к новым, более автоматизированным и более интеллектуальным моделям. Платформы сетевого управления от таких поставщиков, как Computer Associa-tes (CA), Hewlett-Packard (HP) и Tivoli, перестраиваются для того, чтобы обеспечить поддержку новейших свойств.

К 1998 г. утвердилась новая модель управления. Наиболее общий подход состоит в реализации базовых функций управления (обнаружение неисправностей, управление конфигурацией, учет, мониторинг производительности и обеспечение безопасности) на уровне бизнес-услуг. Эти услуги включают сервисы приложений, виртуальных частных сетей (VPN) и всего того, что способствует получению доходов. Подход к управлению на уровне услуг предполагает новый тип автоматизации и построения программного обеспечения, когда основное внимание сосредоточено на предоставлении услуг в автоматизированном самонастраивающемся режиме, а не в виде реакции на какие-то уже произошедшие события. В настоящее время модель управления на уровне услуг начинает получать признание.

БОЛЬШАЯ ПЕРЕСТРОЙКА

Рисунок 1. В 2000 г. компания Enterprise Management Associates провела исследование пользовательских предпочтений в области решений анализа первопричин и корреляции событий. Эта диаграмма отражает главные причины инвестиций в средства анализа первопричин.

Концепция электронной инфраструктуры (e-infrastructure) объединила управление сетью, системами и приложениями в общую модель управления. По существу это разновидность управления на уровне сервиса, специально приспособленного для электронного бизнеса. В то время как управление на уровне сервиса с помощью электронной инфраструктуры способствует повышению доходности бизнеса, реализация данного подхода представляет собой непростую задачу и требует существенного обновления приемов создания систем управления.

Применение методов анализа первопричин (root-cause analysis) начало изменять рынок сетевого управления. Эксперты пока спорят о точном определении таких методов, но обычно под ними понимается поиск и изоляция неисправного элемента, послужившего первопричиной возникновения проблемы. Это может быть сетевое устройство, приложение, сервер или любой компонент такого рода объектов. Администраторы все чаще прибегают к методам анализа первопричин при решении проблем работоспособности и производительности сети.

Естественно, нужно остерегаться назойливой рекламы: большинство производителей, предлагающих средства по выявлению и устранению неисправностей практически в реальном масштабе времени, будут заявлять, что их продукт поддерживает функции анализа первопричин сетевых проблем.

Рисунок 2. Удовлетворенность решениями анализа первопричин указывает на высокую степень полезности этих средств, хотя остается еще много возможностей для их улучшения.

Многие пользователи ставят знак равенства между методами анализа первопричин и корреляции событий, с помощью которого анализируются взаимосвязанные события в сетевых устройствах, компьютерных системах или приложениях — как правило, с целью сокращения количества тревожных сообщений. События включают в себя широкий диапазон явлений в инфраструктуре сети, в том числе чувствительные ко времени и связанные с производительностью сети. К родственным технологиям относятся основанные на правилах традиционные системы, изначально сложные в реализации и недостаточно гибкие, а также системы принятия решений с учетом прецедентов, нечеткая логика и нейронные сети. Все эти технологии как раз для того и были разработаны, чтобы привнести интеллектуальное начало при ответах на вопросы «где» и «почему», касающиеся характеристик инфраструктуры. Корреляция событий — одно из средств, используемых при анализе первопричин, — но она дает только частичный ответ на возникающие вопросы.

Анализ первопричин становится центральным звеном в применяемых стратегиях управления. Технологии анализа первопричин появились в 1990 г. вместе с платформами и вполне могли придать им большую значимость. Если бы усовершенствованные средства корреляции событий можно было применить для того, чтобы разобраться в море красных огоньков, подаваемых различными устройствами или иными управляемыми объектами, то платформа, может быть, и стала бы чем-то иным, нежели просто удобным средством запуска приложений.

Основная проблема заключалась в сложности реализации подобных систем. Многие из тех, кто считал, что платформы трудны в реализации, дороги и морально устаревают еще до завершения внедрения, сочли, что виной тому — основанные на правилах средства анализа первопричин. Дело в том, что, систематизируя накопленный опыт, системы подобного рода позволяют справиться с проблемой и изолировать ее, но требуют на начальной стадии внедрения очень большой подготовительной работы.

СТАНОВЛЕНИЕ СИСТЕМ АНАЛИЗА

Сегодня весь груз проблем, связанных с созданием системы управления, смещается от пользователя к производителям, выпускающим все более самонастраивающиеся продукты. Эти изменения во многом связаны с хранилищами объектов — безусловно, самой интересной новацией в сфере программного обеспечения анализа первопричин сетевых проблем. В такие хранилища помещается информация об управляемых объектах — сетевых устройствах, приложениях и т. п. Задача производителя — вовремя моделировать элементы, имеющие отношение к новым устройствам или новым приложениям и их компонентам, и быть всегда в курсе всех новинок как среди устройств, так и среди программного обеспечения. Новые объектно-ориентированные возможности средств разработки программного обеспечения, часто связанные с технологиями реляционных баз данных, делают этот трудоемкий процесс более ясным и эффективным.

Топология — вторая область развития. Она порождается сетевой средой и помогает понять, как связаны между собой сетевые устройства, компьютерные системы и приложения. Так, в традиционной маршрутизируемой среде тревожные сообщения от неисправрого устройства, такого как маршрутизатор или сервер, не распространяются вниз по иерархии. В некоторых продуктах управления, например OpenView компании Hewlett-Packard с модулями Smart Plug-Ins для VantagePoint, реализовано автоматическое обнаружение компонентов топологии, таких, как сетевые устройства, приложения, настольные системы и серверы.

Сетевая топология стала ареной жесткого соперничества, так как различные производители предлагают разнообразные решения для канального и сетевого уровней, а также для поддержки локальных виртуальных сетей VLAN. Знание проблемных мест в сетевой среде не сводится просто к блокировке потока сообщений о неисправностях. Некоторые разработчики используют знание топологии сети для решения задач инвентаризации и учета оборудования.

Изменения затронули и ту область, где к анализу взаимосвязанных событий привлекаются элементы искусственного интеллекта. Для анализа первопричин требуется каким-то образом установленить соответствие между собственно сетевыми событиями, изменениями топологии и другими изменениями, связанными с устройствами и приложениями. Как правило, таким средством является алгоритм или совокупность алгоритмов, которые производители хранят за семью печатями.

Продукты анализа первопричин могут включать и другие элементы искусственного интеллекта, такие, как нечеткая логика, экспертные системы и нейронные сети. Примером является сеть Neugents компании Computer Associates (CA), в которой достоинства нечеткой логики и нейронных сетей используются для предупреждения проблем, связанных с производительностью.

На Рисунке 3 представление и контекст подчинены интеллектуальным средствам корреляции событий. Представление и контекст могут изменяться в широком диапазоне — от экрана для просмотра тревожных сообщений до полного набора решений для уровня услуг, и даже до реализации самого бизнес-процесса, когда проблемы с доступностью и производительностью тут же соотносятся с качеством бизнес-услуг. Таким образом, весь мощный потенциал средств искусственного интеллекта может использоваться как для бизнеса, так и для выяснения чисто технических вопросов.

В таких системах в автоматическом режиме возможно выполнение широкого спектра действий — от управления тревожными сообщениями до динамических изменений конфигурации на основе анализа качества сетевых услуг. В этой области наблюдается интерес производителей к совместным разработкам. Прежде готовые решения интегрировались с решениями для отслеживания процессов устранения неисправностей в сетях. Однако нынешние примеры сотрудничества — совместная работа Micromuse c Orchestream по обеспечению формирования услуг в сетях на базе оборудования разных производителей, союз RiverSoft с Jyra в области средств интегрированного управления производительностью и работоспособностью, использование компанией Peregrine технологии Loran для систем оказания помощи пользователям, а также управление инвентаризацией — все это дает представление о других областях, в которых решения анализа первопричин смогут внести свой вклад в форме автоматизированных действий и представления взаимосвязей.

ИСПОЛНЕНИЕ ЖЕЛАНИЙ ИЗ КОРОБКИ

В области автоматизации действий ключевым фактором дифференциации решений является возможность настройки автоматизированных операций, например операций процесса управления критическими состояниями. Такие производители, как Micromuse, могут автоматизировать процедуры корректирующих действий организационной политики предприятия, указывая, кто именно, в каком подразделении организации, в какое время дня и что конкретно должен сделать для решения возникшей проблемы. Производители, обладающие соответствующим опытом — например, в области анализа предистории и составления отчетов, — органично сотрудничают с компаниями, выпускающими интеллектуальные системы анализа первопричин.

Учитывая все новации, можно ли рассчитывать на появление из коробки (в которую упакована система управления) джина, который решит задачи автоматизированного управления производительностью и работоспособностью вашей сетевой инфраструктуры? Видимо, пока нет, хотя такие продукты, как ServiceCenter Au-tomated Resolution компании Pere-grine (приобретенные вместе с компанией Loran), приближаются к заветной цели. Применяя адаптивный подход к управлению, ServiceCenter предлагает средства анализа первопричин вплоть до уровня устройств.

В большинстве лучших решений по анализу первопричин можно обнаружить сочетание автоматизированных процедур и «коробочных» решений по устранению сетевых проблем с процедурами, настраиваемыми в соответствии с уникальными условиями конкретного заказчика. Этот подход может оказаться эффективным, если уровень автоматизации достаточно высок, а процесс создания локализованных правил — прост. Однако пока мало продуктов, которые бы удовлетворяли этим требованиям. Имейте в виду, что продукт «из коробки», как правило, решает только часть того, что вам необходимо.

ПРОДУКТЫ ЭВОЛЮЦИИ: СРЕДСТВА АНАЛИЗА ПЕРВОПРИЧИН

Итак, давайте рассмотрим некоторые решения по анализу первопричин сетевых проблем (интегрированные и традиционные платформы выходят за рамки данной статьи и поэтому здесь не рассматриваются). Компания Entuity предлагает продукты анализа первопричин, обладающие хорошими возможностями по управлению производительностью и работоспособностью, в особенности для виртуальных локальных сетей (VLAN). Ее система Eye of the Storm, включающая в себя такие компоненты, как Early Warning Center (центр раннего предупреждения), Report Center (центр отчетов) и Switched Early Warning Center (коммутируемый центр раннего предупреждения), предназначена для инженерного персонала сетевого операционного центра (Network Operation Center, NOC) и отделов информационных технологий. Продукт может анализировать перебои в работе сети посредством рейтинговой системы, учитывающей широкий диапазон условий работы сети — от нормальных до существенного снижения производительности и полной неработоспособности.

Эта компания также поддерживает управление на уровне сервиса и функции инвентаризации в версии 2.5 Eye of the Storm, выпущенной в конце 2000 г. Продукт критикуется за его высокую стоимость и невозможность вмешательства пользователя в процесс составления отчетов.

Продукты компании Magnum Technologies поддерживают широкий спектр возможностей и просты в развертывании и использовании. Программное обеспечение Magnum COORDINATOR анализирует первопричины проблем и предоставляет средства для автоматического обнаружения сетевых компонентов, включая тех, которые работают на канальном уровне, — эти особенности могут дополнять аналогичные функции платформ.

Продукт CAP-TREND предназначен для планирования производительности и пропускной способности, а ADVANTAGE — для управления на уровне сервиса. CAP-TREND и ADVANTAGE легко инсталлировать и обслуживать. Разработки компании Magnum хорошо себя зарекомендовали во многих клиентских средах, но это все еще очень незрелое решение, с перспективой дальнейшего развития.

Компания Micromuse особое значение придает консолидации информации о неисправностях и операционному управлению на уровне услуг. Приобретение в 2000 г. компании Calvin Alexsander Networking позволило ей укрепить такие направления, как анализ первопричин и учет топологии среды, особенно для канального уровня. Продукт включает модуль Netcool/OMNIbus, объединяющий информацию для последующего централизованного управления на уровне сервиса и обработки сообщений о неисправностях; модуль Netcool/Precision, непосредственно выполняющий анализ первопричин, и модуль Netcool/Impact, предназначенный для функционально-ориентированной настройки воздействия на услуги, включая сервисы приложений.

Продукты компании Micromuse начинают учиться работать с предысторией событий, а также с информацией о качестве сети. Приобретение компании NetOps дало возможность применить средства анализа первопричин для предупреждения возникновения проблем и их корректировки — с помощью Netcool/Visionary. Программное обеспечение компании Micromuse всегда ориентировалось на сети, а также на поставщиков услуг и крупные предприятия. Компания не ставит своей целью производить «коробочные» решения, а добивается успеха в тех случаях, когда решения разворачиваются стратегически.

Бизнес компании RiverSoft Tech-nologies развивался вокруг ее операционной системы Network Management Operating System (NMOS), которая поддерживает приложения управления неисправностями, производительностью и конфигурацией. Данный продукт создает надежную основу для принятия решения задач описания сетевой топологии, локализации неисправностей и автоматизации действий. Хотя RiverSoft в настоящее время поставляет только средства управления неисправностями, этот продукт может быть использован для реализации полного спектра требований Форума удаленного управления (TeleManagement Forum) по группам функций управления неисправностями, конфигурацией, учетом, производительностью и безопасностью.

Операционная система NMOS включает в себя инструментальные средства опроса сетевого оборудования, хранилище объектов и средства обнаружения и описания топологии; она также поддерживает в качестве приложения функции управления неисправностями (на основе развитых методов интеллектуальной корреляции событий). RiverSoft недавно взялась обеспечить улучшенную поддержку канального уровня для Network-Node Manager — платформы сетевого управления компании HP.

Компании System Management ARTS (SMARTS), одной из немногих производителей средств анализа первопричин, удалось создать удачное решение в области анализа взаимосвязей с помощью элементов искусственного интеллекта на базе модуля под названием Codebook Correlation. Этот модуль анализирует проблемы, связанные с работой сетевого оборудования, серверов и, до некоторой степени, — приложений, назначая определенные уровни вероятности для каждой из проблем.

Комплект продуктов InCharge предоставляет в дополнение к обычному управлению сетью информацию о производительности и готовности сетевых сервисов. InCharge разработала хранилище данных, совместимое с общей информационной моделью (Common In-formation Model, CIM) — похоже, что такое хранилище будет приобретать все большее значение по мере того, как интеллектуальным системам, подобным тем, которые предлагает компания SMARTS, потребуется в недалеком будущем большая степень совместимости. InCharge получает высокие отзовы от заказчиков. Это сфокусированное решение, и его высокое качество во многом объясняется партнерскими отношениями производителя, позволившими успешно применить его интеллектуальные динамические свойства.

При локализации неисправностей продукт Event Watch компании Tavve Software Company ведет себя подобно сетевому операционному центру (NOC), опираясь на данные о сетевой топологии и корреляционный анализ процессов, протекающих в сети. Компания Tavve более других производителей средств анализа первопричин использует преимущества коррелированной базы данных для целей составления отчетов и проведения анализа — как при управлении сетевой производительностью, так и при управлении на уровне сетевых услуг. Например, данные, показывающие, что сервер, расположенный за вышедшим из строя маршрутизатором, недоступен, не отражают производительность сервера. Сопоставление информации о взаимосвязанных процессах может помочь составить правильное представление о рабочих характеристиках сети.

Компания Tavve разработала архитектуру ePROBE, учитывающую специфику использования межсетевых экранов и высокую степень распределенности среды Internet. ePROBE работает внутри межсетевого экрана как распределенный ресурс и может связываться с удаленной консолью. Продукты Tavve имеют внутренние ограничения, например зависимость от существующей платформы сетевого управления, от которой они получают информацию о топологии сети и статусе устройств, хотя продукт и обладает своими собственными средствами опроса статуса и поддержки топологии. В последнее время компания разработала собственное средство для автоматического обнаружения сетевых компонентов.

ПРОБЛЕМЫ РЕШИТ МАРШРУТИЗАЦИЯ

Программные средства анализа первопричин переопределяют принципы сетевого управления, причем основными достоинствами новых программных продуктов являются автоматическое обнаружение и устранение неисправностей и управление производительностью, а также возможность управления на уровне услуг. И даже управление инвентаризацией и учетом установленного оборудования выигрывает от расширенных возможностей определения топологии сети, предлагаемой некоторыми разработчиками программного обеспечения анализа первопричин. За счет партнерских отношений разработчикам программного обеспечения анализа первопричин удается увязать свои решения с функциями управления конфигурацией, учета и биллинга систем управления. Используя свой опыт в области биллинга в IP-сетях, компания XACCT и подобные ей производители могут определять соответствие между сетевой производительностью и качеством бизнес-функций.

Возрастающая конкуренция породила большой выбор продуктов анализа первопричин, однако нужно быть готовым потратить некоторую сумму денег. Стоимость большинства решений начинается приблизительно с 50 тыс. долларов и более. Кроме того, можно воспользоваться комбинацией продуктов анализа первопричин, основываясь на достоинствах каждого из них — выбирая, скажем, один продукт за его функции управления на уровне услуг, а другой — за его мощные средства анализа взаимосвязи событий.

Программное обеспечение анализа первопричин — поле деятельности не для одного производителя. На рынке присутствует большая группа компаний-разработчиков, которые производят интеллектуальные продукты с высокой степенью интеграции. И рынок сам поможет понять, какой следующий шаг им следует сделать.

Дэннис Дрогсет — вице-президент аналитической компании Enterprise Mana-gement Associates, которая специализируется на исследовании рыночных тенденций в управлении программным обеспечением и услугами. С ним можно связаться по адресу: drogseth@enterprisemanagement.com.

Рассматриваемые продукты

BMC

Diagnose http://www.bmc.com

Computer Associates

Neugents http://www.computerassociates.com

Entuity

Eye of the Storm 2.5 http://www.entuity.com

Hewlett-Packard

Event Correlation System (ECS) http://www.hp.com

Magnum Technologies

COORDINATOR, CAP-TREND, ADVANTAGE http://www.magnum-tech.com

Micromuse

Netcool/OMNIbus, Netcool/Precision, Netcool/Impact, Netcool/Visionary http://www.micromuse.com

Peregrine

ServiceCenter Automated Resolution http://www.peregrine.com

Riversoft Technologies

OpenRiver

Network Management Operating System (NMOS) http://www.riversoft.com

System Management ARTS (SMARTS)

Codebook Correlation http://www.smarts.com

Tavve Software Company

EventWatch

Архитектура ePROBE http://www.tavve.com

Ресурсы Internet

Ресурсов, действительно посвященных проблемам анализа первопричин, очень мало, за исключением исследовательских сайтов и сайтов производителей. Ниже приведены ссылки на несколько сайтов организаций по стандартизации, имеющих отношение к анализу первопричин.

Информацию о EMA (Enterprise Management Associates) вы можете найти по адресу: http://www.enterprisemanagement.com/ Products_Services/RootCausePage.htm.

Посетите сайт DMTF (Distributed Management Task Force) по адресу: http://www.dmtf.org.

Сайт ITIL (Information Technology Information Library) находится на http://www.itil.co.uk.

Информацию о IEEE Computer Society можно найти на http://www.computer.org.

Сайт IETF имеет адрес: http://www.ietf.org.