Недавно ВТБ24 объявил о создании комплексной системы мониторинга критичных бизнес-процессов и ИТ-инфраструктуры. Построенное решение сканирует инфраструктуру банка, обнаруживает узкие места и выявляет точки, которые могут привести к отказу компонентов. Более того, аналитические возможности системы позволяют говорить о реализации в ее рамках подобия искусственного интеллекта.
О том, что обусловило запуск проекта и каких результатов удалось достичь, рассказывает Денис Гузовский, заместитель директора департамента банковских и информационных технологий банка «ВТБ24», один из докладчиков форума ITMF-2017, который проводит издательство «Открытые системы».
Чем интересна созданная система? В чем ее ценность для бизнеса?
С точки зрения бизнеса все очень просто: мы научились осуществлять мониторинг всего, что происходит в ИТ-процессах банка, вплоть до уровня бизнес-процессов, и оценивать, как все происходящее влияет на бизнес банка. Мы берем каждый отдельный бизнес-процесс (например, выдачу кредитов или размещение депозитов) и отслеживаем его прохождение начиная с его количественных и качественных показателей и заканчивая инфраструктурным уровнем – серверами и операционными системами, поддерживающими эти процессы.
Мы начали с ключевых бизнес-процессов (сейчас их 18) и организовали их мониторинг в режиме, близком к реальному времени. Если происходит авария – выходит из строя сервер или зависает приложение, мы сразу видим, какое влияние это оказывает на бизнес-процессы, на поток действий в системе. Иногда мы видим проблему еще до того, как бизнес ее почувствует, – в реальном времени наблюдаем падение объема продаж или недоступность клиентского сервиса.
Построенная система позволила нам разрешить извечный спор между ИТ и бизнесом в той ситуации, когда у ИТ «все хорошо»: серверы работают без перегрузок, системы хранения в порядке, сеть свободна, – а бизнес при этом заявляет о наличии проблем. К слову, бывают и противоположные ситуации, когда у бизнеса претензий не возникает, а ИТ видит возникшую проблему, которая должна бы привести к серьезным последствиям. Получается, что «пробоина в трюме» не влияет на ходовые качества корабля. Это не менее тревожная ситуация, свидетельствующая об отсутствии понимания ИТ-департаментом факторов, реально влияющих на бизнес компании. С финансовой точки зрения это приводит к тому, что ИТ-департамент запрашивает средства на расширение сервисов, которые не нужны бизнесу.
Главное – мы стали разговаривать на одном языке с бизнесом, достигнуты доверие и взаимопонимание. Все параметры отслеживаемых процессов и значения показателей согласованы. С точки зрения ИТ это все построено на системе мониторинга, поэтому в случае инцидента можно сразу увидеть, на каком узле возникли проблемы. Кроме того, система умеет накапливать и измерять зависимости. Если некоторое время назад произошла авария, которой предшествовало определенное состояние параметров, то при их повторении система известит заинтересованных сотрудников. Система «живая», с ней приходится постоянно работать и донастраивать. Это не градусник, измеряющий температуру и способный работать автономно, а сложный инструмент, позволяющий достаточно точно анализировать, что происходит в банке – как в области ИТ, так и бизнеса.
«Построенная система позволила нам разрешить извечный спор между ИТ и бизнесом в той ситуации, когда у ИТ «все хорошо»: серверы работают без перегрузок, системы хранения в порядке, сеть свободна, – а бизнес с этим не согласен и заявляет о наличии проблем», Денис Гузовский, заместитель директора департамента банковских и информационных технологий банка «ВТБ24»
Насколько серьезны разговоры об искусственном интеллекте?
Система самообучаемая и способна анализировать тенденции. Она накапливает знания, анализирует их и сопоставляет с ними наблюдающиеся тенденции. Например, она может отреагировать на появившуюся негативную тенденцию в процессе, даже если критический порог, оговоренный с бизнесом, еще не достигнут.
Аналитические возможности системы интересны и тем, что практически конкурируют с хранилищем данных, сохраняя всю информацию. В данном случае вполне уместно говорить о Больших Данных, так как речь идет о хранении данных в неструктурированном виде и на очень детальном уровне. Сохраняются логи сетевого трафика, сообщения серверов и даже отдельных процессоров, систем хранения, логи действий пользователей.
Но самое важное – система умеет выстраивать реальное прохождение бизнес-процессов и, анализируя их многократное прохождение, видит все отклонения от нормы. Это дает колоссальную почву для анализа как эффективности бизнес-процессов, так и профессионализма отдельных сотрудников. Благодаря такому анализу нам удалось по ряду ключевых бизнес-процессов повысить производительность сотрудников на 12%, а в некоторых регионах – на 20-25%. Мы строим аналитические картинки в разрезе регионов, офисов, анализируем причины возникновения циклов в процессах, время их прохождения, причины возникновения узких мест. Обнаруженные проблемы решаются всеми возможными способами: изменением процессов, доработками ИТ-систем, выделением дополнительных ресурсов, обучением, уточнением инструкций.
Перечисленные особенности системы и дают нам повод говорить об искусственном интеллекте. Пожалуй, это скорее система мониторинга с продвинутыми аналитическими возможностями. Что касается внедренного у нас решения, то скажу: оно получилось весьма симпатичным, именно поэтому мы готовы о нем рассказывать. Мы такого ни у кого не видели и гордимся им.
Какие факторы побудили банк начать проект?
Всё проистекает из традиционного недопонимания между бизнесом и ИТ. Например, часто встречается ситуация, когда бизнес испытывает проблемы, а причина их возникновения неясна. От таких ситуаций надо уходить. Кроме того, мы задумались о соответствии стандартам и, обратившись к открытому стандарту IT4IT, провели у себя аудит. Он показал, что необходимо совершенствовать систему мониторинга.
Эти два фактора заставили приступить к созданию более серьезной системы мониторинга, а стандарт IT4IT подсказал, с какой стороны подойти к ее созданию.
С помощью чего решались задачи мониторинга раньше?
В основном это был лоскутный мониторинг, построенный на средствах, предоставляемых производителями оборудования. У IBM, HPE, Cisco и других производителей есть свои решения, удовлетворяющие простейшие потребности в мониторинге. При этом практически не было мониторинга, связанного с бизнес-приложениями. Отслеживанием сообщений, выдаваемых бизнес-системами, и разбором логов, показывающих их здоровье, занималось много специалистов. Часто вспыхивали конфликты и споры по поводу того, на чьей стороне возникла ошибка, свалить проблему на смежника было достаточно легко.
На базе каких инструментов реализовано решение?
Это совокупность нескольких продуктов семейства HPE Business Service Management. Они охватывают всю инфраструктуру и умеют сами ее исследовать и измерять ее состояние, агрегируя данные в представления, понятные специалистам. Разумеется, не обошлось без нашей доработки этих систем – я имею в виду «датчики», которые потребовалось расположить в приложениях по аналогии с системами телеметрии в автомобиле. Над всем этим выстроено зонтичное решение, позволяющее визуализировать информацию и управлять ею. Тем не менее в основном работа построена на нотификациях: фактически система сама вызывает «скорую помощь» – специалистов, способных решить возникшую проблему. Уведомление всегда сопровождается подробной информацией, объясняющей причины обращения. Человек, получающий его, мгновенно понимает причину проблемы и принимает решение. В ряде случаев система умеет даже сама «лечить» инфраструктуру (например, вместо уведомления послать команду перезагрузить сервер), но мы к этому пока подходим осторожно, можно сказать– консервативно.
«Красивые» информационные панели разработаны только для руководителей и сотрудников ситуационного центра, чтобы люди, находящиеся на дежурстве, были в общем информационном пространстве. При сбоях и ошибках эти дэшборды очень полезны: помимо того, что мы знаем, в каком именно месте произошел сбой, можно видеть, на что он реально повлиял и какие последствия несет для бизнеса.
Что стало самым сложным в ходе проекта?
Отсутствие опыта и необходимой экспертизы. Приходилось вести исследовательские работы, много общаться с бизнесом, ища связь между показателями. Понадобилось серьезно модифицировать проектную команду, ввести в нее бизнес-консультантов. Пройти первый этап пути, привязав бизнес-показатели к приложениям и ИТ-инфраструктуре, техническим специалистам было непросто.
Еще одна сложность: прописывая бизнес-процессы в системе мониторинга, попутно пришлось уточнять их. Все-таки, несмотря на все инструкции и описания процессов, выяснилось, что в крупной организации значительная часть процессов незаметно модифицируется, из них исчезают (или, наоборот, добавляются) определенные этапы. На дополнительное исследование процессов требовалось время.
Отдельно следует сказать о скепсисе, обусловленном убежденностью многих специалистов в том, что система мониторинга значительно нагружает инфраструктуру и негативно влияет на окружение. При возникновении любых задержек грешили именно на нее, и даже несколько раз приходилось ее отключать. Однако после нагрузочных испытаний выяснилось, что система нагружает ресурсы не более чем на 5-7%.
Положительной эмоцией можно считать удивление, вызванное тем, что созданное решение оказалось крайне простым с точки зрения интеграции со множеством систем. Мы рассчитывали, что на обеспечение взаимодействия придется потратить гораздо больше времени. Во многом из-за этого удалось вернуть нарушенные сроки проекта в оговоренное русло.
Чем именно обусловлен выбор решений HPE? На рынке много альтернатив...
Мы достаточно долго выбирали платформу. Да, несомненно, есть системы, более привлекательные и по функционалу, и по стоимости. Но с точки зрения возможности создания всеобъемлющего решения платформа HPE была вне конкуренции. Мы искали партнера, который сможет обеспечить максимально возможный функционал. Интеграция отдельных нишевых решений грозила обернуться крайне длительными работами и последующими проблемами с поддержкой. Ориентация на решения разных производителей означала колоссальные внутренние работы: требовалось создать собственную лабораторию, чтобы «подружить» их между собой.
Существовал ли с самого начала четкий план развития системы или аппетит пришел во время еды?
На самом деле существовал очень четкий план развития, без него мы не убедили бы руководство банка, что проект имеет смысл. План включал три стадии: сначала отслеживаем в едином окне всю инфраструктуру, затем – сеть передачи данных. Третий шаг – мониторинг десяти основных бизнес-процессов банка, больше всего влияющих на клиентов и доходность. Он был самым рискованным, потому что далеко не сразу появилось понимание, как его реализовывать.
В дальнейшем речь шла о расширении списка бизнес-процессов, охваченных системой. Всего в банке примерно 250 бизнес-процессов. Мы считаем, что достаточно охватить 50 из них, и это будет сделано к концу года.
На каком этапе в системе появился искусственный интеллект?
Он появился через полгода, когда система накопила в себе достаточно знаний. Нам было известно о таких возможностях, но мы не ставили перед собой задачу обязательно их использовать. Они не очевидны, их трудно объяснить и «продать» бизнесу. Это был пусть ожидаемый и заложенный в проект, но все-таки бонус.
Полгода потребовалось на то, чтобы не только накопить в системе знания, но и стабилизировать ее. После этого мы стали получать от нее первые «интеллектуальные зарисовки»: система начала предупреждать о возможности повторения негативных событий, наблюдавшихся в прошлом. А когда накопили информацию за год и показали ее подразделению, занимающемуся оптимизацией бизнес-процессов, специалисты по процессам буквально выхватили эти данные у нас из рук и сразу начали их использовать. Мы планировали применять собранные данные для анализа узких мест в ИТ – перенагруженные серверы, ненадежные приложения и т. п. Но специалисты по процессам пошли дальше и начали использование данных исходя из бизнес-логики. Фактически они стали первыми использовать интеллектуальные возможности системы и весьма серьезно продвинулись в этом. Сейчас ИТ-подразделение идет их путем, уже руководствуясь имеющимся опытом.
Не оказалось ли так, что «приятный бонус», о котором шла речь, перевесил основные ожидаемые эффекты?
Все-таки основная задача системы мониторинга – отслеживать всё происходящее в инфраструктуре, реагировать на это и помогать нам правильно выстраивать бизнес-процессы и устранять узкие места. Такая задача всегда будет на первом месте: банки развиваются, их системы модернизируются, появляются новые процессы. Это все равно большая часть необходимых любому банку усилий, около 70% пользы системы приходится именно на мониторинг, обеспечивающий стабильность работы систем. По процессам, охваченным системой мониторинга, мы на 20 минут раньше реагируем на любой сбой. Это означает резкое сокращение времени устранения инцидентов.
«Бонусы» же во многом зависят от изначального качества процессов. Могу сказать, что явным позитивным эффектом стала возможность взглянуть на бизнес в целом: оценить выполнимость поставленных планов, увидеть, кто и почему мешает их выполнению. Это позволяет избежать долгих споров о выполнимости планов.
В каком направлении развивается система?
Для нас сейчас актуально не столько развивать систему, сколько оптимизировать свою работу, используя получаемые данные. Во-первых, надо поставить на мониторинг запланированные 50 процессов и увидеть, что происходит в них. Далее мы будем оптимизировать узкие места, обеспечивая стабильность и, если нужно, реорганизовать работу банка.
Однако через год мы совершенно точно займемся анализом онлайн-потоков, чтобы их в реальном времени переключать с загруженных каналов на незагруженные. Это не только возможно, но и соответствует стратегии омниканальности, которую мы строим.
Планируется ли тиражирование решения?
Эта система, созданная в ВТБ24, признана целевой в «большом» ВТБ. И сейчас, еще до слияния этих структур, мы начали развертывание системы мониторинга, которая станет единой для объединенного банка.