Взаимосвязь между работой бизнес-приложений и финансовыми результатами всегда волновала руководство компаний. До недавних пор эта задача практически всегда оставалась нерешенной. «Росгосстрах» решил проблему с помощью системы Splunk, позволившей обеспечить непрерывный мониторинг работы приложений и показать их влияние на бизнес-процессы. О причинах реализации проекта и достигнутых результатах рассказывает Александр Крылов, главный специалист дирекции автоматизированных систем компании «Росгосстрах».
В чем заключались проблемы? Почему компании потребовался мониторинг бизнес-процессов?
Бизнес созрел до такого уровня, когда требуется полная прозрачность. Руководство захотело видеть все, связанное с продажами, — не просто голую статистику из офисов и контакт-центров, а также отклики пользователей, но и максимальную детализацию в режиме реального времени, на основе которой можно как формировать прогнозы по продажам, так и анализировать загрузку систем. И, естественно, понимать, из-за чего могли просесть продажи — например, из-за сбоя какой-либо системы. Глобальная же задача заключалась в том, что бизнес должен видеть все бизнес-операции в системах — от попадания заявки клиента в компанию до печати полиса.
Как исторически сложилось, что отсутствовал практически всякий мониторинг систем?
У компании долгая история, и это в полной мере отразилось на технологическом фундаменте, лежащем в основе ее бизнеса. Компания была образована в 1992 году, и много процессов изначально были исключительно бумажными, об автоматизации речи не шло. Активно использовать появившиеся на рынке ИТ-решения стали лишь в начале 2000-х годов, постепенно парк систем наращивался. И когда появилась потребность видеть все происходящее на уровне бизнес-процессов, то оказалось, что этого мы обеспечить не можем. Пришлось искать решение, которое справилось бы с проблемой.
Как эти проблемы влияли на бизнес компании?
Сбой в любой из фронт-офисных систем влияет на продажи компании, а значит, и на ее результаты. Далеко не всегда удавалось обеспечить детализацию по таким событиям. Единственное, что могли сделать наши аналитики, — построить выгрузки по продажам и бизнес-приложениям напрямую из баз данных. Это громоздко, не всегда удобно и далеко не в режиме реального времени. Возникло желание делать это по любому запросу, а в идеале — постоянно наблюдать за процессами и иметь возможность проанализировать данные за любой необходимый промежуток времени.
Возникла и еще одна проблема: у страховых компаний, как и у всего финансового сектора, есть отчетность перед Банком России. Ему также требовалась более детальная информация о работе наших систем. ЦБ РФ интересуют причины, по которым компания не может в тот или иной период времени выписывать полисы, он отслеживает активность страховых компаний на уровне печати полисов. Если такой простой имел место, компания должна предоставить отчет о его причинах.
Все перечисленное и стало отправной точкой для первого проекта Splunk. Мы начали в системах логировать события, которые требовал ЦБ РФ, с последующим предоставлением отчетности по ним. Теперь мы любой инцидент можем показать средствами Splunk — на какую операцию и из-за чего было оказано негативное влияние.
От кого в итоге шла инициатива? Понятно, что в таких решениях заинтересован бизнес, но он далеко не всегда знает о существовании средств, способных решить подобные задачи…
В нашей компании есть отдел архитектуры, и презентация Splunk как продукта для бизнеса с определенным набором возможностей шла непосредственно из этого подразделения. Новые требования ЦБ РФ очень удачно совпали по времени с этим событием. Впоследствии другие подразделения, видя успех первых проектов, а также возможности системы и имеющуюся практику ее применения, тоже захотели все это использовать в своих целях.
Можно ли было решить возникшие задачи другими способами? Рассматривались ли такие возможности?
Разные подходы возможны всегда. Но выбранный вариант был оптимальным — как со стороны ИТ, так и с точки зрения финансирования (затрат на лицензии, необходимого оборудования и т. п.). Иными словами, другие варианты были сложнее и дороже: выиграв в лицензиях, обязательно потеряли бы в скорости и трудозатратах.
Почему выбрано именно решение Splunk? Каковы были критерии выбора?
Главными критериями были стабильность развития и гибкость, дающая возможность решать широкий спектр задач. Также для компании нашего масштаба важна круглосуточная поддержка, которая дает достаточно быстрый ответ независимо от стандартности возникающих проблем. Или, по крайней мере, четко обозначает сроки их решения.
Конечно, сейчас появились решения категории big data, позволяющие делать выгрузки витрин данных для бизнеса из единого хранилища. Мы начали развивать и эти решения, однако одно другому не мешает. Стоит отметить и то, что Splunk демонстрирует чудеса способности к интеграции с другими системами — как стандартными, так и самописными.
В каком порядке охватывались мониторингом процессы?
Конечно же, начали с главного. Сперва был выделен спектр основных, бизнес-критичных приложений и выбрана система для пилотного проекта. Ею стала система печати полисов ОСАГО. После этого постепенно к мониторингу стали подключать другие фронт-офисные системы. Сейчас около 70% систем, имеющих отношение к бизнесу, охвачено мониторингом, а в перспективе планируется полный охват.
Охватив мониторингом первые системы, мы поняли, что можем увидеть, когда все хорошо, но не всегда можем определить, когда и почему стало плохо. Системы между собой интегрированы и поэтому взаимозависимы. Если хотя бы с одной фронт-офисной системой что-то неладно (например, после обновления), то с большой вероятностью встает весь блок продаж. Поэтому постепенно мы стали охватывать все системы, в том числе внешние, которые так или иначе входят во фронт-офис и интегрированы с ним. Самым ярким примером являются системы Российского союза автостраховщиков. Интеграция с ними напрямую влияет на расчеты и продажи полисов e-ОСАГО. Мы постоянно в режиме реального времени обмениваемся с ними данными. Если возникают проблемы на стороне РСА, мы тоже страдаем — кстати, вместе со всей страной. Сейчас мы научились узнавать о таких проблемах даже раньше, чем «хозяева».
Обычно решение продолжить проект принимается на основе результатов первого этапа. Чего удалось достигнуть?
Первые результаты превзошли наши ожидания: детализация по данным оказалось гораздо лучше, чем та, что была заложена в требованиях. В связи с этим вырос спрос со стороны бизнеса и стали поступать запросы на логирование остальных бизнес-процессов.
Как следствие, был расширен штат сотрудников, занимающихся этими задачами. Благодаря анализу, направленному на уменьшение процента сбоев, увеличились продажи. Бизнес оценил, что с появлением системы мониторинга стало возможно гораздо оперативнее реагировать на сбои и аргументированно отвечать на обращения пользователей, если что-то пошло не так.
Наконец, если раньше отчеты за квартал имели в основном вид таблиц, выгруженных в Excel из баз данных, то сейчас это дэшборды Splunk. Теперь люди видят не просто цифры, а графики и диаграммы — то, что очень ценит бизнес.
Что в ходе проекта было самым сложным?
Интегрировать старые, самописные разработки. Приходилось искать пути, как это можно сделать с наименьшими затратами и максимально приблизить к тому логированию, которое реализовано внутри Splunk. Для этого мы создали единую конвенцию логирования, подразумевающую ряд правил, по которым работают все системы.
Человеческий фактор тоже присутствовал, поскольку некоторые старые системы либо не поддерживались, либо компетенции по ним в компании давно отсутствовали. Значит, нужно разбираться в системе, понимать, способна ли она вообще что-то логировать, и если нет, то думать, как это реализовать.
Нет желания избавиться от унаследованных систем, облегчив себе работу и сократив число проблем?
Конечно, постепенно ряд старых сервисов переносится на новые платформы. Однако остаются монолитные «динозавры», которые не поддаются переписыванию с нуля. Мы отщепляем от них кусочки функционала и постепенно переходим к микросервисной архитектуре.
Какое место занимает проект мониторинга среди других ИТ-инициатив и вообще в развитии компании?
У нас есть центр проектов, в котором происходит распределение задач и приоритизация проектов, влияющих на различные категории бизнеса. Сейчас Splunk совершенно точно входит в десятку наиболее важных проектов. На старте его финансировали департамент ИТ и маленькая часть бизнеса, но постепенно к поддержке подключаются и другие департаменты.
Приоритетные проекты — те, которые помогают компании зарабатывать. Благодаря им компания получает прямую прибыль. Это система расчетов, печать полисов ОСАГО и подобные проекты. Но, поскольку представители бизнеса уже поняли, что без ИТ и инфраструктуры их планы не могут быть выполнены, в число важных начали включать и чисто технологические проекты.
На будущее каких проектов может быть оказано влияние?
Новые системы внедрять и интегрировать станет гораздо проще благодаря возможности сразу их диагностировать. Любую внедряемую систему мы сможем сразу подключить к мониторингу и видеть всю информацию о ее работе, важную как для ИТ-департамента, так и для бизнес-подразделений. Мы прекрасно понимаем, что объемы логирования будут расти, а значит, будет увеличиваться и число лицензий Splunk.
Что в ходе реализации этого проекта можно было сделать по-другому?
В целом путь был бы тем же. Однако вовлеченность бизнеса надо было увеличивать сразу со стороны всех департаментов. Тогда удалось бы лучше финансировать проект и ускорить его реализацию. Кроме того, в пилотный проект можно было включить сразу несколько систем, сходных по логированию.
Каких результатов уже удалось добиться? Что ожидается в дальнейшем?
Самый главный результат — обеспечена прозрачность процессов для бизнеса. Мы можем круглосуточно отслеживать, где и из-за чего происходят ошибки и на что они влияют. Это на самом деле дорогого стоит! Также решением Splunk активно пользуются команды DevOps: до выкладки релизов в промышленную эксплуатацию они могут оценить работу приложений.
Если говорить о перспективах, то мы начинаем с помощью алгоритмов машинного обучения делать прогнозы продаж. Пока это проба пера, но будущее таких подходов бесспорно. Еще у нас есть планы научиться понимать, в каких регионах продажи идут эффективнее всего, а также полностью охватить все фронт- и бэк-офисные системы. И наконец, детализация всех процессов — от подачи заявки клиентов и до печати полиса.