Гарантированное время возобновления работы при сбоях составляет не более 40 минут, что соответствует периоду автономной работы заводского конвейера.
Плотный производственный цикл предъявляет повышенные требования к надежности ИТ-комплекса. Ранее многие системы функционировали без резервирования и встроенных механизмов защиты. Для предотвращения возможных простоев систем в случае аварийных ситуаций был запущен комплексный проект по созданию инфраструктуры высокой доступности, исполнителем которого стала компания «Инфосистемы Джет».
Провести миграцию основных производственных систем на новую инфраструктуру можно было только в период заводского отпуска, до которого с момента старта проекта оставалось всего 2,5 месяца. В эти сроки на базе двух ЦОД была создана и протестирована отказоустойчивая вычислительная платформа, включающая виртуальные фермы, кластеры баз данных, сети хранения и систему резервного копирования. Следующей задачей стала проработка комплексной системы защиты данных от программных и аппаратных сбоев.
Для эффективного управления взаимодействием аутсорсеров, отвечающих за различные участки инфраструктуры, детально проработаны и протестированы процедуры аварийного восстановления. Выделены 16 типовых чрезвычайных ситуаций, по каждой из которых разработаны подробные инструкции с описанием методов диагностики и устранения сбоев в установленные сроки.
Наконец, был развернут комплекс мониторинга, включающий системы мониторинга устройств хранения, виртуальных машин и сетевой инфраструктуры, а также систему анализа состояния ключевых технологических блоков. Данное решение выявляет тенденции развития ИТ-ландшафта: нехватку или избыток ресурсов, производительность отдельных компонентов и инфраструктуры в целом, исправность оборудования, работоспособность системного ПО. Таким образом, не только сокращается время простоев, но и в целом значительно уменьшается число сбоев за счет проактивного обслуживания ИТ-инфраструктуры.