Облачное происшествие в Вирджинии

Масштабный сбой сервиса хранения данных S3 (Simple Storage Service) затронул бизнес-операции заказчиков AWS на востоке США – тех, что обслуживаются из центров обработки данных провайдера в Северной Вирджинии. Однако происшествие вызвало широкий резонанс по обе стороны океана. Ведь произошло то, чего, казалось бы, случиться никак не могло: авторизованный член технической команды AWS, выполняя плановые технические работы, внес в систему критическую ошибку. Удалив несколько важных серверов в биллинге, он на 11 часов заблокировал предоставление услуг гигантами интернет-индустрии Netflix, Reddit, Adobe, Imgur.

Как сообщили эксперты компании Apica, половина из сотни крупнейших американских онлайн-магазинов зафиксировала проблемы в обработке пользовательских запросов: сбой затронул миллионы их клиентов. Чтобы восстановить приемлемый режим работы S3, потребовалась полная перезагрузка биллинговой системы. Учитывая масштабы бизнеса AWS, сделать это было совсем непросто.

Подчеркнем: сотворил «светопреставление» один человек, допустив одну лишь опечатку при вводе команды отладки. И произошло это в компании, которая сделала надежность своих облачных сервисов центральным элементом маркетинговой стратегии. В той самой компании, которая во всеуслышание объявила после отказа сервиса S3 в июле 2008 года, что извлекла из тогдашнего события важный урок и «более не успокоится, пока качество ее услуг не станет идеальным». А уже в апреле 2011 года проблемы с доступом к своим данным испытали подписчики сервисов AWS Elastic Block Storage, Elastic Compute Cloud и Relational Database Service... Сейчас в Amazon снова обещают «извлечь уроки».

Что мы имеем в сухом остатке? Даже глобальный облачный поставщик с репутацией, подтвержденной многочисленными аудитами, не может гарантировать постоянную доступность своих сервисов. Это значит, что множество советов по выбору провайдера, которые считались разумными и полезными, на деле ограниченно пригодны. Какой смысл выведывать у провайдера, как именно обеспечивается резервирование ваших данных, если ошибка одного сотрудника может привести к их недоступности в течение длительного времени, а то и к полной потере? И заказчики все равно не узнают, имеют ли в действительности сотрудники организации провайдера доступ к данным клиентов и как практически обеспечивается бесперебойность облачных сервисов.

Между тем многие предприятия сохраняют кредит доверия, выданный своим облачным поставщикам. Как сообщает Forrester Russia, спрос на облачные сервисы в России значительно вырос. Среди крупных компаний, например, он за последние два года увеличился в полтора раза – уже четверть из них используют публичные облака. Аналитики прогнозируют, что в ближайшие три года наш облачный рынок будет прирастать в среднем на 21% и в 2020 году достигнет 48 млрд руб. Не придется ли Forrester пересмотреть свой оптимистичный прогноз?

Комментируя последний инцидент в AWS, аналитик Moor Insights & Strategy Патрик Мурхед заявил, что происшествие заставит многие предприятия дважды подумать, прежде чем переносить некоторые рабочие нагрузки и приложения в публичное облако. Сбой вынудит ИТ-руководителей еще раз проанализировать ту часть своей стратегии, которая нацелена в публичные облака. А еще это прямое указание ускорить работу по автоматизации процедур обслуживания собственных информационных систем, шире использовать методы машинного обучения, дабы исключить человеческий фактор, приводящий к появлению критических ошибок.

Алексей Есауленко