Один технический специалист подразделения Facebook Data Center Operations может обслуживать от 20 до 26 тыс. серверов. Это своеобразный рекорд. Обычно данное значение редко превышает 10 тыс. Успех компании говорит о потенциале интегрированного, комплексного подхода, когда специалисты по операциям работают в тесном сотрудничестве с ИТ и другими подразделениями.
Функционирование ЦОД имеет для Facebook критическое значение, ведь в этой соцсети уже 1,15 млрд пользователей, и каждый день регистрируются 720 млн. Ежедневно они обмениваются 4,75 млрд единиц контента, а количество «лайков» достигает 4,5 млрд. Компания хранит более 240 млрд фотографий, и каждый месяц емкость памяти для них приходится увеличивать на 7 петабайт.
Чтобы управлять всем этим хозяйством, в Facebook разработали программное обеспечение, автоматизирующее различные операции в ЦОД, в том числе программный пакет CYBORG, выявляющий проблемы в серверах и пытающийся их устранить. Если устранить проблему не удается, CYBORG отправляет сообщение сотрудникам Data Center Operations. Технический специалист не заходит в ЦОД, пока не потребуется его физического присутствия на площадке. Создали эту систему и поддерживают ее всего три программиста.
Конструкция серверов позволяет обслуживать их с передней панели, не заходя в горячий коридор. Дисковые накопители и компоненты извлекаются без помощи инструментов. В результате такого подхода Facebook удалось на 54% сократить время ремонта серверов. Специалисты тщательно отслеживают отказы оборудования – это влияет на последующие решения о закупке у поставщиков.