Казалось бы, введя в эксплуатацию собственный центр обработки данных, его владелец может наконец вздохнуть спокойно и забыть как о страшном сне обо всех проблемах с согласованиями, финансированием, недоделками, нестыковками, сроками и т. п. — ведь не зря же столько усилий было вложено в проектирование и строительство. Однако в результате ускоренного развития ИТ сокращается и жизненный цикл ЦОДа, поэтому уже через год-два-три, несмотря на всю предусмотрительность, может потребоваться его модернизация. Что уж говорить, если ЦОД находится в эксплуатации больше пяти лет — за это время требования и технологии меняются кардинально. , рассказывает Юрий Драбкин, консультант Schneider Electric по жизненному циклу ЦОДов.
Журнал сетевых решений/LAN: Какие основные технические и экономические факторы влияют на жизненный цикл центров обработки данных?
Юрий Драбкин: Вопрос состоит из двух частей, и это правильно. Техника и экономика — две стороны одной медали. В любом случае инфраструктурное решение должно быть оптимальным: не слишком дорогим и вместе с тем отвечающим поставленным задачам, то есть адекватным по надежности, резервированию и масштабированию в расчете на весь цикл жизни центра обработки данных.
Прежде всего необходимо сказать несколько слов о самом цикле. Он начинается с подготовительного этапа разработки концепции и проектирования ЦОДа. Основные капитальные вложения, как и внедрение ключевых технических решений, приходятся на этап строительства. С началом эксплуатации главной затратной статьей становятся операционные расходы. Как показывает опыт, далеко не все заказчики и даже системные интеграторы способны корректно оценить их заранее, особенно на долгосрочную перспективу.
Соответственно, поставщик должен предложить оптимальное решение для организации кондиционирования, электроснабжения, автоматизации и управления инфраструктурой, чтобы и экономика была максимально эффективна на протяжении трех-пяти лет, и техника надежно работала в течение десяти лет — типового срока службы инженерной инфраструктуры центра обработки данных.
Это, естественно, не предел. Мне доводилось видеть объекты, на которых инфраструктура продолжала эксплуатироваться и дольше — и четырнадцать, и шестнадцать лет. Не могу сказать, что она по-прежнему полностью удовлетворяла требованиям заказчика, но таковы реалии.
LAN: С какими основными трудностями приходится сталкиваться при строительстве и эксплуатации ЦОДов?
Драбкин: Как правило, в ходе строительства проблемы возникают от нехватки глубоких знаний. На рынке много хороших специалистов, которые понимают основы построения ЦОДов. Соответственно, нам не надо объяснять, зачем нужно резервирование, что такое N+1 или N+3, для каких целей требуется, например, обеспечить избыточность N+2 для кондиционеров. А ведь еще пять лет назад приходилось долго и безнадежно доказывать, что необходимо обеспечить резервирование уровня не ниже N+1 на случай отказа кондиционера, и выслушивать возражения заказчиков, уверенных в своих расчетах и надежной работе оборудования. Однако, как говорится, дьявол кроется в деталях, таких, например, как критичные режимы функционирования.
При реализации проектов мы стараемся максимально адаптировать решения по инфраструктуре к требованиям ремонтопригодности и отказоустойчивости, даже если не планируется получать сертификат Uptime Institute. Во всех последних проектах мы ориентировались на топологию Tier III. К сожалению, заказчик не всегда понимает, что, скажем, распределительных щитов должно быть два и к ним прокладываются два разных кабеля питания, что трубная разводка чиллерной системы холодоснабжения должна быть кольцевой, а для обеспечения ремонтопригодности в случае системы резервирования N+1 или N+2 приходится использовать много отсечных вентилей и фитингов. Особенно это характерно для компаний, не относящихся к ИТ-отрасли.
На этапе же эксплуатации проблемы чаще всего возникают, когда не учли какой-либо незначительной, на первый взгляд, детали или запланировали недостаточную емкость подсистем, а через год-два меняется или ИТ-оборудование, или даже в целом задачи, которые ставятся перед ЦОДом, то есть изменения происходят быстрее, чем предполагалось. Удовлетворить быстро меняющиеся требования на базе существующей инфраструктуры — самый сложный вызов, с которым приходится сталкиваться службе эксплуатации.
LAN: И как справиться с таким вызовом?
Драбкин: Мы помогаем нашим клиентам. Не буду утверждать, что возникающие задачи — типовые. У каждого свой путь, свое развитие. Тем не менее некоторые задачи можно типизировать — например, увеличение плотности мощности на стойку.
В последние годы приходится сталкиваться со следующей ситуацией: после обновления парка ИТ-оборудования вся техника помещается, скажем, в две стойки вместо десяти. В результате увеличения плотности мощности на стойку и изменения расстановки стоек (много места освободилось) начинает некорректно работать система охлаждения.
В такой ситуации может пригодиться наш продукт StruxureWare — инструмент для учета и оптимизации всех ИТ-ресурсов и оборудования, особенно его восьмая версия, которая вышла недавно. StruxureWare состоит из двух программных модулей, работающих в связке: StruxureWare Data Center Expert для мониторинга и StruxureWare Data Center Operations для оптимизации и эксплуатации (первый компонент пока представлен седьмой версией).
Это не единственный инструмент, который может способствовать достижению максимальной эффективности работы ЦОДа, но один из ключевых.
LAN: Какие еще инструменты необходимы для эффективного управления жизненным циклом ЦОДа?
Драбкин: У службы эксплуатации должно быть четкое понимание организационной структуры и задач: каждый сотрудник обязан знать, что он будет делать в той или иной ситуации. Например, диспетчеру необходимо разбираться в регламентах, в контролируемых объектах и способах эскалации того или иного события. При наличии такой базы — а сейчас она имеется почти у любого оператора коммерческого ЦОДа — как раз и может пригодиться наш комплекс программного обеспечения StruxureWare.
Обязательно нужна система мониторинга, причем она должна не только сообщать об инцидентах, но и прогнозировать такие события, как выход из строя ИБП или чиллера, на основании замеченных аномалий в их функционировании. Например, при мониторинге щитового оборудования выявлен дисбаланс двух лучей питания, когда мощность на одном из плеч начала расти, а на втором — понижаться. Диспетчер уведомляет об этом соответствующие службы, чтобы они выяснили причину: сгорел блок питания, сработал автомат в PDU и т. п. Но еще до окончательных выводов мы будем понимать, на что это повлияет, и сможем заранее принять необходимые меры, чтобы нагрузка (сервис, задача) не была потеряна, — например, осуществить перенос ВМ на соседнюю стойку или в другой машзал.
Система мониторинга представляет собой основу, она должна накладываться на регламент, на задачи службы эксплуатации инженерных систем. Следующий компонент предназначен не для диспетчеров, а для службы эксплуатации ИТ-оборудования. Именно ее сотрудники по достоинству оценят функционал StruxureWare 8.0. Он позволяет оптимизировать размещение ИТ-систем и вести учет инфраструктуры кабельного хозяйства. В последние годы пользователи стали активно интересоваться не только повышением надежности, но и экономической отдачей. Более глубокий учет ресурсов позволяет использовать мощности ЦОДа не на 50–60%, с чем мы чаще всего сталкиваемся на практике, а довести этот показатель до 80–90%.
LAN: Вы упоминали, что некоторые ЦОДы находятся в эксплуатации по 15 лет. Как бы вы оценили состояние инфраструктуры российских центров обработки данных по результатам проводимых аудитов?
Драбкин: Буквально несколько дней назад мне пришлось посетить десяток машинных залов нескольких клиентов. Глубокий анализ не делал: нужно было понять, в какой мере можно оптимизировать те или иные существующие решения, причем вне зависимости от сегмента — финансового, телекоммуникационного и корпоративного.
У компаний из первой группы вполне современные ЦОДы, а ИТ-оборудование меняется раз в три года именно в целях повышения эффективности. То же самое относится к инженерным системам — по 15 лет ЦОДы не работают. Центры обработки данных компаний из второй группы мало в чем им уступают: по уровню оснащения новые машзалы вполне соответствуют ЦОДам Google или Facebook двух-трехлетней давности. Старые, еще не модернизированные площадки, используемые для нишевых задач, действительно имеют инфраструктуру, которая работает по 8–10 лет, и там есть что оптимизировать.
Третий большой блок — государственный и корпоративный сегменты. У тех, кто больше связан с ИТ, в частности у структур электронного правительства и сервисов для населения, современные площадки — за последние годы построено несколько очень хороших центров обработки данных для различных государственных задач. Однако нецентрализованные площадки — серверные отдельных заводов и предприятий — оставляют желать лучшего. Если предприятие придает значение показателю PUE — а он в таких случаях зачастую больше 2, мы поможем сократить его до 1,5.
Вместе с тем запросы по оптимизации финансовых затрат и повышению надежности чаще поступают от представителей первых двух сегментов. При наличии вполне функциональных ЦОДов они заинтересованы в их дальнейшем улучшении. Как заявил недавно Герман Греф, Сбербанку в ближайшее время придется конкурировать не с другими банками, а с крупными интернет-компаниями. И действительно, мы видим, что финансовые учреждения проводят модернизацию.
LAN: Что делать заказчику, если инженерная инфраструктура ЦОДа устарела и не справляется с нагрузкой? Если воспользоваться аналогией, при подсечно-огневом земледелии истощенный участок оставляли и переходили к следующему. Каковая наилучшая стратегия модернизации инженерной инфраструктуры?
Драбкин: Очень хорошая аналогия. Рассмотрим типичный пример. У заказчика есть серверная или ЦОД среднего размера, скажем на 20–30 стоек, и мощностью 100 кВт. Чаще всего без прерывания работы сервисов и задач эту площадку модернизировать нельзя. Поэтому самая простая тактика состоит в построении новой резервной площадки. Такую топологию с двумя работающими площадками сейчас можно считать классической. Некоторые наши клиенты не ограничиваются обустройством двух основных площадок и для выполнения конкретных задач размещают часть стоек с оборудованием в коммерческом ЦОДе, причем так поступают даже заказчики из финансового сегмента.
После ввода в действие резервная площадка становится основной, а старую можно либо закрыть на реорганизацию, либо полностью модернизировать и дать ей вторую жизнь, либо переоборудовать для других целей — например, превратить во фронт-офис. Таким образом, если при эксплуатации ЦОДа не хватает мощностей, один из вариантов организации наиболее правильного решения — построить новую площадку.
Каким образом это лучше сделать? Оптимальным является использование современных технологий. В таком случае удается не только уменьшить капитальные затраты, но и повысить гибкость инфраструктуры, чтобы следующие пять лет даже при изменении парка ИТ-оборудования можно было обойтись без замены инженерных компонентов. К нам часто поступают запросы на подбор оборудования для относительно небольших ЦОДов. И мы советуем обратить внимание на наши новые рядные кондиционеры, парк которых обновился в текущем году. Это фреоновые машины по 30 кВт (а в некоторых режимах работы — и до 42 кВт холодильной мощности на один блок), у них уменьшилось энергопотребление, но увеличилась холодильная мощность.
Кроме того, мы предлагаем использовать ИБП Galaxy VM с литий-ионными батареями. При несколько большей стоимости они занимают на 40% меньше места, а это прямая экономия капитальных затрат на дорогостоящих площадях. Эти батареи быстро перезаряжаются, тогда как типовым свинцово-кислотным после 10–15 мин работы требуется в восемь раз больше времени на перезарядку. При значительных мощностях (0,5–1 МВт) эта разница становится еще более существенной — из-за ограничений мощности зарядного устройства. К тому же литий-ионные аккумуляторы не нужно менять каждые пять лет, они проработают в два раза дольше.
LAN: Относительно литий-ионных батарей высказывались опасения о безопасности их использования в связи с возможностью воспламенения. Беспокойство вновь усилилось, хотя и совершенно по другому поводу, в результате происшествий со смарфонами популярной марки. Насколько безопасно в эксплуатации современное поколение таких аккумуляторов?
Драбкин: Вряд ли мы узнаем в ближайшее время, в чем причина воспламенения и взрывов смарфонов. Литий-ионные батареи мы применяем достаточно давно, но как типовые конфигурации вывели на рынок относительно недавно. На протяжении предшествующих двух лет был реализован целый ряд проектов, где они применялись и зарекомендовали себя с лучшей стороны. Ни в специальных краш-тестах, ни в течение эксплуатации не было зафиксировано ни одного случая воспламенения либо каких-то других инцидентов.
В этой связи хотелось бы обратить внимание на существенную разницу между литий-ионными батареями, используемыми в популярных устройствах для массового рынка и применяемыми в промышленных решениях. Всего имеется несколько типов литий-ионных батарей, которые объединяет, пожалуй, только использование оксида лития для катода. Во всех же остальных отношениях они различны — начиная от форм-фактора корпуса и плотности мощности, срока службы и стоимости и заканчивая безопасностью и совокупными эксплуатационными характеристиками.
В портативных устройствах чаще всего используются батареи архитектуры LCO (литиево-кобальтовые) c емкостью несколько ампер-часов в корпусе из фольги. В наших ИБП применяются батареи с внутренней структурой LMO (литиево-марганцевые) с емкостью одной батареи 67 А×ч в жестком алюминиевом корпусе. LMO-батареи успешно проходят специальный тест на перегрев (отсутствие возгорания), вызванный повреждением инородным предметом. Батареи этого типа давно и успешно используются в электромобилях, например в компании BMW.
LAN: В условиях нехватки финансовых средств заказчики пытаются максимально сократить инвестиции. Каково должно быть потенциальное снижение общей стоимости владения, чтобы предприятие решилось на первоначальные затраты?
Драбкин: Любые инвестиции должны окупаться. Действительно, в России очень тщательно стали считать деньги и не хотят их тратить на эфемерные вещи. Любые инвестиции должны окупаться за три года. В последнее время мы активно внедряем наше комплексное предложение по повышению энергоэффективности ЦОДов: смотрим, насколько хорошо работает ЦОД, и на основании проведенных замеров выдаем и исполняем ряд конкретных рекомендаций. Такие контракты уже подписаны с несколькими компаниями.
После проведения модернизации снижение энергопотребления можно отслеживать по показателям счетчиков на сайте. Минимальное значение составляет 10–15% от общего потребления инженерных и вычислительных систем. Используя 15% в качестве ориентира, легко подсчитать, сколько удастся сэкономить. Если это система ЦОДов телекоммуникационного оператора, где размещены тысячи стоек, общие затраты на электричество очень велики, а значит, внедрение данного решения окажется выгодным, даже если экономия составит всего 4–5% — сумма в абсолютном выражении получается весьма значительной.
У владельцев небольших ЦОДов с суммарным потреблением в 100–150 кВт оптимизация вызывает интерес, если удается сэкономить 20% и больше — иначе говоря, когда модернизация окупается опять же за три года. Экономия в 7% при сроке окупаемости пять-шесть лет интереса не вызывает. Вместе с тем мне встречались всего одна-две действительно эффективно работающие площадки, где удавалось показать прямую экономию всего в 5–7% — типовая цифра составляет 15%.
Помимо прямой экономии, следует учитывать и косвенную. Например, у компании есть площадка на 20 стоек, но из-за нехватки электричества или неэффективного охлаждения удается использовать суммарное количество юнитов лишь 15 из них. Мы реализовали ряд проектов, когда заказчик не строил новый ЦОД, а, следуя нашим рекомендациям по повышению эффективности, высвобождал до 20% инфраструктуры. В результате кондиционеры начинали лучше и больше охлаждать, при том что общее потребление ЦОДа снижалось и можно было добавлять полезную нагрузку.
Как видим, разговор уже идет в других терминах — не о сравнении затрат с экономией: кроме прямой эффективности, достигается косвенное улучшение параметров. Так, один из наших заказчиков, «Раффайзенбанк», благодаря использованию StruxureWare оптимизировал инфраструктуру и смог обойтись двумя собственными площадками вместо трех, отказавшись вдобавок от аренды стоек в КЦОДе. С учетом этих затрат проект окупился буквально за полгода.
LAN: Какие услуги по управлению жизненным циклом ЦОДов востребованы российскими заказчиками и почему?
Драбкин: Жизненный цикл ЦОДов можно разбить на пять фаз: первая — разработка концепции, вторая — проектирование, третья — строительство, четвертая — эксплуатация, пятая — оптимизация. Мы активно взаимодействуем с заказчиком на этапе подготовки концепции, объясняя, что необходимо рассматривать ЦОД в целом, а не отдельные его составляющие, и показывая, как взаимосвязаны все системы.
Чуть меньше мы вовлечены в проектирование, при этом в наших самых ответственных проектах мы готовили концепцию. За помощью в разработке проектной документации обращаются такие известные операторы, как DataLine и Datapro, построившие немало ЦОДов и имеющие в своем штате опытных специалистов по их эксплуатации. И мы оказывали им поддержку при сертификации проектов в Uptime Institute — эта услуга на нашем рынке тоже востребована.
Этап строительства, наверное, единственный, где услуги Schneider Electric мало востребованы на российском рынке. У нас есть опытные партнеры в этой области: если им сказать, как сделать, особенно если выдать описание с трехмерной BIM-моделью, вопросов обычно не возникает.
Фазы эксплуатации и оценки едины для заказчиков. Все больше запросов поступает относительно оптимизации, когда службе эксплуатации требуется повысить надежность работы, оптимизировать размещение оборудования, улучшить эффективность систем кондиционирования и т. д. В любом случае, чтобы оценить текущую ситуацию, нужно провести аудит. В течение трех-пяти дней наши специалисты по системам электроснабжения, охлаждения проводят детальные замеры, после чего формируется отчет с рекомендациями.
Иногда заказчик сам занимается их воплощением, но чаще поручает эту задачу нам. Вместе с партнерами мы реализуем комплекс мер по улучшению инфраструктуры, и эта услуга, пожалуй, наиболее востребована.
LAN: Какие компоненты инженерных систем чаще всего требуется модернизировать?
Драбкин: Все ЦОДы можно разделить по мощности на две большие группы — до 300 кВт и больше. Главное их отличие: в ЦОДах на 300–400 кВт и выше применяются принципиально иные системы охлаждения, чем в ЦОДах меньшей мощности.
В небольших ЦОДах чаще всего возникает необходимость в доработке систем охлаждения. Как правило, при модернизации нужно установить еще один кондиционер либо реорганизовать оборудование для обеспечения эффективного охлаждения.
Во вторую очередь возникают задачи в рамках системы электроснабжения. При модернизации электрики зачастую оставляют имеющееся ИБП — реорганизуется остальная система электроснабжения: устанавливается дополнительное щитовое оборудование, переделываются схемы питания ИТ-оборудования для организации питания по двум лучам и т. п.
Третьей задачей, все чаще возникающей в рамках модернизации объектов, является внедрение системы мониторинга, причем часто она реализуется независимо от систем электроснабжения и охлаждения. При этом предусматривается установка датчиков температуры и влажности, PDU со средствами контроля или врезок в существующие щиты, что позволяет получить полную картину энергопотребления.
Это три типовые задачи модернизации для ЦОДов мощностью меньше 300 кВт.
В более мощных ЦОДах в основном применяется чиллерное охлаждение. Как правило, схема кондиционирования уже предусматривает возможность масштабирования, поэтому установить еще одну систему гораздо проще. При реорганизации энергоснабжения появляется потребность в наращивании мощности ИБП и повышении плотности мощности на стойку. Могут возникать и нетривиальные задачи — например, когда кластер в 20 стоек по 4,5 кВт надо трансформировать в 10 стоек по 20 кВт плюс еще 10 стоек по 7 кВт, — поскольку, кроме питания, необходимо обеспечить охлаждение.
Как правило, в крупных ЦОДах уже имеется та или иная система мониторинга. Иногда она реализуется с помощью SCADA-систем с соответствующими термодатчиками и датчиками питания, в других случаях — на базе ИТ-систем с использованием измерительных PDU и т. п. Тем не менее при модернизации мы стараемся увеличить количество датчиков: три-четыре года назад заказчики устанавливали четыре датчика температуры на холодный коридор и два датчика на горячий. Как показывают обследования ЦОДов, этого недостаточно, поскольку выявить локальные точки перегрева не удается. Соответственно, вместо двух-четырех датчиков на ряд устанавливается по два-три на стойку.
LAN: Как разделяется ответственность и осуществляется взаимодействие с командой, обслуживающей ЦОД? Не возникают ли конфликты?
Драбкин: У нас конфликтов не бывает, но многое зависит от состояния дел у конкретного заказчика. Как правило, в компании есть департаменты службы эксплуатации — административно-хозяйственный («энергетики», «холодильщики», «ахошники»), отвечающий за содержание помещения, подведение электричества и холода, и подразделения, обеспечивающего работу ИТ-оборудования («айтишники»).
И часто возникает вопрос о том, где проходит граница ответственности. Зона ответственности АХО может доходить до клемм питания стойки (условно — до PDU), а все, что после этого, — дело ИТ-отдела. Но бывают и другие разграничения. Для проведения работ по модернизации требуется привлекать представителей обоих департаментов. Поэтому проблема чаще возникает не у нас, а у наших партнеров: донести и объяснить важность решаемых задач руководителям обоих подразделений.
Если кто-либо из них не заинтересован в модернизации, хорошего результата не будет. Без помощи «айтишников» нельзя правильно организовать воздушные потоки внутри стойки, потому что они должны утвердить расположение элементов, блокирующих или, наоборот, организующих подачу холодного воздуха для каждой единицы ИТ-оборудования. А без помощи «ахошников» не удастся перенастроить климатическое оборудование, реорганизовать питание или хотя бы получить доступ к щиту электроснабжения для выполнения замеров.
Как видите, речь не о конфликтах, а о взаимном интересе. Сотрудники должны понимать, с какой конечной целью выполняется процесс. Если есть, например, рекомендации руководства по оказанию взаимопомощи, все делается очень хорошо.
То, о чем я рассказывал, — это классическая служба эксплуатации. У нас есть несколько клиентов, у которых в службе эксплуатации выделяется еще одно подразделение, ответственное за «полезное пространство» (white space): за помещение ЦОДа, где устанавливаются стойки, отвечает отдельная команда (data center managers). В разных компаниях в штате этого подразделения числится от 7 до 15 человек. Они отвечают за все, что находится внутри ЦОДа: размещение оборудования, охлаждение, резервирование подачи питания от щитов до стоек, — но не за внешний периметр (скажем, за ИБП, установленные в больших щитовых), так как являются потребителями этих услуг. Наличие такого подразделения — идеальный вариант, поскольку его руководство и каждый сотрудник непосредственно заинтересованы в проведении всех работ, о которых мы говорили. Это самые благодарные заказчики, ведь мы помогаем им решать их самые насущные проблемы.
Беседовал Дмитрий Ганьжа, главный редактор «Журнала сетевых решений/LAN»