Отрасль центров обработки данных стала неотъемлемой реальностью мира современных информационных технологий. Этот сегмент глобального ИТ-рынка успешно развивается и совершенствуется. В 2017 году, по данным компании 451 Research, число коммерческих ЦОД, предоставляющих розничные и оптовые услуги аренды (colocation) в различных странах мира, приблизилось к пяти тысячам.

С увеличением числа ЦОД все более серьезной задачей становится повышение уровня их готовности, сокращение отказов и сбоев ИТи инженерного оборудования. Согласно аналитическим исследованиям, убытки, которые несут предприятия в результате возникновения нештатных ситуаций, исчисляются сотнями миллионов долларов.

На рынке центров обработки данных, как, впрочем, и в других областях, утверждают эксперты, преуспевают в первую очередь те компании, которым в поисках путей роста удается выйти за рамки традиционных технологических и организационных решений и найти способ совместить зачастую противоречивые требования. Поэтому применение новейших технологий для повышения эффективности, отказоустойчивости и снижения эксплуатационных затрат ЦОД будет расширяться.

ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ В ЦОД

Искусственный интеллект наделяет машины способностью выполнять определенные интеллектуальные действия, на которые ранее были могут только люди. Благодаря применению новейших технологий, в том числе обеспечивающих визуальное восприятие происходящих событий и распознавание речи, такие машины могут собирать и обрабатывать данные, а также интерпретировать полученные результаты для автоматического принятия операционных решений.

В бизнесе, к примеру, ИИ может использоваться для прогнозирования — на основе данных из различных источников — последствий принятия стратегических бизнес-решений и, таким образом, позволяет оценить реакцию рынка. В промышленности и военном деле он может применяться для организации взаимодействия многочисленных подключенных к сети устройств, включая дроны и роботы, в процессе совместного выполнения ими коллективных заданий.

Владельцы современных центров обработки данных тоже используют искусственный интеллект и машинное обучение (во всяком случае, пытаются делать это) для решения вполне конкретных задач. Такими задачами являются, в числе прочего, сокращение времени простоя за счет прогнозирования рисков возникновения нештатных ситуаций, оптимизация режимов работы серверов и систем хранения данных, снижение энергозатрат, повышение эффективности комплексов охлаждения и оптимизация температурных режимов в машинных залах, рациональное использование ресурсов эксплуатационного персонала.

Компоненты искусственного интеллекта могут быть встроены и в коммерчески доступные платформы управления инфраструктурой ЦОД (Data Center Infrastructure Management, DCIM), что позволяет упростить решение некоторых из перечисленных задач и сократить объем операционных расходов.

Применение искусственного интеллекта в ЦОД начинает приносить плоды.

УПРАВЛЕНИЕ ИТ-ИНФРАСТРУКТУРОЙ

Облачная платформа предиктивного анализа InfoSight, которую компания HPE приобрела вместе с производителем твердотельных систем хранения Nimble Storage, позволяет выявлять и прогнозировать проблемы в ИТ-инфраструктуре.

InfoSight накапливает и анализирует данные, поступающие от датчиков, которые установлены в информационных системах более чем 10 тыс. заказчиков Nimble Storage, и обрабатывая свыше 1 млн событий в секунду. Система должна быстро обнаружить и идентифицировать причину возникшей проблемы, найти пути ее устранения на основе анализа текущей ситуации с использованием всего массива накопленных данных.

В базе данных InfoSight содержатся сведения, собранные в течение нескольких лет. Прогнозная аналитика реализуется облачным ПО компании VoltDB, математический аппарат которого базируется на авторегрессионных моделях прогнозирования и методе Монте-Карло. Это позволяет предвидеть наступление событий определенного рода — к примеру, дефицита емкости накопителей массива хранения или превышения пропускной способности системы ввода-вывода СХД (см. рис. 1).

Облачная платформа HPE InfoSight помогает выявлять и прогнозировать проблемы в ИТ-инфраструктуре

В InfoSight применяются технологии машинного обучения и анализа значительных объемов информации. С начала 2018 года емкость базы данных, используемых для обучения, значительно возросла, так как теперь сфера действия платформы распространяется и на массивы хранения 3PAR StoreServ, оснащенных операционной системой 3PAR OS 3.3.1.

В первой версии HPE InfoSight для массивов HPE 3PAR реализован ряд интересных функций: анализ стеков виртуальных машин; обнаружение причин, вызывающих снижение производительности виртуальных машин, которые используют ресурсы систем хранения HPE 3PAR; выявление виртуальных машин, создающих проблемы для других рабочих нагрузок СХД.

В ходе использования InfoSight удалось установить, что в случае бизнес-приложений значительная часть проблем с производительностью операций ввода-вывода не связана непосредственно с массивами хранения. Сопоставление данных, полученных InfoSight, с другой диагностической информацией позволяет обнаружить узкие места на всем пути следования данных — от виртуальных машин до накопителей массивов хранения.

Платформа постоянно обучается, подчеркивают в HPE. По мере дальнейшей интеграции InfoSight с продуктами и решениями HPE алгоритмы искусственного интеллекта получат доступ ко все возрастающим объемам данных.

Функциональность InfoSight может стать основой для автономных ЦОД, в которых конфигурирование и системные настройки выполняются без вмешательства эксплуатационного персонала.

В компании Tegile Systems, выпуска ющей гибридные СХД, используют облачное аналитическое ПО интеллектуального управления IntelliCare Cloud Analytics, для мониторинга загрузки емкости массивов хранения, состояния их конфигураций, «здоровья» и производительности.

Облачная система, которая не требует установки серверных агентов, собирает данные с нескольких тысяч массивов хранения, установленных у заказчиков. Их анализ позволяет прогнозировать отказы компонентов, а также возникновение проблем с производительностью и ресурсами массивов.

ИНТЕЛЛЕКТ В КОМПЛЕКСАХ ОХЛАЖДЕНИЯ

Google применяет технологии искусственного интеллекта в своих центрах обработки данных для снижения энергозатрат, которые измеряются миллионами мегаватт-часов в год, а значит, и для сокращения расходов.

Для этого в 2014 году была приобретена компания DeepMind, где созданы программный комплекс AlphaGo, победивший профессионального игрока в го, а также нейронная сеть, способная обучаться видеоиграм. ПО DeepMind, разработанное для ЦОД Google, определяет оптимальные режимы работы системы охлаждения и обеспечивает управление оборудованием в режиме реального времени.

Программный комплекс DeepMind отслеживает более сотни различных параметров, характеризующих состояние инфраструктуры ЦОД или оказывающих на нее влияние. В их числе — показатели нагрузки ИТ-оборудования и скорости вращения вентиляторов в стойках, сведения о кондиционерах, градирнях и теплообменниках, информация о погоде и состоянии окон в помещениях.

В процессе разработки этого ПО учитывались данные о работе ЦОД Google в течение нескольких предыдущих лет. Алгоритмы анализа информации и управления на основе полученных выводов способны к самостоятельному обучению, что позволяет им работать в неопределенных заранее условиях.

В ЦОД установлено множество датчиков, поэтому сравнительный анализ текущих данных и гигантскихмассивов накопленной «исторической» информации, а также использование алгоритмов прогнозирования нейронных сетей позволяют учитывать малейшие нюансы постоянно меняющейся климатической обстановки в машинных залах. В результате, как утверждают разработчики DeepMind, им удается предсказать ожидаемое значение PUE с точностью 99,6%.

Благодаря использованию решений DeepMind на 40% сократились энергозатраты систем охлаждения центров обработки данных, в которых в основном установлено промышленное оборудование. Вклад именно этих систем в энергопотребление инженерного комплекса ЦОД весьма значителен, и оптимизация режимов их работы позволила добиться снижения показателя PUE на 15%.

Элементы искусственного интеллекта применяются также в системе охлаждения центра обработки данных Сбербанка в Сколково, максимальная потребляемая мощность которого составляет около 30 МВт. Этот ЦОД, рассчитанный на установку до 24 тыс. серверов, — крупнейший в нашей стране.

Для поддержания требуемой температуры в его машинных залах используется технология прямого охлаждения атмосферным воздухом, что позволяет климатической системе работать в режиме фрикулинга более 330 дней в году.

За управление отвечает программное обеспечение с компонентами искусственного интеллекта. На основе данных о температуре, погоде и сведений синоптиков это ПО оптимизирует охлаждение оборудования ЦОД и оценивает необходимость формирования запасов холода при прогнозируемом потеплении. Как ожидается, среднегодовое значение PUE в этом ЦОД составит 1,3.

«ИСКУССТВЕННЫЕ ЛЮДИ» КОМПАНИИ LITBIT

В стартапе LitBit работают над созданием цифровых помощников, наделенных искусственным интеллектом, которых в компании называют искусственными личностями (artificial personae). После обучения они приобретают определенные навыки и способны упростить работу различных специалистов, в частности, могут осуществлять автоматизированное управление разнообразными операциями в центрах обработки данных.

Для их обучения используется разработанный в LitBit интерфейс, который помогает общаться с artificial personae и снабжать их необходимыми сведениями. Обучением может заниматься любой сотрудник ЦОД, для этого не требуется знание тонкостей программирования, специализированных алгоритмов и других подобных вещей.

Разработчики поясняют, что на базе их решений могут создаваться цифровые помощники, обладающие инженерными навыками, которые помогут выявить аномалии в работе ЦОД и предотвратить возникновение опасных ситуаций. Утверждается, что такие помощники обладают функциональностью, позволяющей сопровождать и дополнять действия эксплуатационного персонала, а в определенных ситуациях и заменять некоторых специалистов.

Программные «персоны» Litbit получают сведения о внешнем мире с помощью технологий инфракрасного зрения, акустического контроля и обработки звуковой информации. Накопленные первичные данные используются для дальнейшей обработки.

К примеру, цифровых помощников можно научить прогнозировать и затем предотвращать сбои в работе серверов и сетевого оборудования. Для этого они должны анализировать звуки, издаваемые установленными в стойках источниками питания, и сравнивать полученные результаты с акустическими шаблонами, характеризующими стабильные режимы работы этих устройств.

А характеристики звуков и вибраций фальшпола и стоек предоставляют возможность оценить состояние аппаратных систем ЦОД и спрогнозировать деградацию их производительности в случае превышения пороговых значений исследуемых параметров.

Благодаря высокой продуктивности «искусственных личностей», способных обрабатывать сотни тысяч параметров в секунду, появляется возможность согласованно управлять в реальном времени различными системами центров обработки данных, а также накапливать полученные данные и использовать их для последующего анализа.

Цифровые помощники, поясняют в LitBit, способны взаимодействовать со сторонними службами, отправлять сообщения через корпоративный мессенджер Slack или выполнять голосовые команды Amazon Echo. Они осуществляют онлайнобработку естественного языка и поддерживают когнитивные вычисления.

В конце 2017-го началось внедрение технологий LitBit в канадской компании ROOT Data Center, предоставляющей услуги аренды площадей в двух центрах обработки данных в Монреале. Там намерены исследовать возможности «персон» LitBit для обеспечения безотказной работы ЦОД.

На первом этапе планируется применять искусственный интеллект помощника по имени Алекс для мониторинга работы дизель-генераторов. Установленные в корпусах ДГУ микрофоны способны улавливать звуковые отклонения от нормальных режимов работы, что позволяет прогнозировать дальнейшее поведение этих систем и предвидеть потенциальные отказы.

Как ожидается, за счет формирования и обучения различных инженерных помощников эксплуатационного персонала удастся повысить эффективность работы ROOT Data Center.

Технологию LitBit намерены использовать и в CBRE Group. Эта крупнейшая в мире компания со штаб-квартирой в Лос-Анджелесе оказывает услуги в сфере коммерческой недвижимости. Ее специалисты приступили к обучению цифрового помощника, которого назвали Remi (Risk Exposure Mitigation Intelligence): он должен освоить стандартные режимы функционирования оборудования, установленного в 800 центрах обработки данных, расположенных в разных странах мира.

Такое обучение, полагают в CBRE Group, позволит сконцентрировать опыт эксплуатационного персонала всех ЦОД в единой базе знаний, доступ к которой (в том числе посредством мобильных устройств) получит каждый специалист службы эксплуатации.

РОБОТЫ ЗАМЕНЯЮТ КОММУТАЦИОННЫЕ ПАНЕЛИ

В американской компании Wave2Wave разработана роботизированная система коммутации волоконно-оптических кабелей, которая автоматизирует формирование перекрестных соединений в узлах обмена трафиком (meet-me room) центров обработки данных.

Такие узлы (их называют также пиринговыми) обеспечивают не только подключение ЦОД и арендаторов их сервисов к каналам связи телекоммуникационных компаний, но и коммутацию таких соединений, в том числе для взаимодействия с новыми провайдерами услуг связи и непосредственного обмена данными между различными арендаторами сервисов ЦОД.

Созданная в Wave2Wave роботизированная платформа переключения оптических соединений (Robotic Optical Management Engine, ROME) за несколько секунд осуществляет оптические кросс-коммутацию без участия человека.

Эта платформа расширяет функциональность программного управления сетевой инфраструктурой, распространяя действие методов SDN (Software-Defined Networking) на ее нижний, физический уровень.

Устройства ROME, размещаемые в 19-дюймовых стойках, «прозрачны» по отношению к протоколам и скорости передачи трафика. Узел их логического управления (Logical Control Unit) устанавливается в шасси форм-фактора 1RU и работает на базе операционной системы реального времени и созданного для ROME программного обеспечения.

Управление механическими компонентами ROME осуществляется контроллерами Robotic Control Unit. Они используют системы с сервоуправлением, которые перемещают с точностью до одного микрометра две роботизированные «руки», захватывающие оптические кабели.

Основные модели оптических кроссов Wave2Wave — ROME 250 и ROME 500 на 256 и 512 волоконно-оптических соединений соответственно (см. рис. 2). Они выпускаются в модификациях с одномодовыми и многомодовыми (OM4) волоконно-оптическими кабелями.

Рис. 3. Платформа ROME распространяет действие методов программного управления на физический уровень сетевой инфраструктуры
Рис. 2. Платформа ROME распространяет действие методов программного
управления на физический уровень сетевой инфраструктуры

Эти автоматизированные коммутационные панели занимают вместе с узлом логического управления пространство 11RU в стандартной стойке. По данным разработчиков, установленные соединения сохраняются даже при отключении питания устройств ROME.

В компании Wave2Wave считают, что робототехника и искусственный интеллект могут применяться для автоматизации управления различными системами центров обработки данных. К примеру, ROME можно использовать для связи серверов и устанавливаемых в стойках коммутаторов top-of-rack, а также размещать их в различных местах сети ЦОД с дистанционным централизованным управлением.

ДРУГИЕ ПРИМЕРЫ

Машинное обучение открывает новые возможности в сфере управления центрами обработки данных. Анализ огромного числа переменных и учет множества одновременно действующих факторов все чаще оказываются невыполнимой задачей даже для высококвалифицированных специалистов, обладающих значительным опытом эксплуатации ЦОД.

В британской компании Romonet создали облачную платформу прогностической аналитики, которая способна анализировать стоимость активов ЦОД, оценивать влияние на нее инфраструктурных изменений и прогнозировать суммарную стоимость владения ЦОД (Total Cost of Ownership, TCO). Точность работы прогностической модели Romonet, по данным компании, достигает 97%.

Согласно опубликованным данным, в Intel применяют технологии Romonet, чтобы продемонстрировать преимущества процессоров, способных работать при повышенной температуре. Установка таких процессоров в серверах снижает TCO ЦОД.

Romonet внедряет в свою платформу технологии машинного обучения и моделирования, чтобы, используя накопленные за несколько лет данные и предиктивную аналитику, получать все более точные результаты. Моделирование, по данным компании, может осуществляться без установки многочисленных датчиков на основании сведений, содержащихся в проектной документации ЦОД.

В калифорнийском стартапе Coolan (компания входит в состав Salesforce. com), созданном одним из основателей Facebook Open Compute Project, решили с помощью машинного обучения и предиктивной аналитики повысить уровень готовности центров обработки данных, снизить число отказов и связанных с ними простоев.

Разработанное в компании решение собирает, агрегирует и хранит данные, характеризирующие состояние серверов заказчиков, режимы работы системы электроснабжения и т. п. Выдаваемые системой рекомендации о необходимости замены серверов и других мер позволяют более точно управлять инфраструктурой.

Salesforce приобрела Coolan для поддержки программы унификации своих ЦОД, предусматривающей сокращение типов серверов и повышение уровня автоматизации их эксплуатации.

В компании Vigilent из Кремниевой долины используют искусственный интеллект и машинное обучение для оптимизации в реальном времени температурных режимов в ЦОД и серверных помещениях. Обучение систем Vigilent начинается с момента их ввода в действие и продолжается в процессе дальнейшей эксплуатации.

Сбор данных о температуре для ПО динамического управления системой охлаждения Vigilent Dynamic Cooling Management осуществляется ячеистой сетью беспроводных датчиков, установленных в различных точках машинных залов. Важнейшим компонентом этого ПО является модуль DCIM Toolkit.

В компании поясняют, что предложенные ее разработчиками решения способны оптимизировать распределение тепла в ЦОД, устранить точки перегрева, повысить утилизицию охлаждающего оборудования, до 40% мощности которого в среднем расходуется нерационально.

Решение Vigilent, оптимизирующее соотношение мощности охлаждения и реальной ИТ-нагрузки, используется совместно с системой Siemens Demand Flow для управления работой холодильных машин, установленных в ЦОД. Кроме того, компания Schneider Electric заключила партнерское соглашение с Vigilent, чтобы встроить модуль Cooling Optimize в комплекс управления инфраструктурой ЦОД StruxureWare for Data Centers.

В компании Mindi Technologies, зарегистрированной два года назад в Великобритании, разрабатывают систему Autopilot на основе технологий искусственного интеллекта для прогнозирования различного рода нештатных событий в ЦОД, включая отказы ИТ- и инженерных комплексов, сбои системного ПО, проблемы с энергоснабжением, инциденты безопасности.

Сначала специалисты Mindi Technologies намерены заняться интеллектуальной балансировкой распределения ИТ-ресурсов серверов, одновременно поддерживающих несколько рабочих нагрузок, что даст возможность прогнозировать потребности в ресурсах и обеспечить стабильность работы приложений. В дальнейших планах — оптимизация загрузки серверов, позволяющая сократить число физических машин в ЦОД.

Amadeus IT Group, поставщик ИТ-сервисов для отрасли авиаперевозок, намерен применить искусственный интеллект платформы IBM Watson для мониторинга инфраструктуры центра обработки данных, в котором установлено более 10 тыс. серверов. В компании озабочены неэффективностью ручного мониторинга непредвиденных ситуаций и регулярными затруднениями при устранении проблем в условиях постоянного расширения спектра решаемых задач и повышения их сложности. Поэтому в Amadeus IT Group стремятся максимально автоматизировать управление, а также использовать искусственный интеллект для составления прогнозов и своевременного исправления неполадок без привлечения персонала.

ЛЮДИ И КОМПЬЮТЕРЫ

Согласно исследованиям компании Accenture, благодаря использованию искусственного интеллекта, в 2035 году рост экономики может составить 14 трлн долларов, а показатели рентабельности во всех сферах хозяйственной деятельности повысятся в среднем на 38%.

В Gartner считают, что почти треть центров обработки данных, попытки которых внедрить искусственный интеллект и машинное обучение окажутся безрезультатными, к 2020 году окажутся экономически неэффективными.

В свете подобных прогнозов внедрение искусственного интеллекта и других новейших технологий для автоматизации процессов в отрасли ЦОД является перспективным и востребованным решением.

С ростом масштабов ЦОД, как уже отмечалось, многие проблемы уже невозможно решить вручную. «ЦОДостроение» идет по пути создания программноуправляемых, самооптимизирующихся и самовосстанавливающихся центров обработки данных, персонал которых освобождается от многих рутинных операций. Вследствие автоматизации, роботизации и стандартизации постоянное присутствие в машинных залах высококвалифицированных специалистов служб эксплуатации ЦОД становится необязательным, и вполне естественно возникает вопрос о возможном сокращении персонала.

Однако многочисленные исследования аналитиков, опросы руководителей ИТ-предприятий и центров обработки данных свидетельствуют о том, что квалифицированных специалистов, работающих в области информационных технологий, не хватает. Поэтому высвобождающиеся в ходе автоматизации сотрудники не останутся без дела, но им, возможно, придется получать новые знания.

В PricewaterhouseCoopers, к примеру, считают, что в течение ближайших пяти лет нужно будет гораздо больше специалистов в области аналитики и робототехники.

Искусственный интеллект и машинное обучение способны значительно повысить эффективность центров обработки данных. Сегодня отрасль ЦОД находится в самом начале пути их внедрения, изменения парадигмы управления и распределения задач эксплуатации между людьми и компьютерами.