В компании Evergrid разработана платформа виртуализации, повышающая надежность исполнения приложений на кластерах Linux-серверов - Evergrid Cluster Availability Management Suite (CAMS). Основными ее компонентами являются Availability Services - система восстановления приложений после сбоев и Resource Manager, диспетчер планирования рабочих нагрузок.
CAMS можно применять либо в качестве полноценной замены ПО управления ресурсами в центре обработки данных, либо для интеграции с имеющимися платформами управления ресурсами, такими как LSF от Platform Computing или PBS Pro компании Altair. ПО создает уровень виртуализации между операционной системой кластера и приложением, работая при этом на физическом сервере либо на "гостевых" виртуальных машинах, созданных с помощью VMware или Xen. Функция Checkpoint/Restore в модуле Availability Services позволяет задать "контрольную точку" для задачи, исполняемой под управлением диспетчера ресурсов, с которой ее исполнение можно будет восстановить в случае сбоя. Кроме того, задачи можно приостанавливать и впоследствии запускать вновь. Как заявляют в компании, CAMS позволяет управлять приложениями в кластерах, состоящих из сотен тысяч узлов. В компании разрабатывают специализированную версию системы для сред оперативной обработки транзакций.