С ростом мощности суперкомпьютеров они становятся все более уязвимыми для сбоев. Например, система ASCI американской Национальной лаборатории Лоуренса в Ливерморе, когда ее ввели в действие в 2001 году, из-за частых сбоев комплектующих имела среднее время безотказной работы всего пять часов; позднее его удалось увеличить до 55 часов.
Одно из средств отказоустойчивости, регулярное сохранение состояния приложений (checkpointing), весьма ресурсоемко, полагает Дэвид Фиала, докладчик конференции SC12: система из 100 тыс. узлов задействована для самих задач только на 35%, а остальное тратится на сохранения. По его подсчетам, надежность экзафлопсных суперкомпьютеров, которые появятся через десять лет, нужно будет увеличить в сто раз, чтобы у них было то же время безотказной работы, что у нынешних систем.
В качестве решения проблемы «тихой порчи данных», когда происходят незамеченные ошибки при записи на диск, Фиала предлагает одновременно исполнять несколько одинаковых копий приложений и сопоставлять результаты. Если они расходятся, происходит перерасчет. Другой подход у Аны Гайнару из Иллинойского университета в Урбана-Шампейн: ее система анализирует закономерности в данных протоколов и, руководствуясь предыдущими сведениями, предсказывает сбои.