Алгоритм создан сотрудниками цюрихской исследовательской лаборатории IBM. Он способен выполнить сортировку, корреляцию и анализ миллионов неупорядоченных наборов данных. Как отмечает специалист IBM Костас Бекас, в обычном случае подобная задача требует нескольких дней машинного времени суперкомпьютера.
Реализация алгоритма занимает всего несколько тысяч строк кода. По словам исследователей, он упростит выявление тенденций при обработке данных, собранных с таких источников, как датчики или интеллектуальные счетчики. Его можно будет применять для анализа растущих объемов данных, например для определения тенденций использования электричества, для расчетов и прогнозирования уровней загрязнения воздуха или воды. Он также применим для обработки данных с мировых финансовых рынков с оценкой уровня индивидуального и коллективного риска.
"Область наших интересов - измерение качества данных", - указывает Бекас, добавляя, что для эффективного анализа обширных наборов данных сегодня требуются новые математические методы, позволяющие снизить вычислительную сложность.
Алгоритм реализует методы калибровки данных и статистического анализа, позволяющие оценивать модели измерения и скрытые взаимоотношения между наборами данных. На исследовательский этап проекта у IBM ушло около двух лет.
Как утверждают в IBM, применение алгоритма позволит снизить расходы компаний за счет его высокой энергоэффективности. При исполнении на установленной в немецком исследовательском центре Forschungszentrum Julich системе Blue Gene/P Solution алгоритм обработал 9 Тбайт данных менее чем за 20 минут. Для сравнения, анализ того же объема информации традиционными способами занял бы день машинного времени этого суперкомпьютера, работающего на пике производительности, что соответственно увеличило бы расходы на электроэнергию.
Согласно списку Top 500.org от ноября прошлого года, Blue Gene/P - четвертый по быстродействию суперкомпьютер в мире. Он оснащен 294 912 процессорными ядрами IBM Power, совокупная пиковая производительность которых составляет 1 PFLOPS.
"Традиционный подход к анализу состоит в том, чтобы индивидуально обрабатывать каждый из множества наборов данных, - отмечает Элени Працини, менеджер по математическим и вычислительным наукам исследовательского подразделения IBM. - Новый же алгоритм сравнивает наборы данных друг с другом, открывая в числе прочего возможность для предприятий выявлять скрытые тенденции в таких областях, как управление рисками и финансовые портфели".
Как указывает Працини, предприятиям неизбежно понадобятся более быстрые механизмы бизнес-аналитики по мере того, как для вычислений начинают применяться все новые устройства и серверам приходится обрабатывать все более крупные объемы данных.
Теперь, когда подтверждена работоспособность алгоритма на тестовых наборах данных, лаборатория приступила к совместному с глобальным сервисным подразделением IBM внедрению разработки при оказании конкретных услуг. Со временем алгоритм может быть реализован в некоторых приложениях IBM, в частности в ПО статистического анализа SPSS.