Компания LexisNexis свыше десяти лет работает над крупномасштабными системами для обработки очень больших наборов данных и, как здесь убеждены, имеет в своем арсенале проверенную платформу, по быстродействию превышающую популярную технологию Hadoop.
Теперь для компании главное, чтобы ее убежденность разделили разработчики.
Речь идет о платформе параллельной обработки данных HPCC Systems, созданной для решения исследовательских задач самой компании, предполагающих интенсивую работу с данными. В компании хотели бы расширить эту платформу и предложить ее на рынке. В то же время здесь понимают, что препятствием может послужить популярность системы Hadoop, которая имеет уже значительное число пользователей.
Для достижения своих целей в июне прошлого года компания открыла исходные коды платформы HPCC (High-Performance Computing Cluster). По результатам стандартных тестов показатели ее выше соответствующих показателей Hadoop.
Сейчас в мире на платформе HPCC работает около тысячи специалистов, большинство из которых проходили обучение после ее открытия.
При этом конференция, проведенная минувшим летом для разработчиков на платформе Hadoop, собрала около 1700 человек.
В октябре LexisNexis сообщила о результатах испытаний над тестовым набором Terasort. Быстродействие HPCC оказалось на 25% выше на кластере из четырех узлов, нежели Hadoop, развернутой на кластере компьютеров SGI из 20 узлов. Система LexisNexis работала на двухпроцессорных серверах Dell PowerEdge на базе шестиядерных процессоров Intel Xeon.
Флавио Вилланустре, вице-президент LexisNexis Risk Solutions по инфраструктуре и продуктам, отнес успех системы, в частности, на счет компактности кода, в котором реализуется механизм сортировки: он гораздо меньше, чем в Hadoop.
Любопытно, что для реализации системы HPCC в LexisNexis разработали свой собственный язык ECL. Так, процедура сортировки на ECL описывается всего тремя строками кода, в то время как в Hadoop аналогичный программный фрагмент занимает свыше 100 строк на Java.
Билл Маннел, вице-президент по маркетингу продуктов SGI, так прокомментировал результаты тестов HPCC: «Есть много вариантов распределенных систем, выполняющих набор тестов Terasort. Для HPCC тесты Terasort выполнялись на ECL, а SGI работает на Hadoop на базе фреймворка MapReduce. Компания SGI постоянно работает над повышением быстродействия своих систем».
Вилланустре уверен, что у HPCC хорошие шансы в соперничестве с Hadoop, однако это дело еще далеко не сделано. Он признал, что не хотел бы, чтобы его компания закончила так же, как Betamax, проигравшая войну форматов VHS, или IBM, операционная система которой, OS/2, была вытеснена Microsoft Windows.
«Мы стремимся к признанию нашей системы и прикладываем для этого огромные усилия», — заявил Вилланустре.
Компания также предлагает HPCC в виде облачного сервиса через Amazon Web Services.
Для распространения платформы была избрана стратегия двойного лицензирования, предусматривающая предложение открытой и коммерческой версий программного продукта.
Мэтт Аслетт, аналитик The 451 Group, считает, что LexisNexis следует проводить значительно более агрессивную политику, учитывая «масштаб и темпы роста сообщества разработчиков и производителей вокруг Apache Hadoop».
В частности, Аслетт полагает, что стратегия двойного лицензирования дает компании возможность защитить систему от появления значительно различающихся версий и в то же время получать прибыль, однако «как это уже не раз случалось, не позволяет добиться больших успехов в формировании сообщества разработчиков».
По его мнению, предлагая программный продукт по более доступной лицензии или передав его какому-либо признанному сообществу разработчиков систем с открытым кодом, компания добьется большего признания.