Разработчик дистрибутива Hadoop компания Cloudera, выпустила коммерческую редакцию системы Apache Spark, позволяющей анализировать данные в средах Hadoop в реальном времени.
Как объясняют в Cloudera, Spark отлично справляется с задачами машинного обучения, когда нужно обрабатывать один и тот же срез данных в много проходов. До появления Spark для этого пользовались системой MapReduce, которая в подобных случаях работает медленно из-за большого объема дисковых операций чтения/записи. Spark же всю обработку выполняет в памяти, за счет чего, по оценкам создателей системы, функционирует на два порядка быстрее, чем Hadoop.
Spark также прекрасно подходит для поточной обработки — мониторинга непрерывного потока данных и вызова определенных функций при выполнении заданных условий. В числе возможных применений такого механизма — средства распознавания финансовых мошенничеств и управления событиями безопасности.
Spark работает на серверном кластере, не накладывая ограничений на количество узлов и емкость памяти. Система сопровождается интерфейсами программирования для Java, Scala и Python.