IBM выделяет значительные ресурсы на подготовку разрабатываемой в рамках Apache Software Foundation платформы Spark к решению задач машинного обучения, в том числе к распознаванию образов и классификации объектов.
Корпорация планирует предлагать Spark в качестве сервиса. Дальнейшим совершенствованием платформы будут заниматься 3, 5 тыс. исследователей и разработчиков.
Проект Apache дополнен собственным программным обеспечением IBM – языком программирования SystemML, предназначенным для машинного обучения. В проекте примет участие компания Databricks, которая до настоящего времени вносила основной вклад в развитие Spark. Благодаря машинному обучению компьютерные системы смогут повышать свою производительность при выполнении отдельных задач по мере получения новой информации.
«Spark предоставляет нам совершенно новый способ обработки данных, – указал директор по маркетингу аналитического подразделения IBM Джоэл Хоровитц. – Это очень мощная технология вычислений в памяти, имеющая достаточно простой для аналитиков и разработчиков интерфейс».
Платформа Spark, которую многие считают наследником Hadoop, платформы обработки Больших Данных, хорошо подходит для задач машинного обучения, требующих обычно построения мощных вычислительных кластеров.
В последней версии платформы появились дополнительные возможности для реализации алгоритмов машинного обучения.
«Машинное обучение – мощное средство извлечения из данных настоящих ценностей, – подчеркнул Хоровитц. – Алгоритмы машинного обучения особенно хороши при решении задач автоматической классификации, так как помогают устройствам лучше почувствовать окружающую среду. Прежде такие задачи требовали интенсивных вычислений, и решать их на одном сервере не представлялось возможным. Spark помогает координировать работу множества компьютеров и обеспечивает согласованность выполняемых ими операций».
IBM уже предлагает ряд сервисов на базе алгоритмов машинного обучения. Речь, в частности, идет о переводе с одного языка на другой и визуализации данных. Сервис Spark, который появится в конце июня, позволит разработчикам создавать и использовать собственные алгоритмы машинного обучения.
Spark будет доступен на облачной платформе для разработчиков IBM Bluemix и предложит простой способ загрузки данных, их изучения и передачи результатов другому приложению. Причем все это будет происходить без дополнительной настройки поддерживающей инфраструктуры.
Популярность Spark заметно выросла в прошлом году, когда увеличилось число компаний, применяющих анализ Больших Данных в повседневной деятельности. При обработке больших коллекций данных Spark активно использовали eBay, НАСА, Opentable и Yahoo. Согласно результатам опроса, который был проведен в декабре 2014 года компанией TypeSafe, поставляющей своим клиентам инструменты Java, об использовании Spark в своей работе сообщили 17% из 3 тыс. программистов Java, принимавших участие в этом мероприятии.