IBM готовит Spark для машинного обучения

IBM выделяет значительные ресурсы на подготовку разрабатываемой в рамках Apache Software Foundation платформы Spark к решению задач машинного обучения, в том числе к распознаванию образов и классификации объектов.

Корпорация планирует предлагать Spark в качестве сервиса. Дальнейшим совершенствованием платформы будут заниматься 3, 5 тыс. исследователей и разработчиков.

Проект Apache дополнен собственным программным обеспечением IBM – языком программирования SystemML, предназначенным для машинного обучения. В проекте примет участие компания Databricks, которая до настоящего времени вносила основной вклад в развитие Spark. Благодаря машинному обучению компьютерные системы смогут повышать свою производительность при выполнении отдельных задач по мере получения новой информации.

«Spark предоставляет нам совершенно новый способ обработки данных, – указал директор по маркетингу аналитического подразделения IBM Джоэл Хоровитц. – Это очень мощная технология вычислений в памяти, имеющая достаточно простой для аналитиков и разработчиков интерфейс».

Платформа Spark, которую многие считают наследником Hadoop, платформы обработки Больших Данных, хорошо подходит для задач машинного обучения, требующих обычно построения мощных вычислительных кластеров.

В последней версии платформы появились дополнительные возможности для реализации алгоритмов машинного обучения.

«Машинное обучение – мощное средство извлечения из данных настоящих ценностей, – подчеркнул Хоровитц. – Алгоритмы машинного обучения особенно хороши при решении задач автоматической классификации, так как помогают устройствам лучше почувствовать окружающую среду. Прежде такие задачи требовали интенсивных вычислений, и решать их на одном сервере не представлялось возможным. Spark помогает координировать работу множества компьютеров и обеспечивает согласованность выполняемых ими операций».

IBM уже предлагает ряд сервисов на базе алгоритмов машинного обучения. Речь, в частности, идет о переводе с одного языка на другой и визуализации данных. Сервис Spark, который появится в конце июня, позволит разработчикам создавать и использовать собственные алгоритмы машинного обучения.

Spark будет доступен на облачной платформе для разработчиков IBM Bluemix и предложит простой способ загрузки данных, их изучения и передачи результатов другому приложению. Причем все это будет происходить без дополнительной настройки поддерживающей инфраструктуры.

Популярность Spark заметно выросла в прошлом году, когда увеличилось число компаний, применяющих анализ Больших Данных в повседневной деятельности. При обработке больших коллекций данных Spark активно использовали eBay, НАСА, Opentable и Yahoo. Согласно результатам опроса, который был проведен в декабре 2014 года компанией TypeSafe, поставляющей своим клиентам инструменты Java, об использовании Spark в своей работе сообщили 17% из 3 тыс. программистов Java, принимавших участие в этом мероприятии.

IBM готовит Spark для машинного обучения

Роботизировать правильно: на что следует делать особый упор