18.09.2014
SAS® In-Memory Statistics for Hadoop: новые возможности высокопроизводительной аналитики
Анализ больших данных с помощью технологии in-memory, возможность использования широкого спектра аналитических алгоритмов для исследования и моделирования в распределенной среде Hadoop – вот только некоторые из неоспоримых преимуществ, которые получат пользователи нового продукта SAS In-Memory Statistics for Hadoop, выпущенного мировым лидером в области решений и услуг в сфере бизнес-аналитики.
«Эти преимущества позволяют беспрецедентно сократить время обработки аналитических запросов при работе с большими данными, – комментирует Андрей Свирщевский, руководитель направлений аналитики и гарантирования доходов компании SAS Россия/СНГ. – Так, построить дерево решений на таблице объемом 467 GB с 520-тью колонками и 120 млн строк теперь можно всего за 10 минут, а случайный лес из 10-ти деревьев строится и вовсе за 4 минуты. На текущий момент это самый быстрый инструмент применения методов углубленной аналитики во всей линейке SAS».
Новый продукт SAS работает по принципу интерактивного программирования и позволяет сразу нескольким пользователям совместно изучать и анализировать данные, создавать и сравнивать модели, а также оперативно работать с большими объемами информации на базе технологии Hadoop.
Основные преимущества SAS In-Memory Statistics for Hadoop
Это решение расширяет линейку продуктов SAS, построенных на базе технологии SAS LASR Server и использующих прогрессивный метод «in-memory» для обработки данных непосредственно в оперативной памяти. Первым из них стало ныне популярное на рынке решение SAS Visual Analytics для интерактивной визуализации данных. Применение SAS LASR Server дает возможность удерживать данные в оперативной памяти кластера блейдовых серверов и работать с ними в интерактивном режиме.
Пользователь SAS In-Memory Statistics for Hadoop получает доступ в режиме интерактивного программирования ко всем основным методам статистического анализа и машинного обучения. Среди них – линейная и логистическая регрессии, обобщенные линейные модели, деревья решений и случайный лес, прогнозирование временных рядов, анализ текстовых данных, кластеризация и др. При этом есть возможность выполнять вспомогательные и служебные задачи: готовить данные к анализу, выделять значимые предикторы, сравнивать модели, формировать код применения моделей.
Новшество, которое добавляет этот продукт к широкому спектру аналитики SAS, – это возможность строить Рекомендательные Системы, используя большой набор методов их построения. Такие системы востребованы для решения широкого класса бизнес-задач, в том числе целевого маркетинга. На основе анализа информации о том, какими продуктами и услугами воспользовался или пользуется каждый клиент, определяются типовые профили потребления продуктов и услуг, на выходе для каждого клиента выдается продукт/услуга, которые являются для него наиболее востребованными. Такой способ эффективнее классических методов «Cross-Sell» и хорошо подходит для реализации концепции «Next Best Offer» в условиях широкого спектра предлагаемых продуктов и услуг. Этот метод особенно понравится тем, у кого нет возможности построить отдельные модели «Up-Sell» для каждого продукта.
Технология Hadoop повышает надежность системы за счет использования кластера серверов, что позволяет гарантировать сохранность данных при одновременном снижении стоимости аппаратного обеспечения, высокой степени масштабируемости, отсутствии жестких требований к формату данных и их предобработке.
Почему Hadoop?
Согласно прогнозам компании IDC, объем продаж Hadoop к 2016 г. достигнет 812,8 млн долларов США при среднегодовом темпе роста 60,2%. Эксперты SAS уверены, что заказчики и в дальнейшем продолжат использовать эту архитектуру хранения больших данных с целью их анализа и получения скрытой в них ценнейшей информации.
Благодаря стратегическому партнерству SAS c такими компаниями, как Cloudera и Hortonworks, клиенты получают лучшие возможности использования отраслевой аналитики в рамках избранных ими решений на базе Hadoop.
Hadoop распределяет данные по кластеру, состоящему из недорогого аппаратного обеспечения (commodity hardware). Также система обнаруживает и устраняет сбои, что крайне важно при распределенной работе. Помимо низкой стоимости аппаратных средств и защиты данных с помощью резервного копирования, Hadoop обладает другими важными преимуществами, среди которых:
• Параллельная обработка данных: модель распределенных вычислений Hadoop позволяет обрабатывать огромные объемы данных, причем в рекордно короткие сроки.
• Масштабируемость: мощность системы Hadoop можно легко увеличить путем добавления новых узлов.
• Гибкость в хранении данных: в отличие от традиционных реляционных баз данных, Hadoop позволяет хранить данные в неструктурированном виде без предварительной обработки.
О предстоящем выпуске SAS In-Memory Statistics for Hadoop было объявлено весной этого года, а в конце августа продукт поступил в продажу уже с расширенной функциональностью.
Справочная информация
Компания SAS является крупнейшей в мире частной IT-компанией, специализирующейся на разработке и продаже решений и услуг в области бизнес-аналитики.
Компания основана в 1976 году, и сегодня в ее офисах по всему миру работают более 13,7 тыс. сотрудников. В течение 38 лет годовой доход SAS постоянно возрастал и в 2013 г. достиг 3,02 млрд долларов. Клиентами SAS являются более 70 тысяч организаций в 139 странах мира. Среди них – 91 компания из первой сотни лидеров, включенных в список «2013 FORTUNE Global 500®». По данным IDC за 2013 год, SAS занимает более 36% мирового рынка углубленной аналитики.
В России и странах СНГ компания SAS начала работу в 1996 году. Заказчикам компания SAS предлагает полный спектр решений и услуг в области бизнес-аналитики: консалтинг, внедрение, обучение и техническую поддержку. Клиентами SAS в России и СНГ являются все 10 крупнейших российских банков (Сбербанк России, ВТБ, Газпромбанк и др.), РЖД, «Аэрофлот», крупнейшие компании из телекоммуникационного и топливно-энергетического сектора, государственные организации.
В декабре 2013 г. компания SAS была включена в тройку лидеров международного рейтинга «Лучшие работодатели, Россия» по итогам исследования «Best Employers Study», проведенного компанией Axes Management по методике и при участии Aon Hewitt.
Подробная информация - на веб-сайте компании: SAS Россия/СНГ.