Инструменты бизнес-аналитики помогают принимать решения на основе полезной информации, извлекаемой из данных, но чем больше становится данных, тем сложнее выполнять эту задачу традиционными средствами. Сегодня наиболее успешные компании ищут оптимальный способ, как в кратчайшие сроки извлекать из Больших Данных полезную и релевантную информацию, чтобы быстрее реагировать на изменения конъюнктуры, отвечать на запросы клиентов или выводить на рынок новые продукты.
В решение бизнес-задач аналитическими средствами вовлечены разные группы пользователей, использующие свои специфические инструменты (см. рисунок). Бизнес-пользователям и аналитикам, принимающим стратегические и тактические решения, нужны средства интерактивного анализа и визуализации данных, позволяющие посмотреть на определенные показатели в нужном разрезе и отследить взаимосвязи и тенденции. Для автоматизации оперативных решений, например о выдаче кредита или проверке налоговой декларации, требуется создание сложных аналитических моделей средствами углубленной аналитики. ИТ-специалисту, который настраивает регламентное применение моделей, требуются инструменты обработки данных. Компания SAS разработала линейку специализированного программного обеспечения SAS High Performance Analytics для каждого типа пользователей и для различных задач, решаемых над Большими Данными. В основе предлагаемого решения лежат три технологии взаимодополняющие технологии работы с большими массивами данных.
Задачи и решения для разных групп пользователей |
SAS Grid Manager управляет распределенными вычислениями в среде SAS при работе на одном сервере и на кластере серверов, что повышает скорость работы, отказоустойчивость системы и масшабируемость. Приложения SAS Data Integration Studio и SAS Enterprise Miner разделяют аналитическую задачу на отдельные шаги-задания и автоматически генерируют поток работ для выполнения на грид. SAS Grid Manager осуществляет управление процессом, распределение и балансировку нагрузки между серверами.
Применяемая в SAS High Performance Analytics технология In-Database позволяет переносить вычислительную нагрузку с аналитического сервера SAS на сервер внешней базы данных, что дает выигрыш в ситуации, когда аналитические модели разрабатываются на SAS, а корпоративное хранилище данных реализовано на СУБД другого поставщика. Продукты серии SAS Scoring Accelerator переводят аналитические модели на язык партнерских СУБД и переносят их внутрь этих СУБД для регламентного применения.
Другая технология — In-Memory — позволяет проводить распределенные вычисления непосредственно в оперативной памяти серверов-лезвий и развивается компанией SAS по трем направлениям: интерактивный анализ и визуализация данных средствами системы SAS Visual Analytics; решение задач углубленной аналитики средствами продукта SAS High Performance Analytics, вплоть до анализа закономерностей в тексте; блок созданных на основе технологии In-Memory прикладных аналитических решений для конкретных бизнес-задач.
Система SAS Visual Analytics сочетает в себе высокопроизводительные средства анализа и графический интерфейс визуализации данных, позволяя пользователям разной квалификации, не прибегая к помощи ИТ-специалистов, анализировать большие объемы данных и получать точные, наглядные и удобные для интерпретации отчеты. В процессе исследования пользователи могут создавать произвольные иерархии данных для многомерного анализа и применять фильтры на любом уровне иерархии, агрегировать и детализировать данные, проводить вычисления по новым показателям и добавлять их к любому представлению. Полученные отчеты можно публиковать в Сети, а благодаря приложениям для мобильных устройств с ними можно работать, например, на iPad. В зависимости от выбранного типа данных, система SAS Visual Analytics автоматически подбирает наиболее подходящую диаграмму для отображения информации: для одного показателя используется график распределения плотности, для двух — диаграмма рассеяния, для трех — пузырьковая диаграмма и т. п.
Сложные структуры данных скрыты от пользователей, а обработка данных In-Memory упрощает поиск корреляций между большим количеством переменных и их отображение.
Система SAS Visual Analytics базируется на сервере SAS LASR Analytic Server, позволяющем создавать производительную вычислительную среду SAS. Сервер оптимизирован для применения в средах распределенных вычислений: данные обрабатываются непосредственно в оперативной памяти параллельно на нескольких узлах, что обеспечивает оперативный анализ больших объемов информации. Интеграция с Hadoop позволяет оптимизировать параллельную обработку Больших Данных и обеспечивает необходимую масштабируемость системы.
Поскольку пользователи работают с данными напрямую, самостоятельно, не обращаясь в ИТ-службу, меняется весь бизнес-процесс проведения анализа и принятия решений. В свою очередь, ИТ-специалисты освобождаются от рутинных операций по обработке пользовательских запросов на предоставление доступа к информации и создание новых представлений данных и разовых отчетов.
Аналитика для Больших Данных
Проблема Больших Данных вызвана не столько большими объемами, сколько неспособностью старых методов справиться с потоками разнообразных данных, поступающих из огромного числа внешних и внутренних источников, имеющих различную структуру и схемы индексации. Алексей Лоншаков, Олег Бродецкий |
Продукт SAS High Performance Analytics (SAS HPA) позволяет выполнять алгоритмы основных существующих на сегодняшний день направлений аналитики применительно к сотням миллионов записей. Помимо необходимого набора методов построения прогнозных моделей, реализованы алгоритмы и других направлений: интеллектуальный анализ данных, статистический анализ, прогнозирование временных рядов, а также инструменты интеллектуального анализа текста и решения задач оптимизации. Достижение высокой производительности выполнения аналитических алгоритмов стало возможно благодаря переносу вычислений непосредственно в оперативную память, использованию распределенного хранения данных и распределенных вычислений. Сейчас SAS HPA работает либо поверх специализированных программно-аппаратных средств от Teradata и Greenplum, либо на собственной платформе Hadoop от SAS.
Что дает бизнесу возможность оперативной работы с Большими Данными? Во-первых, скорость получения результатов анализа и, как следствие, скорость принятия решений. Во-вторых, точность моделей — аналитик может запустить анализ большее число раз и быстрее подобрать оптимальные настройки, как это происходит, например, при съемках цифровой, а не пленочной камерой. Появилась возможность быстро получить результат, оценить его качество и скорректировать настройки. Как это работает на практике, проверил один из крупных банков в Америке. За счет того, что среднее время работы аналитической процедуры сократилось с пяти часов до трех минут, появилась возможность применять больше видов алгоритмов в более сложной конфигурации. В результате это увеличило точность моделей в полтора раза, по сравнению с моделями, построенными традиционными аналитическими средствами. Более того, если раньше аналитики часто были вынуждены при анализе брать выборки данных, например, выбирая случайным образом 5% из 123 млн клиентов банка, то теперь такой необходимости нет. Исследования показали, что возможность анализа всей генеральной совокупности увеличивает точность аналитической модели на 33%.
На основе технологии In-Memory создан ряд прикладных решений: SAS High Performance Risks — расчет уровня риска портфеля на рынках капитала; SAS High Performance Markdown Optimization — расчет оптимальной стоимости и скидок для розничной торговли; SAS High Performance Marketing Optimization — определение оптимального предложения каждому клиенту. Представьте, что у компании миллионы клиентов и каждому из них можно сделать десятки предложений. При этом надо учесть склонность каждого клиента принять то или иное предложение и определить конкретный способ взаимодействия с ним, чтобы максимизировать общую прибыль компании в условиях заданных ограничений по числу предложений, пропускной способности каналов коммуникаций и маркетинговому бюджету. Когда решение такой задачи средствами SAS High-Performance Marketing Optimization выполняется не за несколько часов, а за несколько минут, то появляется возможность запустить его несколько раз с разными ограничениями, чтобы подобрать оптимальные настройки маркетинговой кампании. Например, проверить, насколько вырастет прибыль, если увеличить маркетинговый бюджет или пропускную способность канала коммуникации.
***
Для того чтобы Большие Данные, накопленные компаниями, стали ценным ресурсом и источником полезных знаний, необходима соответствующая ИТ-инфраструктура. Технологии высокопроизводительной аналитики от SAS позволяют реализовать принципиально новый подход к работе с информацией для решения широкого круга аналитических задач — от визуализации и исследования данных до разработки и внедрения аналитических моделей. Компания SAS — один из немногих пока производителей, обеспечивающих работу аналитики в оперативной памяти. Это стало возможным благодаря применению принципов, отличных от применяемых в реляционных СУБД, что позволило снять присущие им ограничения. Кроме того, благодаря кросс-платформности такие решения, как SAS High Performance Analytics, не привязаны к использованию сертифицированного оборудования или специализированных шасси одного производителя.
Андрей Свирщевский (Andrey.Svirschevsky@rus.sas.com), Алексей Мещеряков (Alexey.Mesheryakov@rus.sas.com), Алексей Лоншаков (Alexey.Lonshakov@rus.sas.com) — сотрудники компании «SAS Россия/СНГ».