Сегодня проблема Больших Данных означает большие объемы, многообразие различных типов данных и высокое быстродействие их обработки, а завтра к этому добавится еще и мобильнось. Умение работать с Большими Данными в мобильном мире будет определять как перспективы бизнеса, так и поддерживающей его ИТ-инфраструктуры. Вместе с тем c учетом того, что существует множество технологий и методов обработки данных — от простейших мобильных приложений до корпоративных мобильных платформ, от технологии In-Database, поколоночных и NoSQL СУБД до кластеров Hadoop и MapReduce, — каждый CIO оказывается перед лицом выбора необходимой именно его предприятию технологии: взять ли лучшие решения от лидеров соответствующего сегмента рынка или остановиться на интегрированном продукте от одного поставщика?

Решением проблемы Больших Данных компания Sybase занимается уже более трех лет — семейство СУБД Sybase IQ 15 уже прошло путь в несколько релизов, начиная от Sybase IQ 15.0, в котором реализовались методы параллелизма и хранения больших объемов информации в структуре, ориентированной на хранение по колонкам. Затем появился интерфейс, позволяющий подключать аналитические библиотеки сторонних производителей для выполнения задач интеллектуального анализа непосредственно в базе, без выноса этих задач на уровень приложения, что значительно повысило скорость обработки. В следующей версии был реализован полнотекстовый поиск отдельных терминов и словосочетаний в больших текстовых и бинарных объектах, позволивший создавать приложения для работы с неструктурированными данными. В релизе 15.3 была реализована массово-параллельная архитектура с разделяемыми ресурсами PlexQ, распределяющая выполнение запросов, поступающих в том числе и от мобильных пользователей, на несколько узлов и позволяющая создавать пулы ресурсов (локальные серверы) из физических серверов, что повышает утилизацию вычислительных мощностей, надежность и обеспечивает гарантированное время отклика (см. рисунок).

 

Аналитики и мобильность
Архитектура PlexQ

 

Использование логических серверов позволяет осуществлять гибкую балансировку нагрузки, предоставляя сервис на уровне приложения или пользователя в средах со смешанной нагрузкой, поскольку каждый конкретный запрос может быть назначен на выполнение конкретному логическому серверу и, соответственно, использовать объем ресурсов, определенный в рамках группы. При получении запроса принимающий узел обозначается как лидирующий; оптимизатор, анализируя затраты на распределение и параллельную обработку, при необходимости определяет остальные узлы в группе как рабочие и распределяет по ним обработку фрагментов запроса. Для обеспечения высокой скорости загрузки и обработки данных, поступающих, например, от мобильных клиентов, в Sybase IQ реализован конвейерный (вертикальный) параллелизм, обеспечивающий непрерывную обработку потока записей в дереве запроса.

В последний релиз Sybase IQ включен интерфейс UDF (User-Defined Function) программирования встроенных функций MapReduce, выполняемых непосредственно в Sybase IQ и вызываемых с помощью обычного SQL. Через UDF система Sybase IQ 15.4 также имеет возможность интегрироваться с другими вычислительными средами в единую инфраструктуру, к примеру Hadoop без изменения уже существующих приложений.

Как известно, в Hadoop реализована эффективная структура распределенной обработки больших массивов, для интеграции которой с Sybase IQ предусмотрено несколько вариантов. Первый — интеграция предварительно агрегированных результатов из различных предметных областей на стороне клиента. К примеру, в сфере телекоммуникаций Sybase IQ может использоваться для анализа количества обработанных вызовов, а Hadoop — решать задачу измерения нагрузки сети. Используя Toad for Cloud Database (продукт компании Quest Software) в качестве интегратора агрегированных данных из обоих источников, аналитик сможет построить зависимость лояльности абонентов от степени утилизации сети.

Аналитика без ограничений

Большим Данным сегодня уделяется много внимания, и, как правило, работа с ними ассоциируется с большими проблемами, но так ли это?

Артем Гришковский

Второй метод предполагает прямую загрузку данных из распределенной файловой системы Hadoop (Hadoop Distributed File System, HDFS) с помощью инструментов ETL. В этом случае Hadoop используется для фильтрации выделенного набора данных. Выбранный набор данных из HDFS помещается в Sybase IQ и обрабатывается наравне с остальными. В качестве примера можно взять электронную коммерцию, где данные о транзакциях продаж в Sybase IQ объединяются с данными о перемещениях мобильного пользователя для проведения анализа и составления прогноза покупательского поведения.

В третьем методе при помощи UDF подмножества данных сохраняются в виртуальных таблицах Sybase IQ, что позволяет повысить скорость аналитики. Примером использования такой интеграции может служить розничная торговля, где детализированные данные с точек продаж хранятся в HDFS, а данные о состоянии складских запасов — в Sybase IQ. Для решения задачи прогнозирования спроса и расчета оптимального объема товара на складе Sybase IQ через определенные промежутки времени выбирает данные о наиболее продаваемых товарах из HDFS и агрегирует их с данными о товарах на складе. В этом случае, в отличие от предыдущего, данные HDFS не хранятся статично в колонках Sybase IQ, а временно располагаются в пространстве in-memory и доступны только на время выполнения запросов.

Четвертый метод — это запрос объединения. В этом случае UDF в SQL-запросе Sybase IQ вызывает процесс MapReduce в Hadoop. Результат отработки MapReduce записывается в таблицу Sybase IQ. В качестве примера возьмем коммунальные услуги и задачу прогнозирования объема потребляемой электроэнергии. В Hadoop запускается задача расчета потерь электроэнергии в сети электропередачи, а затем ее результаты объединяются с показателями счетчиков электроэнергии, хранящимися в Sybase IQ.

Возможность оперативно принимать решения и мобильно управлять огромными объемами разнородной информации является обязательным условием и конкурентным преимуществом современного бизнеса. В свою очередь, динамичный рост числа мобильных клиентов, генерирующих внушительные потоки данных, определяет необходимость в производительной и безопасной мобильной платформе, способной обеспечивать доступ к данным из Sybase IQ о бизнес-процессах в любое время, в любом месте и с любого устройства. Для обеспечения мобильности бизнеса в стеке решений компании имеются продукты SAP Afaria (система управления мобильными устройствами) и SAP Mobile Platform (Sybase Unwired Platform, среда разработки приложений).

Если раньше ИТ-архитектура компании обычно строилась на одной или двух платформах, то в эпоху мобилизации этих платформ в разы больше (Windows, Windows Mobile, Palm, iOS, Android, Symbian и др.), и все они должны одинаково качественно поддерживаться, чтобы обеспечить соблюдение политики корпоративной безопасности. Afaria поддерживает все популярные операционные системы для мобильных устройств, в том числе традиционные ОС семейства Win32 и Win64, предоставляя комплекс средств администрирования и управления мобильными устройствами, позволяющих сопровождать устройство на всех этапах его жизненного цикла — от выдачи сотруднику до утилизации.

На первом этапе Afaria позволяет автоматически назначать политики безопасности и конфигурировать устройство для работы в корпоративной сети, настроить защиту и ее параметры, а также зашифровать важные данные на устройстве.

На этапе работы устройства в компании система позволяет отслеживать его состояние, перенастраивать и обновлять политики безопасности. Система поддерживает корпоративный портал приложений, через который сотрудники могут установить себе на устройства прошедшие аудит приложения, необходимые для работы и поддерживающие доступ к корпоративным ресурсам. Для обеспечения безопасности мобильных устройств Afaria предоставляет возможность удаленного управления и дистанционной блокировки, вплоть до уничтожения всех данных на устройстве. Немаловажной является функция определения местоположения устройства, что дает дополнительный контроль за действиями сотрудника и возможность обнаружения утерянного устройства.

На этапе списания устройства или передачи его другому сотруднику система уничтожает все данные предыдущего владельца, загружает данные нового и назначает ему полномочия, релевантные его должности. В случае внепланового списания (потеря или кража) устройства функционал Afaria помогает защитить данные от прочтения: на устройстве принудительно установлен сложный пароль, а при определенном количестве неправильных вводов все данные стираются. Кроме того, информацию можно уничтожить, послав на устройство специальную команду.

Важной возможностью является выбор способа получения информации на мобильном устройстве — решение SAP Mobile Platform позволяет создать для устройства необходимую сотруднику рабочую среду, автоматически настроить контур защиты при добавлении новых источников данных и обеспечить их правильную передачу.

***

Комплекс решений Sybase IQ, Afaria и SAP Mobile Platform позволяет руководителям подразделений ИТ упростить выбор продуктов, предлагаемых для построения мобильного предприятия, выйти за рамки «силосной» информационной инфраструктуры, предоставив сотрудникам возможность доступа с мобильных устройств к средствам работы с неструктурированными данными произвольной природы и теоретически неограниченного объема.

Вадим Табаков (vadim.tabakov@sap.com) — менеджер направления «Базы данных и технологии», SAP СНГ (Москва).