OpenWorld: Oracle о программной стороне машины Больших Данных

Энди Мендельсон: "Hadoop и другие инструменты Big Data Appliance позволяют 'дистиллировать' данные с превращением их в полезную информацию". Фото: CC BY 2.0 Hartmann Studios

Большие Данные — расхожий в последнее время термин, означающий гигантские объемы данных, которые, помимо традиционных корпоративных приложений, генерируются веб-сайтами, сетями датчиков и иными источниками.

Как сообщают в Oracle, в состав новой системы включен дистрибутив системы распределенной обработки данных Hadoop, инструменты Oracle Data Integrator Application Adapter for Hadoop и Oracle Loader for Hadoop, а также среда статистического анализа с открытым кодом R и NoSQL-СУБД Oracle.

«Данных накапливается несметное количество, но большая их часть не имеет ценности для бизнеса, — полагает Энди Мендельсон, старший вице-президент Oracle по технологиям серверов баз данных. — Из всей этой массы обычно требуется извлечь лишь несколько капель эссенции полезных сведений. Hadoop и другие инструменты позволяют 'дистиллировать' данные с превращением их в полезную информацию, которую затем можно загрузить для дальнейшего анализа в хранилище данных, например в систему Oracle Exadata».

Как поясняет аналитик Monash Research Курт Монаш, термином NoSQL обозначают растущее семейство технологий баз данных, которые можно определить по отсутствующим у них свойствам: поддержка SQL, операции соединения и встроенные механизмы обеспечения целостности данных. «NoSQL также нет равных в аналитических возможностях, и такие СУБД обычно горизонтально масштабируются в широких пределах», — добавляет аналитик.

В Oracle подчеркивают, что NoSQL-СУБД представляет собой распределенную, высокомасштабируемую базу «ключ-значение», отличающуюся простотой инсталляции, настройки и управления. Система поддерживает широкий диапазон рабочих нагрузок и обладает надежностью корпоративного уровня.

СУБД основана на технологии Oracle Berkeley DB. «Berkeley DB — возможно, самое популярное хранилище типа 'ключ-значение' в Web, но в оригинале в нем используется лишь один индекс, — указал Мендельсон. — В Oracle же для новой NoSQL-СУБД реализовали распределенную инфраструктуру, которая позволяет иметь хоть 100 индексов».

Как и Berkeley DB, новая NoSQL-СУБД будет предлагаться по лицензии Open Source и в виде коммерческого дистрибутива. Последний, по словам Мендельсона, со временем, скорее всего, получит расширенные возможности, отсутствующие у открытого варианта.

По утверждению Мендельсона, в Oracle понимают, что далеко не все сисадмины и разработчики сегодня знакомы с новыми моделями программирования вроде Hadoop: «На сегодня Hadoop является довольно нишевой технологией. Все о ней говорят, но мало кто из клиентов Oracle знает, как ею пользоваться». Смягчить эту проблему призваны дополнительные программные компоненты Big Data Appliance — адаптер для интеграции данных и загрузчик Hadoop.

«Достаточно ли мы разработали вспомогательных инструментов для Hadoop? — продолжает Мендельсон. — Не думаю, что задача решена полностью, но ряд важных шагов в этом направлении сделан».

Программная среда R, в свою очередь, интегрирована с СУБД Oracle 11g, что позволяет приложениям на R работать с данными, хранимыми в этой системе. В Big Data Appliance используется стандартный дистрибутив R, но в дальнейшем в Oracle собираются выпустить для него ряд проприетарных компонентов.

Все перечисленные программные компоненты в Oracle планируют предлагать как в виде самостоятельных продуктов, так и с Big Data Appliance.

Расценки и сроки выпуска нового комплекса пока не объявлены. Ему предстоит конкурировать с системами Aster Data, Netezza и Greenplum.

По мнению аналитика Forrester Джеймса Кобьелуса, новый комплекс — не первая «машина Больших Данных» Oracle, если определять большие данные как «три V»: volume («объем» — петабайты хранимых данных), velocity («скорость» — получение данных, преобразование, загрузка, анализ и опрос в реальном времени) и variety («разнообразие» — обработка структурированных и полуструктурированных данных различных типов).

«Все перечисленные свойства есть у Exadata, а эта система уже оптимизирована для смешанных рабочих нагрузок: она поддерживает возможности анализа хранимых в базах данных и их массово-параллельной обработки при помощи обширной библиотеки высокоразвитых аналитических алгоритмов и моделей», — полагает аналитик.

По его мнению, важную роль будет играть то, какая часть подпроектов Hadoop войдет в состав дистрибутива Oracle: «MapReduce и Pig — это фактически главные столпы разработки и моделирования Hadoop. Для технологий машинного обучения все шире применяются библиотеки Mahout. Основными механизмами хранения данных для пакетной и оперативной обработки являются HDFS и HBase, а Cassandra достаточно активно используется для распределенной аналитики реального времени и транзакционных вычислений. Если в комплексе Oracle не будет большинства из перечисленных компонентов плюс Zookeeper и инструментарий Hadoop Common, то Big Data Appliance нельзя будет назвать полноценной платформой Hadoop, готовой к применению на предприятиях».

Мендельсон отказался перечислить компоненты Hadoop, которые Oracle планирует включить в состав своего дистрибутива. Однако, по его утверждению, в нем будет «все, на что рассчитывают участники сообщества Hadoop».

«Мы не собираемся изымать какие-либо технологии потому, что они конкурируют с нашими собственными, — подчеркнул топ-менеджер Oracle. — Это будет полноценный дистрибутив».

По мнению Кобьелуса, Oracle, вероятно, купит кого-то из разработчиков специализированных реализаций Hadoop, чтобы расширить свой арсенал соответствующих инструментов.

OpenWorld: Oracle о программной стороне машины Больших Данных

Коммуникационные сервисы и эпоха перемен