Появление новых версий, равно как и подписание нескольких партнерских соглашений с разработчиками программного обеспечения, показало, что компания делает ставку на перспективные подходы к управлению базами данных, используемые гигантами веб-отрасли типа Google и Yahoo, и намерена предлагать их корпоративным клиентам в качестве альтернативы реляционным СУБД.
"Готов поспорить, что потребность в консолидированном анализе как структурированных, так и неструктурированных данных вскоре ощутят не только крупные веб-проекты, но и банки, медицинские центры и страховые компании, — заявил Майк Олсон, генеральный директор Cloudera Майк Олсон. — И Hadoop поможет им в этом. Наши технологии позволят решать новые задачи новыми методами".
Как и ряд других новых СУБД, не поддерживающих язык SQL, Hadoop базируется на технологии Google MapReduce, предназначенной для организации параллельной обработки данных на большом количестве компьютеров массовых конфигураций. Платформа Hadoop, развиваемая в качестве проекта категории Open Source под эгидой Apache Software Foundation, является альтернативой традиционным реляционным СУБД и хорошо подходит для анализа крупных и быстро меняющихся наборов данных.
"Обработка информации может осуществляться как при помощи SQL-запросов, так и без их использования, — пояснил Олсон. — По сравнению с реляционными СУБД наши технологии демонстрируют более высокую устойчивость к серверным сбоям".
Дистрибутив Hadoop и новый инструментарий в Cloudera адресуют организациям небольшого размера. Предполагается, что начать работу с ними можно, не имея глубоких познаний в Hadoop. "Есть мнение, что технологии Hadoop используются лишь для обработки массивов информации, объемы которой соответствуют масштабу Google, — заметил Олсон. — Однако в мире довольно много пользователей, заинтересованных в анализе данных объемом всего в несколько терабайтов".
Cloudera Distribution for Hadoop (CDH) включает в себя набор программ с открытым кодом, объединенных вокруг ядра Hadoop Common (ранее оно называлось Hadoop Core). В CDH входят: программное обеспечение Hive, формирующее инфраструктуру для построения хранилищ данных; СУБД Hbase на основе Hadoop; компилятор Pig для программ, соответствующих парадигме map-reduce; планировщик Zookeper для запуска приложений на нескольких серверах и технология MapReduce.
В новую, третью версию пакета также включены три программы, разработанные компанией Cloudera в ходе реализации проектов с открытым кодом и распространяемые по лицензии Apache V2. Первая из них называется Flume и помогает загружать данные в среду Hadoop. Второе дополнение, Oozie, представляет собой программное обеспечение управления технологическими процессами. И наконец, в компоненте Hadoop User Environment реализован пользовательский интерфейс для управления Hadoop.
"Программное обеспечение HUE, которому известно, каким образом следует поддерживать взаимодействие с кластерами Hadoop, позволяет создавать аналитические приложения любому желающему", — отметил Олсон.
CDH 3.0 в пакете Cloudera Enterprise дополняют основанные на протоколе LDAP инструменты управления, распространяемые на коммерческих условиях. Они призваны помочь ИТ-администраторам в управлении доступом, распределении ресурсов, настройке конфигурации и мониторинге производительности.
Олсон не сообщил, какова стоимость подписки и консультационных услуг, но указал, что в первом квартале 2010 года Cloudera заработала примерно столько же, сколько за первую половину 2009 года. Интерес к технологиям компании проявляли представители телекоммуникационной отрасли, розничной торговли, госсектора, интернет-коммерции и сферы финансовых услуг.
С помощью Hadoop решают довольно широкий спектр задач. Данные, поступающие из самых разных мест, требуют сложного анализа. Финансовые службы заинтересованы в использовании Hadoop для обнаружения мошенничества. Телекоммуникационная отрасль испытывает реальную потребность в оптимизации сетей и снижении оттока клиентов.
Помимо поставки новых пакетов, компания Cloudera налаживает контакты с поставщиками систем бизнес-анализа и программного обеспечения управления данными, которые в свою очередь предлагают услуги техподдержки Hadoop.
В ходе своего выступления на недавней конференции Hadoop Summit 2010 в Санта-Кларе Олсон сообщил, что компания MicroStrategy, поставляющая системы бизнес-анализа, готова предложить своим клиентам услуги поддержки Hadoop.
Еще одним новым партнером Cloudera стала компания Talend, специализирующаяся на разработке ПО обеспечения интеграции данных с открытым кодом. Возможности Talend Integration Suite были расширены благодаря интерфейсу с базами данных Hadoop. Новое программное обеспечение позволяет ИТ-администраторам организовывать управление множеством агрегированных источников данных с единой консоли.
"Теперь наши приложения могут вставлять данные в базы Hadoop и с учетом особенностей их архитектуры", — сообщил вице-президент Talend по маркетингу Ив де Моншейль.
Microstrategy и Talend присоединились к растущему числу организаций, готовящих программное обеспечение с открытым кодом и коммерческие инструменты управления для Hadoop. Компании Cloudera и Quest приступили к проекту по созданию программного обеспечения, связывающего Hadoop с СУБД Oracle. В мае компания Pentaho объявила, что ее пакет программ бизнес-анализа с открытым кодом будет работать с базами данных Hadoop.
В интервью службе новостей IDG Рэйми Стата, технический директор Yahoo (специалисты компании были в числе инициаторов проекта Hadoop), заявил, что новая технология уменьшает потребности в суперкомпьютерах, предназначенных для анализа больших объемов информации. До сих пор большие наборы данных перед их анализом переносились с устройств хранения в суперкомпьютеры. Hadoop, напротив, позволяет перенести аналитические расчеты в места расположения данных, исключая тем самым необходимость в централизованных компьютерах с гигантской вычислительной мощностью.
Коммерческим распространением технологий Hadoop, помимо Cloudera, занимается корпорация IBM. Недавно IBM начала предоставлять своим клиентам набор аналитических услуг, в которых используется данная технология.