Появление новых версий, равно как и подписание нескольких партнерских соглашений с разработчиками программного обеспечения, показало, что компания делает ставку на перспективные подходы к управлению базами данных, используемые гигантами веб-отрасли типа Google и Yahoo, и намерена предлагать их корпоративным клиентам в качестве альтернативы реляционным СУБД.
«Готов поспорить, что потребность в анализе как структурированных, так и неструктурированных данных вскоре ощутят не только крупные веб-проекты, но и банки, медицинские центры и страховые компании, — заявил Майк Олсон, генеральный директор Cloudera. — И Hadoop поможет им в этом. Наши технологии позволят решать новые задачи новыми методами».
Как и ряд других новых СУБД, не поддерживающих язык SQL, Hadoop базируется на технологии Google MapReduce, предназначенной для организации параллельной обработки данных на большом количестве компьютеров массовых конфигураций. Платформа Hadoop, развиваемая в качестве проекта Open Source под эгидой Apache Software Foundation, является альтернативой традиционным реляционным СУБД и хорошо подходит для анализа крупных и быстро меняющихся наборов данных.
«Обработка информации может осуществляться как при помощи SQL-запросов, так и без их использования, — пояснил Олсон. — По сравнению с реляционными СУБД наши технологии демонстрируют более высокую устойчивость к серверным сбоям».
Специалисты подчеркивают, что новая технология уменьшает потребности в суперкомпьютерах, предназначенных для анализа больших объемов информации. До сих пор большие наборы данных перед их анализом переносились с устройств хранения в суперкомпьютеры. Hadoop, напротив, позволяет перенести аналитические расчеты в места расположения данных, исключая тем самым необходимость в централизованных компьютерах с гигантской вычислительной мощностью.
Дистрибутив Hadoop и новый инструментарий в Cloudera адресуют организациям небольшого размера. Предполагается, что начать работу с ними можно, не имея глубоких познаний в Hadoop. «Есть мнение, что технологии Hadoop используются лишь для обработки информации, объемы которой соответствуют масштабу Google, — заметил Олсон. — Однако в мире довольно много пользователей, заинтересованных в анализе данных объемом всего в несколько терабайтов».
Cloudera Distribution for Hadoop включает в себя набор программ с открытым кодом, объединенных вокруг ядра Hadoop Common (ранее оно называлось Hadoop Core). В CDH входят: программное обеспечение Hive, формирующее инфраструктуру для построения хранилищ данных; СУБД Hbase на основе Hadoop; компилятор Pig для программ, соответствующих парадигме map-reduce; планировщик Zookeper для запуска приложений на нескольких серверах и технология MapReduce.
В новую, третью версию пакета также включены три программы, разработанные Cloudera в ходе проектов с открытым кодом и распространяемые по лицензии Apache V2. Первая из них называется Flume и помогает загружать данные в среду Hadoop. Второе дополнение, Oozie, представляет собой программное обеспечение управления технологическими процессами. И наконец, в компоненте Hadoop User Environment реализован пользовательский интерфейс управления Hadoop.
«Программное обеспечение HUE, которому известно, каким образом следует поддерживать взаимодействие с кластерами Hadoop, позволяет создавать аналитические приложения любому желающему», — отметил Олсон.
Олсон не сообщил, какова стоимость подписки и консультационных услуг, но указал, что в первом квартале 2010 года Cloudera заработала примерно столько же, сколько за первую половину 2009 года. Интерес к технологиям компании проявляли представители телекоммуникационной отрасли, розничной торговли, госсектора, интернет-коммерции и сферы финансовых услуг.
С помощью Hadoop решают довольно широкий спектр задач. Данные, поступающие из самых разных мест, требуют сложного анализа. Финансовые службы заинтересованы в использовании Hadoop для обнаружения мошенничества. Телекоммуникационная отрасль испытывает реальную потребность в оптимизации сетей и снижении оттока клиентов.