Об этих дополнениях, также реализуемых как продукты с открытым кодом, компания сообщила на конференции Hadoop Summit 2010. Все они переданы в распоряжение Apache Software Foundation.
Yahoo интерирует в Hadoop стандарты аутентификации Kerberos, что обеспечит более безопасную совместную работу и совместное использование данных. Kerberos позволяет также реализовать режим множественной работы (multi-tenancy), когда одно и то же оборудование может использоваться несколькими участниками, при этом доступ и обработка важных данных требует соответствующей аутентификации, пояснил Шелтон Шугар, старший вице-президент Yahoo по облачным вычислениям.
«Ранее данные с различными требованиями к безопасности требовалось изолировать в разных grid-средах, а затем организовывать доступ ко всем ним», — отметил Шугар. Поддержка Kerberos упростит управление доступом.
«Мы получаем развитые возможности аутентификации и защиты данных и сможем собирать различные приложения и данные в одной и той же сети grid», — отметил Шугар.
Hadoop служит платформой для центров обработки данных и облачных вычислений.
«В Yahoo используют Hadoop как единую инфраструктуру данных», — пояснил Шугар. Число различных компьютерных событий разного рода, которые компания обрабатывает ежедневно, достигает 100 млрд. Речь идет, в частности, о переходах по ссылкам и просмотрах страниц, информация о которых сохраняется в Hadoop и позволяет на основе предпочтений конкретных пользователей настраивать, какой контент выдавать им в первую очередь.
Oozie, механизм управления потоками работ для Hadoop, разработанный Yahoo, поддерживает управление потоком работ и координацию заданий, выполняемых на платформе Hadoop. В него входит распределенная файловая система Hadoop Distributed File System, язык управления потоками данных и среда исполнения для параллельных вычислений Pig, а также каркас MapReduce для распределенной обработки крупных наборов данных. Oozie представляет собой механизм, управляемый событиями, и обеспечивает управление сложными заданиями, пояснил Шугар.
Все предложения, связанные с Hadoop, направлены на то, чтобы занять подобающее место на рынке, где Yahoo потеснила компания Google. Так считает аналитик IDC Мелани Пози.
«Одна из причин, по которой Yahoo старается возглавить и вести разработку многочисленных расширений для Hadoop, — это стремление укрепить свои позиции новатора в пространстве Интернета», — выразила свое мнение Пози.
Технологии безопасности и поддержки потоков работ будут доступны в рамках Yahoo Developer Network.
Yahoo начала работать с Hadoop в 2005 году. Данная платформа завоевала популярность у интернет-компаний, а сейчас ее активно осваивают и организации другого профиля.