До сих пор Cleversafe не получила ни одного заказа на систему экзабайтного масштаба, однако в компании утверждают, что организации уровня Fortune50 проявляют к ней большой интерес. Источник: Cleversafe |
Непросто даже представить себе такой объем данных. Так, например, 1 тыс. Гбайт составляет 1 Тбайт, память емкостью в 1 Тбайт может вместить до 300 часов видео. Соответственно емкость новой системы хранения Cleversafe больше в миллион раз.
Для создания системы хранения в 10 Эбайт может потребоваться до 4,5 млн жестких дисков емкостью в 3 Тбайт. Сейчас стоимость такого диска составляет около 150 долл., то есть для создания системы заявленного масштаба потребуется до 700 млн долл. — и это только за сами накопители. Стоимость же системы в целом, учитывая затраты на стойки, сетевое оборудование и программное обеспечение, составит миллиарды, признал Расс Кеннеди, вице-президент Cleversafe по стратегии в области продуктов.
Разрабатывая проект системы хранения на 10 Эбайт, в Cleversafe исходили из потребности пользователей опираться на знания, получаемые при аналитической обработке Больших Данных, для чего необходимо накапливать и хранить неструктурированные данные в невиданных доселе объемах.
Системы хранения такого масштаба еще не существует, но компания уже развернула эталонную конфигурацию на несколько десятков петабайтов, распределенную по ЦОД в восьми штатах, включая Нью-Джерси, Калифорнию, Флориду, Техас и Иллинойс.
«Эта конфигурация была создана для демонстрации работоспособности большой системы, — пояснил Кеннеди. — Мы построим и систему в полной конфигурации, когда у пользователей возникнет в ней необходимость. Сейчас у нас есть несколько очень интересных запросов».
Ежегодный прирост интернет-трафика оценивается в 32%. В этой ситуации компаниям, выполняющим анализ данных, к 2015 году потребуются системы, которые, по словам Кеннеди, способны каждый месяц эффективно анализировать в сумме 80 Эбайт данных.
Частная компания Cleversafe основана в 2004 году. Она финансируется из венчурных фондов, в том числе In-Q-Tel, образованного ЦРУ для инвестирования стартапов, занимающихся перспективными с точки зрения спецслужб технологиями. Объем финансирования составляет 31 млн долл. в год.
«Данные — бесценный капитал любой организации. Однако он не работает, если организация не способна эффективно и экономично анализировать их в динамике, оперативно выявляя новые тенденции, — напомнил Кеннеди. — Решение, предложенное Cleversafe, предоставляющее в распоряжение компаний почти неограниченную емкость, служит основанием для развертывания систем анализа Больших Данных».
Инструменты для анализа больших объемов данных используются для самых разнообразных целей — от анализа шаблонов трафика, позволяющих выявить мошенничество, до изучения поведения покупателей в интернет-магазинах.
Для создания гигантской системы хранения данных Cleversafe использует оригинальную технологию Dispersed Storage; перед записью в память данные разделяются с помощью алгоритма Коши Рида-Соломона. Разделенные данные, или «слои данных», как их называют в Cleversafe, распределяются по многочисленным узлам хранения, для обмена данными используется протокол TCP/IP. Обычно в этом процессе задействовано три или четыре центра обработки данных. Так же как в классическом сценарии RAID, в алгоритме используется контроль четности, что позволяет избежать потери или порчи данных при их «сборке» из нескольких «слоев».
«Передача данных производится по открытому интернет-каналу. Мы работаем с несколькими провайдерами, как с крупными так и с небольшими», — подчеркнул Кеннеди.
Архитектура Cleversafe собирается из устройств трех типов: узел Accesser, на котором выполняется разделение и извлечение данных; система Slicestor, представляющая собой массив хранения, где, собственно, и находятся данные; клиент Manager, управляющий сетью хранения и отвечающий за подсистему отчетности об использовании мощностей хранения.
Все данные хранятся в едином пространстве под одним доменным именем, поэтому для клиента вся емкость представляется единым пулом. В силу того что каждый отдельный слой данных не может быть воссоздан без использования метаданных, которые хранятся в центральной базе данных, а без этого хранящаяся в нем информация не поддается распознаванию, система безопасна по своей сути.
10-экзабайтная архитектура расширена еще одним компонентом, чтобы сделать возможным неограниченное и независимое масштабирование емкости и производительности. Система Portable Datacenter (PD) представляет собой набор стоек с устройствами хранения и сетевым оборудованием, которые легко ввести в работу или переместить.
В каждый модуль PD входят 21 стойка со 189 узлами системы хранения; каждый узел объединяет в себе 45 дисководов емкостью 3 Тбайт. Географически распределенная модель системы дает возможность быстрого наращивания емкости, а также обеспечивает мобильность и может быть в дальнейшем оптимизирована для защиты от сбоев и обеспечения высокой готовности. В текущую конфигурацию системы входят 16 центров на территории США с 35 системами PD каждый и несколькими сотнями одновременно работающих устройств считывания/записи для обеспечения мгновенного доступа к миллиардам объектов.
«Компании, которым необходимо защищать свои данные и извлекать знания из огромного объема накопленной информации, должны рассматривать альтернативы технологии RAID, чтобы достигать практически неограниченного масштабирования», — отметил Дэвид Рейнсел, аналитик компании IDC.
До сих пор Cleversafe не получила ни одного заказа на систему экзабайтного масштаба, но Кеннеди сказал, что компании уровня Fortune50 проявляют к ней большой интерес.
«Идея рассредоточения и возможности хранить крупные неструктурированные объекты без необходимости копирования или тиражирования способствует росту интереса к системам такого типа, — отметил он. — Большинству современных объектных систем хранения требуются не одна, а несколько копий данных для гарантии их сохранности. Мы же обеспечиваем все необходимые требования на единственной копии».