- Одно из решений в области хранения данных, набирающее популярность в связи с темой Больших Данных (Big Data) – горизонтально масштабируемые, или кластерные системы NAS (scale-out NAS). Если сравнить их с решениями по кластеризации файловых хранилищ с использованием устройств файловой виртуализации, то каковы преимущества scale-out NAS? Какие возможности доступны в scale-out NAS, но недоступны при файловой виртуализации?
NAS – это система хранения данных, как правило, предоставляющая доступ к хранимой информации на уровне файловой системы. NAS обычно работает по протоколам CIFS (общие папки Microsoft Windows), NFS (Linux, Unix), FTP или WebDAV (Internet). Проблемы таких систем обычно заключается в их невысокой производительности. NAS-серверы прочно заняли свою нишу в компаниях для обмена информацией между сотрудниками, для ведения общей документации, общих баз, общих проектов и т.д. Количество устройств хранения (дисков, HDD) обычно без проблем можно наращивать, но в случае, если к NAS подключается большое число пользователей, либо вместо пользовательской нагрузки NAS нагружают серверными клиентами, значительно более чувствительными к ресурсам, узким местом может стать сама платформа NAS-сервера (RAID-контроллер, сеть, память, процессор, шина PCI). В этом случае некоторые производители пошли по принципу масштабирования NAS-серверов. Эти системы и называются scale-out NAS. В таких системах обычно общая дисковая подсистема (JBOD), сеть хранения данных (FC, SAS, Infiniband, Ethernet) и несколько серверов, раздающих информацию в сеть общего пользования. Эти системы вполне способны повысить производительность подсистемы хранения по сравнению с традиционными NAS, но обладают значительными ограничениями по пределу масштабирования (предел количество «голов» NAS), стоимости (значительно выше, чем у традиционных NAS), сложности администрирования. Кстати, LSI планирует выпустить свое решение для scale-out NAS в 2013 году. Это будет Active-Active отказоустойчивый кластер с общим хранилищем на SAS-JBOD.
- В чем заключаются отличия объектных систем хранения (Object Storage) от систем хранения с адресацией по содержанию (Content Addressable Storage, CAS)? Что нового привносят современные технологии объектного хранения по сравнению с известными прежде технологиями контентной адресации?
Object Storage как и CAS имеют в значительной степени похожую архитектуру, но были разработаны для разных целей. Object Storage (Lustre, Panasas) ставят своей главной задачей обеспечение максимальной производительности, в то время как CAS-системы стараются максимизировать надежность хранения. Отсюда и применение таких систем. Object – в основном в HPC, а CAS – для online-архивов.
- Каковы перспективы развития файловых систем для хранения и обработки больших объемов данных? На каких характеристиках и функциях файловых систем делают акцент вендоры, предлагающие альтернативы (или улучшения) HDFS?
HDFS обычно применяется совместно с Hadoop (Map-Reduce). Знакомые с проблематикой обработки Больших Данных знают, что основными этапами такой обработки являются собственно Map и Reduce. Но часто упускают из виду операцию Merge, которая идет в промежутке между Map и Reduce. В случае Merge, архитектура HDFS, основанная на применении медленных и больших по объему NL-SAS- или SATA- дисков не всегда оптимальна. Здесь нужно использовать гибридные массивы с применением как HDD (для объема), так и SSD (для кэширования), такие как Nytro MegaRAID или CacheCade. В таком случае, можно значительно повысить скорость обработки больших объемов данных. При обработке Больших Данных кроме HDFS можно также применять и Object Storage.
- Существуют ли, по-вашему мнению, пределы наращивания IOPS с помощью флэш-технологий, так сказать предел производительности? Что ее ограничивает и за счет чего можно поднять скорость чтения/записи на SSD?
Сегодня основными ограничивающими факторами производительности в подсистемах с SSD являются сами SSD (в частности, входящие в их состав контроллеры, обеспечивающие заданную надежность устройств), а также контроллеры RAID (или HBA), способные пропустить через себя ограниченное число операций в секунду. На сегодняшний день производительность серверных устройств SSD составляет порядка 30-50 тысяч операций ввода-вывода в секунду (IOPS). Лучшие контроллеры (такие как PCI-e 3.0 LSI MegaRAID 9271) способны обслужить до 500 тысяч операций IOPS. Это позволяет строить массивы размером до 16 устройств SSD на контроллер без потери производительности. Кроме традиционной связки контроллер-SSD сегодня на рынке представлены также PCI-SSD устройства, такие как Nytro WarpDrive. Это карты SSD, размещаемые непосредственно в PCI-слот сервера, позволяющие добиться высоких показателей IOPS без конфигурирования и тюнинга.
- Что позволяет, по вашему мнению, добиться экономической эффективности применения SSD, ведь их стоимость пока значительно выше HDD?
Оптимальным с точки зрения цена-производительность на сегодняшний день является решение организации гибридных массивов HDD/SSD. В таких массивах информация хранится на HDD, в то время как SSD используются в качестве быстрого и объемного кэша. Гибридный массив можно построить на основе RAID-контроллеров CacheCade для MegaRAID от LSI или MaxIQ от Adaptec. К контроллерам затем подключаются HDD и SSD, которые работают как единый массив. Кроме этого, можно воспользоваться встроенным ПО внешних систем хранения данных. Некоторые производители уже включили средства организации кэширования на SSD в состав ПО своих СХД. Если же внешняя СХД не поддерживает такой режим, то можно использовать дополнительные кэширующие карточки внутри сервера, подключенного к внешней СХД, например LSI Nytro XD.