Массивы хранения данных часто создаются даже в небольших компаниях. На достаточную пропускную способность можно надеяться прежде всего тогда, когда в качестве среды передачи используется Fibre Channel. Для достижения максимальной производительности высокую скорость передачи должны поддерживать и технологии, применяемые в массивах.

Тот, кто пользуется системой хранения данных, должен позаботиться, как правило, только о ее подключении к своей инфраструктуре. Возможными вариантами являются SCSI, Fibre Channel или прямое подключение к сети в случае устройства NAS. В области высокопроизводительных вычислений важную роль играет Infiniband, все большее значение получают последовательные технологии Serial Attached SCSI (SAS) и Serial ATA (SATA). Но эффективность работы системы зависит не только от внешнего подключения. Огромное влияние на производительность и время задержки оказывает то, каким образом в массиве реализована система управления встроенными жесткими дисками. Как показывают измерения, по сравнению с простым последовательным подключением дисков (Just a Bunch of Disks, JBOD) или инфраструктурой с концентратором (управляемая группа дисков — Managed Bunch of Disks, MBOD) коммутируемая инфраструктура (коммутируемая группа дисков — Switched Bunch of Disks, SBOD) обладает заметно большей пропускной способностью. Кроме того, она предоставляет и улучшенные возможности диагностики и межсоединения.

Рисунок 1. При использовании простой группы дисков (Just a Bunch of Disks, JBOD) все жесткие диски соединяются между собой в цепочку. Затем кабель снова подключается к выходному порту, поэтому топология представляет собой петлю.
Некоторое время назад производители использовали очень простые методы для соединения жестких дисков — при помощи общей шинной системы. Даже в массивах Fibre Channel (волоконно-оптическая петля с арбитражем доступа — Fibre Channel Arbitrated Loop, FC-AL) все диски изначально выстраивались в цепочку. В действительности структура представляла собой петлю, поскольку кабель Fibre Channel снова подключался к выходному порту компьютера. Эта конфигурация — и не только в области FC-AL — известна под названием «просто группа дисков» (Just a Bunch of Disks, JBOD) (см. Рисунок 1).

НЕУПРАВЛЯЕМЫЕ ОТКАЗЫ

Самым крупным недостатком этой конфигурации является практическое отсутствие устойчивости к отказам. Если хотя бы одно устройство в петле неисправно или кабель в каком-то месте обрывается, то контроллер теряет доступ к подключенным жестким дискам. В случае полной петли, где установлено 127 устройств, среднее значение наработки на отказ (Mean Time Between Failure, MTBF) составляет около года. Таким образом, в обозримое время сбой наверняка произойдет. Чтобы справиться с этой проблемой, производители интегрируют в массивы хранения данных концентраторы. Диски, как и прежде, составляют логическую петлю, но теперь из нее можно удалять отдельные диски без прерывания потока данных.

Рисунок 2. Благодаря центральному концентратору, который управляет соединениями с отдельными дисками, управляемая группа дисков (Managed Bunch of Disks, MBOD) привносит в системы хранения данных ограниченный интеллект.
Вместе с центральным концентратором, который управляет отдельными соединениями с каждым диском, системы хранения обзавелись определенным интеллектом, хотя и ограниченным (см. Рисунок 2). Эту конфигурацию назвали «управляемой группой дисков» (Managed Bunch of Disks, MBOD). MBOD обладает некоторыми преимуществами по сравнению с JBOD. Наряду с улучшенной обработкой отказов концентратор способен собирать статистическую информацию о трафике данных и вести мониторинг частоты возникновения ошибок, нагрузки и других параметров. Информация передается на хост посредством системного интерфейса, Ethernet или последовательного соединения.
Рисунок 3. Топология SBOD с петлей в состоянии покоя.

Тем не менее, как системам JBOD, так и системам MBOD приходится бороться с одним и тем же — с ограничением производительности. Даже когда в массив встроены два контроллера для обеспечения доступа при отказах, они могут быть активными лишь поочередно. Если контроллер А отправляет данные на диск Х, контроллеру В придется подождать подходящего момента для отправки данных на диск Y. Кроме того, пакет данных приходится передавать через всю петлю, даже если устройство назначения расположено рядом с контроллером. В крупных инсталляциях FC-AL с большим количеством устройств время задержки возрастает многократно. Если же концентратор пользуется своей возможностью влиять на синхронизацию пакета данных, к примеру, чтобы устранить эффекты от вариации времени задержки (jitter), длительность задержки становится еще больше. Для решения этой проблемы производители систем хранения данных Vitesse и PMC-Sierra разработали концепцию коммутируемых групп дисков (Switched Bunch of Disks, SBOD). По аналогии с Ethernet, где применение коммутаторов уже давно стало стандартом, центральный блок управления может поддерживать более одного соединения передачи данных одновременно (см. Рисунки 3 и 4). В системе с двумя контроллерами RAID, приводимой в качестве примера, обмен данных между контроллером А и диском Х происходит без каких-либо конфликтов параллельно с обменом между контроллером В и диском Y.

Рисунок 4. Топология SBOD с двумя одновременными соединениями.
С целью сокращения затрат встроенный коммутатор реализует далеко не все функции полноценного коммутатора Fibre Channel. Система прозрачна для протокола FC-AL, но способна фильтровать некоторые его составные части, чтобы гарантировать равноправное обслуживание всех подключенных устройств. Таким образом, коммутатор SBOD не управляет регистрацией портов и обладает очень небольшим объемом оперативной памяти, поскольку данные передаются дальше в соответствии с методом транзитной пересылки. Коммутатор Fibre Channel, напротив, осуществляет промежуточное хранение и более крупных объемов данных перед отправкой устройству назначения. Дополнительно встроенный коммутатор SBOD несет ответственность за корректную инициализацию всех устройств на шине. В процессе инициализации используются только 126 адресов протокола FC-AL — в отличие от коммутатора Fibre Channel коммутатор SBOD не расширяет адресное пространство. Помимо прочего он должен удалять из петли неактивные устройства, и потому автоматический алгоритм Fairness канала Fibre Channel работает вхолостую. Каждое устройство системы хранения данных ожидает от коммутатора SBOD предоставления возможности для отправки данных. В связи с этим микросхема поддерживает как минимум три команды: ARB, OPN и CLS, при помощи которых объявляются, строятся и завершаются соединения. Xyratex для обеспечения этой функциональности применяет микросхему памяти SOC320 производства компании Emulex.

УВЕЛИЧЕНИЕ ПРОИЗВОДИТЕЛЬНОСТИ ПРИ ПОМОЩИ SBOD

Когда коммутатор SBOD обеспечивает соединение двух своих портов, между подключенными устройствами формируется виртуальная петля. В отличие от систем JBOD или MBOD другие устройства, не принимающие участия в передаче данных, не влияют на время задержки в петле. Неизбежная задержка вследствие происходящих в коммутаторе внутренних процессов всегда заметно меньше, чем затраты времени на прохождение сигнала через все подключенные устройства. Система хранения данных с 16 жесткими дисками, управляемая двумя контроллерами, как правило, предоставляет один порт коммутатора на один жесткий диск. Виртуальная петля, таким образом, ограничивается двумя устройствами вместо 18, которые были бы необходимы в случае конфигураций MBOD или JBOD. С учетом удвоенной пропускной способности двух одновременных соединений выигрыш в производительности по сравнению с JBOD или MBOD значителен. Кроме того, для проведения диагностики любой жесткий диск можно изолировать и извлечь из массива без отрицательных воздействий на другие носители данных и всю систему.

Тесты с разными профилями доступа ввода/вывода показали, что системы SBOD при последовательном доступе работали как минимум в два раза быстрее, чем конфигурации MBOD или JBOD. Это касается как небольших, так и крупных систем хранения данных (от 8 до 48 дисков), и справедливо для блоков размером от 512 байт до 64 килобайт. Самые плохие результаты система SBOD показала при малом количестве дисков в каждом дисковом массиве, когда сокращение времени задержки минимально и сопоставимо с задержкой процессов коммутации. Показатели доступа системы SBOD оказались ниже всего при максимальных объемах данных, когда пакетов с командами немного и служебных данных по сравнению полезными передается мало. Но даже в самом худшем случае пропускная способность SBOD более чем в два раза превысила пропускную способность MBOD. В противоположной ситуации, когда в системе большое количество жестких дисков обслуживало множество небольших запросов, пропускная способность была в четыре раза выше. Все результаты подтверждены испытаниями, проведенными при помощи инструмента Iometer.

Другие проверки с профилем доступа, соответствующим Storage Performance Council (SPC), содержали как последовательные, так и случайные запросы ввода/вывода. Точные данные о составлении запросов ввода/вывода можно узнать из спецификации SPC-1. В таком сценарии оказывается, что производительность системы все еще ограничивается производительностью дисков. Но при использовании случайных запросов ввода/вывода бывают ситуации, когда пропускная способность системы все еще оказывает влияние на общую производительность. Тогда становится очевидным, что система SBOD в состоянии работать столь же быстро, как и система MBOD, а в некоторых случаях и вдвое быстрее. Тесты показывают, что пропускная способность всей системы становится все более ограничивающим фактором по мере увеличения количества жестких дисков, и тогда превосходство SBOD становится явным. В будущем проблема только обострится, поскольку все чаще производители устанавливают в свои системы хранения жесткие диски
с форм-фактором 2,5 дюйма.

Тим Кортни — старший разработчик в компании Xyratex Storage Systems.


© AWi Verlag