XIV — новая философия храненияСо времен IBM PC известна истина — о перспективности зарождающихся сегментов рынка можно судить по отношению к ним со стороны этой компании. Для себя IBM оценивает порог вхождения на рынок величиной 1 млрд долл в год, а если перспективы меньше, то можно и подождать. Судя по этим приметам, рынок систем хранения ждут серьезные перемены — на очереди новые типы устройств, и Голубой Гигант демонстрирует желание сделать неожиданный шаг.

Сегодня новые решения от IBM в области систем хранения данных напрямую связаны с технологиями, полученными посредством приобретения израильской компании XIV. В момент сделки это была крошечная компания из 50 человек, известная тем, что в 2005 году выпустила свой первый накопитель Nextra, радикально отличающийся от всего, что было прежде. Но известна она еще тем, что основал ее сам Моше Янаи, поэтому за небольшую по своим размерам компанию было выложено 300 млн долл., а Янаи получил все возможные почетные титулы IBM. Покупка состоялась в конце 2007 года, а через год появились первые продукты, теперь уже под названием IBM XIV Storage System. Их анонс сопровождался утверждением, что вместе с появлением наследников Nextra совершается революционный шаг в области высокопроизводительных систем хранения корпоративного уровня, в основе которого лежат технологии кластеризации и виртуализации систем хранения.

Моше Янаи называют «живой легендой Израиля» и «Мидасом систем хранения данных», своим личным трудом никто больше него на системах хранения не заработал.

После окончания университета в 1975 году Янаи служил офицером-танкистом в израильской армии, после ухода в запас поступил на работу в небольшую компанию Elbit, которая, несмотря на свою немногочисленность, умудрялась клонировать мэйнфреймы IBM, которые затем продавались в Европе под торговой маркой Nixdorf, которая и купила эту компанию центр разработки переместила в США. Попав туда, Янаи в 1987 году перешел на работу в компанию EMC, которая на тот момент насчитывала всего 1 тыс. человек и специализировалась на платах памяти. Через некоторое время он предложил конструкцию накопителя Symmetrix на базе стандартных дисков SCSI, которые успешно конкурировали с IBM 3390 — классическим мэйнфреймовским продуктом, очень надежным, не очень быстрым и чрезвычайно дорогим. По сути, Янаи воспользовался методикой, которая была впервые использована при разработке IBM PC, собрав качественно новое изделие с новой архитектурой из имеющихся на рынке готовых компонентов. Появление Symmetrix нарушило монополию IBM и создало новый, не существовавший до тех пор рынок систем хранения, поэтому Янаи заслуженно можно назвать отцом успеха EMC. На протяжении более 10 лет, вплоть до приобретения компании Data General c ее Clariion, EMC была практически монопродуктовой компанией, выпускавшей только системы Symmetrix. Тем не менее за это время ее численность увеличилась в 25 раз и был момент, когда стоимость акций по сравнению с 1990 годом выросла на 85 тыс. Такого роста котировок биржи не знали, не знают, а теперь и вряд ли узнают. Но в последующем идеология Янаи уступила взглядам тех, кто считал, что основной перспективой в развитии систем хранения являются не новые аппаратные решения, а программное обеспечение. Янаи не спорил, получил свои отступные и решил доказать правоту своих воззрений на практике.

Он вернулся в Израиль и организовал две компании, Diligent и XIV, впоследствии купленные IBM. Первая специализировалась на виртуальных лентах, а вторая — на дисковых накопителях. Нетрудно догадаться, что XIV — это число 14, записанное латинскими цифрами и, как удалось выяснить, это номер класса в военно-инженерном институте Талпиот, где учились основатели компании. Институт расположен в пригороде Иерусалима и является одним из самых престижных учебных заведений страны — желающие поступить в него проходят строжайший отбор, из 1000 кандидатов принимают 25, а оканчивают не более 20. Институт был основан после арабо-израильской войны 1973 года, доказавшей важность интеллекта при проведении боевых операций, поэтому и была поставлена задача собрать в нем гениев и изобретать новые технологии и вооружение. О выпускниках Талпиота Янаи высказался следующим образом: «Должен признать, что я бы мог найти блестящих выпускников Массачусетского технологического института, но никто из них не способен, как говорят англичане, подать напряжение на океан». Появление этого выражения связывают с Уинстоном Черчилем, который требовал, чтобы нашли способ уничтожения подводных лодок электрическим током. Со времен Второй мировой войны так стали называть стремление сделать возможным невозможное, однако выпускники Талпиота могут сделать невозможное.

В Nextra была решена одна из важнейших инженерных задач, как из массовых, дешевых и не слишком надежных составляющих собрать надежную и производительную систему. До сих пор мир систем хранения жил с убеждением, будто собственно диски являются ключевым компонентом системы хранения, и что система может быть настолько производительной, насколько производительны ее диски. Парадоксальность решения от XIV в том, что именно эту истину, на которой строится вся нынешняя индустрия систем хранения данных, признали ошибочной.

Современные диски SAS (15000 об./мин) заметно производительнее, чем диски SATA (7200 об./мин), они надежнее и на них строятся системы хранения транзакционных данных. Но новые диски SATA дешевы и имеют гигантские объемы, поэтому создать из них петабайтные хранилища несложно. Раз есть разные диски, то необходимо создавать многоуровневые системы хранения (Tier 1, 2, 3), каждому типу данных соответствует свой уровень. Различные тома данных следует хранить на разных уровнях в зависимости от востребованности. Как следствие, необходимы специальные системы для управления жизненным циклом данных (Information Lifecycle Management, ILM), обеспечивающие автоматическую миграцию данных с уровня на уровень вниз по мере старения данных, потери ими актуальности. Если смотреть с позиции одного диска, то рассуждения, приводящие к ILM, вполне логичны. Диск SATA может выполнять 100 транзакций в секунду, а диск SAS вдвое больше, к тому же у него и задержка вдвое меньше. Но если мы перейдем на системный уровень, то нетрудно посчитать, что при замене 100 дисков SAS на 200 дисков SATA теоретически мы можем получить ту же самую суммарную скорость обмена, если сможем создать для этого необходимые условия. Но этого мало, диски SATA, как минимум, втрое дешевле, в шесть раз больше по объему и потребляют энергии вдвое меньше.

Затратив в три раза меньше средств, можно получить в шесть раз большее хранилище, которое к тому же вдвое экономнее в части расхода электроэнергии. Разумеется, потребуется новая архитектура, отличающаяся высоким уровнем кластеризации, наличием больших кэшей и с трудом решаемой проблемой — органически присущей менее скоростным дискам более высокой задержкой, которая напрямую зависит от скорости вращения.

И сказанного следует, что практически все потребности бизнес-приложений, за самым редким исключением, могут быть удовлетворены за счет дисков SATA, без деления хранилищ на уровни и без выполнения процедур ILM.

Моше Янаи: «Я бы мог найти блестящих выпускников Массачусетского технологического института, но никто из них не способен, как говорят англичане, подать напряжение на океан»

Повторилась ситуация двадцатилетней давности. Тогда мэйнфреймовскую систему хранения заменили диски SCSI, имевшие широкое хождение, сегодня их точно также могут заменить диски SATA совместно с другими, имеющимися на рынке комплектующими. Янаи и его коллегам удалось решить проблему «философского камня» систем хранения — каким образом собрать из дешевых дисков высокопроизводительный накопитель корпоративного класса? Во всех остальных, даже самых современных системах хранения данных, в том числе и описываемых в других статьях этого номера журнала, сохраняется разделение: для работы с базами данных требуются диски SCSI, а область применения дисков SATA так или иначе ограничена фиксированным контентом, но специалистам из XIV удалось его преодолеть. Решение такого рода оказалось возможным благодаря принятию нескольких руководящих принципов, которые и вроде бы лежат на поверхности, но почему-то до сих пор никто их не реализовал. Во-первых, в IBM изменилось отношение к дискам — все дисковое пространство рассматривается как единая виртуальная область. Во-вторых, система наделена интеллектом, который обеспечивает ей два важнейших качества: самовосстановление (самолечение) и самонастройку — оптимальное распределение виртуального дискового пространства, выполняемое в автоматическом режиме. В-третьих, большая вычислительная мощность, кэш-память и распределенное хранение делают интегральную производительность системы независимой от непосредственной скорости работы дисков. Попутно, как сейчас это принято, решаются экологические задачи, сокращение энергопотребления и занимаемого пространства.

Эти общие принципы транслируются в основные принципы проектирования: массовый параллелизм; гранулярное распределение данных; согласованное объединение дисков, твердотельной и оперативной памяти, а также процессорной мощности. Каждый том хранения рассматривается как виртуальный, он режется на разделы по 1 Мбайт и распределяется по всем физическим дискам системы. Все диски совместно образуют единый резервуар, а система следит за его равномерным заполнением. Распределение данных является одним из наиболее стабильных свойств IBM XIV Enterprise Storage Solution, оно не меняется при изменении состава оборудования (увеличении или уменьшении числа дисков, выходе дисков из строя). Такой подход исключает необходимость в RAID-массивах — пространство для резервирования распределено по всем дискам, а параллельность доступа и кэширование обеспечивают высокую скорость. Если какой-то физический диск выходит из строя, то система за 30 минут реплицирует потерянные данные.

От других систем хранения Nextra отличается тем, что она построена как кластер, состоящий из узлов двух типов: интерфейсный модуль (Interface Module, IM) и модуль данных (Data Module, DM), которые в последних версиях объединены в одном физическом узле (рис. 1). Любой из узлов, вне зависимости от его типа, спроектирован так, что может работать независимо от остальных, являясь членом некоторого сообщества. В задачу IM-узлов, являющихся серверами, которые обеспечивают подключение по Fibre Channel или iSCSI, входит связь с сетевыми хостами. Они представляют хостам тома данных и другие сервисы данных, такие как миграция, репликация и т.д. Узлы типа DM также являются серверами, но с иной функциональностью, они содержат в себе диски SATA и выполняют операции, непосредственно связанные с работой с данными. Все эти узлы собираются из готовых, имеющихся на рынке изделий и объединяются в сеть по технологии 10G Ethernet.

 

XIV — новая философия хранения

Кластерная архитектура и ориентация на потребительские комплектующие предполагают в IBM XIV Storage System горизонтальный подход к масштабированию (scale out) — можно увеличивать емкость дисков; размер кэш-памяти, полосу пропускания между дисками и кэшем и между кэшем и хостами; процессорную мощность интерфейсных модулей и модулей данных; процессорную мощность кэш-памяти.

Данные, помещаемые в XIV, «нарезаются» в расчете на все имеющиеся шпиндели, что обеспечивает высокую производительность при низкой цене; если перевести в термины трехуровневой модели, можно сказать, что качество уровня Tier 1 доступно по цене Tier 2. Все диски виртуализируются в единый пул, в котором часть дискового пространства оставляется для замены неисправных дисков, а оставшаяся делится поровну между основной и резервной копиями данных. Например, если емкость составляет брутто 120 Тбайт, то из них 102 Тбайт занимают основные и резервные данные, 18 Тбайт (15%) отдается на резервирование дисков, а емкость нетто равна 51 Tбайт.

Модуль IM имеет два двойных порта для адаптеров 2 Гбит FC, два двойных порта для адаптеров 1 GigabitEthernet и два порта 1 GigabitEthernet для системной платы, а также системы питания и охлаждения с резервированием. Каждый IM работает независимо от других и действует как маршрутизатор, направляя трафик данных по системе. Для этого модуль имеет карту распределения всех данных по системе, используя которую он направляет данные в соответствующий модуль данных. Карта составляется автоматически программным модулем Manager и направляется во все IM, где хранится на жестком диске. Модули IM резервируют друг друга и могут быть заменены в процессе эксплуатации. Плюс ко всему на IM работает ПО, управляющее работой XIV. Физически IM выполнен в конструктиве 2U.

Модуль DM (3U) состоит из 15 дисков SATA 1 Тбайт, соединенных двойной шиной 8 Гбайт PCI-X с процессором и кэш-памятью (DRAM). Каждый DM имеет один порт 1 Гбит Ethernet для подключения к внутренним коммутаторам XIV, собственный локальный кэш для операций чтения и записи. Центрального кэша нет, что увеличивает возможность масштабирования. Модули DM могут быть заменены в процессе эксплуатации. Резервирование данных не предполагает создания RAID-массивов, и если в системе, например, 120 дисков, то содержимое каждого распределяется по 119 оставшимся.

Все дисковое пространство рассматривается как общий пул хранения, его можно разбивать на отдельные пулы меньшего размера. Минимальный размер пула 17 Гбайт, а максимальный — весь объем системы. Размеры пулов могут меняться динамически, но при этом администратор не имеет доступа к физическим дискам, а управляет лишь виртуализованными логическими устройствами с логическими номерами томов LUN. Физическими томами управляет только ПО XIV Manager в привязке к каждому отдельному DM. Отдельные LUN отображаются на карте, причем невозможно привязать отдельный LUN к определенному DM, а тома можно свободно перемещать по пулу.

Каждый том режется на разделы по 1 Мбайт, а каждый раздел зеркалируется на двух DM. Размер выбран как наиболее подходящий с точки зрения оптимизации обмена данными между шпинделями и организации кэширования. В карте распределения на каждом IM есть сведения о том, на каком из LUN расположен каждый из разделов. Распределительный механизм ПО IM Manager автоматически размещает разделы по томам, и именно он является ключевой частью интеллектуальной собственности компании XIV system. Самое существенное состоит в том, что для интерпретации данных достаточно уровня Tier 1 и нет никакой необходимости их каким-то образом перемещать. Это значит, что большая часть задач, называемых управлением жизненным циклом информации (ILM), вообще теряет смысл — все данные находятся в равной степени готовности. При этом администратор не управляет размещением данных, а если число дисков меняется в меньшую или большую сторону, то их отображение на пул происходит автоматически.

Для более эффективного использования дискового пространства в системе реализована концепция тонкого распределения (Thin Provisioning), а для большей защищенности реализованы несколько версий (Snapshot).

Динамическое распределение дискового пространства между приложениями позволяет резервировать столько места, сколько требуется приложению, что позволяет повысить уровень использования и соответственно снизить инвестиции и эксплуатационные расходы. Опыт показывает, что в традиционных системах неиспользованными остаются до 70% дискового пространства из-за избыточного резервирования, которое обычно вызывается отсутствием гибкой системы управления размерами томов. В IBM XIV Storage System количество создаваемых копий «моментальных снимков» не ограничено, а время их создания сведено практически к нулю и не зависит от размера реплицируемого тома.

Система IBM XIV Storage System прошла несколько конструктивных модернизаций, в последней из них интерфейсные модули и модули данных унифицированы (рис. 2). В стандартной стойке упаковывается 15 таких модулей, каждый из которых содержит 12 дисков, 8 Гбайт памяти, четырехъядерный процессор Intel и четыре порта Ethernet для внутренних коммуникаций. Из этих 15 модулей шесть выполняют интерфейсные функции, поэтому у них есть еще 4 порта FC и два порта iSCSI.

XIV — новая философия хранения


Рис. 1. Архитектура Nextra

Рис. 2. Модульное устройство IBM XIV Storage System