Объемы хранимых данных ежегодно увеличиваются на 50–80%, что заставляет разработчиков искать альтернативы сложным СХД с ограниченной масштабируемостью, создавать решения, более эффективно использующие ресурсы ЦОД и сокращающие время простоя, а кроме того, упрощать администрирование за счет автоматизации операций, ведь расходы на управление также быстро растут. Эта задача повышения эффективности хранения данных решается с помощью консолидации и многоуровневого хранения. Многоуровневое, иерархическое хранение информации (см. Рисунок 1) — один из подходов, которые приходят на смену экстенсивному наращиванию емкости хранения данных.

Рисунок 1. По данным проведенного в 2012 году опроса Storage Magazine, многоуровневое хранение входит в пятерку самых популярных технологий повышения эффективности СХД.
Рисунок 1. По данным проведенного в 2012 году опроса Storage Magazine, многоуровневое хранение входит в пятерку самых популярных технологий повышения эффективности СХД.

 

Нередко дисковые массивы содержат большие объемы информации, доступ к которой осуществляется очень редко, если происходит вообще. Согласно статистике, 90% данных после их создания не востребованы. Идея отделить «нужные» данные (частота обращения к ним считается лучшим критерием ценности) и поместить их на более дорогие, но быстрые носители, а все остальное хранить на дешевых и медленных или в СХД, — возникла уже давно. В частности, она нашла выражение в концепции управления жизненным циклом данных (ILM) — процедуре, при которой системный администратор должен постоянно менять приоритет данных в зависимости от их важности для бизнеса. Это сложная задача, отнимающая много времени, к тому же тома (LUN) перемещаются целиком, хотя могут содержать данные, запрашиваемые с разной степенью интенсивности.

ОТ ILM и HSM к AST

«Концепция ILM существует уже не один год, и все это время предпринимались более или менее успешные попытки реализовать ее на практике.

Решения HSM, которые были на слуху пять – восемь лет назад, функционировали на достаточно высоком уровне в инфраструктуре хранения. Обычно с их помощью расширялся функционал файловой системы за счет присоединения к ней дополнительного, ‘‘внешнего’’ уровня хранения. На практике подобные продукты показали весьма ограниченную применимость к базам данных, да и успешно реализованные решения базировались в основном на платформе Windows, что сократило сферу использования продуктов HSM до файловых серверов, — рассказывает Роман Володин, руководитель отдела СХД компании «Инфосистемы Джет». — Современное многоуровневое хранение реализовано на более низких уровнях, внутри СХД, прозрачно для файловых систем и приложений и, таким образом, может использоваться для очень широкого круга задач — от транзакционных СУБД до файловых серверов. Причем оно нисколько не противоречит ILM: эти подходы могут сочетаться в рамках одной крупной инфраструктуры».

В концепции иерархического, или ярусного, хранения (Tiered Storage или Storage Tiering) в СХД выделяются несколько уровней хранения с разными показателями производительности и стоимости: стандартные твердотельные накопители (Solid State Drive, SSD) или специально разрабатываемые вендорами для своих СХД флэш-накопители (Enterprise Flash Drive, EFD), жесткие диски SAS, FC и/или SATA с разной частотой вращения или разные уровни RAID, магнитные ленты и даже облако. Причем, по мнению специалистов IBM, Tiered Storage — скорее технический термин, а Storage Tiering — организационный.

Новые технологии позволяют динамически перемещать данные между разными уровнями. SSD можно применять для активных («горячих») блоков данных или в качестве кэш-памяти для чтения/записи. В HDS считают, что 80% информации, размещенной на рабочих СХД, следует перенести на менее дорогие и производительные системы хранения. При этом не только не теряется скорость доступа к часто используемым данным, но и значительно снижаются потребности в дорогостоящей дополнительной емкости хранения.

В системах с автоматическим или динамическим многоуровневым хранением (Automated Tiered Storage, ATS или Automated Storage Tiering, AST) данные автоматически переносятся между разными уровнями в зависимости от интенсивности использования. AST предполагает их динамическую классификацию и миграцию. В результате самые быстрые и дорогие накопители выделяются для данных, поступающих от критически важных приложений (см. Рисунок 2). Динамическое многоуровневое хранение позволяет увеличить производительность последних (например, существенно улучшить время отклика в СУБД) и сократить издержки на хранение данных и энергопотребление.

Рисунок 2. Создание иерархических систем хранения помогает оптимизировать стоимость хранения и сделать управление жизненным циклом информации более эффективным. «Температурный профиль» данных позволяет автоматизировать процедуру их миграции.
Рисунок 2. Создание иерархических систем хранения помогает оптимизировать стоимость хранения и сделать управление жизненным циклом информации более эффективным. «Температурный профиль» данных позволяет автоматизировать процедуру их миграции.

 

Как подчеркивают в компании IBM, в отличие от прежних методов иерархического хранения информации современные решения опираются на новые технологии, отвечают новым потребностям и преодолевают новые ограничения.

Данные остаются доступными независимо от уровня хранения. Достаточно нескольких обращений, и пассивные данные перемещаются на более быстрый носитель. Администраторам остается лишь подстроить алгоритм в соответствии с конкретными задачами, если выбранные вендорами значения по умолчанию им не подходят. По оценкам Dell, за счет использования системы AST компания в среднем может сэкономить на дисках до 80%.

«Это один из трендов в области хранения данных, рассматриваемый подход будет развиваться в направлении совершенствования логики работы массивов и постепенно внедряться во все классы СХД, — говорит Владимир Свинаренко, менеджер по продуктам ИТ-департамента Huawei Enterprise Business Group. — В линейке Huawei данный функционал уже доступен для массивов NAS любого класса».

В последние два года AST стало обязательным средством в новых дисковых массивах. Многоуровневое хранение данных быстро становится одной из «лучших практик», чему способствует распространение SSD. Флэш-память с гораздо более высокой производительностью, чем у HDD, помогает решить и проблему несоответствия растущего быстродействия процессоров и подсистемы ввода/вывода серверов, что особенно актуально для виртуальных сред и СУБД.

КЛЮЧЕВОЙ ФАКТОР — ФЛЭШ-НАКОПИТЕЛИ

 

Рисунок 3. Судя по последним опросам, популярность SSD быстро растет — твердотельные накопители применяют около трети корпоративных заказчиков.
Рисунок 3. Судя по последним опросам, популярность SSD быстро растет — твердотельные накопители применяют около трети корпоративных заказчиков.

Накопители SSD корпоративного класса применяются во все более широком спектре СХД. Это позволяет уменьшить размеры систем хранения, повысить их энергоэффективность и качество обслуживания (IOPS). По мере удешевления флэш-памяти, повышения ее надежности и развития других сопутствующих технологий подобные решения станут более популярными (см. Рисунок 3). Наряду с гибридными дисковыми массивами (SSD+HDD) на рынке появляются новые модели массивов, целиком построенных на флэшнакопителях (см. Рисунок 4).

Рост объемов хранимых данных и постоянно возрастающие требования к доступности и надежности хранения информации дают толчок к развитию рынка систем хранения среднего класса и, как следствие, к переносу в этот сегмент функционала, ранее присущего только решениям корпоративного класса, (включая механизм многоуровневого хранения), поясняет Андрей Новиков, ведущий системный консультант Hitachi Data Systems.

Рисунок 4. NetApp EF540 — новая СХД, целиком построенная на SSD (NAND MLC). В основе решения — платформа NetApp E-Series и ПО SANtricity. Оно содержит 12 или 24 накопителей SSD SAS 800GB MLC, поддерживает разные уровни RAID (0, 1, 10, 3, 5, 6), снимки данных и репликацию, а производительность при случайном чтении блоками по 4 Кбайт превышает 300 тыс. IOPS.
Рисунок 4. NetApp EF540 — новая СХД, целиком построенная на SSD (NAND MLC). В основе решения — платформа NetApp E-Series и ПО SANtricity. Оно содержит 12 или 24 накопителей SSD SAS 800GB MLC, поддерживает разные уровни RAID (0, 1, 10, 3, 5, 6), снимки данных и репликацию, а производительность при случайном чтении блоками по 4 Кбайт превышает 300 тыс. IOPS.

 

Твердотельные флэш-накопители и рост объемов данных стали ключевыми драйверами продвижения AST. Прежние попытки задействовать для трех уровней хранения диски Fibre Channel (первый уровень), SAS (второй уровень) и SATA (третий уровень) оказались неудачными. Для достижения адекватной производительности требовалось, чтобы «быстрыми» были до 80% дисков в массивах (уровень 1), но при этом оставшиеся 20% не давали выигрыша — их применение оказывалось неоправданным из-за увеличения сложности системы. Накопители SSD с очень высоким быстродействием в IOPS в корне поменяли ситуацию, они позволили уменьшить число дисков, сделать решение более производительным и сократить потребление электроэнергии.

Накопители SSD и EFD могут выступать в роли кэш-памяти, повышающей быстродействие всего массива, или нулевого уровня хранения. Большинство вендоров поддерживают оба типа памяти. Отличие между ними, по сути, терминологическое, считает Роман Володин. Гораздо важнее реальные характеристики носителя: используемая технология, заявленный срок службы, наличие механизмов оптимизации износа ячеек. И конечно, цена.

Согласно результатам недавно опубликованного исследования TechTarget, 53% зарубежных компаний уже применяют инфраструктуру многоуровневого хранения и 60% (против 17% в 2009 году) используют в ней флэш-память или SSD. 54% опрошенных внедрили AST. Это более чем вдвое превышает показатели 2011 года. Из традиционных накопителей HDD наиболее популярны диски SAS (40%) и Fibre Channel (20%) со скоростью вращения 15 тыс. об/мин.

Флэш-память применяется в настоящее время в серверах (карты PCIe), в созданных на ее основе системах хранения или в дисковых массивах (наряду с HDD/SSD). 20% респондентов используют массивы, целиком построенные на флэш-памяти, в качестве отдельного уровня хранения СХД. В настоящее время такое оборудование разрабатывают и предлагают не только инновационные компании вроде Violin Memory, но и ведущие вендоры — например, EMC представила продукты серии Xtrem, а NetApp уже выпустила свое решение EF540.

Самый популярный вариант (его выбрали 67% респондентов) — использование в системе накопителей SSD наряду с HDD. Рынок таких гибридных дисковых массивов только зарождается, поэтому SSD в форм-факторе жестких дисков нередко устанавливаются в имеющиеся дисковые массивы. Три-четыре флэш-накопителя могут заменить 20–40 жестких дисков, однако производительность будет ограничена архитектурой СХД и ожидаемый эффект не гарантирован: у таких массивов недостаточно мощные контроллеры, и не всегда применяемые в них алгоритмы подойдут для флэшпамяти, поскольку оптимизированы для HDD.

«В архитектуре современных платформ, где поддерживаются механизмы многоуровневого хранения, SSD используются для задач хранения рабочих данных с последующим вытеснением наименее используемых блоков на нижние уровни хранения, — поясняет Андрей Новиков. — Но в случае недорогих продуктов необходимо учитывать, что реализация подобного функционала требует значительных системных ресурсов, что может оказаться критичным и в ряде случаев будет негативно влиять на общую производительность системы».

В некоторых массивах NAS применяется механизм кэширования на SSD средствами контроллера RAID. Например, у Huawei данный функционал называется SmartCache и доступен во всех системах компании, поддерживающих SSD, начиная с младшей модели OceanStor s2600T. «HDD не могут полностью загрузить современные контроллеры СХД, и ‘‘добавка’’ в виде SSD помогает реализовать их потенциал на 100%», — считает Владимир Свинаренко.

33% участников опроса используют флэш-память в серверах. В этом случае данные находятся ближе к серверу, что уменьшает задержку при работе с ними. Производительность серверов растет существенно быстрее, чем скорость выполнения дисковых операций, и распространение твердотельных накопителей может внести значительные коррективы в эту тенденцию. Однако при такой схеме преимущества консолидации теряются.

Установка флэш-памяти непосредственно в сервере имеет ряд недостатков, таких как пониженная отказоустойчивость, трудоемкость обслуживания, недостаточная емкость из-за ограниченного количества слотов PCIe и невысокой производительности контроллера RAID, сложность резервного копирования данных. «Кэширование в пределах сервера имеет право на существование, однако применять его стоит лишь к тем задачам, где доступность данных не является приоритетом. Причина очевидна — отказ сервера влечет за собой недоступность данных», — подчеркивает Роман Володин.

Другой подход — добавление еще одного уровня кэш-памяти между серверами и существующими системами хранения. Некоторые компании производят отдельные кэширующие СХД, которые подойдут к системе хранения любого вендора. Несмотря на возможные риски в отношении совместимости и надежности, в ряде случаев такой подход вполне себя оправдывает. Один из примеров — система ARX компании F5 Networks, способная самостоятельно или в соответствии с заданными правилами и приоритетами определять, какие файлы наиболее востребованы. Затем она размещает их на наиболее быстрых физических носителях, равномерно заполняет имеющуюся емкость, проводит запланированную миграцию данных между виртуальными хранилищами.

Хотя такие решения уже давно присутствуют на рынке, они не получили пока широкого распространения. Возможно, причина в том, что компании почти не внедряют файловый сервис в чистом виде. Современный корпоративный пользователь работает со специализированными системами управления контентом, социальными сетями, Wiki-подобными решениями и т. д. По мнению специалистов IBM, поскольку такие системы осуществляют управление информацией на уровне собственных объектов, они не нуждаются в подобных файловых прослойках.

ПРАКТИКА ИСПОЛЬЗОВАНИЯ

С распространением SSD при позиционировании решений многоуровневого хранения акцент делается на приложениях, где требуется быстрый доступ к данным. Де-факто такие решения стали широко использоваться в серверах СУБД благодаря оптимальному соотношению стоимости и производительности, подчеркивает Вячеслав Ковалев, начальник отдела ЦОД компании «Открытые Технологии».

Многоуровневое хранение уже стало базовой функцией дисковых массивов и является одной из ключевых технологий, предлагаемой всеми ведущими вендорами СХД среднего/старшего класса. Системы многоуровневого хранения с использованием SSD и других видов флэш-памяти будут становиться все более популярными, особенно по мере снижения стоимости на IOPS.

Что касается практических задач, то почти все вендоры указывают такие типовые приложения, как виртуализация рабочих станций (Virtual Desktop Infrastructure, VDI) и серверная виртуализация. Разработчики EMC VNX подходящим вариантом для ASТ считают «асимметричные» наборы данных с подмножеством активных данных. Кроме VDI, это могут быть приложения Online Transaction Processing (OLTP). Еще один пример — Webсерфинг с повторным обращением к некоторым страницам.

AST — это прежде всего оптимизация и автоматизация работы ресурсов, подчеркивают в компании IBM. Такая система подходит для решения любых задач, но не всегда оправданна экономически. Она может быстро и наиболее оптимальным образом подстраиваться к изменениям, однако специализированных решений нет — процесс универсален. Для каждого конкретного случая даются рекомендации по применимости такого подхода.

«Если объем постоянно изменяемых данных сопоставим с их общим объемом, применение AST не оправданно. К таким задачам можно отнести обработку видео, CCTV, HPC. Эффект достигается в приложениях, где объем данных достаточно велик, а доля активных данных составляет единицы процентов. Такая картина часто наблюдается в транзакционных СУБД. В этом случае один SSD с высокими показателями IOPS может заменить 30–50 HDD. Как следствие, уменьшаются габариты системы и энергопотребление», — отмечает Роман Володин.

Системы хранения, целиком построенные на флэш-памяти и оптимизированные для нее, хорошо справляются с такими задачами, как VDI, когда создается большая нагрузка на СХД, считает Вадим Болотнов, директор центра решений «Крок» на базе технологии EMC. Иногда в такой ситуации не помогает даже добавление флэшпамяти в традиционную СХД, так как нагрузка оказывается слишком велика для ее контролеров.

По словам Александра Яковлева, менеджера по маркетингу продукции Fujitsu, современные решения многоуровневого хранения данных стали намного доступнее и проще в использовании, они способны работать не только с логическими томами (LUN), но и с небольшими блоками данных. Этот процесс теперь можно эффективно автоматизировать. Если некоторое время назад предлагался лишь полностью автоматический перенос блока или логического тома в зависимости от частоты использования, то сегодня сначала проводится анализ, а потом принимается решение о целесообразности перемещения тех или иных блоков данных. Причем этот анализ выполняется как на основании заданных правил, так и в полуавтоматическом режиме, когда учитывается важность данных того или иного приложения. Так, например, на время резервного копирования AST можно отключить.

«До сих пор нет официальных и независимых тестов для измерения эффективности использования механизмов AST, — рассказывает Александр Яковлев. — Поэтому нужно обязательно опробовать его до ввода в эксплуатацию и применять полуавтоматический режим, особенно на первом этапе, ведь в ряде сценариев производительность критически важных приложений иногда даже уменьшается. Если не сделать этого, может сложиться ситуация, когда дисковый массив будет значительную часть своих ресурсов тратить на перемещение данных между уровнями внутри массива. При этом перенос данных между отдельными массивами может занимать существенно больше времени и требовать еще больше ресурсов».

«Использовать AST как некое универсальное средство удобно, но не всегда оптимально. AST в автоматическом режиме может неадекватно реагировать на низкую активность приложения и перемещать блоки с данными на более медленный том, — считает Вячеслав Ковалев. — Поэтому на этапе разработки архитектуры и дальнейшей эксплуатации желательно понимать, как технология AST реализована производителем рассматриваемого оборудования. В частности, будет ли задействована AST внутри самих дисковых носителей или СХД внутри сервера. В сложных системах AST распространяется на диски, объединенные в SAN. Наиболее сложный вариант — АST в рамках системы виртуализации. Везде есть свои ограничения, свои плюсы и минусы. В ряде случаев оптимальна двухуровневая архитектура с SSD и SATA».

В EMC исходят из того, что только 20% томов являются «горячими», а на этих томах активны лишь 20% данных. Иначе говоря, для достижения нужного эффекта SSD могут составлять лишь 4% емкости системы. Это согласуется с оценками других вендоров, по мнению которых емкость высокопроизводительной памяти (уровень 0) может не превышать 5% емкости системы.

«Характеристики и возможности AST всецело зависят от производителей СХД, — поясняет Роман Володин. — Одни решения являются более функциональными и гибкими, другие — менее. За выбор тех или иных параметров отвечает проектировщик, и тут должны учитываться особенности приложения, его масштабы, бюджет проекта, сложность последующей эксплуатации».

ПОДХОДЫ И РЕШЕНИЯ

Несмотря на различия в подходах вендоров к реализации автоматического многоуровневого хранения данных, в них можно выделить общие черты. Прежде всего это использование в рамках одного дискового массива нескольких типов носителей — обычно устанавливаются SSD или собственные модули флэш-памяти корпоративного класса, высокопроизводительные диски FC или SAS и диски большой емкости. Многоуровневое хранение дополняют другие технологии, позволяющие более оптимально использовать СХД, что может дать кумулятивный эффект.

«При создании систем с AST необходимо учитывать особенности твердотельных накопителей (физический износ), и в идеале СХД должны сжимать и/или дедуплицировать данные, — считает Роман Володин. — Совместное применение этих технологий продлит срок службы твердотельных накопителей и повысит общую эффективность СХД».

В HDS считают эффективным «интегрированное» управление данными (Integrated Data Management, IDM). Этот подход объединяет три задачи: защиту данных (резервное копирование/восстановление, репликацию), многоуровневое хранение и архивирование. По мнению разработчиков, если решать их независимо, с помощью разных инструментов, то это влечет за собой дополнительные издержки.

Архитектура Dell Fluid Data тоже обеспечивает не только средства автоматического многоуровневого хранения, но и виртуализацию на уровне дисков для создания пула ресурсов, динамическое выделение емкости, мгновенные снимки, «тонкую» репликацию и унифицированное управление.

Компания Compellent, позднее приобретенная Dell, внедрила динамическое многоуровневое хранение одной из первых, в 2005 году. Средствами Data Progression в ее дисковых массивах Storage Center SAN при операциях в сети хранения собирается информация о каждом блоке данных. По умолчанию размер блока составляет 512 Кбайт, но его можно увеличить до 4 Мбайт. Перемещение данных осуществляется в соответствии с заранее установленными правилами, но пользователи могут назначать и собственные — например, закреплять отдельные тома на том или ином уровне. Data Progression работает не в реальном времени, поэтому при изменении нагрузки миграция данных происходит не сразу.

В настоящее время эти разработки используются в архитектуре Dell Fluid Data, обеспечивающей «перетекание» корпоративных данных. Информация о каждом блоке непрерывно собирается и используется в функциях динамического хранения, миграции и восстановления данных. Она включает в себя сведения о таких характеристиках, как уровень RAID, время записи, частота обращения и др. Таким образом, разработчики Dell постарались реализовать максимально детальное управление данными. При этом нагрузка на систему увеличивается незначительно. Наряду с блоками поддерживается и миграция файлов.

В системах Dell Compellent с архитектурой Fluid Data новые данные записываются на SSD или диски FC (первый уровень). Постепенно менее активные блоки выводятся на диски FC или SAS второго уровня. Данные, к которым долго не было обращений, перемещаются на диски SAS или SATA большой емкости. Кроме того, для увеличения скорости доступа наиболее востребованная информация хранится на внешних дорожках диска.

 

Рисунок 5. Дисковый массив Dell EqualLogic PS6000XVS содержит по восемь носителей SSD и дисков SAS 15k. Он может выделять необходимые данные и размещать их на SSD, оставляя другие на дисках SAS. Хорошее применение такого решения — хранение образов виртуальных рабочих станций.
Рисунок 5. Дисковый массив Dell EqualLogic PS6000XVS содержит по восемь носителей SSD и дисков SAS 15k. Он может выделять необходимые данные и размещать их на SSD, оставляя другие на дисках SAS. Хорошее применение такого решения — хранение образов виртуальных рабочих станций.

В системах Dell, помимо разных типов дисков, быстродействие массивов различается и по типу RAID: эти сведения можно использовать и при создании иерархии хранения. СХД Compellent и EqualLogic (см. Рисунок 5) автоматизируют соответствующую процедуру, но администратор может и самостоятельно выбрать, на каком пуле массивов разместить определенный том.

У HDS технология Hitachi Dynamic Tiering применяется в сочетании с Dynamic Provisioning (реализованной компанией версией Thin Provisioning): данные на уровне блоков или объектов автоматически перемещаются между уровнями хранения, а емкость не резервируется заранее, а выделяется при их записи на диск. Механизм динамической миграции данных совместно с динамическим выделением емкости позволяет построить максимально эффективную модель хранения данных, считает Андрей Новиков.

Уровни (не более трех) могут быть представлены накопителями SSD, SAS, SATA и виртуализированными СХД других вендоров. Как и у Dell, их можно задавать и по группам RAID. У HDS минимальный размер блока (страницы) — 42 Мбайт, а при работе с файлами — один файл. Миграция данных прозрачна для пользователей и приложений. Миграция томов тоже поддерживается, но для всего тома требуется резервировать емкость на целевом уровне. Тома могут перемещаться не только в зависимости от активности обращения к данным, но и по расписанию.

ПО Tiered Storage Manager автоматически идентифицирует данные, определяет наличие соответствующей емкости и перемещает данные без прерывания работы приложения. Процесс после первоначальной настройки протекает автоматически, но при необходимости администратор может вмешаться в него, например для ускорения обработки каких-то наборов данных в конце каждого месяца.

Применение Tiered Storage Manager может быть особенно эффективно в случае серверной виртуализации. При создании виртуальной машины ей выделяется емкость на «быстром уровне», а если ВМ не активна, ее данные перемещаются на более медленный уровень хранения. Интегрированный пакет Integrated Data Management (IDM) объединяет их защиту, миграцию по уровням хранения и архивирование.

 

Рисунок 6. Недавно анонсированная платформа Hitachi Unified Storage (HUS) VM унифицирует блочный и файловый доступ (SAN и NAS), а также объ ектное хранение. В ней может содержаться до 1152 встроенных дисков SAS (общая емкость — до 3,5 Пбайт), а контроллер виртуализации позволяет объединять внешние СХД в пул ресурсов хранения емкостью до 64 Пбайт (в том числе СХД других вендоров). За счет организации многоуровневого хранения система, поддерживающая до 128 встроенных флэш-накопителей, позволяет до 40% снизить эксплуатационные расходы.
Рисунок 6. Недавно анонсированная платформа Hitachi Unified Storage (HUS) VM унифицирует блочный и файловый доступ (SAN и NAS), а также объ ектное хранение. В ней может содержаться до 1152 встроенных дисков SAS (общая емкость — до 3,5 Пбайт), а контроллер виртуализации позволяет объединять внешние СХД в пул ресурсов хранения емкостью до 64 Пбайт (в том числе СХД других вендоров). За счет организации многоуровневого хранения система, поддерживающая до 128 встроенных флэш-накопителей, позволяет до 40% снизить эксплуатационные расходы.

Благодаря развитию технологий и совершенствованию архитектуры, HDS смогла реализовать концепцию Dynamic Tiering в своих унифицированных системах хранения данных среднего класса HUS и в новейших системах HUS VM (Hitachi Unified Storage Virtual Machine) (см. Рисунок 6), где модульная архитектура хранения, присущая системам среднего уровня, совмещена с адаптированным микрокодом системы хранения корпоративного уровня VSP (Virtual Storage Platform).

VSP предусматривает до трех уровней хранения (диски SATA, Fibre Channel/SAS или SSD) с автоматической миграцией. Наряду периодической автоматической миграцией в соответствии с заданными администратором правилами, перемещение можно инициировать вручную, однако закрепления уровня хранения за приложениями не предусматривается. Dynamic Tiering поддерживает динамическое и статическое распределение емкости, а также внешние виртуализированные массивы.

Для организации файлового доступа и работы с неструктурированными данными компания Hitachi предлагает несколько продуктов: высокопроизводительные системы файлового доступа Hitachi Network Attached Storage (HNAS) и унифицированные системы хранения HUS и HUS VM с файловыми модулями — функциональными аналогами систем HNAS. В качестве уровней хранения можно применять разные системы NAS и файловые системы HDS, например, HNAS в качестве первого уровня, Hitachi Content Platform (HCP) — для активного архивирования.

Для всех типов платформ можно использовать механизмы динамического многоуровневого хранения на блочном уровне. Эффективность хранения на файловом уровне повышается за счет использования функций динамической миграции объектов, которые в соответствии с набором правил позволяют оперировать файлами, перенося их не только на диски с различной стоимостью хранения, но и на внешние системы по наиболее распространенным файловым протоколам. При выборе места нового размещения учитываются тип данных, время последнего обращения к ним и другие заданные признаки.

«Отдельно стоит отметить функциональные возможности систем HNAS и файловых модулей унифицированных систем, реализованные на уровне файловой системы Tiered File System, — подчеркивает Андрей Новиков. — Они позволяют оперировать неструктурированными данными как объектами и хранить метаданные объектов на наиболее производительных носителях, в частности SSD, что значительно ускоряет операции с большими объемами данных». Как и в Dell Fluid Data, предполагается, что новые данные обычно «горячие», поэтому они помещаются во флэш-память и переносятся на нижние уровни при появлении еще более активных данных.

«Администратор системы может регулировать начальное положение данных, частоту и объем перемещения, чтобы подстроиться под график работы приложения (например, АБС обычно имеют четко выраженные циклы) и скорректировать работу AST для достижения лучших результатов, — поясняет Роман Володин. — Некоторые реализации AST позволяют вносить коррективы и в алгоритмы перемещения, но делать это следует только в том случае, если понятно, как изменение повлияет на работу системы в целом».

В HDS HUS VM и VSP, IBM SVC и EMC VMAX в качестве уровней хранения можно использовать подключаемые к этим системам и виртуализируемые ими СХД других вендоров. У NetApp такую виртуализацию осуществляют контроллеры V-Series. У EMC данный вариант получил название Federated Tiered Storage.

Технология IBM Easy Tier — это полностью автоматизированный процесс. Уровней хранения может быть три — SSD/SAS/NL SAS, однако вендор отмечает, что для достижения оптимальной производительности обычно достаточно двух уровней. Данные перемещаются блоками в соответствии с разработанными IBM алгоритмами, но размер блоков различен для разных систем и может настраиваться. В остальном процесс автоматизирован — дисковый массив сам подстраивается под любую загрузку.

Данные перемещаются один раз в сутки. Как поясняют в IBM, если интервал слишком мал, такое перемещение окажется менее эффективным, так как оно будет дублировать действие кэш-памяти массива. Суточный интервал помогает лучше оценить нагрузку и разместить на дорогих ресурсах действительно необходимые данные.

IBM EasyTier поддерживается в контроллере виртуализации IBM Storage Volume Controller (SVC), а также в дисковых массивах SAN v7000, DS8700 и DS8800. SVC и v7000 позволяют подключать и виртуализировать внешние СХД, в том числе унаследованные системы, и использовать их как самый «медленный» уровень хранения. В компании подчеркивают, что применение IBM EasyTier на нагрузках с произвольной адресацией блоков реально повышает экономические показатели систем хранения (снижается требуемое количество дисков, уменьшается время реакции, увеличивается IOPS). Это позволяет снизить TCO, иногда очень значительно.

EMC представила свою технологию Fully Automated Storage Tiering (FAST) весной 2009 года. Впервые она была реализована в системах Clariion и Celerra. В декабре 2010-го компания оснастила средствами FAST свою СХД Symmetrix, причем данные перемещались не томами LUN, а более мелкими блоками. Эта технология получила название FAST VP, поскольку входила в набор функций выделения виртуальных ресурсов Symmetrix Virtual Provisioning. Задание правил миграции данных облегчается за счет использования специального инструмента Tier Advisor, который предлагает соответствующие рекомендации исходя из результатов мониторинга ввода/вывода.

Через пару часов после настройки политики EMC FAST VP начинает перемещение данных. Миграция блоков с минимальным размером 768 Кбайт (обычно 7,5 Мбайт) происходит в реальном времени, поэтому Symmetrix быстро реагирует на изменение нагрузки и характера доступа к системе. В настоящее время EMC Symmetrix — одно из наиболее полнофункциональных предложений с AST, но и наиболее сложное в настройке.

Между тем появление технологии FAST специалисты EMC считают поворотным моментом в хранении данных, под влиянием которого меняются принципы построения и эксплуатации ИТ-инфраструктуры. EMC включает в FAST широкий набор функций, в том числе многоуровневое хранение данных в пределах одного логического устройства, распределение емкости по требованию, дедупликацию данных на уровне блоков и файлов, сжатие данных, отключение дисков, архивирование и облачное хранение.

 

Целесообразное хранение

Если выделять концепцию, которая оказала за последние годы наибольшее влияние на рынок СХД, то, на наш взгляд, это многоуровневое хранение данных. Раньше все данные располагались в массиве, на большом количестве однотипных по емкости и производительности дисков. Теперь, ввиду лавинообразного роста их объемов, отрасль движется к оптимизации этого процесса: исходя из ценности данных для бизнеса, они распределяются в автоматическом или полуавтоматическом режиме между носителями, обладающими различной производительностью, емкостью и стоимостью.

Иерархическое хранение уже шагнуло за пределы одной системы и позволяет в автоматическом режиме перемещать данные между различными системами хранения. Такой подход становится целесообразным, когда носители информации существенно отличаются по стоимости хранения данных и производительности. При этом должны быть оправданы и накладные расходы по перемещению данных между системами через внешние интерфейсы, которые, как правило, обладают существенно более низкой производительностью, нежели внутренние интерфейсы СХД.

Лучшим способом иерархического хранения данных, реализуемого с помощью нескольких систем, является сочетание дисковых СХД для хранения рабочих данных и ленточных систем, где хранится архивная информация. При этом само перемещение должно осуществляться в соответствии с подробно описанными политиками и правилами, но не в полностью автоматическом режиме, так как оно связано с серьезными накладными расходами и может существенно снизить производительность в случае перемещения «не тех» данных.

При иерархическом хранении информации в рамках одной системы данные перемещаются между дисками, различающимися по скорости вращения (либо по архитектуре) и производительности. При этом важно учитывать характеристики данных. Например, при работе с базами данных прежде всего важен гарантированный уровень сервиса, поэтому полностью доверять этот процесс автоматике не стоит.

В СУБД хранятся разные данные (как по типу, так и по значимости), применяются разные способы доступа и т. д. Зная эти параметры, можно очень точно настроить систему, чтобы обеспечить максимальную производительность и стабильность работы. При этом нужен механизм, который в случае существенного изменения нагрузки позволял бы быстро и просто корректировать настройки и адаптировать систему к меняющейся среде. К «неглобальным» изменениям она должна адаптироваться автоматически.

Такой подход положен в основу СХД Oracle Pillar Axiom, предназначенной прежде всего для поддержки бизнес-критичных приложений, которым требуется не только высокая производительность, но и стабильный уровень сервиса. В этой системе изначально предусмотрены настройки для большинства ключевых корпоративных приложений, предлагаемых как компанией Oracle, так и другими вендорами.

При этом речь идет не только о СУБД в целом, но и об отдельных классах данных, таких как индексные структуры, журналы и т. д., в рамках одного приложения. В тех же настройках, наряду с приоритетом, учитываются рекомендации относительно типов носителей. Если нагрузка в системе изменяется, то СХД в режиме реального времени принимает меры, позволяющие обеспечить производительность, необходимую для выполнения важных задач. К числу указанных мер относится оптимизация работы кэшпамяти, процессора, очереди запросов. Если же и этого оказывается недостаточно, то может быть принято решение о миграции данных на другой тип носителя. В таком случае учитывается специфика данных, что ведет к более предсказуемому их перемещению.

 

Рисунок А. В системах Oracle ZFS SA поддерживается до 4 Тбайт SSD кэш-памяти чтения и 10,5 Тбайт кэш-памяти записи.
Рисунок А. В системах Oracle ZFS SA поддерживается до 4 Тбайт SSD кэш-памяти чтения и 10,5 Тбайт кэш-памяти записи.
В случае хранения разнородных файлов, когда задать настройки для каждого файла практически невозможно, данные можно кэшировать. Например, СХД Oracle ZFS Storage Appliance кэширует их в оперативной памяти и на SSD. При этом для кэш-памяти чтения используются SSD типа MLC большой емкости, а для кэш-памяти записи — SSD типа SLC с повышенным количеством циклов перезаписи, что позволяет снизить стоимость системы при сохранении ее характеристик (см. Рисунок А).

Несмотря на доказанную эффективность многоуровневого хранения данных, выбор того или иного метода должен быть обусловлен спецификой данных и работающих с ними приложений, то есть приходится выбирать, когда следует избегать лишних перемещений и балансировать нагрузку за счет других возможностей, а когда использовать кэширование или миграцию. Два последних подхода абсолютно различаются по своей реализации: одна технология предусматривает создание копии данных на более высокопроизводительном носителе, чтобы предоставить быстрый доступ, вторая же — перенос данных между носителями. Наконец, для каких-то данных подходит миграция на внешний носитель, например на ленту.

Универсального решения нет. Есть набор инструментов, и грамотное их применение — залог успеха не только ИТ-подразделения, но и компании в целом.

Яннис Кириакидес — директор по продажам систем хранения данных Oracle в регионе Восточной Европы и СНГ.

 

ПО FAST служит для мониторинга и анализа интенсивности использования различных данных и автоматической реакции на ее изменение и позволяет создавать правила распределения данных по уровням системы хранения с учетом потребностей. Эти правила могут применяться как автоматически, так и после подтверждения со стороны администратора. Используемые в ПО функции файловой системы обеспечивают интеграцию с частными облаками и внешними облачными инфраструктурами. При этом перемещаются и файловые, и неструктурированные данные.

По информации EMC, в результате внедрения FAST системы среднего класса, оснащенные флэш-памятью EFD и дисками SATA, обеспечивают экономию в 20% при приобретении устройств хранения и до 40% на эксплуатационных расходах, связанных с хранением данных, причем применение дисков SATA сокращает до 80% затраты на хранение неактивных данных (в расчете на мегабайт).

В октябре 2012 года EMC объявила о выходе обновленной версии EMC Cloud Tiering Appliance — решения для перемещения неактуальных неструктурированных данных из массива на другие уровни (в публичное облако или архивное хранилище EMC). Хранение неактивных файлов в публичных облаках призвано высвободить для пользователей систем EMC VNX ресурсы первичных СХД, сократить капитальные затраты и операционные издержки, снизить требования к резервному копированию. Обновленное решение CTA способно организовать многоуровневое хранение до 500 млн файлов на устройство или виртуальную среду — на 100% больше, чем в предыдущей версии. Помимо поддержки экосистемы EMC Atmos, предусмотрена возможность хранения в публичном облаке Amazon S3.

EMC заявляет, что использование флэш-памяти емкостью всего в 5% от общей емкости системы дает увеличение производительности на 300–600% и позволяет на две трети сократить число дисков благодаря замене высокоскоростных дисков на диски SATA большой емкости без потери общей производительности.

NetApp вместо многоуровневого хранения продвигает различные варианты ускорения операций посредством флэш-памяти. Ее Flash Cache (ранее Performance Acceleration Module, PAM) работает как кэш-буфер дискового массива и ускоряет операции чтения, в то же время запись осуществляется на диски обычным образом. В NetApp такой подход считают более экономичным, чем использование флэш-накопителей в качестве основной памяти. (Похожий метод применяется в EMC FAST Cache.) Емкость карты NetApp Flash Cache (PAM-II) достигает 512 Гбайт на модуль, а дедупликация данных A-SIS позволяет записать в кэш еще больше данных.

Как подчеркивают в NetApp, флэшпамять позволяет повысить производительность подсистемы ввода/вывода и многих приложений, включая приложения баз данных, серверной виртуализации и VDI, а также облачной инфраструктуры. NetApp применяет флэш-память в трех классах решений: гибридных системах хранения с флэш-памятью и HDD, в серверных картах для кэширования и во флэш-массивах EF540.

В ПО NetApp Virtual Storage Tier (VST) используется технология интеллектуального кэширования Flash Cache (контроллер PCIe) и Flash Pool (на базе твердотельных накопителей) для систем FAS и V-Series, SSD Cache для систем E-Series, а также программное обеспечение Flash Accel для кэширования на уровне сервера.

По данным компании, эти разработки уменьшают время отклика приложений на 90%, повышают пропускную способность подсистемы ввода/ вывода на 80%, снижают стоимость хранения на мегабайт до 46% за счет использования дисков SATA.

VST оценивает нагрузку в реальном времени в зависимости от приоритетов и оптимизирует запросы ввода/вывода с учетом стоимости и производительности, не требуя при этом сложной классификации данных. В отличие от EMC и Dell, у NetApp данные по умолчанию сохраняются на физических носителях самой низкой стоимости. Перемещение их блоками по 4 Кбайт выполняется по запросу в зависимости от фактических моделей использования и требований рабочей нагрузки.

Системы HP серии 3Par обеспечивают виртуализацию на уровне массива и контроль за «тонкими» томами с возможностью переноса томов с других дисковых массивов на 3Par. Кроме того, это семейство поддерживает многоуровневое хранение внутри массива, деление на домены и ряд других возможностей. В HP 3Par динамическое многоуровневое хранение называется Adaptive Optimization. Для перемещения блоков размером 256 Мбайт применяются настраиваемые политики. При помощи функции QoS Gradients системный администратор может изменять настройки перемещения данных по параметрам производительности или стоимости, что позволяет ускорить работу конкретных приложений на определенное время.

Как показывает практика, перемещение данных между уровнями хранения происходит не так уж часто — с интервалом в несколько часов. Исходя из этого, в HP в качестве оптимальной технологии для «сглаживания» непредсказуемого «взрывного» характера ввода/вывода рассматривают кэширование. То есть при сильной флуктуации трафика кэш-память может оказаться лучшим выбором.

Как поясняют в IBM, кэш — это буфер на пути ввода/вывода данных, а SSD — часть многоуровневого тома. И то и другое прозрачно для пользователя и ускоряет ввод/вывод. Но в их применении есть нюансы. Кэширование использует, как правило, более простые алгоритмы, и адаптация к нагрузке происходит довольно быстро — за 1–3 часа система выходит на максимальную мощность (происходит «прогрев» кэша). AST отличается большей интеллектуальностью. «Горячие» блоки и без того эффективно кэшируются — копируются в основную кэш-память системы, и их размещение на SSD будет бесполезной тратой дорогостоящего ресурса. Поэтому AST (например, IBM Easy Tier) анализирует нагрузку за более длительный период и размещает блоки таким образом, чтобы они были распределены с наибольшей эффективностью на пространстве кэш-память/SSD.

Кроме того, важным аспектом является настройка систем. В системах IBM и EMC данные по умолчанию переносятся один раз в день, хотя в EMC VNX можно задать другие политики. В дисковых массивах 3Par перемещение данных и выборка «горячих» данных может происходить каждые 30 мин. Несмотря на это, HP рекомендует ограничить частоту таких процедур. Перемещение осуществляется по результату поиска в сегментах активных метаданных, но избыточное число заданий сканирования снижает быстродействие системы (IOPS).

Как рассказал Александр Яковлев, в дисковых массивах Fujitsu обычно используются два или три уровня хранения — их количество определяется поставленной задачей и предъявляемыми требованиями. Динамический перенос данных между носителями NL-SAS, SAS и SSD может происходить в ручном, автоматическом или полуавтоматическом режиме и осуществляться на уровне логического тома или блока размером 1,3 Гбайт.

Технологию AST дополняют решения Eternus CS, позволяющие организовать многоуровневое хранение для резервного копирования и архивирования. В этом случае уровни хранения различаются и по SLA, причем в качестве одного из них выступают магнитные ленты. «Мы активно используем их в решениях архивирования и резервного копирования, — поясняет Александр Яковлев. — С помощью накопителей на магнитных лентах можно строить эффективные высокопроизводительные решения и разнесенные катастрофоустойчивые конфигурации, а также существенно экономить на архивном хранении».

«Магнитные ленты дешевы, не потребляют электричества и поэтому до сих пор остаются самым экономичным средством долгосрочного хранения информации. Кроме того, они незаменимы в катастрофоустойчивых решениях, где требуется «внешнее» хранение копий данных, — подчеркивает Роман Володин. — В настоящее время все чаще рассматривается возможность применения одновременно дисковых и ленточных хранилищ. Первые используются для краткосрочного хранения, вторые — для данных, время жизни которых исчисляется годами».

В будущем можно ожидать появления более простых в использовании, готовых к развертыванию решений AST, поддерживающих самые разнообразные политики миграции данных.

Сергей Орлов — ведущий редактор «Журнала сетевых решений/LAN». С ним можно связаться по адресу: sorlov@lanmag.ru.