Что понимается под программно определяемым хранением (Software Defined Storage, SDS)? Принцип программной определяемости предполагает абстрагирование программного обеспечения от аппаратного, на котором оно выполняется. Это предоставляет организациям дополнительную свободу при выборе используемого оборудования. Таким образом, SDS привлекательны возможностью снижения затрат за счет использования стандартной — а потому более дешевой — техники. Однако, как и в случае, например, облачных сервисов, экономия сама по себе мало что значит, да и не всегда оправдывается (скупой, как мы помним, платит дважды), если бы не другие преимущества.
В программно определяемых решениях теперь доступны те же функции, что и в корпоративных системах хранения старшего класса — в частности, дедупликация на лету и гарантированное качество сервиса. Благодаря снижению цен на флеш-накопители, SDS способны обеспечить ту же производительность, что и классические системы, не уступая им в надежности. Как считает Ли Касвел, вице-президент VMware по продуктам, хранению и доступности, это уже зрелые решения: они вполне пригодны для поддержки любых виртуализированных нагрузок, и предприятия все шире их используют. Так, по оценке Markets and Markets, в 2016 году объем рынка программно определяемых систем хранения составил 4,72 млрд долларов, а к 2021-му он вырастет до 22,56 млрд долларов, то есть ежегодный рост составит 36,7%.
По данным Gartner, которые в своем докладе на форуме «МИР ЦОД – 2017» привел Вячеслав Володкович, генеральный директор Aerodisk, в 2019 году около 50% имеющихся систем хранения данных станут доступны в виде программных аналогов (сейчас только 15%) (см. рис. 1). Кроме того, в 2019 году около 30% СХД, применяемых в крупных ЦОДах, будут программными (сейчас 5%). Наконец, в 2020 году около 70% функций по предоставлению хранилищ и управлению ими окажутся интегрированы в единую программную платформу предприятия (в настоящее время — 10%).
Рис. 1. Системы хранения сегодня (SAN) и завтра (SDS) |
SDS ПО-РУССКИ
Тенденция абстрагирования ПО от нижележащего оборудования дает шанс российским разработчикам предложить передовые решения и выйти на перспективный рынок, не обладая ресурсами западных компаний. И они пытаются этот шанс использовать: целый ряд отечественных компаний занимаются разработками в области программно определяемых сетей и систем хранения. На форуме «МИР ЦОД – 2017» были представлены решения для хранения данных двух российских разработчиков — Aerodisk и «Росплатформы».
Компания Aerodisk занялась разработкой СХД в 2011 году, а с 2014-го предлагает коммерческий продукт — СХД Aerodisk Engine. Как утверждает Вячеслав Володкович, по своей функциональности Aerodisk Engine не уступает зарубежным конкурентам, а во многих случаях их превосходит: «Пять-десять лет назад все остерегались использовать программные СХД, но сейчас они не уступают аппаратным платформам ни по функциональности, ни по надежности». Как и другие программные СХД, решение Aerodisk Engine может быть установлено на любое оборудование x86, а компоненты можно использовать стандартные, доступные на рынке: серверы x86 и диски оригинальных производителей.
Поскольку заказчики все еще консервативны и пока не готовы отказываться от преимуществ, которые дает покупка готового решения по сравнению с самостоятельной установкой программного обеспечения на серверы, продукт поставляется и в виде аппаратного комплекса. При возникновении каких-либо сбоев заказчики не хотят выяснять, кто виноват — поставщик ПО или оборудования, а покупая аппаратно-программный комплекс, они получают протестированное решение, за надежную работу которого полностью отвечает поставщик.
Одно из главных преимуществ SDS, на котором акцентировал внимание Вячеслав Володкович, — простота и дешевизна масштабирования решения, поскольку в традиционных СХД используются дорогостоящие специфические контроллеры, платы и диски. Для программного решения можно приобрести любые современные диски, дисковые полки и серверы по приемлемой цене и добавить их в систему. Если же оборудование отработало свой срок и выводится из эксплуатации, лицензия на ПО без проблем переносится на новое «железо».
Заказчики хотят сохранить свои инвестиции в инфраструктуру хранения. Поэтому в Aerodisk предусмотрели возможность постепенного и планомерного внедрения системы: начав с небольших некритичных задач, емкость и производительность можно наращивать по потребности. Оплата по факту использования, pay-as-you-go, распространяется не только на программное обеспечение, но и на аппаратные платформы. Чтобы упростить встраивание системы в существующий ИТ-ландшафт, используется API в виде простой командной строки, который подходит и для автоматизации операций.
«Росплатформа» предлагает программно определяемое хранилище данных под маркой «Р-Хранилище». Оно масштабируется до 8 Пбайт путем объединения дискового пространства серверов в распределенное отказоустойчивое и масштабируемое хранилище данных. Архитектура «Р-хранилища» рассчитана таким образом, что СХД будет стабильно работать при потере любого физического сервера или целой группы серверов, а не только отдельного диска. Высокая доступность достигается за счет реализации двух типов избыточности: посредством репликации и избыточного кодирования (см. рис. 2). «Р-Хранилище» поддерживает многоуровневое хранение данных, в том числе можно использовать SSD Tiering.
Рис. 2. «Р-хранилище» обеспечивает высокую доступность за счет реализации двух типов избыточности: посредством репликации и избыточного кодирования |
Репликация обеспечивает создание полных копий данных, но накладные расходы весьма высоки: две реплики — 100-процентный рост затрат, три — 200-процентный. Избыточное кодирование представляет собой программный аналог RAID6 (3+2; 5+2; 7+2; 17+3), в этом случае накладные расходы меньше. Наивысшая производительность достигается при репликации, а эффективное потребление емкости свойственно для избыточного кодирования. Когда нужна высокая производительность (для баз данных и виртуализации), в «Росплатформе» рекомендуют использовать реплики. Если же хранилище предназначено для «холодных» данных — резерва, архивной информации, то лучше отдать предпочтение избыточному кодированию.
Заказчик, готовый взять на себя риски самостоятельного развертывания программного обеспечения, может воспользоваться ПО на базе открытого исходного кода, например Ceph. Однако, как утверждают в «Росплатформе», «Р-Хранилище» примерно в два раза эффективнее Ceph, поскольку в нем отсутствует сервис мониторинга (эта функциональность выполняется сервисом MDS). В сценариях случайной записи «Р-Хранилище» превосходит Ceph в 10 раз. Этого удалось добиться за счет оптимизации работы с кешем и журналирования. Как объясняет Дмитрий Батурин, главный эксперт и менеджер программ компании «Росплатформа», Ceph осуществляет запись сразу и в журнал, и на жесткий диск, а «Р-Хранилище» сначала формирует все данные в SSD-журнале, а потом в фоновом режиме отправляет их на жесткий диск.
Программно определяемое хранение удобно само по себе, однако наибольшую ценность оно приобретает в рамках полностью программно определяемого центра обработки данных. Одним из важных этапов для достижения этой цели является развертывание гиперконвергентной инфраструктуры (Hyperconverged Infrastructure, HCI). «Росплатформа» уже предлагает такое решение — и именно этот продукт считается ключевым для компании. В Aerodisk ведутся соответствующие разработки, но об этом чуть позже.
ОТ SDS К ГИПЕРКОНВЕРГЕНЦИИ
Наибольшие выгоды реализация программно определяемого хранения обеспечивает в рамках гиперконвергентной инфраструктуры. Объединение вычислительных мощностей и емкости хранения на базе общей платформы позволяет, в частности, более эффективно управлять ресурсами как единым интегрированным решением (вместо нескольких отдельных подсистем).
Гиперконвергентное решение «Росплатформа» сочетает в себе гипервизорную и контейнерную виртуализацию и программно определяемое хранилище данных. Виртуализация и хранилище интегрированы напрямую: гипервизор «знает» о том, что работает с хранилищем, а хранилище — о том, что обеспечивает своими ресурсами виртуализацию. «Платформа полностью готова к корпоративным задачам. Развернуть и настроить кластер можно в течение часа», — говорит Дмитрий Батурин. — Наше решение легко масштабировать, причем в одном кластере без проблем может применяться оборудование разных производителей».
Узлы гиперконвергентного кластера могут, в зависимости от потребностей, выполнять разные функции, при этом поддерживаются различные сочетания. Например, высокопроизводительный сервер можно использовать только для виртуализации, он будет обращаться к ресурсам хранилища по протоколу TCP/IP. И наоборот, если нужна большая емкость для хранения данных, к маломощным серверам с большим количеством дисков достаточно подключить полки JBOD. Это позволяет подбирать и балансировать по стоимости используемое аппаратное обеспечение.
Стандартный корпоративный пакет включает необходимые средства для обеспечения высокой отказоустойчивости и доступности: миграция без простоя (Zero-downtime migration), быстрая миграция дисков (Storage Live Migration), высокая доступность (High Availability). Обновление хостов не требует перезагрузки, поэтому сроки обслуживания сокращаются. Отказоустойчивость обеспечивается на уровне сервера, стойки и зала. Встроенный механизм резервирования предусматривает полное и инкрементальное резервное копирование. В сочетании с хранилищем это позволяет полностью обеспечить потребности в резервном копировании — покупать сторонние решения уже не нужно.
Для гипервизорной виртуализации используется доработанный KVM, производительность которого удалось повысить на 30%. Для этого компания внесла более 200 исправлений в ядро гипервизора. Выбор KVM был предопределен тем, что за последние несколько лет он стал для многих синонимом гипервизорной виртуализации. На KVM перешли такие гиганты, как Apple, Intel и PayPal.
Тем не менее Дмитрий Батурин не рекомендует строить решение на базе открытого гиперпервизора KVM, поскольку открытый код все равно потребует аккуратной сборки, доработки сервисов и конфигурации исходных параметров. К тому же, обладая меньшим, чем вендор, опытом и инсталляционной базой, заказчик рискует совершить дорогостоящую ошибку при выборе архитектуры. В конечном итоге затраты на доводку, исправление недочетов и поддержку вкупе с другими неявными расходами могут с лихвой превысить стоимость лицензий.
В свою очередь, использование гиперконвергентных систем позволяет снизить затраты за счет уменьшения количества оборудования (отдельные СХД не нужны), более экономичного управления и т. д. Как отмечает Вячеслав Володкович, развертывание большого кластера на классической SAN-инфраструктуре может занять дни, недели, а иногда и месяцы, между тем гиперконвергентый кластер «поднимается» за час и масштабируется за минуты, причем линейным и понятным образом.
Компания Aerodisk разработала гиперконвергентный комплекс vAIR, который собирается вывести на рынок до конца 2017 года. Помимо встроенной виртуализации, на базе KVM поддерживаются гипервизоры VMware vSphere и Microsoft Hyper-V. При разработке много внимания уделялось тому, чтобы продукт был максимально простым в эксплуатации. По словам Вячеслава Володковича, в vAIR поддерживаются различные режимы отказоустойчивости и нет ограничений ни по количеству узлов в кластере, ни по территориальной удаленности, что актуально для нашей страны. Соответствующее программное обеспечение устанавливается на любое популярное оборудование, при этом для построения отказоустойчивой конфигурации могут использоваться недорогие диски SATA.
Безусловно, гиперконвергентные системы не решат всех задач. В будущем будут востребованы разные подходы, например, дезагрегация — подход, противоположный гиперконвергенции. Не все можно виртуализировать, есть много задач, где требуются физические вычислительные мощности. «Одно известно точно: будущее за программно определяемыми ЦОДами», — уверен Вячеслав Володкович. И к этому будущему надо быть готовым.
Настройка производительности СХД
Если компания не хочет потратить деньги впустую, она должна заранее знать, как будет вести себя система хранения данных — насколько успешно СХД сможет справляться с предъявляемыми к ней требованиями. Заказчики, желающие удостовериться в том, что их бизнес-приложения станут работать быстрее и надежнее, при замене СХД все чаще запрашивают услуги тестирования. Как отметил Сергей Елисеев, директор по продажам Центра отраслевых информационных решений РДТЕХ, выступивший с докладом на форуме «МИР ЦОД. Инфраструктура – 2017», клиенты обычно обращаются за такими услугами на этапе принятия решения о дальнейшем развитии своей инфраструктуры, ведь, помимо теоретических знаний, им необходимо опираться на практические результаты, полученные в действующей рабочей среде.
Вопрос выбора оборудования рано или поздно возникает у любой компании, например, в связи с неудовлетворенностью текущей производительностью приложений. Работу таких систем, как базы данных для массовой транзакционной обработки данных, можно ускорить путем перехода с традиционных жестких дисков на флеш-накопители. У информационных систем класса OLTP узким местом, ограничивающим их производительность, зачастую оказывается скорость записи в журнальные файлы базы данных. Как показало проведенное РДТЕХ тестирование, в случае использования системы Huawei S2600T соответствующий показатель удалось увеличить в 1,7 раза: максимальное значение скорости записи для дисков SAS составило 281 Мбайт/с (в однопоточном режиме), для дисков SSD — 468 Мбайт/с (в трехпоточном режиме). Таким образом, эта система младшего класса подходит для поддержки баз данных OLTP.
С помощью настройки скорость записи в журнальные файлы базы данных, размещенные на накопителях SSD, удалось увеличить в 1,7 раза по сравнению с записью на диски SAS |
Однако показатель 450–500 Мбайт/с был достигнут отнюдь не сам собой — для этого потребовалось оптимизировать параметры программного и аппаратного обеспечения. Это еще раз подчеркивает важность настройки производительности, в данном случае на уровне экземпляра базы данных: скорость записи после настройки увеличилась более чем в два раза. Итак, если система перестала справляться с поддержкой приложений и пользователей, первое, что нужно сделать (если это еще не было сделано), — попробовать оптимизировать ее работу в соответствии с типом нагрузки, и тогда, возможно, не придется искать новое решение. «Потребность в настройке СХД чаще всего возникает в процессе эксплуатации, когда какая-либо информационная система не позволяет обеспечить заданные показатели производительности (например, возросло число пользователей или функций системы)», — поясняет Сергей Елисеев.
Для повышения производительности работы СХД применяются такие средства, как ПО Multipath (использование нескольких интерфейсов для доступа к конкретной СХД). Как показало тестирование РДТЕХ, в случае СХД Huawei 5500 V3 скорость записи случайных блоков объемом 8 Кбайт возросла на 30%, а чтения — на 15%. Подключение же устройств прямого доступа и «сырых» устройств не дает какой-либо выгоды. Во всяком случае, файловая система ext3 при подключении СХД к ОС Linux обеспечивает такой же уровень производительности. При этом отказ от «сырых» устройств в ОС Linux упрощает сопровождение баз данных.
Приложения различаются требованиями к вводу-выводу, а системы хранения — архитектурой, поэтому дать какие-либо общие рекомендации относительно настройки производительности СХД затруднительно. Для баз данных OLTP Сергей Елисеев рекомендует отказаться от устройств прямого доступа и использовать файловую систему ОС Linux, а при подключении большого количества серверов к одной СХД — ПО Multipath.
NAS НЕ ДОГОНЯТ?
Заказчики проявляют все больше недовольства относительно ограничений и недостатков традиционных подходов к хранению данных в части масштабирования, сложности, стоимости, обслуживания и т. д. Например, как отмечается в преамбуле к ежегодному обзору 10th Quality Awards Survey for NAS Systems, опубликованному на сайте searchstorage, общий уровень оценок используемых систем хранения самый низкий за все десять лет проведения опросов, причем снижение удовлетворенности пользователей наблюдается второй год подряд, что объясняется возросшим уровнем ожиданий и требований.
Вместе с тем большинство пользователей пока не готовы отказываться от годами проверенных решений. Это подтверждают и показатели продаж: по оценке аналитического агентства Markets&Markets, в 2016 году объем всего рынка программно определяемых систем хранения составил 4,72 млрд долларов, тогда как только в IV квартале прошлого года, по данным IDC, традиционных систем хранения было продано на 10,4 млрд долларов. Тем не менее изменение ожиданий пользователей заставляет вендоров развивать свои традиционные решения таким образом, чтобы они обеспечивали возможности, схожие с предоставляемыми программно определяемыми системами.
Так, Генри Балтазар, аналитик Forrester Research, среди ключевых тенденций в области СХД выделяет — наряду с программной определяемостью и распространением флеш-технологий — горизонтально масштабируемые системы NAS. Традиционные вертикально масштабируемые системы налагают ограничения на количество серверов NAS, которые могут быть объединены в кластер. Это приводит к образованию не связанных между собой «островков» NAS и к ограничениям на число файлов в файловой системе. Горизонтально масштабируемые решения для корпоративного сегмента предлагают все ведущие поставщики СХД: Dell EMC, HPE, Hitachi, IBM и, конечно, NetApp.
Однако повышение требований касается не только корпоративных систем, но и решений среднего класса. Например, компания Synology еще в 2014 году представила центральную систему управления DSM 5.0, с помощью которой ее серверы NAS могут быть объединены в кластер общей емкостью 1 Пбайт. «Малые предприятия растут, растут и их требования, — отметил в своем выступлении Алексей Деев, глава представительства Synology в РФ, — поэтому и у нас появляются более серьезные системы, такие как флеш-сервер».
Осенью прошлого года Synology представила мощное устройство FlashStation FS3017 на базе флеш-накопителей. Оснащенное двумя многоядерными процессорами Intel, оно обеспечивает высокую скорость доступа и обработки той информации, которая на нем хранится: 200 тыс. IOPS при случайной записи блоками 4K. Общая стоимость владения системой оценивается в 0,8 доллара на 1 Гбайт. Встроенное приложение для создания мгновенных снимков и реплик способно тиражировать 65 тыс. резервных копий на другие площадки, чем достигается практически мгновенная защита данных.
На многих предприятиях остро стоит вопрос надежности хранения данных. На базе решений Synology можно построить инфраструктуру по принципу Active-Passive (см. рис. 3). При выходе из строя одного сервера, второй в течение 30 с возьмет на себя всю работу и пользователи вряд ли заметят неполадки. Новая версия программного обеспечения Synology High Availability поддерживает конфигурацию с выделенными серверами N+M: после отказа сервера запись осуществляется на резервный (один или несколько). При восстановлении данные переносятся обратно. Один резервный сервер может быть соединен с несколькими основными, и наоборот — один основной с несколькими резервными.
Рис. 3. На базе решений Synology можно построить инфраструктуру по принципу Active-Passive: при выходе из строя одного сервера, второй в течение 30 с возьмет на себя всю работу |
Кроме хранения данных, системы NAS от Synology могут выполнять и другие функции — например, NVR, то есть выполнять запись с камер видеонаблюдения. Поддерживается множество совместимых камер, но даже при отсутствии в этом списке той или иной модели, камера будет поддерживаться, если она работает по протоколу ONVIF. Помимо этого, серверы Synology могут выполнять функции почтового сервера, Web-сервера, облачного хранилища, мультимедийного сервера, сервера печати, сервера резервного копирования и т. п. Функциональность NAS-серверов Synology была по достоинству оценена пользователями. Согласно упоминавшемуся опросу searchstorage, функциональность решений Synology получила более высокую среднюю оценку, чем продукты NetApp, HPE, Dell EMC в категории продукции среднего класса (midrange). И в целом они были оценены выше аналогов своих именитых конкурентов.
ЧЬЯ ВОЗМЕТ?
Программно определяемое хранение называют крупнейшим продвижением в области решений для хранения данных со времен появления сетевых хранилищ. Переход от монолитных проприетарных хранилищ к гибким программным представляется неизбежным в свете происходящей цифровой трансформации и быстрого роста объема данных. SDS предоставляет организациям дополнительную гибкость при создании новых емкостей хранения и обеспечивает значительное снижение затрат (например, для этой цели могут использоваться стандартные унаследованные серверы). Однако пока немногие заказчики готовы перенести критичные данные на программно определяемые хранилища, да и вендоры традиционных решений не стоят на месте, расширяя функциональность и повышая гибкость своих решений. Так что вся битва технологий в области СХД еще впереди.
Дмитрий Ганьжа, главный редактор «Журнала сетевых решений/LAN»