Пользователи систем хранения все чаще интересуются продуктами для эффективной обработки больших объемов неупорядоченных (неструктурированных) данных, однако подходы, применяемые при работе с такими данными, начинают расходиться с «классикой» при приближении к объемам, называемым «Большими Данными». В этой связи первоочередная задача для производителей систем хранения — это обеспечение накопления данных, поступающих в реальном времени из множества различных источников.

Появление проблемы Больших Данных стало закономерным следствием развития современного мира — меняются типы данных, которые нужно хранить предприятиям, стремительно растет общий объем информации, требуемой для принятия взвешенных решений. Потребность в сохранности больших объемов данных появилась также в результате развития цифровых технологий — например, многие компании сегодня хранят сканированные копии документов, видео-контент презентаций и деловых встреч, что требует смены инфраструктуры хранения данных: аппаратных комплексов и соответствующего программного обеспечения. Проблема Больших Данных актуальна для медийных компаний, хранящих громадные объемы «тяжеловесного» контента. В значительной степени это касается и банков и страховых компаний, которые начали хранить всю первичную документацию в форме сканированных документов. Высокую заинтересованность в технологиях для хранения и обработки больших объемов неструктурированных данных на российском рынке проявляют силовые структуры, отвечающие за национальную безопасность. Например, во многих городах реализуется проект «безопасный город», в ходе которого устанавливается большое количество видеокамер, и полученный огромный объем данных должен храниться оптимальным образом. Кроме этого, все более востребованы технологии для работы с неструктурированными данными в медицине, где они в прямом смысле жизненно важны и должны храниться десятилетиями.

Львиную долю Больших Данных составляют неструктурированные данные, которые отличаются не только объемами (по нашему опыту в масштабах российских предприятий 50 Тбайт — это уже Большие Данные, хотя у некоторых предприятий этот объем достигает петабайтов), но и особыми подходами к хранению. В отличие от традиционных баз, где информация хранится в соответствии с внутренней структурой и алгоритмами приложения, разрозненные объекты (документы, медиафайлы, элементы электронной почты, папки с файлами) трудно консолидировать, организовать централизованное управление и обеспечить поиск по ним. Пока объемы хранения невелики, особых трудностей не возникает, но на рубеже сотен терабайт и числа объектов, исчисляемого миллионами, начинают проявляться проблемы, связанные с обработкой и хранением неструктурированной информации: трудности в поиске нужного документа, медленное открытие файлов, затрудненная навигация и др. Инфраструктура системы хранения для Больших Данных должна, во-первых, обеспечить длительное хранение больших массивов данных с возможностью оперативного доступа к ним и, во-вторых, поддерживать функции их консолидации, обработки и структурирования, причем часто в режиме, близком к реальному времени.

Компания Hitachi Data Systems предлагает два специализированных программно-аппаратных комплекса для решения таких задач: Hitachi Content Platform (HCP) — платформа для хранения контента, предназначенная для хранения и управления большими объемами неструктурированных данных; Hitachi Network Attached Storage (HNAS) — решение для обеспечения файлового доступа к данным, которое позволяет хранить и управлять большим количеством файлов.

 

Hitachi Content Platform на практике

Архивирование почты. Почтовые ящики имеют тенденцию к переполнению, что заставляет пользователей создавать архивные папки и выполнять другие операции по оптимизации хранения сообщений. В HCP сообщения и вложения большого объема (документы, фотографии и т. д.) могут быть автоматически помещены в централизованный архив, что уменьшает размер личного почтового ящика. Использование этих механизмов избавляет пользователя от необходимости хранить отдельные архивные папки сообщений в виде локальных файлов и выполнять архивацию вручную, то есть пользователь практически работает с почтовым ящиком неограниченного объема.

Цифровой архив документов. Платформа HCP может быть использована в качестве архива для хранения больших объемов сканированных бумажных документов, фотографий, оцифрованных аудио- и видеоданных, в том числе с унаследованных носителей. Этот функционал востребован в таких областях, как картография, геологическая разведка, метеорологические службы, публичные библиотеки. В частности, платформа HCP применяется в одном из крупнейших банков России для архивного хранения данных клиентов, которые сегодня представлены не только в формате структурированной информации, значительная их часть — это отсканированные копии печатных документов.

Хранение медицинской информации. К медицинским данным предъявляются высокие требования по безопасности и доступности. При этом очень важным процессом является консолидация всей возможной информации о пациентах, оказанных услугах и результатах, чтобы можно было в несколько простых шагов отследить всю медицинскую историю человека на протяжении практически всего периода его взаимодействия со всеми медицинскими учреждениями. На платформе HCP построен специализированный программно-аппаратный комплекс Hitachi Clinical Repository, позволяющий консолидировать всю существующую медицинскую информацию на единой платформе: данные медицинских карт, историй болезни, результатов клинических исследований и информацию из других медицинских информационных систем. Индексация содержимого делает возможным быстрый поиск по всему репозиторию. Решение поддерживает работу со специализированными протоколами HL7 и DICOM, что обеспечивает интеграцию с медицинскими приборами (томографами, аппаратами МРТ и другим современным медицинским оборудованием).

 

Платформа HCP

HCP представляет собой программно-аппаратный комплекс, состоящий из узлов хранения на базе серверов x86 и внешней системы хранения общей емкостью до 40 Пбайт (рис. 1). Функционал платформы позволяет решать широкий спектр задач для хранения информации, обеспечения безопасности и доступности содержимого, а также создавать облачные хранилища и территориально распределенные файловые репозитории. Объектный подход к хранению контента, возможности по индексации больших объемов данных позволяют HCP работать с Большими Данными наиболее эффективно Каждый файл хранится как объект, обладающий своими метаданными: дата создания файла, автор, размер и версия файла и др. Метаданные делятся на стандартные и настраиваемые, в зависимости от типа хранимых данных можно ввести дополнительные параметры для хранения — например, для медицинских данных можно ввести параметр «Тип оборудования, сгенерировавшего файл». Именно благодаря метаданным можно осуществлять различные операции с файлами: перемещение данных по разным уровням хранения в зависимости от настроенных политик, поиск, и т. п.

Рис. 1. Хранение неструктурированных данных на платформе HCP
Рис. 1. Хранение неструктурированных данных на платформе HCP

 

Платформа HCP может быть разделена на множество виртуальных логических разделов, каждый из которых будет хранить только свои группы объектов в соответствии с конкретными политиками хранения. Раздел представляет собой виртуальный сервер со своими настройками, его управление может осуществляться отдельным администратором, а сам раздел может хранить только определенные типы файлов и т. д.

Важной особенностью платформы является открытость — для прямого клиентского доступа могут использоваться протоколы CIFS и NFS, для взаимодействия и интеграции с приложениями — протоколы HTTP и WebDAV, а для резервного копирования архива на ленточные носители — NDMP.

Диски системы объединены в массив RAID-6, что гарантирует сохранность данных при выходе из строя любых двух дисков в группе, а периодический аудит хранящихся объектов обеспечивает целостность информации. Репликация на уровне объектов через глобальную сеть позволяет решить задачу защиты от катастроф.

Обеспечение подлинности хранящихся данных гарантируется специальными алгоритмами — при записи объекта в систему происходит расчет его хэш-функции и запись ее в метаданные. Каждый раз при обращении к объекту происходит сверка хэш-функций, что подтверждает подлинность объекта. Механизм расчета хэш-функций может быть сконфигурирован, исходя из корпоративных требований к стандартам шифрования.

Срок хранения данных задается специальными политиками, определяющими критерии для сроков доступности объектов. Политики могут формироваться автоматически приложениями или задаваться пользователями — например, для файлов определенного типа может быть установлен тот или иной ограниченный период хранения. Система обеспечивает хранение нескольких версий одного и того же объекта, что, например, дает возможность отслеживать весь жизненный цикл документа. Чтобы гарантировать неизменяемость объектов, можно задействовать механизмы невозможности перезаписи и удаления, что позволяет использовать платформу для хранения информации, подлежащей нормативному регулированию.

Система файлового доступа

Система хранения данных Hitachi Network Attached Storage — это интегрированное решение для работы непосредственно с локальной вычислительной сетью организации, предоставляющее серверам и рабочим станциям пользователей доступ к файлам по протоколам CIFS и NFS, а к дисковым ресурсам — по протоколу iSCSI. Пользователи могут использовать HNAS для хранения своих документов и программ, а приложения (Microsoft Exchange Server, Microsoft SQL Server, Microsoft SharePoint, Oracle и др.) для хранения данных. Возможности динамического выделения пространства и иерархического хранения данных позволяют эффективно использовать дисковое пространство. Для пользователей это дает ощутимый эффект при хранении и доступе к информации, а также при резервном копировании и восстановлении данных.

Все NAS-системы HDS построены на базе собственной специализированной аппаратной платформы, в основе которой лежат программируемые логические матрицы. Главная идея состоит в переносе большинства функций, выполняемых файловым сервером, на уровень аппаратуры, что обеспечивает высокий уровень быстродействия.

Система хранения данных HNAS может включать от одного до восьми узлов и обеспечивать блочный доступ по протоколу Fibre Channel. Возможно масштабирование по числу узлов кластера HNAS, дискам и блочным системам (рис. 2).

Рис. 2. Пример хранения медиа-контента средствами HNAS
Рис. 2. Пример хранения медиа-контента средствами HNAS

 

Все системы HNAS работают под управлением специализированной операционной системы HNAS OS, одновременно поддерживающей различные протоколы: SMB/CIFS, NFS, FTP, WebDAV для Windows и Unix для организации хранения данных практически любого приложения. Пользователи файловых систем при реализации хранения данных на HNAS могут самостоятельно восстанавливать файлы из снимков данных (до 1024 снимков на один том). Кроме файловых хранилищ, механизмы мгновенных снимков можно применять для создания копий данных приложений Microsoft SQL Server, Microsoft Exchange и Microsoft Sharepoint. При возрастании нагрузки производительность HNAS может наращиваться поэтапно до 16 Пбайт путем добавления узлов в кластер HNAS без остановки системы.

В HNAS поддерживается выполнение следующих функций: автоматическая миграция файлов в соответствии с заданными политиками между различными уровнями хранения; клонирование файлов и репликация файлов. Клонирование, в отличие от альтернативных решений, осуществляется на уровне файлов, а не файловой системы в целом, что позволяет существенно сократить занимаемое клонами файлов пространство (клонируется только нужный файл).

 

HNAS в действии

Виртуализация серверов и VDI. Платформа HNAS востребована для сред VMware с доступом по протоколу NFS. По сравнению с реализациями на базе блочного доступа, HNAS гарантирует простоту развертывания и масштабирование. Важным преимуществом также является возможность использования внешних систем хранения. Решение предоставляет средства резервного копирования и восстановления виртуальных машин, при этом обеспечивается экономия пространства и высокое быстродействие. Функция JetClone дает возможность практически моментально создавать клоны виртуальных машин.

Консолидация файловых серверов. Стандартный подход к организации файловых серверов на платформе Windows несет с собой целый ряд неизбежных проблем?— например, большими объемами ресурсов сложно управлять, а модернизация всех серверов требует значительных инвестиций. При этом зачастую возникает дисбаланс в производительности, когда на одной группе серверов дисковые и процессорные ресурсы практически не используются, а на других серверах наблюдается дефицит свободных ресурсов. Такую распределенную файловую структуру сложно резервировать, архивировать и защищать. Решить эти проблемы помогает консолидация многочисленных файловых ресурсов на платформе HNAS, что позволяет обеспечить надежное хранение данных за счет виртуализации файловых ресурсов, аппаратной обработки большого количества запросов и эффективного использования дискового пространства. Платформа тесно интегрируется с Active Directory, поддерживает протокол Kerberos, службы LDAP и взаимодействует со стандартным инструментарием Windows Administration Tools, что позволяет администраторам использовать привычный интерфейс управления файловыми ресурсами в среде Windows. Предусмотренная интеграция с механизмами Microsoft Volume Shadow Copy позволяет пользователям восстанавливать из резервных копий удаленные по ошибке документы. Защита данных обеспечивается за счет использования мгновенных снимков состояния, на аппаратном уровне доступных через службу теневых копий Windows, технологий репликации и возможностей резервного копирования с использованием протокола NDMP. С помощью различных политик можно консолидировать все данные со всех распределенных файловых серверов на платформу HNAS, а технология Thin Provisioning обеспечивает утилизацию дискового пространства.

Хранение и обработка медиаконтента. Задачи по обработке и хранению медиа-содержимого, многочисленных потоков аудио- и видеоданных требуют высокой пропускной способности и быстродействия выполнения операций ввода/вывода. При этом требования к быстродействию могут динамически изменяться. Рутинные операции типа ручного перемещения файлов между различными уровнями хранения и медленный рендеринг из-за недостатка производительности системы могут значительно замедлять работу. Платформа HNAS обеспечивает высокую пропускную способность и производительность, масштабирование системы хранения как в целом, так и отдельных файловых систем. Это осуществляется благодаря автоматическому перемещению объектов между уровнями хранения на базе политик с возможностью одновременного доступа к данным по протоколам CIFS и NFS с большого числа серверов.

 

***

По мнению аналитиков, почти половина западных компаний испытывает проблемы в связи с чрезвычайно быстрым ростом общего объема информации. Правда, отечественные компании все еще с настороженностью относятся к проблеме Больших Данных, сомневаясь в окупаемости инвестиций в соответствующие технологии. Однако недооценивать проблему Больших Данных не стоит — предприятия, хранящие неструктурированные данные обычным образом, рискуют столкнуться с проблемами неэффективного использования дорогого дискового хранилища, большими эксплуатационными затратами и дорогим сервисным обслуживанием.

Ирина Яхина (irina.yakhina@hds.com) — руководитель подразделения технологических решений, Hitachi Data Systems (Москва).