Пять уровней

«Открытые системы»

Компания StorageTek имеет свой взгляд на концепцию ILM

Накануне российской конференции StorageTek главный технический руководитель компании Рэнди Чалфант ответил на ряд вопросов для Computerworld Россия. (Конференция в Москве состоялась буквально накануне объявления Sun Microsystems о ее намерении приобрести эту компанию; в свете сделки, оцениваемой в 4,1 млрд. долл., анализ технической стратегии StorageTek представляется особенно актуальным.)

Как в StorageTek понимают термин «управление жизненным циклом информации» и действительно ли в данном случае идет речь о жизненном цикле информации, или может быть, скорее подразумевается жизненный цикл данных?

Нас интересует физика и логика хранения. То, что называют контентом, находится вне области наших интересов. Когда мы говорим «информация», мы в какой-то мере следуем традиции, но понимаем «данные», с поправкой на то, что сами по себе данные не имеют ценности и не стареют, ценностью обладает информация, содержащаяся в этих данных. Связь между этими понятиями слишком сложна и не нуждается в формальном определении, во всяком случае пока. Стратегия, которую мы называем ILM (information lifecycle management), была предложена в 2000 году в качестве ответной реакции на безудержный рост размеров дисковых накопителей, который был на руку их производителям. Для нас ILM — прежде всего оптимальное распределение данных по накопителям разных типов в зависимости от их востребованности. Однако в этом году в отрасли началось неуправляемое использование термина ILM, теперь каждый понимает его, как хочет, в итоге можно сказать, что он лишился смысла. Мы сохранили собственную концепцию того, что такое ILM.

В чем она состоит?

Магнитный способ записи данных на дисках или лентах, доминирующий сегодня, далеко не единственный, в перспективе есть множество альтернативных решений, я очень внимательно слежу за происходящим, знаю многое из того, что создается в исследовательских лабораториях, но надо быть реалистом: увеличение объемов хранимых данных приводит к необходимости переоценки системы ценностей. На первый план выходит не удельная стоимость хранения, она и сейчас уже не слишком велика, а удельная стоимость управления хранимыми данными, наиболее актуальным становится вопрос эффективности менеджмента информацией. Мы исходим из реального распределения корпоративных данных по типам накопителей, которые можно разделить на пять уровней. Примерно 5% данных хранится на высоко?производительных дисках, подключенных к мэйнфреймам, чуть более 10% — на высокопроизводительных дисках, подключенных к Unix-серверам, до 15% — на менее производительных дисках большой емкости, примерно столько же на высокопроизводительных лентах. А оставшиеся 55% — на так называемых емких лентах.

Основная масса производителей стараются изменить пропорцию в пользу первых трех уровней, они пытаются прежде всего «захватить» данные четвертого уровня. Это их бизнес, однако такой подход с неизбежностью приводит к удорожанию хранения. Мы же исходим из того, что сегодня существует эта пятиуровневая модель; возможно, когда появятся новые типы накопителей, она трансформируется, но структура останется. И данные должны быть оптимально распределены по всем уровням в зависимости от требуемого времени доступа к ним. По нашим оценкам, при разумном использовании модели общая стоимость хранения может быть снижена в два и более раза.

Могли бы проиллюстрировать ваше утверждение конкретным примером?

По рекомендациям производителей дисков для обеспечения работы системы ERP в одном из крупных банков требовалось увеличить объем дискового пространства на 100 Тбайт, это обошлось бы примерно в 4 млн. долл. После того как мы установили в информационной системе этого банка средства мониторинга использования систем хранения, нам удалось показать, что необходимость в покупке новых дисков ограничена 2 Тбайт, надо просто научиться управлять существующими.

В нашем распоряжении имеется инструментарий, который позволяет всесторонне оценить то, как использовано физическое пространство и какова востребованность данных. Пользователи этого делать не умеют. Неэффективность использования дисков особенно характерна для так называемых открытых систем, которые давно уже перестали быть открытыми — сегодня насчитывается свыше 200 продуктов для управления накопителями, причем эти продукты часто не работают друг с другом. Вообще все эти разговоры об экспоненциальном росте объема данных являются сильным преувеличением, в области мультимедийных данных, данных наук о Земле, в здравоохранении, — безусловно да, но в коммерческих системах рост не более 30% в год, все остальное следует списать на неумение использовать имеющиеся ресурсы.

Еще одна сторона проблемы в том, что необходимо делить данные на оперативно доступные и архивные, а процедуры защиты строить с учетом двух составляющих: восстановление работы и восстановление данных. Посмотрите на обычную схему развития информационной системы предприятия. Сначала создаются разнообразные средства резервирования на одной площадке, затем строятся резервные центры и т. д., при этом данные в основном хранятся на дисках или в лучшем случае на быстрых лентах. А на самом деле угрозе подвергаются данные последних 24 часов, остальные могут быть заархивированы на съемных носителях «длительного хранения». Для восстановления работы тоже обычно бывает достаточно данных последних суток.

Вы выделяете два смежных вида деятельности, восстановление работы и восстановление данных?

Да, но дело обстоит гораздо сложнее, речь идет о том, что нужно относиться к данным с точки зрения их значимости для бизнеса, меры защиты должны соответствовать степени угрозы, оперативность доступа должна соответствовать актуальности данных и пр. Проще всего свалить всю информацию «в одну корзину», дублировать и защищать ее. Мы же исповедуем другой подход, мы стремимся оптимизировать размещение данных наиболее целесообразным образом, а производители дисков, нагнетая спрос на них, создают для нас отличную нишу на рынке. И еще одно обстоятельство, неконтролируемый рост дисковых пространств, приводит к тому, что снижается реальная скорость доступа к данным, плотность хранения растет гораздо быстрее, чем пропускная способность каналов.

Вы пытаетесь строить оптимальную систему управление данными, но для этого необходимо как минимум иметь модель объекта управления. Есть ли у вас такие модели?

В чистом виде модели нет, но мы набираем статистику работы с данными, и она позволяет нам если не оптимально, то целесообразно подбирать аппаратуру. StorageTek производит не только ленточные накопители, но и диски, причем некоторые из них имеют уникальные характеристики. Так вот, требования к дискам при выполнении операций чтения и записи совершенно разные, у нас есть модели, оптимизированные для той или другой операции, это прежде всего относится к архитектуре накопителей, а не к самим шпинделям, к механизмам кэширования и буферизации. Система хранения может быть приспособлена к статистике пользователя.

Подавляющая масса данных теперь относится к категории неструктурированных, каким образом ваша компания реагирует на это?

Это так, причем 80% роста данных приходится на Unix-системы, из них тоже 80% — на неструктурированные данные. EMC отреагировала на это положение вещей созданием контентно-адресуемой памяти CAS, но при этом не избежала ряда ошибок. Нам кажется, что наши решения более корректны. Память типа CAS построена на объектных принципах хранения, уникальность объекта определяется используемым алгоритмом хеширования. В EMC, точнее в их устройствах Centera, применен алгоритм MD5, он использует 128-битный ключ, что в принципе допускает выработку одинакового адреса для объектов, не являющихся синонимами. LFCM 100, наш накопитель, относящийся к категории CAS, использует более надежное ПО компании Permabit. Записанное в него невозможно ни удалить, ни модифицировать, это требование исходит прежде всего со стороны правительственных фискальных органов.