На протяжении многих лет компания Teradata пребывала в качестве единственного крупного производителя специализированных систем для хранилищ данных и аналитики и вела автономное существование, оставаясь почти монополистом в созданном ею сегменте рынка, ориентированном на немногочисленные крупные компании. Изначально для этих потребителей компания предлагала специализированные аппаратные системы с массовым параллелизмом (Massive Parallel Processing, MPP), но в последующем перешла на использование ОС Unix и серверы стандартной архитектуры. Главным конкурентным преимуществом Teradata были СУБД и специализированное ПО для работы с хранилищами данных. Однако несколько лет назад положение изменилось — резко возросший спрос на различного рода аналитику, увеличение объемов хранимых данных и повышение требований к скорости их обработки не могли остаться вне поля зрения грандов ИТ-индустрии.

Колонки, SSD и облака

СУБД, анализирующие данные по колонкам, твердотельные накопители и облака могут существенно повлиять как на принципы построения баз данных, так и на пути развития методов бизнес-аналитики.

На эти вызовы Teradata ответила производством нескольких, регулярно обновляемых семейств платформ Purpose-Built Platform Family, поддерживающих хранилища данных и аналитику. Присутствующее в названии словосочетание Purpose-Built указывает на то, что каждое из семейств адаптировано под определенные задачи. Семейства различаются по разным параметрам, в том числе по удельной стоимости хранения:

  • Data Mart Edition — программный продукт, включающий СУБД Teradata Database 13.10 и основные утилиты, способен работать на стандартных серверах Intel SMP и может использоваться на начальных этапах при разработке проектов;
  • Data Mart Appliance — устройство для создания витрин данных в подразделениях и для разработки, интегрирует в одну стойку серверы и систему хранения емкостью до 12 Тбайт;
  • Extreme Data Appliance — решение для оптимального по стоимости хранения больших объемов данных на основе технологии Teradata MPP, масштабируемого от одного узла вместимостью 45 Тбайт до 4096 узлов общей емкостью 186 Пбайт;
  • Data Warehouse Appliance — решение по созданию интегрированных корпоративных хранилищ начального уровня емкостью до 343 Тбайт;
  • Extreme Performance Appliance — "гоночная" версия, построенная полностью на твердотельных накопителях, может включать в свой состав до 24 узлов и хранить до 18 Тбайт.
  • Active Enterprise Data Warehouse — корпоративная версия с широким диапазоном масштабирования, рассчитанная на разные типы нагрузок (сейчас это модель 6650 с классическими жесткими дисками и модель 6680 с твердотельными накопителями и жесткими дисками).

В октябре 2010 года была выпущена система Extreme Performance Appliance 4600, построенная только на твердотельных накопителях (Solid State Drive, SSD), что обеспечивает ускорение выполнения операций аналитики — это решение работает как минимум на порядок быстрее, чем классические Active EDW, построенные на основе жестких дисков. СУБД Teradata 13.10 работает теперь с твердотельными накопителями, а система Teradata Active System Management управляет нагрузкой. Для обмена с дисками SSD каждый из серверов имеет по четыре последовательных канала SCSI (SAS) со скоростью приема/передачи данных 6 Гбит/с, по каждому из которых можно подключить до восьми дисков емкостью 300 Гбайт. Компания остановила свой выбор на дисках класса Enterprise Flash Drives (EFD), выпускаемых компанией Pliant Technology в двух модификациях — 150 Гбайт и 300 Гбайт со скоростью обмена 160 тыс. операций ввода/вывода в секунду. Термин EFD был предложен в 2008 году, чтобы отличать более быстрые, долговечные и надежные SSD от бытовых устройств, предназначенных для ноутбуков.

Интеграция или изоляция?

Повышение доступности бизнес-аналитики революционизирует хранилища данных, которые перестают быть изолированными и способны теперь поддерживать принятие решений в рамках всей корпорации.

Сразу же после анонса Extreme Performance Appliance 4600 возник вопрос — а что дальше? Как распространить преимущества SSD на крупные хранилища данных корпоративного класса? Теперь, когда в номенклатуре Teradata есть устройства, способные относительно недорого работать с большими объемами данных, и быстродействующие устройства экономичного хранения аналитической информации, логично было бы ожидать появления некоторого компромисса, сочетающего в себе объем со скоростью. И такое компромиссное решение появилось в апреле 2011 года в лице семейства специализированных устройств EDW серии 66xx, в которых устанавливаются два взаимодополняющих типа устройств хранения. На первый взгляд такого рода совмещение не является чем-то принципиально новым: хорошо известно, что есть гибридные диски, включающие в себя и HDD, и SSD, в заметных количествах выпускаются различные серверы с обоими типами дисков, да и в продуктах Oracle Exadata X2-8 и IBM Smart Analytics System 5600 диски SSD нашли свое место. Но практически везде SSD используются единообразно, играя роль кэширующих компонентов, ускоряющих обмен, а не органичной части архитектуры. Разработчикам EDW 66xx удалось интегрировать HDD и SSD, добавив интеллектуальную систему управления автоматической миграцией данных между двумя типами устройств в зависимости от их востребованности. В полном объеме новинка воплощена в системе Active EDW 6680, которая комплектуется и SSD, и HDD, а ключевым компонентом в ней является программа Teradata Virtual Storage (TVS), отслеживающая процесс использования данных и управляющая миграций между двумя типами устройств.

Врожденный параллелизм

Параллелизм проникает повсюду, его необходимость обусловлена ростом объемов данных, количества приложений и пользователей информационных хранилищ. Он просачивается снизу, наслаивается сверху и встраивается внутрь почти всех СУБД и хранилищ данных. Это происходит очень быстро, и некоторые пользователи еще не успели понять, что же такое параллельная обработка хранилищ. В решениях Teradata изначально предусмотрены средства такой обработки.

Именно TVS принципиально отличает подход Teradata, и, хотя о существовании этой технологии виртуализации известно не менее пяти лет, ее корни уходят глубже — идеология, предшествующая появлению TVS, разрабатывалась еще с 80-х годов. К ее появлению пришли потому, что в архитектуре всех систем Teradata нет ничего однопотокового — при проектировании всегда принимался во внимание аспект параллелизма, поэтому с самого начала ядром этой архитектуры являлся специализированный процессор доступа AMP (Access Module Processor). До 1984 года AMP были аппаратными, но с появлением версии СУБД Teradata для Unix процессоры AMP стали программными, или, иначе говоря, виртуальными. В этом контексте современная TVS есть не что иное, как фирменная виртуализующая прослойка между Teradata Database и дисковыми массивами. Когда распространились разные по скорости работы диски (быстрые, но более скромные по объему и дорогие SCSI, а также медленные, но дешевые и большие ATA), в Teradata была разработана концепция хранилищ, поддерживающих "данные с разной температурой" (Multi-Temperature Data Warehousing). Горячие (актуальные) данные должны храниться на быстрых дисках, холодные (архивные) — на медленных (см. Рисунок). Вот тогда и оказалась востребована технология Teradata Virtual Storage, автоматизирующая перемещение данных по носителям в зависимости от их "температуры". Поддержка TVS началась с Teradata Database 13.0, выпущенной в 2009 году. TVS виртуализует системы хранения так, как того требует работа AMP, и уже тогда было ясно, что самое перспективное направление использования TVS — SSD.

Прямую аналогию TVS можно найти в технологии Hitachi Dynamic Tiering, которая учитывает различия в режиме использования данных, где действует известный принцип Парето: на 20% данных выпадает 80% всех действий. В Hitachi VSP реализовано автоматическое многоуровневое хранение, когда разные уровни собраны в общий пул. Сначала данные записываются в самый быстрый уровень (SSD), затем менее активные перемещаются на нижние, более экономичные уровни, а если возникает в них потребность, то они совершают обратное движение вверх по уровням.

 

Пример миграции данных

 

Для задач аналитики переход на SSD имеет особое значение, позволяя решить одну из важнейших проблем — преодоление постоянно растущего разрыва в производительности между процессорами и дисками. Максимальная скорость обмена между механическими дисками намного меньше пропускной способности каналов и возможностей процессоров. До появления твердотельных накопителей для того, чтобы компенсировать последствия этого разрыва, приходилось так или иначе распараллеливать данные по большому числу дисков. Поскольку SSD обеспечивают скорость обмена на порядок выше, то одним таким накопителем можно заменить 17 жестких дисков со всеми вытекающими последствиями по энергопотреблению, занимаемому месту и прочим показателям, однако в реальности все не совсем так. Если SSD служат для создания еще одного уровня кэша, они в большей степени ориентированы на повышение скорости выполняемых оперативных транзакций, чем на решение задач, специфичных для хранилищ данных. И напротив, схема использования SSD в EDW дает возможность получать аналитические данные мгновенно, не задерживая принятие решений. Включение в состав конфигурации SSD позволяет извлечь из устройства, работающего с хранилищем данных, наибольшую отдачу, поскольку за счет лучшей сбалансированности процессорная мощность не растрачивается по большому числу HDD, а концентрируется на меньшем объеме данных, в результате чего выполнение задач прогнозной аналитики приближается к режиму работы в реальном времени.

Кроме системы Active EDW 6680 (коммутатор Ethernet, 16 жестких дисков, контроллер массива жестких дисков, массив из 12 твердотельных накопителей, серверные узлы, межсоединение Teradata Bynet, управление серверами, блок питания), для компаний, которые намереваются в перспективе использовать твердотельные накопители, предназначена система Active Enterprise Data Warehouse 6650 — платформа на основе HDD, которая может быть доукомплектована SSD.

 Алексей Хабаров (Alexey.Khabarov@Teradata.com) — эксперт компании Teradata (Москва).