Computerworld Россия

Одним из главных анонсов конференции стал выпуск специализированной машины хранилищ данных «экономического класса» Teradata Extreme Data ApplianceКонференция-выставка Teradata Partners является самым значимым мероприятием компании Teradata, в несколько раз превосходя по масштабу конференции Teradata Universe, которые собирают представителей отдельных регионов. В середине октября в Лас-Вегасе 3 тыс. представителей самой компании, ее многочисленных партнеров, клиентов и потенциальных заказчиков обсуждали тенденции развития технологий хранилищ данных и бизнес-аналитики, рассматривали новые технические решения и обменивались опытом.

В октябре 2007 года, Teradata, чья история насчитывает почти 30 лет, получила независимость от корпорации NCR, в состав которой она входила с 1991 года. Как отметил президент и генеральный директор Teradata Майкл Келер, это позволило Teradata не только действовать быстрее и с лучшей концентрацией, но и, что более важно, самостоятельно определять направления своего развития.

Новая стратегия компании, направленная на более широкий охват рынка, получила свое материальное воплощение, в частности, в анонсированной в ходе конференции специализированной машины хранилищ данных «экономического класса» Teradata Extreme Data Appliance.

Эта специализированная аналитическая платформа, стоимостью от 16,5 тыс. долл. за терабайт (в США), рассчитана на относительно небольшие группы пользователей. Она позволяет анализировать объемы данных, достигающие 50 Пбайт (при масштабировании до 1024 узлов). Для сравнения, цена системы Data Mart Appliance 551, масштабируемой до 6 Тбайт, начинается от 67 тыс. долл. за терабайт, а системы старшего класса 5550 — от 200 тыс. долл. Extreme Data Appliance позволяет анализировать такие категории данных, как статистика посещений сайтов, использования сетей подвижной связи, перемещения товаров с радиоидентификаторами и др., в масштабах, анализ которых ранее был бы экономически нецелесообразен. Специально для телекоммуникационных компаний выпущена модификация Extreme Data and CDR Appliance, позволяющая выполнять анализ записей данных о звонках (Сall Data Records, CDR), включая информацию о маршрутизации, коммутации и прочие данные использования сети. В состав этого продукта входят логическая модель данных Teradata Communication, СУБД Teradata 12 и консультационные услуги.

В Teradata отмечают, что Extreme Data Appliance позволяет находить ответы на такие сложные вопросы, как причина отказа посетителя Internet-магазина от покупки конкретного продукта, а также прогнозировать дальнейшее поведение покупателей, выказавших предрасположенность к покупке. Или, например, изучение работы двигателей внутреннего сгорания за долгий период времени с применением цифровых датчиков требует анализа петабайтных объемов данных; продолжительных испытаний, которые становятся возможными с применением систем, подобных Extreme Data Appliance, и позволяют точнее определить оптимальные сроки технического обслуживания двигателя и вывода его из эксплуатации. Наконец, хранилище можно использовать в качестве архива с моментальным доступом: менее жесткие, чем в США, отечественные нормативные требования предписывают, к примеру, телекоммуникационным компаниям хранить информацию о звонках в течение трех лет, причем объем данных типичного оператора связи может прирастать со скоростью 100 Тбайт в год.

Teradata Extreme Data Appliance основана на четырехъядерных процессорах Xeon и работает под управлением операционной системы Novell SUSE Linux.

На конференции был также анонсирован выпуск следующей, 13-й версии СУБД Teradata, которая появится во втором квартале 2009 года. Одной из ее особенностей является технология Teradata Virtual Storage, которая, основываясь на статистике использования данных, с целью оптимизации времени доступа автоматически перемещает их между более и менее быстрыми системами хранения. Другой новинкой является возможность обработки геопространственных данных при выдаче ответов на запросы. Результаты обработки могут выводиться с помощью Microsoft Excel, инструментов бизнес-аналитики, отображаться на карте или визуализироваться иным способом.

Директор Teradata по технологиям Стивен Бробст рассказал о перспективных направлениях развития техники и технологий, обещающих значительное увеличение спроса на машины хранилищ данных. Во-первых, это использование различных цифровых датчиков, которые по мере своего технического совершенствования и одновременного удешевления находят самые разные области применения, такие как отслеживание перемещения товаров или людей. Даже сама Teradata на своей конференции использовала цифровые радиометки для контроля посещаемости мероприятий.

«Технология приближается к такой точке развития, где датчик будет размером с песчинку, при этом он будет обладать высокой вычислительной мощностью, возможностью направленных коммуникаций и способностью выполнять множество операций по сбору данных», — заявил Бробст. Использование данных, собираемых с помощью датчиков, позволит перейти к качественно новым формам анализа процессов и явлений в самых разных отраслях науки, промышленности и других областей жизнедеятельности человека.

Второе направление — «повсеместная бизнес-аналитика» (pervasive business-intelligence), то есть использование средств бизнес-аналитики в оперативном управлении. По словам Бробста, «острова данных», используемых для построения OLAP-кубов во многих организациях, достигли таких масштабов, что пользователи прямо-таки «тонут» в этих кубах. Стандартизация работы с источниками данных, проводимая Teradata в сотрудничестве с такими компаниями, как Microsoft, IBM, Cognos, Oracle, Hyperion, позволит переместить эти «острова» внутрь корпоративного хранилища данных, сохранив при их анализе простоту, характерную для OLAP-кубов. Как утверждает Бробст, одновременно пользователи получат высокое быстродействие и снижение затрат. Еще один аспект совершенствования технологий хранилищ — перенесение внутрь хранилища функции преобразования данных, которая традиционно выполняется до их загрузки в хранилище. Это позволяет иметь оперативный доступ ко всем историческим данным в их первозданном виде, отказаться от отдельных серверов, выполняющих трансформацию, и в итоге повысить скорость и экономическую эффективность процесса работы с сохраняемыми данными.

Следующее перспективное направление — наделение СУБД хранилища сложными аналитическими функциями, что позволит отказаться от создания теневых файловых систем и многочисленных операций по перемещению данных. Сейчас дела обстоят так, что нередко 75% времени уходит на собственно управление обрабатываемыми данными и лишь 25% на их анализ. Целью Teradata является сокращение времени, затрачиваемого на вспомогательные процедуры, до 10%.

Еще один вектор развития — обработка нетрадиционных типов данных. Сейчас большинство хранилищ содержат не менее 90% традиционных данных в виде элементарных записей или таблиц. Однако доля используемых в современных системах управления неструктурированных данных, таких как текст или видеозаписи, уже достаточно велика. По словам Бробста, привязка неструктурированных или слабоструктурированных данных к традиционному содержанию хранилищ позволяет значительно расширить возможности анализа — так, как это сделано в новой версии СУБД Teradata с геопространственными данными.

Не обошли вниманием в Teradata и перспективную технологию твердотельных накопителей. Эксплуатационные характеристики хранилища в значительной мере зависят от скорости ввода/вывода, и Teradata представила рабочий прототип машины хранилища данных на основе SSD, которая дает более чем двукратное повышение производительности и примерно 50-процентную экономию электроэнергии. Компания ожидает, что в серийно выпускаемых хранилищах корпоративного класса твердотельные накопители появятся в 2011 году, однако их массовое производство может начаться уже в 2009 году, если цена и эксплуатационные характеристики имеющихся на рынке дисков будут подходящими. Впрочем, Teradata не планирует отказываться от традиционных дисков, которые можно будет использовать вместе с SSD в зависимости от потребностей и возможностей бюджета.


«Петабайтные» клиенты

Общее число клиентов Teradata превышает 900; среди них компания выделяет так называемые Petabyte Power Players, которые оперируют петабайтными объемами данных. В их число вошли eBay (5 Пбайт), Wal-Mart Stores (2,5 Пбайт), Bank of America (1,5 Пбайт), Dell (1 Пбайт) и некий неназванный банк с хранилищем объемом 1,4 Пбайт. Впрочем, очень вероятно, что на самом деле у компании есть заказчики с еще более крупными хранилищами, но публичному упоминанию они по роду своей деятельности не подлежат. Зато eBay на конференции было уделено особое внимание: старший директор по архитектуре и операциям Оливер Ратцесбергер рассказал о том, какое применение нашли в аукционной компании инструменты Teradata и каковы перспективы предоставления с их помощью публичных услуг.

Используемое eBay территориально распределенное хранилище — одна часть которого расположена в Финиксе (шт. Аризона), а другая в Сакраменто (шт. Калифорния) — имеет общий объем более 13 Пбайт; пять из них хранятся в машинах Teradata 5550. Каждый день в хранилище поступает 50 Тбайт новых данных; системы Teradata обрабатывают 1 Тбайт в течение 5 секунд. Такая скорость позволяет бизнес-аналитикам eBay строить собственные виртуальные киоски данных; они реализуются на базе центрального хранилища, но создаются без помощи центральной ИТ-службы. Число пользователей киосков составляет около 5000 человек. Для создания собственных мини-хранилищ аналитики используют стандартные инструменты Business Objects, SAS, Microstrategy и даже Microsoft Excel. Это позволяет быстро создавать и тестировать прототипы аналитических моделей. Успешные прототипы поступают на обработку менеджерам хранилища, которые конвертируют их в продуктивные киоски с минимальными трудозатратами на переписывание кода.

По словам Ратцесбергера, такой подход позволил сократить время, требуемое на создание киоска данных, по меньшей мере наполовину, а в некоторых случаях даже в три-пять раз.

Представитель eBay подчеркнул, что значительная функциональность «аналитики самообслуживания» уже заложена в программном обеспечении используемой ими системы Teradata 5550. В частности, оно обеспечивает «очень солидные» возможности управления нагрузкой, так что «виртуальным киоскам» данных может автоматически назначаться меньший приоритет, чем киоскам, находящимся в продуктивной эксплуатации.

Теперь eBay рассматривает возможность предложения сервисов хранилища сторонним компаниям по подписке. Единственная проблема — как быть с загрузкой в хранилище больших объемов данных, которая требует значительного времени. Ее можно решить, говорит Ратцесбергер, если поместить системы, генерирующие данные, в непосредственной близости от хранилища. Например, eBay могла бы разместить свой сервис бизнес-аналитики на коммерчески доступной платформе хостинга приложений Amazon Elastic Compute Cloud и хранить пользовательские данные в сервисе хостинга Amazon S3.