Неудержимый рост объема информации предопределил развитие инфраструктуры хранения данных в последние десять лет. Количество собираемых и сохраняемых данных стремительно увеличивается. В ежегодном аналитическом отчете о самых больших базах данных, подготовленном компанией Winter Corporation, указывается, что рабочая нагрузка крупнейшей транзакционной базы данных с 2001 по 2003 г. возросла почти вдвое. В 2003 г. наиболее интенсивно используемая система (по данным Winter) - СУБД в таможенном и пограничном управлении США (US Customs & Border Protection, CBP) - обслуживала 51 448 операций в секунду, по сравнению с 26 655 операциями в секунду в 2001 г.
База данных CBP работает на мэйнфрейме IBM eSeries, но специалисты Winter отмечают похожие темпы роста на всех уровнях технологии баз данных. Впервые в отчете Winter были названы 10 крупнейших баз данных на платформе Windows, и самая большая из них обслуживает 3634 операции в секунду.
Увеличение рабочей нагрузки свидетельствует о возросших объемах информации. Самое большое количество нормализованных данных (94,3 Тбайт) содержит база данных в лаборатории AT&T Labs-Research. Объем нормализованных данных показывает, сколько информации хранится в базе данных, без учета индексов и других управляющих элементов. В базе данных используются СУБД Daytona компании AT&T, серверы SunFire E10000 компании Sun Microsystems и хранилища Sun StorEdge. В новой категории гибридных баз данных, в которых основная часть информации хранится на ленте, а не на дисках, самой крупной была Stanford Linear Accelerator Center (SLAC). В базе данных SLAC объемом 828 Тбайт также используются серверы SunFire и массивы памяти Sun StorEdge.
Откуда же поступает вся эта информация? Оглядываясь в прошлое, можно назвать четыре источника: более развитый инструментарий, автоматизация бизнес-процессов на предприятиях, программы для повышения эффективности труда служащих офисов и аналитика. Появление усовершенствованных инструментов, которые собирают цифровые, а не аналоговые данные, стимулирует увеличение объема научной, инженерно-технической и производственной информации. Рост количества информации в сфере бизнеса обусловлен внедрением ИТ-систем, автоматизирующих бизнес-процессы корпоративного уровня, такие как ERP (enterprise resource planning - планирование ресурсов предприятия) и CRM (customer relationship management - управление связями с потребителями), и приложений, повышающих эффективность труда отдельных работников, в частности, электронной почты и текстовых редакторов. Последний фрагмент мозаики - аналитика. Собрав данные, компании стараются использовать их так, чтобы усовершенствовать бизнес-процессы и повысить эффективность своей деятельности. В процессе преобразования транзакционных данных в удобный для анализа формат генерируется еще больше информации - это тоже одна из причин роста количества данных.
В будущем дополнительными причинами увеличения объема информации станут распространение новых типов данных, в частности, звуковой и видеоинформации, появление карманных устройств с функциями управления данными и радиочастотная идентификация (radio frequency identification - RFID).
Цифровые аудио и видеоматериалы уже не являются новшеством - их развитие продолжается почти четверть века. Но благодаря усовершенствованным технологиям организации сетей и хранения данных, аудио и видео получают более широкое распространение. Например, сейчас много пишут о влиянии музыкального проигрывателя iPod компании Apple Computer на музыкальную индустрию, но одновременно iPod представляет собой устройство для хранения данных. В более широкой перспективе, по мере упрощения передачи, приема и записи аудиофайлов в вычислительных сетях появятся новые методы использования звуковых материалов на предприятии.
iPod представляет целое поколение устройств, с помощью которых пользователи могут локально управлять данными и периодически синхронизировать их с инфраструктурой памяти. Идет работа над серией специализированных карманных устройств для самых различных применений, от выездного обслуживания потребителей до медицины. Благодаря растущей популярности карманных устройств с мощными функциями локального управления данными, пользователи будут генерировать больше информации, которая в конечном итоге попадет в корпоративные хранилища.
Однако детонатор будущего информационного взрыва - радиочастотная идентификация (RFID). Специалисты рассматривают метод RFID, применяемый для отслеживания товаров в цепи поставок, как самую важную информационную технологию со времени изобретения унифицированных кодов продуктов (universal product codes - UPC). В будущем практически все товары будут снабжаться миниатюрными радиопередатчиками.
Отслеживание - первое применение технологии, но со временем радиомаяки, несомненно, будут использоваться как источники дополнительных данных для других приложений, и эту информацию нужно будет где-то хранить. Руководителям предприятий потребуется анализировать данные, и преобразование информации в формат, пригодный для анализа, еще более увеличит объем записываемых в хранилища данных.
За последние десять лет мы наблюдали экспоненциальный рост хранимых данных. Но в предстоящие годы новые технологии вызовут настоящую лавину информации.
Элиот Кинг - Автор статей, обозреватель и аналитик в области информационных технологий. Адъюнкт-профессор и директор лаборатории в колледже Лайола в Мериленде. С ним можно связаться по адресу: eking22@prodigy.net.