20 ноября корпорация Intel официально представила новый процессор — Pentium 4. На фоне конкурентов, наращивающих свои обороты в попытке догнать и перегнать Intel, новый микропроцессор должен стать ответом и вновь подтвердить лидерство компании в производстве 32-разрядных процессоров.

Pentium 4 — первый представитель архитектуры NetBurst, четвертой в ряду архитектур, разработанных корпорацией Intel. Созданная практически заново для удовлетворения вновь возникших потребностей в обработке видео, голоса, музыки, трехмерной графики, эта архитектура тем не менее в значительной степени отталкивается от архитектуры P6. Новый процессор предназначается для рабочих станций начального уровня и мощных настольных ПК, оставляя обычные настольные системы для Pentium III, а более мощные вместе с ПК-серверами для Pentium III Xeon и Itanium. Планируется, что Pentium 4 станет основным продуктом для Intel только к началу 2002 года. Подобная нацеленность процессора на системы наиболее продвинутых пользователей, по словам компании, обусловлена прежде всего развитием Internet. Это кстати объясняет и тот факт, что вновь создаваемые на Pentium 4 системы могут быть пока только однопроцессорными. В корпорации явно учли уроки прошлого, когда несколько вариантов ее процессоров конкурировали между собой, и постарались максимально четко ориентировать и производителей компьютеров, и пользователей.

Как он работает

Что влияет на частоту работы процессора? Это технология его изготовления и микроархитектура. При одинаковом техпроцессе увеличения быстродействия можно достичь только за счет улучшений в микроархитектуре (сейчас самая передовая — 0,18 мкм), за счет уменьшения времени обработки команд на всех стадиях конвейерной обработки.

Именно поэтому в качестве одной из основных черт нового процессора отмечается реализованная в Pentium 4 гиперконвейерная технология Hyper Pipelined Technology. Глубина конвейера достигла 20 стадий, что позволяет ускорить постановку команд в очередь и, соответственно, их выполнение. Все это дает возможность достичь новых больших частот — Pentium 4 стартует с частоты 1,4 ГГц. Для сравнения, глубина конвейера процессоров архитектуры Р5 составляла пять команд, Р6 — десять, а достигнутые ими частоты на сегодняшний день составляют 233 МГц и 1 ГГц соответственно.

За счет чего можно увеличить количество инструкций, исполняемых за один такт работы процессора? Прежде всего, сделать это можно за счет повышения эффективности работы — улучшения предсказаний ветвления и выполнения большего количества операций за такт. Кроме того, весьма существенно снизить задержки, то есть уменьшить время исполнения любых операций. Ключевую роль при создании длинного конвейера, естественно, играет точное предсказание ветвлений — и это понятно, ведь иначе из блока исполнения придется выгружать большее количество заранее обработанных, но не использованных команд, что сразу скажется на производительности. По сравнению с архитектурой P6 в Pentium 4 данный блок предсказания ветвлений увеличен в размерах — до 4 Кбайт, а новый алгоритм позволяет на треть снизить число неверных предсказаний. Первые тесты подтверждают значительное улучшение в работе этой части процессора по сравнению с предшественниками.

Для увеличения количества операций, выполняемых за один такт, на кристалле нового процессора реализован новый улучшенный кэш команд — Execution Trace Cache — кэш трассировки исполнения. В нем хранятся декодированные команды, так называемые «микрокоманды». При выборке таких команд из кэша трассировки полностью устраняются задержки, связанные с декодированием «сырых» программных команд. Вместимость кэша оценивается приблизительно в 12 тыс. микрокоманд. Естественно, что в первую очередь в кэш помещаются микрокоманды, соответствующие командам, выбранным по предсказанию ветвлений в программе, при этом переменные циклов могут вычисляться прямо в кэше трассировки исполнения.

Другим средством увеличения количества операций за такт в новом процессоре является механизм расширенного динамического исполнения — Advanced Dynamic Execution. Он расширяет базовые возможности, реализованные в ядре процессоров с архитектурой P6. Намного большее количество одновременно вычисляемых инструкций — 128, что в три раза превышает возможности P6, и выполнение 48 операций загрузки (также втрое больше, чем ранее) и 24 операций записи (в два раза больше) за такт — это результат реализации новой функции. Все это ведет к гораздо более эффективному использованию задействованных исполнительных ресурсов и, кроме того, повышает параллелизм исполнения.

Для борьбы с задержками при работе арифметико-логического устройства на кристалле реализован блок ускоренного выполнения — Rapid Execution Engine. Это часть АЛУ, исполняющая целочисленные инструкции и функционирующая на частоте, вдвое превышающей частоту ядра процессора, — на 3 ГГц.

Потоковые расширения системы команд SIMD2 (Streaming SIMD Extension 2 — SSE2) расширяют технологию, предложенную MMX и SSE 144 новыми инструкциями, в том числе для работы с 128-разрядными целочисленными операциями и двойной точности числами. Кроме того, добавлены операции управления памятью и кэшем. Следует отметить, что данный новый набор операций не требует поддержки со стороны операционных систем — все ОС, поддерживающие SSE, будут поддерживать и SSE2. Таким образом, устраняются задержки и повышается производительность широкого ряда приложений, связанных с обработкой видео- и аудиосигнала.

Задержки при передаче данных призван устранить кэш на кристалле — меньший по размеру (8 Кбайт против 16 у процессоров предыдущего поколения), но более эффективный. Это четырехканальная ассоциативная память с доступом по 64 байта. За один цикл в кэш можно осуществить одну операцию чтения и одну — записи. При этом использован совершенно новый алгоритм доступа, а задержки при чтении составляют не более двух циклов. Все это обеспечивает функционирование работающего на двойной скорости блока ускоренного выполнения.

Также усовершенствована кэш-память второго уровня — размер 256 Кбайт, восьмиканальная ассоциативная, имеющая высочайшую полосу пропускания — 45 Гбайт/с при частоте процессора 1,4 ГГц. Это почти в три раза превышает аналогичный параметр для процессоров P6.

Ну и последним средством в борьбе с задержками в исполнении является совершенно новая системная шина, работающая на частоте 400 МГц, что обеспечивает передачу данных со скоростью 3,2 Гбайт/с и в три раза превышает пропускную способность шины процессоров семейства PIII.

Если суммировать все улучшения в борьбе с задержками при доступе к данным, реализованные во всех областях кэширования, то можно сказать, что средняя скорость доступа к памяти почти удвоилась по сравнению с процессорами Pentium Pro и его «родственниками».


В России не отстают

Наряду с ведущими западными производителями персональных компьютеров Pentium 4 немедленно взяли на заметку и наши соотечественники. Во время его презентации 20 ноября свои продукты представила не только компания IBM, но и R&K, «Формоза» и «Tехмаркет». В тот же день о наличии в своей линейке подобных систем сочли важным сообщить нам «Дестен» и Ramec.


Внутри Pentium 4

Представленный недавно Pentium 4 — первый после 1995 года, то есть со времени выпуска Pentium Pro, процессор Intel с новой микроархитектурой. Ее создатели обещают фантастическую скорость вычислений, особенно при обработке мультимедиа-данных.

Новые элементы дизайна, объединенные общим термином «микроархитектура NetBurst», помогут конвейерам процессора передавать большее число низкоуровневых инструкций за единицу времени. Это избавит от многих ограничений, из-за которых предел тактовой частоты микропроцессоров Pentium III составлял около 1,3 ГГц.

По словам Кевина Крюэла, старшего аналитика MicroDesign Resources, микроархитектура NetBurst предназначена для повышения скорости работы приложений, посылающих данные «очередями», таких как программы обработки потоков мультимедиа-данных, воспроизведения MP3-записей и сжатия видео. «Появление архитектуры NetBurst свидетельствует о смене приоритетов — от целочисленной производительности, требуемой стандартным бизнес-приложениям, к производительности обработки мультимедиа», — говорит Крюэл.

В Pentium 4 используется технология Hyper Pipelined Technology, удваивающая глубину конвейера и дающая возможность обрабатывать больше микрокоманд в единицу времени. Другая технология — ADE — позволяет сохранять в конвейере втрое больше инструкций, чем в Pentium III, и делает содержательные предположения об очередности обработки веток кода. ADE играет роль помощника повара, который знает рецепт блюда лишь в общих чертах, но участвует в его приготовлении, подавая требующиеся ингредиенты. По мнению аналитика Insight 64 Натана Бруквуда, такой способ исполнения команд из-за неверных предположений в отдельных случаях может даже замедлить работу процессора.

Intel увеличила частоту системной шины до 400 МГц — в самых быстрых Pentium III она составляла 133 МГц. Для того чтобы повторяющиеся инструкции не перегружали соединение память — процессор, функция Execution Trace Cache сохраняет уже декодированные команды. Модуль арифметической логики удвоенной скорости работает в два раза быстрее остальной части процессора, за счет чего достигается высокая производительность операций с целыми числами. Благодаря этому и высокой тактовой частоте процессора теоретически должна повыситься скорость работы всех приложений, в том числе текстовых процессоров и электронных таблиц. Я не могу сказать точно, почему в проведенном нами тестировании приложения работали не намного быстрее, чем на Pentium III, но предполагаем, что это происходило из-за неверного прогнозирования ветвления.

По словам представителей Intel, богатое и разнообразное информационное наполнение Web на Pentium 4 будет просто «бегать». Однако пока разработчики не напишут программы, использующие новые инструкции, никакого повышения производительности, естественно, не будет. Intel приводит короткий, но убедительный список будущих программ с поддержкой SSE2 — игра Sacrifice компании Shiny Entertainment, система распознавания речи NaturallySpeaking компании Dragon Systems и платформа макетирования Web-страниц Macromedia Dreamweaver. Кроме того, по словам представителей Intel, корпорация Microsoft собирается добавить поддержку SSE2 к драйверу DirectX 8, который используется большинством Windows-приложений, работающих с графикой.

Аналитики пока не берутся высказывать окончательные суждения о производительности Pentium 4 по сравнению с комплексом 1,2-гигагерцевый процессор AMD Athlon — оперативная память DDR SDRAM.

«Intel создала новую архитектуру, обладающую большим резервом наращивания тактовой частоты, — говорит Бруквуд. — Теперь корпорация должна продемонстрировать, что превосходство по тактовой частоте означает и превосходство по производительности».

Дэвид Эссекс

Схема новых блоков микропроцессора Pentium 4