Вплоть до недавнего времени компания AMD отличалась большим консерватизмом по отношению к процессорному разъему. В одном и том же Socket-462 могли размещаться Athlon, Duron, Athlon XP, Athlon XP Barton, а сейчас еще и Sempron. Особенно ярко это проявляется у Intel, которая только для одного Pentuium 4 использует три разных разъема (423, 478 и 775). Но с появлением семейства Athlon 64 ситуация резко изменилась: теперь процессоры новой архитектуры выпускаются... также в трех различных формфакторах: 754, 940 и 939. Как говорится, дурной пример заразителен.
На самом деле такой разнобой не был запланирован, а возник в результате внезапного для AMD появления технологии, из-за которой самый революционный из современных х86-совместимых процессоров для ПК еще до начала выпуска морально устарел.
Но обо всем по порядку. Сначала AMD разработала серверный 64-разрядный процессор, совместимый с набором команд х86, — Opteron (Socket-940). Естественно, с типичной для серверных процессоров 128-разрядной внешней шиной. А затем, менее чем через год, запланировала выпуск его несколько урезанной версии для «персоналок» — Athlon 64 (Socket-754). Урезание состояло в основном в уменьшении вдвое ширины внешней шины данных до стандартных для обычных процессоров (еще начиная с Pentium) 64 разрядов. Технологией, нарушившей планы AMD, стал двухканальный режим работы памяти, реализованный компанией nVidia в НМС nForce 2. Эта технология основана на том, что в силу конструктивных особенностей динамической памяти максимальная средняя скорость передачи данных существенно ниже максимальной пиковой, нашедшей отражение в названии: PC2100, PC2700, PC3200 (подробнее об этом см. «Мир ПК», №9/02). При этом 64-разрядная шина процессор—память оказывается недогруженной. Идея состоит в том, чтобы при наличии двух модулей памяти читать из них параллельно, т.е. по шине шириной 128 разрядов, затем перегруппировать данные и передать их процессору по 64-разрядной шине с той скоростью, на какую последняя способна.
Последовательный обмен |
В сравнении приняли участие пять процессоров, причем так как измерения проводились в разное время, в точности выдержать идентичность всех комплектующих было просто невозможно. Поэтому все основные характеристики процессоров и тестового стенда сведены в таблицу. При этом во всех случаях были использованы 48Х-дисковод CD-ROM Lite On LTN483L, 400-Вт блок питания VT-420LD и ОС Windows XP SP1.
Процессор Athlon 64, так же как и Opteron, имеет встроенный контроллер памяти. С одной стороны, это увеличивает скорость обмена с памятью, а с другой — не дает возможности НМС установить двухканальный режим. В результате по скорости последовательного доступа к памяти Athlon 64 оказался позади Athlon XP, работающего с НМС от nVidia. А тут еще Intel анонсировала процессор Pentium 4 eXtreme Edition, снабженный кэш-памятью третьего уровня. Чтобы как-то выйти из положения и не оказаться безнадежно отставшей, AMD пришлось пойти на незапланированный шаг — выпустить на рынок процессоров для персоналок серверный Opteron под маркой Athlon 64 FX. Естественно, с полной 128-разрядной шиной и Socket-940, т.е. со встроенным двухканальным режимом. Но с необходимостью применения более надежной, а следовательно, и более дорогой серверной регистровой памяти. Системные платы при этом оказывались также дороже. Естественно, высокая цена мешала широкому распространению данных нововведений. Поэтому вполне логичным было появление нового стандарта для процессоров семейства Athlon 64 (т.е. для ПК), который позволял бы использовать обычную память DDR в двухканальном режиме. Для этого стандарта и предназначался новый разъем, имеющий 939 контактов. Таким образом, появившийся было на рынке ПК Socket-940 вновь стали применять исключительно для серверов, а Socket-754 попал в разряд устаревших. Для последнего еще выпускаются довольно мощные процессоры, но скорее всего в недалеком будущем его можно будет встретить только в недорогих Sempron.
Таким образом, Socket-462 (Socket-A), используемый пока для Athlon, Duron, Athlon XP и Sempron, скоро уйдет в прошлое, а в линейке AMD останутся только два разъема: 939-й для верхнего ценового диапазона и 754-й — для нижнего. Впрочем, такая расстановка также не может считаться удачной, так как лишает пользователя возможности «растянуть во времени» покупку производительной системы: сначала приобрести младшую модель, а затем «проапгрейдить» ее до более мощной. Так что, по всей вероятности, и Socket-754 долго не проживет — должны появиться процессоры, вставляемые в Socket-939, но умеющие работать лишь с одноканальной памятью. Правда, в этом случае допустимо будет использовать только два из четырех разъемов для памяти. Следовательно, возможны и другие варианты «облегчения» процессора в 939-м «Сокете».
Сегодня мы решили исследовать производительность Athlon 64 3500+ с разъемом Socket-939, а также сравнить его с процессорами AMD в других «гнездах» и с процессорами Intel.
Произвольный доступ — запись |
Произвольный доступ — чтение |
При последовательном доступе к памяти процессор, использующий Socket-939, практически поддерживает паритет с Socket-940 и заметно превосходит Socket-754, работающий с одноканальной памятью. Наблюдается также некоторое отставание от Intel, наиболее ярко проявляющееся при количестве данных больше объема кэш-памяти первого уровня и меньше второго. Это связано с особенностями организации кэш-памяти в процессорах Intel и AMD. У Intel объем кэш-памяти первого уровня целиком поглощается кэш-памятью второго, т.е. все, что содержится в L1, одновременно содержится и в L2. У AMD же уровни кэш-памяти более независимы, в результате чего ее полный объем равен сумме объемов L1 и L2, а не L2, как у Intel. Но это имеет и свои недостатки. У Intel начиная с Pentium III в несколько раз увеличена ширина шины данных между разными уровнями кэш-памяти, поэтому при чтении процессором из L2 фактически воспринимается только первое 64-разрядное слово. Одновременно с этим последующие переносятся в L1 по широкой шине данных и затем читаются процессором уже из L1, а не из L2. У AMD процессор читает сразу из L2, и эти данные в L1 не дублируются, поэтому чтение второй и последующих 64-разрядных порций данных осуществляется также из L2, т.е. с более низкой скоростью. Поэтому при последовательном обмене процессоры Intel работают эффективнее.
При произвольном доступе, напротив, процессоры AMD (за исключением одноканального 754) вырываются вперед. Сказываются преимущества встроенного контроллера памяти.
На графиках показан только тот диапазон размеров, который соответствует работе с основным объемом оперативной памяти. Теоретически процессоры AMD должны обладать тем же преимуществом перед Intel и при работе с кэш-памятью, но экспериментально это установить затруднительно, так как вряд ли удастся придумать и реализовать алгоритм получения псевдослучайных чисел (адресов), который работал бы быстрее, чем кэш-память. Кстати, если бы мы не обрезали верхнюю часть графика, то увидели бы существенное превосходство AMD над Intel. Но связано оно не с эффективностью обмена с кэш-памятью, а с эффективностью выполнения коротких циклов: длинный конвейер Intel здесь здорово «тормозит». В среднем можно сказать, что если алгоритм требует большой вычислительной мощности, то Athlon 3500+ уступает своему более высокочастотному собрату 3700+ и превосходит процессоры Intel, а если алгоритм требует интенсивного обмена с памятью, то наоборот. При этом паритет с Athlon FX сохраняется. Но все это с одной оговоркой: у Athlon 3500+ всего 512 Кбайт кэш-памяти второго уровня, тогда как у других, как правило, 1024 Кбайт (исключение составляет Pentium XE, но у него есть еще кэш-память третьего уровня).
Решение системы линейных уравнений |
Общие тенденции сохраняются и в результатах таких известных тестов, как SiSoft Sandra и PassMark. Здесь, правда, следует заметить, что Sandra оптимизирована под процессоры Intel. Если при измерении используется сравнительно новая технология SSE2 (появилась в Pentium 4), то гораздо более ранняя 3DNow! (появилась в AMD K6) — нет. Кроме того, SSE2, хотя и реализована в 64-разрядных процессорах AMD, но скорее всего лишь на уровне микрокода без соответствующей аппаратной поддержки. То есть «снаружи» появилось несколько дополнительных команд, а внутри они обрабатываются тем же неизменившимся RISC-ядром. При этом команды SSE выполняются Athlon 64 быстрее, чем SSE2, но при наличии SSE2 Sandra выбирает именно их, хотя результат с SSE для процессора AMD был бы выше.
Следующая группа тестов посвящена 3D-графике, но так как при проведении измерений были использованы различные видеоплаты, при сравнении результатов надо быть очень осмотрительным. Единственное, что можно сравнивать корректно, — это Athlon 3500+ с Athlon 3700+. Результаты, как и следовало ожидать, распределились согласно рейтингу. Если же сравнивать с процессорами Intel, то окажется, что AMD имеют серьезные преимущества в программах, применяющих OpenGL, и могут несколько уступать в программах, использующих DirectX. Впрочем, не всегда. Например, в Unreal Tournament наблюдается и обратная ситуация. По всей видимости, это зависит от того, оптимизируют ли разработчики свои программы специально под процессоры Intel, занимающие более 80% рынка, или нет.
При работе с медиаконтентом процессор в 939-контактном разъеме немного опережает своего более высокочастотного коллегу во время сжатия видео (несмотря даже на более низкие частоту, рейтинг и объем кэш-памяти), но отстает от него при обработке аудиоданных. Вероятно, это связано с тем, что на то же количество данных в случае аудио требуются гораздо более объемные вычисления. При сжатии видеоданных процессоры Intel вырываются вперед, что может быть связано либо с оптимизацией видеокодека под процессоры Intel, либо с более эффективной работой последних с оперативной и кэш-памятью.
В наборе деловых приложений Athlon 3500+ немного уступил Athlon 3700+, при этом разница в основном коснулась программ для производства интернет-контента, тогда как на офисных приложениях результаты практически совпали. Оба процессора серьезно уступили процессорам Intel. Наиболее вероятно, что связано это с памятью, правда, трудно сказать с какой: более быстрой кэш-памятью второго уровня или 533-МГц DDR2 против 400-МГц DDR. А скорее всего играет роль просто вдвое больший ее объем.
В научных расчетах производительность Athlon 64 3500+ близка к производительности работающего с ним на одной частоте Athlon 64 FX 51, но сказывается вдвое меньший объем кэш-памяти второго уровня. В пределах этого объема он также уступает Athlon 64 3700+, а вне его, в зависимости от задачи, иногда может и превосходить этот процессор за счет двухканального режима работы с памятью. По сравнению с процессорами Intel он опережает их в задачах, где требуется большая вычислительная мощность, и отстает, если узким местом является скорость обмена с памятью.
Решение системы дифференциальных уравнений |
Как видим, даже не самые старшие процессоры в 939-контактном разъеме демонстрируют весьма высокие результаты, обгоняя в некоторых случаях своих собратьев в 754-контактном разъеме, работающих на более высокой частоте и имеющих вдвое больший объем кэш-памяти. Поэтому, вероятнее всего, именно Socket-939 вскоре останется единственным «гнездом», используемым в 64-разрядных процессорах AMD.