8 лет назад 12 апреля 2017 в 22:18 1964

Себастиан Роше

Продолжение.

Но AMD тоже не сидела на месте, и в 1999 году ей все-таки удалось на краткий миг догнать и даже перегнать Intel. Передовой чип K6-III получил долгожданный интегрированный полноскоростной кэш L2 обьемом 256 Кбайт, что стало подвигом для технологии 0,25 мкм, так как кристалл достиг совершенно нешуточного объема в 21.4 миллиона транзисторов. При этом AMD удалось выжать из материнских плат под Socket 7 последние соки, — распаянная на них память становилась кэшем L3. При частотах 400 и 450 МГц К6-III на равных боролись с Pentium II и в большинстве случаев выходили вперед/ Но формальным лидером AMD удалось побыть недолго, так как всего через четыре дня Intel выпустила очередную версию Penhum II и сочла, что настало время добавить к названию бренда третью палочку.

Действительно, новоявленный Pentium III с ядром Katmai (отныне знаковые чипы в нашем рассказе, как более близкие к современности и упоминаемые в обиходе, будут названы поименно), по сути отличался от «старичка» не больше, чем AMD К6-2 от первого К6, а именно новым мультимедийным набором инструкций SSE да возросшим частотным потенциалом, достигшим 600 МГц. Для этого даже не пришлось менять техпроцесс — прибавив 2 миллиона транзисторов, процессор производился по старой технологии 0.25 мкм. Все остальное пока осталось прежним, включая внешний кэш L2, но одних частот и SSE уже оказалось достаточно для того, чтобы оспорить кратковременное лидерство AMD, но, опять же, на недолгое время.

Сама AMD пожинала плоды популярности архитектуры К6 и строила наполеоновские планы. Для подготовки масштабной экспансии фирма объединилась с полупроводниковым гигантом Motorola, доселе стоявшим в стороне от успеха х86. Получившаяся, по выражению Сандерса, «виртуальная горилла» могла успешно противостоять промышленным мощностям Intel, одновременно сокращая расходы AMD на производство. Кроме того, объединенными усилиями компаний была создана технология чипов с медными соединениями, легшая в основу будущего процессорного хита Athlon.

Архитектура К7 создавалась могучей командой, состоявшей, с одной стороны, из ветеранов работавших над К5 и К6, а с другой — из привлеченных Сандерсом инженеров, трудившихся в Digital Equipment Согр над весьма успешным 64-битным RISC-процессором DEC Alpha. В результате AMD впервые удалось обставить Intel, выпустив CPU нового поколения.

К7 обладал всеми атрибутами обязательными для современного процессора со времен Pentium Pro: перекодированием инструкций х86 в RISC-подобные микрооперации, спекулятивным внеочередным исполнением и переименованием регистров. Но этим AMD не ограничилась, обновив критические блоки чипа. Первые живительные изменения пришлись на декодер инструкций, теперь он мог перевести на язык RISC до трех инструкций за такт. Продсказатель ветвлений, необходимый для постоянной загрузки конвейеров, потерял половину буфера переходов, но за счет оптимизации работы стал более эффективным, а сам конвейер удлинился с шести до десяти стадий, немало увеличив частотный потенциал чипа, Athlon набирал мегагерцы даже быстрее, чем предполагали его создатели.

Но самое лучшее, что могли сделать инженеры, произошло с исполнительной частью процессора, она теперь состояла из шести целочисленных блоков и нового, совершенно переработанного FPU. В отличие от одинарного неконвейеризироваемого блока К6, вещественные вычисления в новой архитектуре происходили на тройном конвейере из 15 стадий. Впервые со времен «четверок» процессор AMD мог не бояться расчетов с плавающей точкой, дополнительно вооруженный расширенным набором SIMD-инструкций Enhanced 3D Now!, в который вошли новые инструкции для нужд DSP и раздел Extended MMX из конкурирующего набора SSE.

Athlon получил 128 Кбайт кэша первого уровни с двойной ассоциативностью — в два раза больше, чем у К6 (64 Кбайт), значительно превзойдя по этому показателю «Пентиумы» и «Селероны» с характерными для них 32 Кбайт. Такой обьем, вместе с усиленными вычислительными мощностями, раздул чип до 22 миллионов транзисторов, и при технологии 0.25 мкм места для кэша второго уровня уже не хватило, и его, размером 512 Кбайт с двойной ассоциативностью, вынесли — правильно — на процессорную плату, соединив с ядром отдельной 64-битной шиной. Но память SRAM, способная работать на частотах Athlon 503-703 МГц еще не родилась на свет либо была раззорительно дорога, и поэтому она еще сильнее отстала по частотным возможностям от чипа, когда он, после перехода на 0.18-микрометровый техпроцесс, достиг знаковой отметки в 1 ГГц (это было ядро Pluto, а предыдущее называлось Argon). Так что кэш был вынужден работаю сначала на половине скорости процессорного ядра, а потом и вовсе на скромных 40% и 33% полной частоты.

Да, AMD набралась смелости и покинула окончательно состарившуюся платформу Socket 7, породив свои стандарт Slot А, с точки зрения механики тождественный интеловскому Slot 1 (что дало возможность облегчить жизнь производителям матплат), но электрически несовместимый с ним и физически перевернутый для защиты от дурака. Новый разъем, наряду с внешним кэшем, позволил использовать прогрессивную шину EV6, также позаимствованную у процессора DEC Alpha. EV6 за счет технологии DDR передавала за такт в два раза больше данных, хотя до массового появления памяти DDR реальная скорость шины, эквивалентная 200 МГц, ограничивалась лишь медленными модулями SDRAM. Athlon в дизайне Slot А так же стал первым процессором AMD с блокированным множителем. AMD решила положить конец как халявному разгону младших моделей CPU, так и перемаркировке чипов, процветавшей во времена К6, хотя для умельцев, дружных с паяльником, как оно часто бывает, лазейка осталась.

Athlon оказался очень мощным и сбалансированным камнем и с легкостью побеждал в бенчмарках первые модели «Пентиума как-бы-три», на самом деле, недалеко ушедшие от PII. Продажи процессора были удивительно хороши, и даже переход на новую платформу не мог их замедлить.

Но успехом Athlon обязан не только своим неоспоримым достоинствам. Депо в том, что Intel в то время испытывала массу проблем с выпуском настоящего 0.18-микрометрового Pentium III, и даже имевшиеся модели РIII, со всеми своими сомнительными преимуществами, были в дефиците. В результате AMD получила фору в несколько месяцев, которой воспользовалась сполна.

Только по прошествии этого времени Intel сумела довести до кондиции обновленный Pentium III. РIII на ядре Соppermine последовал дорожкой протоптанной Celeron, и приютил на своем кристалле 256 Кбайт кэша L2, работавшего на полной частоте с отдельной 256-битной шиной и восьмикратной ассоциативностью. Упаковать в один кристалл 28.1 миллиона транзисторов позволила новая технология производства 0.18 мкм, но медные соединения, вопреки названию ядра, Intel пока еще но применяла, ограничившись алюминием. Тем не менее, в тактовых частотах Coppermine достиг не меньших высот, чем возникший как чертик из коробочки Athlon. Не прошло и года, как вышла модели с частотами I ГГц и даже 1.3 ГГц, но последнюю пришлось с позором отозвать из-за проблем со стабильностью. Шина памяти работала на скоростях 100 и 133 МГц и не могла похвастаться удвоением эффективной частоты, хотя была попытка снабдить PIII памятью RDRAM, нужной ему как телеге пятое колесо. Корпусировка процессора до поры оставалась прежней, в форме картриджа, но со временем сей отживший свое вариант отменили в пользу Socket 370. Однако радости от этого было немного, юзеры начали колоть голые чипы при установке кулеров из-за неудобного двухточечного крепления, чему положил конец только теплораспределитель, которым снабжали последние модели «медного рудника».

В следующем тысячелетии Pentium III достиг вершины своого развития, перейдя на техпроцесс 0,13 мкм. И опять-таки, с дизайном, почти неизменным со времен Pentium Pro, не произошло ничего радикально нового, лишь кэш снова увеличился до 512 Кбайт, частоты достигли 1,4 ГГц, а количество транзисторов — 44 миллионов. Увы, на этом Intel бросила архитектуру Р6, увлекшись сырой и недоношенной NetBurst, хотя в проекте было новое ядро Pentium III, тестовый образец которого со временем кому-то даже удалось пощупать и протестировать. Первые Pentium 4 выглядели уродцами по сравнению с цветущим семейством PIII, включавшим, как повелось со времен предыдущего поколения, процессоры Celeron с уполовиненным кэшем и Хеоn с увеличенным объемом памяти, достигавшим 2 Мбайт. Потомки линии Р6 отныне существовали только в качестве мобильных процессоров Pentium М, однако со временем вновь вернулись на трон под маркой Соre 2 Duo. Но не будем подробно останавливаться на них, а то наш рассказ и без того грозит превратиться в выжимку из datasheet’ов.

Куда интереснее посмотреть, какие такие сюрпризы принесла первая новая процессорная архитектура, созданная Intel со времен уже древнего Pentium Pro, то есть с 1995 года. Первая горсть кремниевого песка была брошена в основание NetBurst еще в 1998 году, когда основным продуктом Intel был Pentium II. Но из-за многочисленных задержек эта архитектура перед своим первым коммерческим воплощением увидела выход в свет и всех Pentium III, и Athlon Thunderbird (о нем ниже), который его побил. Как показали позднейшие исследования, в загашниках Intel лежал очередной вариант Pentium III, способный конкурировать с Athlon, но вместо него предпочли вытолкнуть на рынок NetBurst, предоставив ей, как зеленым помидорам, дозревать на полках магазинов.

Идя вразрез со всей историей развития парадигмы х86, новая архитектура исповедует совершенно другие принципы наращивания производительности. В отличие от хорошо распараллеленных процессоров семейства Р6, созданных израильскими инженерами и аналогичных Alhion, NetBurst воплощала грубый техасский подход с любовью ко всему большому, обернувшийся в конце концов дополнительными сложностями. В погоне за длинным мегагерцем конвейер процессора растянули с 12 до невиданных 20 стадий, а в последней модификации — Prescott — довели их число аж до 31. В этом есть неумолимая логика: чем больше количество этапов, на которые разбито выполнение машинной инструкции, тем проще окажется схема, обслуживающая каждый из них, а, следовательно, тем выше частота ее работы.

Но у такого подхода есть и свои издержки. Во-первых, длинный конвейер в целом жрет немало миллионов транзисторов, сокращая место для параллельных вычислительных устройств, поэтому процессоры Pentium 4 на основе NetBurst с точки зрения количества выполненных инструкций на такт не продвинулись дальше Pentium III. На самом деле, в кристалле Pentium 4 семь исполнительных устройств, но они не полностью независимы, а разбиты на группы, подвешенные к четырем «соскам» — портам диспетчера инструкций. Все порты могут выдать подключенным к ним устройствам по три инструкции за такт, кроме первого, который выдает только две, поэтому общая производительность CPU ограничена шестью микроинструкциями за такт. При этом два FPU подключены к тем же портам, что и целочисленные блоки, из-за чего конкурируют с ними за пропускную полосу диспетчера. Для сравнения: у Athlon все исполнительные блоки, включая тройной FPU, полностью параллельны, так что он способен за такт выполнить шесть микроопераций с целочисленными данными и три микрооперации с вещественными числами.

Pentium 4 спасается лишь тем, что два его ALU работают на удвоенной частоте по сравнению со всем ядром. Но это не помогает догнать Athlon при равной тактовой частоте, тем более при интенсивном использовании расчетов с плавающей точкой. Поэтому к продукту AMD всегда были более благосклонны игровые бенчмарки. По иронии судьбы, ситуация с камнями AMD, мощными в офисных приложениях, но уступающими «Пентиумам» в мультимедиа, перевернулась с ног на голову. Кроме того, длинный конвейер Р4 не оставил на кристалле места для некоторой мелкой обслуживающей логики, существовавшей со времен i386, поэтому определенные инструкции сами по себе выполнялись на новом процессоре медленнее, чем на старых.

Продолжение следует…

 

 

 

 

 

 

 

 

Никто не прокомментировал материал. Есть мысли?