12 лет назад 30 ноября 2010 в 16:04 715

Близится тот день, когда AMD наконец-то представит процессоры, основанные на архитектуре Bulldozer. Возможно, этому событию даже суждено стать настоящей вехой в истории компании Advanced Micro Devices. Если вы не следили за «бульдозерными» новостями (первые из которых, кстати, начали распространяться СМИ еще более трех лет назад), то вступительный абзац вас наверняка удивит: мол, что же такого особенного в этой архитектуре? Чтобы понять, в чем ценность «Бульдозера», достаточно лишь вспомнить, «откуда ноги растут» у двух последних процессорных архитектур AMD: K8 и K10 являются прямыми потомками K7, разработанной еще в конце 90-х для первого поколения «Атлонов». В самом факте этой наследственности, конечно, нет ничего плохого: в конце концов, неважно, сколько той или иной разработке лет, главное, сколь эффективно она себя проявляет. Но вот этой самой эффективности K10 уже и недостает.

Как вы уже, должно быть, догадались, Bulldozer представляет собой нечто действительно новое. Пересмотру подверглась даже сама концепция процессорного ядра. Если нынешние ЦП AMD и Intel состоят из ядер, каждое из которых самодостаточно в плане обработки вычислительных команд, то применительно к архитектуре Bulldozer гораздо логичнее рассматривать ядра парами, с подачи AMD называемыми модулями. В чем же тут дело? В каждом модуле есть два полноценных блока целочисленных вычислений со своими планировщиками и кэшем первого уровня для данных (совокупность этих устройств AMD и называет ядром), но при этом обработчик чисел с плавающей запятой всего один. Более того, лишь в единичном экземпляре присутствуют и устройство выборки команд, и декодер, и кэши L1I и L2. Согласитесь, выглядит весьма необычно. А это, между прочим, и есть долгожданный ответ Advanced Micro Devices на интеловскую технологию виртуальной многопоточности.

До сих пор нам доводилось видеть только два подхода к повышению скорости работы процессоров в многопоточных вычислениях. Первый, он же самый простой, базируется на принципе «одно ядро – один поток». Соответственно, если необходимо быстро обрабатывать два / три / четыре потока, нужно просто объединить соответствующее количество ядер. Очевидным преимуществом метода является производительность: каждый поток получает в свое распоряжение полный набор вычислительных ресурсов. Но у него имеется и явный недостаток: значительное увеличение площади кристалла, которое оправдывает себя лишь в отдельных случаях (когда загружены все ядра). На такой подход в чистом виде до недавнего времени делали ставку в AMD. Второй метод представляет собой альтернативу первому: он основан на том положении, что один поток обычно слишком слабо загружает ядро, и этим можно воспользоваться, разрешив выполнение двух потоков на ядре. Соответственно, при этом не происходит слишком больших затрат «драгоценных» транзисторов, но и ресурсов каждому потоку достается меньше. Такова идеология технологии Hyper-Threading, которую в своих процессорах применяет Intel.

В архитектуре Bulldozer инженеры AMD решили реализовать промежуточный относительно двух представленных выше вариант техники увеличения производительности, при котором и волки были бы сыты, и овцы целы. Лучше понять придуманную в компании систему вам поможет схема, на которой ресурсы модуля разделены на две группы: используемые потоками совместно (зеленый цвет) и раздельно (желтый). Как мы уже отмечали выше, «раздвоению» подверглась преимущественно та часть ядра, что отвечает за обработку целочисленных данных, так как именно она с наибольшей вероятностью могла бы сыграть роль «бутылочного горлышка» в выполняемых программах. Фокус в том, что добавление соответствующих блоков увеличивает площадь кристалла только приблизительно на 12%, а производительность за счет этого при определенных условиях повышается на десятки процентов.

Аппаратные затраты на реализацию Hyper-Threading заключаются лишь в дублировании некоторых буферов, что гораздо выгоднее по части расходования «транзисторного бюджета» (так, в случае с «первопроходцем» в этой области Pentium 4 прирост площади кристалла не превысил и пяти процентов), но явно не столь перспективно в плане роста производительности. Насколько же подход AMD оказался удачным, мы сможем судить лишь после практического тестирования процессоров Bulldozer. Для того чтобы получившийся модуль работал действительно эффективно, одного лишь дублирования целочисленных блоков явно недостаточно. Так, усовершенствованию подверглись устройства выборки и декодирования команд: декодер «Бульдозера» способен за такт обрабатывать до четырех команд x86 против трех у его аналога из K10 (соответственно, такова же и максимальная скорость схода микроопераций с конвейера). Полагаю, следует предостеречь вас от прямого сравнения характеристик двух этих архитектур, так как структурная разница между ними слишком велика: здесь и далее количественные показатели K10 приводятся лишь для справки.

Каждое ядро Bulldozer содержит два универсальных устройства формирования адреса и столько же АЛУ. Здесь, как ни странно, новая архитектура выглядит слабее K10 (там этих блоков по три штуки): ожидается, что такое сокращение (особенно на фоне проделанных положительных изменений) не сильно повлияет на общую производительность, зато позволит в достаточной степени уменьшить площадь кристалла. В конфигурации блока вещественночисленных вычислений принципиальных новшеств нет: пара MMX-устройств соседствуют с двумя 128-разрядными FPU FMAC. Зато Bulldozer, в отличие от K10, поддерживает команды формата AVX, позволяющие обрабатывать 256-разрядные операнды. По сравнению с K10 Bulldozer получил более длинный конвейер: это преобразование должно помочь новым процессорам в деле покорения значимых частотных рубежей. Так как при удлинении «производственной линии» повышается цена ошибки блока предсказания переходов, были проведены и работы по увеличению эффективности его функционирования: в частности, он стал независим от устройств, отвечающих за выборку команд, и получил возможность заранее формировать очередь адресов для загрузки инструкций.

Также Bulldozer превосходит свою предшественницу и по продуктивности механизмов предвыборки данных. Некоторым улучшениям, направленным на снижение задержек доступа к ОЗУ, подвергся и контроллер памяти. Что касается кэша, то объем L1D составляет 16 Кбайт на ядро, а емкость L1I – 64 Кбайт на модуль. В случае с K10 емкость кэша первого уровня составляла 64 + 64 Кбайт. Так как все это богатство принадлежало одному ядру, остается заметить, что при разработке системы внутренней памяти «Бульдозера» была сделана существенная переоценка ценностей. В процессорах Bulldozer мы наверняка увидим более совершенную, чем в ЦП Thuban и Zosma, технологию авторазгона Turbo Core, благо частотные и электрические параметры разных модулей не связаны друг с другом.

На данный момент известно о планах AMD по выпуску четырех типов процессоров, основанных на архитектуре Bulldozer, – Zambezi, Orochi, Valencia и Interlagos. Первые три из них должны иметь в своем составе по четыре модуля, а четвертый – восемь. Вот, собственно, почти и все, что известно об их характеристиках. Что касается сроков их появления в продаже, то здесь пока царит неопределенность: ничего более конкретного, чем «2011 год», в графу «дата релиза» им пока записать нельзя. Вместе с новыми процессорами AMD представит и новый тип сокета для настольных компьютеров – AM3+, AM3 им не подойдет. А вот ЦП, имеющие конструктивное исполнение Socket AM3, в AM3+ будут приживаться нормально. Так что тут AMD все-таки держит марку и хоть какую-то совместимость да обеспечивает. Гораздо лучше будут обстоять дела в серверном сегменте: процессоры Interlagos и Valencia предназначены для установки в используемые ныне Socket G34 и C32 соответственно.

Bobcat
Если от архитектуры Bulldozer все ждут прорыва в производительности, то главная изюминка ее младшей сестры Bobcat (в переводе с английского – «рысь») в следующем: основанным на ней ЦП суждено стать родоначальниками серии аэмдэшных гибридных процессоров Fusion, о разработке которых представители Advanced Micro Devices говорили еще во времена покупки компании ATI. Для этого класса устройств в AMD даже придумали отдельное обозначение – «Accelerated Processing Unit» (APU), то есть «ускоренное процессорное устройство». Но, полагаю, ничего страшного не произойдет, если мы сохраним верность старой доброй аббревиатуре CPU. С этой точки зрения примечательно, что производство «рысей» поручено компании TSMC, которая традиционно занимается выпуском чипсетов и видеочипов ATI / AMD, а не изготовителю аэмдэшных ЦП – Globalfoundries. Также с графическими процессорами Bobcat сближают и технологические нормы (40-нанометровые).

Что касается сфер использования Bobcat, то здесь нельзя не отметить, что в их лице интеловский Atom наконец-то получит реального конкурента: ряд производителей уже изъявили желание использовать это решение AMD при создании своих нетбуков. Впрочем, данные процессоры будут «штурмовать» и другие рыночные позиции, благо архитектура «рыси» даст жизнь двум типам процессорных кристаллов: Ontario и Zacate. Младшим в представленной выше паре является ядро, названное в честь самого небольшого из Великих озер. Теплопакет некоторых основанных на нем процессоров не будет превышать и 9 Вт, что ставит его в один ряд с «Атомами». Кроме того, среди процессоров Fusion первого поколения ожидается выпуск моделей, энергопотребление которых будет ниже одноваттной отметки. Весьма вероятно, что такой степени экономичности достигнет именно Ontario. А вот верхняя планка энергопотребления Zacate дотянется до отметки 18 Вт. Кстати, базовая версия Zacate, равно как и Ontario, является двухъядерной.

Llano
Как вы, возможно, заметили, в основной части статьи упоминаются лишь те процессоры Fusion, что ориентированы на сегмент устройств с очень малым энергопотреблением. Но совсем это не значит, что AMD не планирует встраивать графическое ядро в более производительные ЦП: для игровых ноутбуков и настольных компьютеров она припасла более мощную разновидность Fusion – Llano. А не упоминали мы об этом ядре при рассказе об Ontario и Zacate по той простой причине, что в его основе лежит старая архитектура – так называемая K10.5, которую мы знаем по Phenom II.

К сожалению, процессоры Llano появятся на рынке позже Ontario и Zacate: коммерческие поставки начнутся лишь в первой половине будущего года. Что касается их характеристик, то известно, что они будут иметь до четырех ядер и графическую подсистему, поддерживающую DirectX 11. Производством Llano по 32-нанометровому техпроцессу займется компания Globalfoundries.

Спектр возможных сфер применения процессоров Bobcat весьма широк – это и смартфоны, и планшетники, и нетбуки, и ноутбуки, и настольные компьютеры, и даже экономичные серверы. Коммерческие поставки ЦП Bobcat начнутся еще в текущем году, но первые устройства, основанные на них, появятся на рынке лишь в начале будущего года. Впрочем, это очень даже хорошо в сравнении с той неопределенностью, которая царит вокруг процессоров Bulldozer. Нелишним будет упомянуть, что «рыси» будут иметь однокристальную компоновку, в отличие от интеловских камней Westmere, в которых «чипсетная» (вместе с графической) и «центральнопроцессорная» части не только реализованы на разных кусках кремния, но еще и производятся по разным технологическим нормам. Правда, с выпуском Sandy Bridge Intel все-таки подведет две этих составляющие гибридных ЦП «под общий знаменатель». А что же насчет графической части Bobcat? О ней, к сожалению, пока известно слишком мало. Впрочем, имеющиеся сведения дают повод для оптимизма: так, эти процессоры будут поддерживать DirectX 11, кроме того, в их составе будет присутствовать блок UVD 3.0 (Unified Video Decoder), реализующий аппаратное декодирование видеоданных.

Теперь поговорим непосредственно об архитектуре Bobcat. Как видно по схеме, двухъядерному модулю не нашлось места в процессорах, энергопотребление которых должно укладываться в очень строгие рамки. Забегая вперед, отмечу, что аналогично места не нашлось много еще чему, но вот блоки, реализующие внеочередное исполнение команд, на помойке, к счастью, не оказались, что очень пригодится детищу AMD в схватке с процессорами Atom, которые обрабатывают инструкции строго последовательно.

Существенному упрощению подверглась и вычислительная часть, что также хорошо видно на схеме: в частности, все четыре «рукава» целочисленного конвейера имеют довольно строгую специализацию: ядром первых двух из них являются арифметико-логические устройства (причем только одно из них может проводить умножение), а третий и четвертый включают в себя устройства формирования адреса (одно – для загрузки, второе – для сохранения). Кстати, целочисленный планировщик, изображенный на схеме в виде единого блока, на самом деле состоит из двух работающих независимо модулей: один дает «пищу для размышления» АЛУ, другой – УФА.

Устройства вычислений с плавающей запятой так же, как и целочисленные АЛУ, неравноправны: умножение, опять-таки, может выполнять лишь одно из них. Кроме того, в жертву экономичности была принесена поддержка команд AVX, SSE4 (всех разновидностей) и даже 3DNow! А вот внутренней памяти «рыси» оставили вдосталь: на каждое ядро приходится 32 + 32 Кбайт кэша первого уровня и 512 Кбайт – второго. Пиковая производительность «рысьего» декодера относительно «бульдозерного» сокращена в два раза – обработать более двух инструкций за такт он не в состоянии. Аналогичная ситуация имеет место и в случае с архитектурой Atom. Вообще, в плане общих архитектурных черт у «рысей» очень много общего с их непосредственными конкурентами – от примерно совпадающего по длине конвейера до одинакового количества исполнительных блоков на ядро, и на этом фоне особенно выигрышно смотрится способность аэмдэшных процессоров переупорядочивать команды.

Впрочем, до полномасштабного практического исследования конкретных моделей ЦП Bobcat делать какие-либо выводы рано, сейчас же можно лишь констатировать, что выглядит новая архитектура очень перспективно. Так что пожелаем AMD, чтобы подготовка «рыси» (а заодно и «Бульдозера») к релизу прошла без сбоев. Особенно это касается процессоров Bulldozer с учетом того, что информация об их будущем пока относительно туманна. Их появление в лучшем случае и так придется на тот период, когда Intel будет продвигать в массы Sandy Bridge, а непредвиденное опоздание может вообще вывести их сразу на 22-нанометровые ЦП Ivy Bridge.

Перспективы Bobcat в этом плане более радужны, так как нынешней архитектуре Atom отведен еще довольно долгий срок и интеловская стратегия «Тик-так» ее пока затрагивает лишь по части техпроцессов. UP

Никто не прокомментировал материал. Есть мысли?