Der gesockelte Kabini — Athlon 5350 im Test

Artikel-Index:

AMDs Jaguar-Kerne

Anmer­kung: Die­se Sei­te wur­de von Dres­den­boy erstellt, vie­len Dank an die­ser Stelle!

Nach dem erfolg­rei­chen Start des Bob­cat-Kerns in den Note­book- und Embed­ded-Plat­form-Märk­ten leg­te AMD im Jahr 2013 mit der Jagu­ar-Mikro­ar­chi­tek­tur nach. Die­se bil­det auch die Basis für den hier getes­te­ten Pro­zes­sor. Des­sen Fer­ti­gung erfolgt im bewähr­ten 28nm-Her­stel­lungs­pro­zess bei TSMC oder Glo­bal­found­ries (wie erst kürz­lich bekannt wur­de). Das ver­bes­sert gegen­über dem in 40nm gefer­tig­ten Bob­cat sowohl den Takt­fre­quenz­spiel­raum als auch den Ver­brauch. Unter der Hau­be flos­sen jedoch vie­le wei­te­re Ände­run­gen ein, die die Leis­tung des Pro­zes­sors deut­lich verbessern.

Auf der Hot-Chips-25-Kon­fe­renz zeig­te AMD die zusam­men­ge­fass­ten Ent­wick­lungs­zie­le für die neue Mikro­ar­chi­tek­tur. Neben den typi­schen Zie­len von ver­bes­ser­ter IPC, Takt­fre­quenz sowie Ener­gie­ef­fi­zi­enz stand auch die Erwei­te­rung um die gän­gi­gen Befehls­satz­er­wei­te­run­gen, wie AVX und AES, und einen grö­ße­ren phy­si­ka­li­schen Adress­raum auf dem Pro­gramm. Ver­bes­ser­te Vir­tua­li­sie­rungs­un­ter­stüt­zung und Por­tier­bar­keit zwi­schen Pro­zes­sen run­den das Gan­ze ab. Letz­te­re erklärt die aktu­el­le Fer­ti­gung bei Globalfoundries.

HC_Jaguar_Design_Goals

Eine wei­te­re Folie fasst die Ände­run­gen in der Mikro­ar­chi­tek­tur gegen­über dem Bob­cat-Kern zusam­men. Des­sen Mikro­ar­chi­tek­tur wur­de hier bereits vor­ge­stellt: http://www.planet3dnow.de/vbulletin/showthread.php/385065-Bobcat-das-Bulldoezerchen

Auf der Folie ist zu erken­nen, dass in jede Haupt­kom­po­nen­te Ver­bes­se­run­gen ein­ge­flos­sen sind. Das Front-End erhielt einen bes­se­ren Inst­ruc­tion-Cache-Pre­fet­cher sowie einen von 192 Byte auf 256 Byte ver­grö­ßer­ten Befehl­spuf­fer, um Fetch und Decode stär­ker zu ent­kop­peln. Ein 4x32 Byte gro­ßer Loop-Buf­fer hilft beim Energiesparen.

Die Inte­ger-Ein­heit wur­de mit zusätz­li­chen Out-of-Order-Res­sour­cen und einer Hard­ware-Divi­dier-Ein­heit aus­ge­stat­tet. Hin­zu kom­men eini­ge Befehlssatzerweiterungen.

Die FPU erhielt die deut­lichs­te Ände­rung in Form einer Ver­brei­te­rung auf 128 Bit und Unter­stüt­zung von 256-Bit-AVX. Allein das ver­dop­pelt den theo­re­ti­schen SIMD-Durch­satz im Ver­gleich zur Bob­cat-FPU. Die grund­sätz­li­che Struk­tur wur­de etwas opti­miert. Wie­viel davon in Rea­li­tät zu sehen ist, zei­gen die Tests.

Die Load/S­to­re-Ein­heit erhielt einen ver­brei­ter­ten 128-Bit-Daten­pfad zur FPU und neu design­te Queu­es und Table­walks (x86-typi­sche Auf­lö­sung vir­tu­el­ler Adres­sen). Die dar­an ange­bun­de­ne Bus Unit soll mit ver­bes­ser­tem Wri­te Com­bi­ning und der Fähig­keit, mehr Trans­ak­tio­nen gleich­zei­tig zu bear­bei­ten, sowohl dem ver­bes­ser­ten Durch­satz des Kerns als auch dem neu­en geteil­ten L2-Cache gerecht werden.

Die Pipe­line wur­de um eine Stu­fe ver­län­gert (eine zusätz­li­che Regis­ter Read-Stu­fe), wodurch die Branch Miss Penal­ty von 13 auf 14 Zyklen steigt. Bis auf die­se Ände­rung gleicht sie der Bobcat-Pipeline.

HC_Jaguar_Enhancements

Der L2-Cache ist deut­lich für par­al­lel rech­nen­de Anwen­dun­gen und stär­ker for­dern­de Mul­ti­tas­king-Auf­ga­ben aus­ge­legt. Im Ver­gleich zu den ein­zel­nen L2-Caches der Bob­cat-Ker­ne wur­de nun die Grö­ße deut­lich erhöht und die gleich­zei­ti­ge Nut­zung durch bis zu vier Jagu­ar-Ker­ne ein­ge­führt. Die­se Ein­heit mit den Ker­nen wird auch Com­pu­te-Unit genannt.

Über den Cache kön­nen die Ker­ne effi­zi­ent gemein­sam auf Daten zugrei­fen. Die Grö­ße erlaubt auch eine fle­xi­ble Nut­zung je nach Bedarf. Das Inter­face zu den Ker­nen läuft mit Kern-Takt, wäh­rend die vier Cache-Spei­cher­bän­ke mit hal­bem Takt arbei­ten. Jede Spei­cher­bank lie­fert 16 Bytes pro Takt, was bei ver­teil­tem Zugriff maxi­mal 64 Bytes pro Takt ermög­licht. Der Cache ist inklu­siv aus­ge­legt und kann mit sei­nen Tags als Snoop-Fil­ter zwi­schen den Ker­nen die­nen. Ein neu­er Stream Pre­fet­cher soll hel­fen, die pas­sen­den Daten unab­hän­gig von den Core-Pre­fet­chern vorzuladen.

HC_Jaguar_Cache

Neben die­sen Archi­tek­tur­ver­bes­se­run­gen haben die AMD-Inge­nieu­re natür­lich auch die Ener­gie­ef­fi­zi­enz wei­ter opti­miert sowie ein fle­xi­ble­res Manage­ment der ver­füg­ba­ren Ener­gie und des aktu­el­len Ver­brauchs inte­griert. AMD gibt an, dass bei typi­schen Appli­ka­tio­nen meist mehr als 92% der Tran­sis­to­ren abge­schal­tet (clock gated) sind.

Die­ser Mikro­ar­chi­tek­tur­über­blick soll mit einer Tabel­le aus AMDs ISSCC-Prä­sen­ta­ti­on abschlie­ßen. Die­se zeigt wei­te­re phy­si­sche Eigen­schaf­ten und Architekturdetails.

Bobcat-Jaguar-Vergleichstabelle
Quel­le: ISSCC 2013