AMD präsentiert mit Kaveri die erste APU mit den HSA-Merkmalen hQ und hUMA

Artikel-Index:

Architekturverbesserungen

Aber jetzt zu den Architekturverbesserungen:

Wie wir sehen, hat AMD wirk­lich eini­ge grö­ße­re Umbau­ten getä­tigt. Ein­fach zu erklä­ren ist die um 30% ver­bes­ser­te Tref­fer­ra­te des L1-Instruk­ti­ons­caches: Er wur­de ein­fach um 50% ver­grö­ßert und fasst nun 96 kB anstatt 64 kB wie bis­her. Die L1-Daten­caches wur­den aller­dings nicht vergrößert.

Die durch­aus bemer­kens­wer­ten Sprung­vor­her­sa­ge­ver­bes­se­run­gen um 20% sind unter dem übli­chen Zuge­win­nen im Rah­men eines Die-Shrinks zu ver­bu­chen. Dadurch gewann man Platz, wodurch diver­se Puf­fer ver­grö­ßert wer­den konn­ten. So wur­de z.B. der Branch Tar­get Buf­fer des L2-Caches ver­dop­pelt und ein Zwi­schen­spei­cher für Schlei­fen eingeführt.

Die Sche­du­ling­ver­bes­se­rung und der ver­grö­ßer­te Dis­patch basie­ren auf der Tat­sa­che, dass nun zwei getrennt arbei­ten­de x86-Deco­der die Rechen­ein­hei­ten mit Instruk­tio­nen ver­sor­gen. Laut dem bereits erhält­li­chen Bios- und Ker­nel-Ent­wick­ler-Leit­fa­den (BKDG) wer­den dabei pro Steam­rol­ler-Modul bis zu 8 Inte­ger­be­feh­le an die bei­den Inte­ger-Clus­ter wei­ter­ge­lei­tet. Viel­leicht am span­nends­ten ist aber das ver­bes­ser­te “Store-Hand­ling”, was auf Deutsch bedeu­tet, dass AMD die Aus­füh­rung der Schrei­b­ope­ra­tio­nen ver­bes­sert hat. Die schlech­ten Schreib­ra­ten in die 1. Stu­fe des Daten­caches waren bis­her einer der Haupt­kri­tik­punk­te an der Bull­do­zer­ar­chi­tek­tur. Nor­ma­ler­wei­se betra­gen sie die Hälf­te der Lese­ra­te, bei Bull­do­zer war das Ver­hält­nis bis­her aller­dings bei mage­ren 1:5, die Schreib­ra­ten in den L1 und L2 wegen der Durch­schrei­be­or­ga­ni­sa­ti­on (Wri­te-Through) der ers­ten Cache­stu­fe fast iden­tisch. Nun aber ist das Ver­hält­nis end­lich bei den nor­ma­len 1:2, oder anders aus­ge­drückt fast 2,5 mal so schnell. Dies lässt sich zumin­dest im AIDA-Spei­cher­bench­mark überprüfen:

Wodurch AMD dies schaff­te, wur­de in der Prä­sen­ta­ti­on nicht gesagt, jedoch erwähnt der BKDG die Ver­dopp­lung der Store-Band­brei­te. Statt einem kön­nen nun zwei Store-Ope­ra­tio­nen pro Takt in einem Modul abge­ar­bei­tet wer­den. Auch das soge­nann­te Mem-File wur­de von 3 auf 8 Ein­trä­ge erwei­tert. Dort ste­hen immer die Daten der letz­ten 3 bzw. jetzt eben 8 Schrei­b­ope­ra­tio­nen. Braucht einer der bei­den Ker­ne die dort ste­hen­den Daten, kön­nen sie sofort ohne Umwe­ge über die Caches von dort gele­sen wer­den. Am eher undeut­li­chen Die-Shot kann man erah­nen, dass AMD die Orga­ni­sa­ti­on des Daten­caches sowie der Load-/Sto­re-Ein­heit, die jetzt näher an den INT-Pipe­lines inte­griert sind, über­ar­bei­tet und stark abge­än­dert hat:

Wei­te­re Ver­bes­se­run­gen betref­fen die Cross­bar, die alle Ein­hei­ten einer Kaveri-APU ver­bin­det. So wur­de ein zwei­ter Oni­on­bus ein­ge­führt, der für die Ver­bin­dung der Gra­fik­ein­heit an die Kohä­renz­lo­gik zustän­dig ist. Dies ist für hUMA und hQ essenziell.

Ins­ge­samt ver­spricht AMD eine IPC-Ver­bes­se­rung von durch­schnitt­lich 10%, wobei je nach Pro­gramm alles zwi­schen 0 bis 20% mög­lich ist, bei spei­cher­in­ten­si­ven Appli­ka­tio­nen auch ger­ne mehr.