Details und Analyse der Zen-Architektur nach der Hot-Chips-Konferenz

Artikel-Index:

Bessere Kernarchitektur

Als ers­tes fällt auf, dass AMD über­all mehr inves­tiert. Neben neu­en Kern­ele­men­ten wie dem ener­gie­spa­ren­den Stack-Cache oder dem µOp-Cache gibt es zahl­rei­che bekann­te Rechen­wer­ke (8 an der Zahl plus 2 Adress­ge­nerie­rungs­ein­hei­ten), zu denen sich beson­ders tie­fe Puf­fer gesellen:

  • Instruk­ti­ons­sche­du­ler:
    • Inte­ger: 84 (48 bei Bull­do­zer: “BD”)
    • FP: 96 (60 bei BD)
  • grö­ße­re Reti­re-Band­brei­te: 8 µOps pro Takt anstatt 4 µOps (BD)
  • grö­ße­re Reti­re-Puf­fer: 192 statt 128 Ein­trä­ge (BD)
  • grö­ße­rer Lade­puf­fer: 72 statt 44 Ein­trä­ge (BD)
  • grö­ße­rer Spei­cher­puf­fer: 44 statt 32 Ein­trä­ge (BD)

Die Zähl­wei­se bei den Inte­ger­sche­du­lern ist etwas opti­mis­tisch. Genaue­res folgt in der Detail­be­trach­tung des Integer-Rechenwerkes.

Auf­fal­lend ist die Erwei­te­rung der Reti­re-Mög­lich­kei­ten, deren Umfang gleich ver­dop­pelt wur­de. In die­sem letz­ten Schritt wer­den alle aus­ge­führ­ten Befeh­le gesam­melt, wie­der in die rich­ti­ge Befehls­rei­hen­fol­ge gebracht und abge­schlos­sen. Alle Knif­fe wie die Aus­füh­rung außer­halb der Befehls­rei­hen­fol­ge (Out-of-Order-Exe­cu­ti­on ali­as OoO) wer­den also rück­gän­gig gemacht. AMD gibt an, dass Bull­do­zer hier einen Fla­schen­hals auf­wies. Vier Befeh­le pro Takt waren zu wenig, da in die­sem fina­len Schritt nicht nur OoO, son­dern auch Tricks wie Macro-Op-Fusi­on oder Move-Eli­mi­na­ti­on rück­gän­gig gemacht wer­den müs­sen. Bei Zen gibt es jetzt 8 Reti­re­ment-Mög­lich­kei­ten pro Takt, die­se dürf­ten in jedem Fall – auch noch für 2 Threads – aus­rei­chend sein.

Zwei­ter Punkt in AMDs Über­sicht ist das Cache­sys­tem, wel­ches wir auf den nächs­ten Sei­ten vor­stel­len möchten.